Машинное обучение с Python - Методы
Существуют различные алгоритмы, техники и методы машинного обучения, которые можно использовать для построения моделей для решения реальных проблем с использованием данных. В этой главе мы собираемся обсудить такие разные виды методов.
Различные типы методов
Ниже приведены различные методы машинного обучения, основанные на некоторых широких категориях:
На основе человеческого наблюдения
В процессе обучения некоторые из методов, основанных на контроле человека, следующие:
Supervised Learning
Алгоритмы или методы контролируемого обучения являются наиболее часто используемыми алгоритмами машинного обучения. Этот метод или алгоритм обучения берет образец данных, то есть обучающие данные, и связанный с ними вывод, то есть метки или ответы с каждой выборкой данных во время процесса обучения.
Основная цель алгоритмов контролируемого обучения - изучить связь между выборками входных данных и соответствующими выходными данными после выполнения нескольких экземпляров обучающих данных.
Например, у нас есть
x: Входные переменные и
Y: Выходная переменная
Теперь примените алгоритм для изучения функции сопоставления от входа к выходу следующим образом:
Y = f (x)
Теперь основная цель - так аппроксимировать функцию отображения, чтобы даже при наличии новых входных данных (x) мы могли легко предсказать выходную переменную (Y) для этих новых входных данных.
Это называется контролируемым, потому что весь процесс обучения можно представить себе так, как будто он находится под наблюдением учителя или супервизора. Примеры контролируемых алгоритмов машинного обучения:Decision tree, Random Forest, KNN, Logistic Regression и т.п.
На основе задач машинного обучения алгоритмы контролируемого обучения можно разделить на следующие два широких класса:
- Classification
- Regression
Classification
Ключевая цель задач на основе классификации - предсказать категориальные выходные метки или ответы для заданных входных данных. Результат будет основан на том, что модель узнала на этапе обучения. Как мы знаем, категориальные выходные ответы означают неупорядоченные и дискретные значения, поэтому каждый выходной ответ будет принадлежать к определенному классу или категории. Мы также подробно обсудим классификацию и связанные с ней алгоритмы в следующих главах.
Regression
Ключевая цель задач на основе регрессии - предсказать выходные метки или ответы, которые являются продолжением числовых значений для заданных входных данных. Результат будет основан на том, что модель узнала на этапе обучения. По сути, регрессионные модели используют функции входных данных (независимые переменные) и соответствующие им непрерывные числовые выходные значения (зависимые или выходные переменные) для изучения конкретной связи между входными данными и соответствующими выходными данными. Мы также подробно обсудим регрессию и связанные с ней алгоритмы в следующих главах.
Неконтролируемое обучение
Как следует из названия, он противоположен контролируемым методам или алгоритмам машинного обучения, что означает, что в алгоритмах неконтролируемого машинного обучения у нас нет руководителя, который мог бы предоставить какие-либо рекомендации. Алгоритмы неконтролируемого обучения удобны в сценарии, в котором у нас нет свободы, как в алгоритмах контролируемого обучения, иметь предварительно помеченные данные обучения, и мы хотим извлечь полезный шаблон из входных данных.
Например, это можно понять так -
Предположим, у нас есть -
x: Input variables, тогда не будет соответствующей выходной переменной, и алгоритмам потребуется обнаруживать интересную закономерность в данных для обучения.
Примеры алгоритмов машинного обучения без учителя включают кластеризацию K-средних, K-nearest neighbors и т.п.
Основываясь на задачах машинного обучения, алгоритмы неконтролируемого обучения можно разделить на следующие широкие классы:
- Clustering
- Association
- Уменьшение размерности
Clustering
Методы кластеризации - один из самых полезных методов машинного обучения без учителя. Эти алгоритмы используются для поиска сходства, а также шаблонов отношений между выборками данных, а затем группируют эти образцы в группы, имеющие сходство на основе характеристик. Реальный пример кластеризации - это группировка клиентов по их покупательскому поведению.
Association
Еще один полезный метод машинного обучения без учителя - это Associationкоторый используется для анализа большого набора данных, чтобы найти закономерности, которые дополнительно представляют интересные отношения между различными элементами. Его также называютAssociation Rule Mining или же Market basket analysis который в основном используется для анализа моделей покупок клиентов.
Dimensionality Reduction
Этот метод машинного обучения без учителя используется для уменьшения количества переменных характеристик для каждой выборки данных путем выбора набора основных или репрезентативных функций. Здесь возникает вопрос, а зачем нам уменьшать размерность? Причиной этого является проблема сложности пространства функций, которая возникает, когда мы начинаем анализировать и извлекать миллионы функций из выборок данных. Эта проблема обычно относится к «проклятию размерности». PCA (анализ главных компонентов), K-ближайших соседей и дискриминантный анализ - некоторые из популярных алгоритмов для этой цели.
Anomaly Detection
Этот метод машинного обучения без учителя используется для обнаружения редких событий или наблюдений, которые обычно не происходят. Используя полученные знания, методы обнаружения аномалий смогут различать аномальные и нормальные данные. Некоторые из неконтролируемых алгоритмов, таких как кластеризация, KNN могут обнаруживать аномалии на основе данных и их функций.
Полу-контролируемое обучение
Такие алгоритмы или методы не являются ни полностью контролируемыми, ни полностью неконтролируемыми. По сути, они находятся между двумя методами обучения - контролируемым и неконтролируемым обучением. Эти виды алгоритмов обычно используют небольшой контролируемый обучающий компонент, то есть небольшой объем предварительно помеченных аннотированных данных и большой неконтролируемый обучающий компонент, то есть множество немаркированных данных для обучения. Мы можем использовать любой из следующих подходов для реализации методов полууправляемого обучения:
Первый и простой подход - построить контролируемую модель на основе небольшого количества помеченных и аннотированных данных, а затем построить неконтролируемую модель, применяя ее к большим объемам немаркированных данных, чтобы получить больше помеченных выборок. Теперь натренируйте модель на них и повторите процесс.
Второй подход требует дополнительных усилий. В этом подходе мы можем сначала использовать неконтролируемые методы для кластеризации похожих выборок данных, аннотировать эти группы, а затем использовать комбинацию этой информации для обучения модели.
Обучение с подкреплением
Эти методы отличаются от ранее изученных и также используются очень редко. В алгоритмах такого рода обучения будет агент, которого мы хотим обучать в течение определенного периода времени, чтобы он мог взаимодействовать с определенной средой. Агент будет следовать набору стратегий для взаимодействия с окружающей средой, а затем, после наблюдения за окружающей средой, он предпримет действия в отношении текущего состояния среды. Ниже приведены основные этапы методов обучения с подкреплением.
Step 1 - Во-первых, нам нужно подготовить агента с некоторым начальным набором стратегий.
Step 2 - Затем понаблюдайте за окружающей средой и ее текущим состоянием.
Step 3 - Затем выберите оптимальную политику в отношении текущего состояния среды и выполните важные действия.
Step 4 - Теперь агент может получить соответствующее вознаграждение или штраф в соответствии с действием, предпринятым им на предыдущем шаге.
Step 5 - Теперь мы можем обновлять стратегии, если это необходимо.
Step 6 - Наконец, повторите шаги 2–5, пока агент не научится и не примет оптимальную политику.
Задачи, подходящие для машинного обучения
На следующей диаграмме показано, какой тип задачи подходит для различных проблем машинного обучения.
На основе способности к обучению
В процессе обучения используются следующие методы, основанные на способности к обучению:
Batch Learning
Во многих случаях у нас есть сквозные системы машинного обучения, в которых нам нужно обучить модель за один раз, используя все доступные данные обучения. Такой метод обучения или алгоритм называетсяBatch or Offline learning. Это называется пакетным или автономным обучением, потому что это разовая процедура, и модель будет обучаться с данными в одном пакете. Ниже приведены основные этапы методов пакетного обучения.
Step 1 - Во-первых, нам нужно собрать все данные для обучения, чтобы начать обучение модели.
Step 2 - Теперь начните обучение модели, предоставив все данные обучения за один раз.
Step 3 - Затем остановите процесс обучения / тренировки, как только вы получите удовлетворительные результаты / производительность.
Step 4- Наконец, разверните эту обученную модель в производстве. Здесь он предсказывает вывод для новой выборки данных.
Онлайн обучение
Это полная противоположность пакетным или автономным методам обучения. В этих методах обучения обучающие данные передаются в алгоритм несколькими инкрементными пакетами, называемыми мини-пакетами. Ниже приведены основные этапы методов онлайн-обучения.
Step 1 - Во-первых, нам нужно собрать все обучающие данные для начала обучения модели.
Step 2 - Теперь начните обучение модели, предоставив алгоритму мини-пакет обучающих данных.
Step 3 - Затем нам нужно предоставить алгоритму мини-пакеты обучающих данных с несколькими приращениями.
Step 4 - Поскольку он не остановится, как пакетное обучение, следовательно, после предоставления всех обучающих данных в мини-пакетах, предоставьте ему новые образцы данных.
Step 5 - Наконец, он будет продолжать обучение в течение определенного периода времени на основе новых выборок данных.
На основе обобщающего подхода
В процессе обучения следующие методы основаны на обобщающих подходах:
Обучение на основе экземпляров
Метод обучения на основе экземпляров - один из полезных методов построения моделей машинного обучения путем обобщения на основе входных данных. Это противоположно ранее изученным методам обучения в том, что этот вид обучения включает системы машинного обучения, а также методы, которые используют сами точки необработанных данных для получения результатов для новых выборок данных без построения явной модели на данных обучения.
Проще говоря, обучение на основе экземпляров в основном начинается с просмотра точек входных данных, а затем, используя метрику сходства, оно обобщает и предсказывает новые точки данных.
Модельное обучение
В методах обучения на основе моделей итеративный процесс выполняется на моделях машинного обучения, которые построены на основе различных параметров модели, называемых гиперпараметрами, и в которых входные данные используются для извлечения функций. В этом обучении гиперпараметры оптимизируются на основе различных методов проверки модели. Вот почему мы можем сказать, что методы обучения на основе моделей используют более традиционный подход машинного обучения к обобщению.