Машинное обучение - под наблюдением

Обучение с учителем - одна из важных моделей обучения, используемых в обучающих машинах. В этой главе подробно рассказывается о том же.

Алгоритмы контролируемого обучения

Для обучения с учителем доступно несколько алгоритмов. Некоторые из широко используемых алгоритмов обучения с учителем показаны ниже -

  • k-Ближайшие соседи
  • Деревья решений
  • Наивный байесовский
  • Логистическая регрессия
  • Машины опорных векторов

По мере продвижения в этой главе давайте подробно обсудим каждый из алгоритмов.

k-Ближайшие соседи

Метод k-ближайших соседей, который просто называют kNN, представляет собой статистический метод, который можно использовать для решения задач классификации и регрессии. Обсудим случай классификации неизвестного объекта с помощью kNN. Рассмотрим распределение объектов, как показано на изображении ниже -

Источник:

https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

На схеме показаны три типа объектов, отмеченные красным, синим и зеленым цветами. Когда вы запускаете классификатор kNN в приведенном выше наборе данных, границы для каждого типа объекта будут отмечены, как показано ниже -

Источник:

https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

Теперь рассмотрим новый неизвестный объект, который вы хотите классифицировать как красный, зеленый или синий. Это показано на рисунке ниже.

Как вы видите визуально, неизвестная точка данных принадлежит к классу синих объектов. Математически это можно сделать, измерив расстояние от этой неизвестной точки до любой другой точки в наборе данных. Когда вы это сделаете, вы узнаете, что большинство его соседей имеют синий цвет. Среднее расстояние до красных и зеленых объектов определенно будет больше, чем среднее расстояние до синих объектов. Таким образом, этот неизвестный объект можно отнести к синему классу.

Алгоритм kNN также можно использовать для задач регрессии. Алгоритм kNN доступен в виде готового к использованию в большинстве библиотек ML.

Деревья решений

Простое дерево решений в формате блок-схемы показано ниже -

Вы должны написать код для классификации ваших входных данных на основе этой блок-схемы. Блок-схема очевидна и тривиальна. В этом сценарии вы пытаетесь классифицировать входящее электронное письмо, чтобы решить, когда его читать.

В действительности деревья решений могут быть большими и сложными. Для создания и обхода этих деревьев доступно несколько алгоритмов. Как энтузиаст машинного обучения, вам необходимо понять и освоить эти методы создания деревьев решений и их обхода.

Наивный байесовский

Наивный байесовский метод используется для создания классификаторов. Предположим, вы хотите отсортировать (классифицировать) фрукты разных видов из корзины с фруктами. Вы можете использовать такие характеристики, как цвет, размер и форма плода. Например, любой фрукт красного цвета, округлой формы и диаметром около 10 см может считаться яблоком. Итак, чтобы обучить модель, вы должны использовать эти функции и проверить вероятность того, что данная функция соответствует желаемым ограничениям. Затем вероятности различных характеристик объединяются, чтобы получить вероятность того, что данный фрукт является яблоком. Наивный байесовский метод обычно требует небольшого количества обучающих данных для классификации.

Логистическая регрессия

Взгляните на следующую диаграмму. Он показывает распределение точек данных в плоскости XY.

На диаграмме мы можем визуально проверить, насколько красные точки отделяются от зеленых. Вы можете провести граничную линию, чтобы отделить эти точки. Теперь, чтобы классифицировать новую точку данных, вам просто нужно определить, на какой стороне линии расположена точка.

Машины опорных векторов

Посмотрите на следующее распределение данных. Здесь три класса данных нельзя разделить линейно. Граничные кривые нелинейны. В таком случае поиск уравнения кривой становится сложной задачей.

Источник: http://uc-r.github.io/svm

Машины опорных векторов (SVM) удобны при определении границ разделения в таких ситуациях.