Машинное обучение для анализа данных

Машинное обучение - это подраздел компьютерных наук, который занимается такими задачами, как распознавание образов, компьютерное зрение, распознавание речи, анализ текста и имеет тесную связь со статистикой и математической оптимизацией. Приложения включают разработку поисковых систем, фильтрацию спама, оптическое распознавание символов (OCR) и другие. Границы между интеллектуальным анализом данных, распознаванием образов и областью статистического обучения нечеткие, и в основном все они связаны с аналогичными проблемами.

Машинное обучение можно разделить на два типа задач:

Контролируемое обучение
Неконтролируемое обучение

Контролируемое обучение

Контролируемое обучение относится к типу проблемы, когда есть входные данные, определенные как матрица X, и мы заинтересованы в предсказании ответа y . Где X = {x ₁ , x ₂ ,…, x _n } имеет n предикторов и имеет два значения y = {c ₁ , c ₂ } .

Примером приложения может быть прогнозирование вероятности того, что веб-пользователь нажмет на рекламу, с использованием демографических характеристик в качестве предикторов. Это часто используется для прогнозирования рейтинга кликов (CTR). Тогда y = {click, not - click}, и предикторами могут быть используемый IP-адрес, день, когда он зашел на сайт, город пользователя, страна и другие функции, которые могут быть доступны.

Неконтролируемое обучение

Обучение без учителя решает проблему поиска групп, которые похожи друг на друга, без класса, у которого можно учиться. Существует несколько подходов к задаче изучения отображения от предикторов к поиску групп, которые имеют схожие экземпляры в каждой группе и отличаются друг от друга.

Примером применения обучения без учителя является сегментация клиентов. Например, в телекоммуникационной отрасли распространенной задачей является сегментирование пользователей в соответствии с тем, как они используют телефон. Это позволит отделу маркетинга нацелить каждую группу на разные продукты.