Машинное обучение для анализа данных
Машинное обучение - это подраздел компьютерных наук, который занимается такими задачами, как распознавание образов, компьютерное зрение, распознавание речи, анализ текста и имеет тесную связь со статистикой и математической оптимизацией. Приложения включают разработку поисковых систем, фильтрацию спама, оптическое распознавание символов (OCR) и другие. Границы между интеллектуальным анализом данных, распознаванием образов и областью статистического обучения нечеткие, и в основном все они связаны с аналогичными проблемами.
Машинное обучение можно разделить на два типа задач:
- Контролируемое обучение
- Неконтролируемое обучение
Контролируемое обучение
Контролируемое обучение относится к типу проблемы, когда есть входные данные, определенные как матрица X, и мы заинтересованы в предсказании ответа y . Где X = {x 1 , x 2 ,…, x n } имеет n предикторов и имеет два значения y = {c 1 , c 2 } .
Примером приложения может быть прогнозирование вероятности того, что веб-пользователь нажмет на рекламу, с использованием демографических характеристик в качестве предикторов. Это часто используется для прогнозирования рейтинга кликов (CTR). Тогда y = {click, not - click}, и предикторами могут быть используемый IP-адрес, день, когда он зашел на сайт, город пользователя, страна и другие функции, которые могут быть доступны.
Неконтролируемое обучение
Обучение без учителя решает проблему поиска групп, которые похожи друг на друга, без класса, у которого можно учиться. Существует несколько подходов к задаче изучения отображения от предикторов к поиску групп, которые имеют схожие экземпляры в каждой группе и отличаются друг от друга.
Примером применения обучения без учителя является сегментация клиентов. Например, в телекоммуникационной отрасли распространенной задачей является сегментирование пользователей в соответствии с тем, как они используют телефон. Это позволит отделу маркетинга нацелить каждую группу на разные продукты.