Weka - Введение

В основе любого приложения машинного обучения лежат данные - не просто небольшие данные, а огромные данные, которые называются Big Data в текущей терминологии.

Чтобы научить машину анализировать большие данные, вам нужно учитывать несколько факторов:

Данные должны быть чистыми.
Он не должен содержать нулевых значений.

Кроме того, не все столбцы в таблице данных будут полезны для того типа аналитики, которого вы пытаетесь достичь. Нерелевантные столбцы данных или «функции», как они называются в терминологии машинного обучения, должны быть удалены до того, как данные будут загружены в алгоритм машинного обучения.

Короче говоря, ваши большие данные нуждаются в большой предварительной обработке, прежде чем их можно будет использовать для машинного обучения. Когда данные будут готовы, вы примените различные алгоритмы машинного обучения, такие как классификация, регрессия, кластеризация и т. Д., Чтобы решить проблему со своей стороны.

Тип применяемых вами алгоритмов во многом зависит от ваших знаний в предметной области. Даже в рамках одного типа, например классификации, доступно несколько алгоритмов. Вы можете протестировать разные алгоритмы в одном классе, чтобы построить эффективную модель машинного обучения. При этом вы предпочитаете визуализацию обработанных данных и, следовательно, вам также потребуются инструменты визуализации.

В следующих главах вы узнаете о Weka, программном обеспечении, которое легко выполняет все вышеперечисленное и позволяет комфортно работать с большими данными.