Weka - Предварительная обработка данных
Данные, собранные с мест, содержат много нежелательного, что приводит к неправильному анализу. Например, данные могут содержать пустые поля, могут содержать столбцы, не относящиеся к текущему анализу, и так далее. Таким образом, данные должны быть предварительно обработаны, чтобы соответствовать требованиям того типа анализа, который вы ищете. Это делается в модуле предварительной обработки.
Чтобы продемонстрировать доступные функции предварительной обработки, мы будем использовать Weather база данных, которая предоставляется в установке.
Используя Open file ... вариант под Preprocess тег выберите weather-nominal.arff файл.
Когда вы открываете файл, ваш экран выглядит так, как показано здесь -
Этот экран сообщает нам несколько вещей о загруженных данных, которые обсуждаются далее в этой главе.
Понимание данных
Давайте сначала посмотрим на выделенные Current relationдополнительное окно. Он показывает имя загруженной в данный момент базы данных. Из этого подокна вы можете сделать два вывода:
Всего 14 экземпляров - количество строк в таблице.
В таблице 5 атрибутов - поля, о которых пойдет речь в следующих разделах.
С левой стороны обратите внимание на Attributes дополнительное окно, в котором отображаются различные поля в базе данных.
В weatherБаза данных содержит пять полей - внешний вид, температура, влажность, ветрено и игра. Когда вы выбираете атрибут из этого списка, щелкнув по нему, дополнительные сведения о самом атрибуте отображаются справа.
Давайте сначала выберем атрибут температуры. Когда вы нажмете на него, вы увидите следующий экран -
в Selected Attribute подокно, вы можете наблюдать следующее -
Отображаются имя и тип атрибута.
Тип для temperature атрибут Nominal.
Номер Missing значения равно нулю.
Есть три различных значения без уникального значения.
В таблице под этой информацией указаны номинальные значения для этого поля: горячее, умеренное и холодное.
Он также показывает количество и вес в процентах для каждого номинального значения.
Внизу окна вы видите визуальное представление class значения.
Если вы нажмете на Visualize All кнопку, вы сможете увидеть все функции в одном окне, как показано здесь -
Удаление атрибутов
Часто данные, которые вы хотите использовать для построения модели, содержат множество нерелевантных полей. Например, база данных клиентов может содержать номер его мобильного телефона, который важен для анализа его кредитного рейтинга.
Чтобы удалить атрибут / ы, выберите их и нажмите Remove кнопку внизу.
Выбранные атрибуты будут удалены из базы данных. После полной предварительной обработки данных вы можете сохранить их для построения модели.
Далее вы научитесь предварительно обрабатывать данные, применяя фильтры к этим данным.
Применение фильтров
Некоторые методы машинного обучения, такие как интеллектуальный анализ ассоциативных правил, требуют категориальных данных. Чтобы проиллюстрировать использование фильтров, мы будем использоватьweather-numeric.arff база данных, содержащая два numeric атрибуты - temperature и humidity.
Мы преобразуем их в nominalприменяя фильтр к нашим необработанным данным. Нажми наChoose кнопка в Filter подокно и выберите следующий фильтр -
weka→filters→supervised→attribute→Discretize
Нажми на Apply кнопку и изучите temperature и / или humidityатрибут. Вы заметите, что они изменились с числовых на номинальные.
Давайте теперь рассмотрим другой фильтр. Предположим, вы хотите выбрать лучшие атрибуты для определенияplay. Выберите и примените следующий фильтр -
weka→filters→supervised→attribute→AttributeSelection
Вы заметите, что он удаляет атрибуты температуры и влажности из базы данных.
После того, как вы будете удовлетворены предварительной обработкой ваших данных, сохраните данные, нажав кнопку Save... кнопка. Вы будете использовать этот сохраненный файл для построения модели.
В следующей главе мы исследуем построение модели с использованием нескольких предопределенных алгоритмов машинного обучения.