Data Mining - Задачи
Интеллектуальный анализ данных имеет дело с типами шаблонов, которые можно добыть. В зависимости от типа данных, которые необходимо добывать, в интеллектуальном анализе данных участвуют две категории функций:
- Descriptive
- Классификация и прогноз
Описательная функция
Описательная функция имеет дело с общими свойствами данных в базе данных. Вот список описательных функций -
- Описание класса / концепции
- Майнинг частых паттернов
- Горное дело ассоциаций
- Анализ корреляций
- Майнинг кластеров
Описание класса / концепции
Класс / понятие относится к данным, которые должны быть связаны с классами или концепциями. Например, в компании классы товаров для продажи включают компьютеры и принтеры, а концепции клиентов включают крупных и бюджетных средств. Такие описания класса или концепции называются описаниями класса / концепции. Эти описания могут быть получены двумя способами:
Data Characterization- Имеется в виду обобщение данных изучаемого класса. Этот изучаемый класс называется целевым классом.
Data Discrimination - Это относится к сопоставлению или классификации класса с некоторой предопределенной группой или классом.
Майнинг частых паттернов
Частые шаблоны - это шаблоны, которые часто встречаются в транзакционных данных. Вот список частых закономерностей -
Frequent Item Set - Это относится к набору предметов, которые часто встречаются вместе, например, молоко и хлеб.
Frequent Subsequence - За часто встречающейся последовательностью шаблонов, таких как покупка камеры, следует карта памяти.
Frequent Sub Structure - Подструктура относится к различным структурным формам, таким как графы, деревья или решетки, которые можно комбинировать с наборами элементов или подпоследовательностями.
Горное объединение
Ассоциации используются в розничных продажах для определения моделей, которые часто покупаются вместе. Этот процесс относится к процессу выявления связи между данными и определения правил ассоциации.
Например, розничный торговец генерирует правило ассоциации, которое показывает, что 70% времени молоко продается с хлебом и только 30% случаев продается печенье с хлебом.
Анализ корреляций
Это своего рода дополнительный анализ, выполняемый для выявления интересных статистических корреляций между парами связанных атрибутов и значений или между двумя наборами элементов для анализа того, имеют ли они положительное, отрицательное или нулевое влияние друг на друга.
Майнинг кластеров
Кластер относится к группе объектов одного типа. Кластерный анализ относится к формированию группы объектов, которые очень похожи друг на друга, но сильно отличаются от объектов в других кластерах.
Классификация и прогноз
Классификация - это процесс поиска модели, описывающей классы данных или концепции. Цель состоит в том, чтобы иметь возможность использовать эту модель для прогнозирования класса объектов, метка класса которых неизвестна. Эта производная модель основана на анализе наборов обучающих данных. Производная модель может быть представлена в следующих формах -
- Правила классификации (IF-THEN)
- Деревья решений
- Математические формулы
- Нейронные сети
Список функций, участвующих в этих процессах, следующий:
Classification- Он предсказывает класс объектов, метка класса которых неизвестна. Его цель - найти производную модель, которая описывает и различает классы данных или концепции. Производная модель основана на анализируемом наборе обучающих данных, то есть на объекте данных, метка класса которого хорошо известна.
Prediction- Он используется для прогнозирования отсутствующих или недоступных числовых значений данных, а не меток классов. Регрессионный анализ обычно используется для прогнозирования. Прогнозирование также можно использовать для определения тенденций распределения на основе имеющихся данных.
Outlier Analysis - Выбросы могут быть определены как объекты данных, которые не соответствуют общему поведению или модели доступных данных.
Evolution Analysis - Анализ эволюции относится к описанию и моделированию закономерностей или тенденций для объектов, поведение которых изменяется с течением времени.
Примитивы задач интеллектуального анализа данных
- Мы можем указать задачу интеллектуального анализа данных в форме запроса интеллектуального анализа данных.
- Этот запрос вводится в систему.
- Запрос интеллектуального анализа данных определяется в терминах примитивов задач интеллектуального анализа данных.
Note- Эти примитивы позволяют нам взаимодействовать в интерактивном режиме с системой интеллектуального анализа данных. Вот список примитивов задач интеллектуального анализа данных -
- Набор данных, относящихся к задаче, которые необходимо добыть.
- Вид знаний, которые нужно добыть.
- Базовые знания, которые будут использоваться в процессе открытия.
- Меры интереса и пороговые значения для оценки паттернов.
- Представление для визуализации обнаруженных закономерностей.
Набор данных, относящихся к задаче, которые необходимо добыть
Это та часть базы данных, которая интересует пользователя. Эта часть включает в себя следующее -
- Атрибуты базы данных
- Интересующие параметры хранилища данных
Вид знаний, которые нужно добыть
Это относится к типу выполняемых функций. Эти функции -
- Characterization
- Discrimination
- Ассоциативный и корреляционный анализ
- Classification
- Prediction
- Clustering
- Анализ выбросов
- Анализ эволюции
Жизненный опыт
Базовые знания позволяют добывать данные на нескольких уровнях абстракции. Например, иерархии концепций являются одним из базовых знаний, позволяющих добывать данные на нескольких уровнях абстракции.
Меры интереса и пороги для оценки паттернов
Это используется для оценки закономерностей, обнаруженных в процессе открытия знаний. Существуют разные интересные меры для разных видов знаний.
Представление для визуализации обнаруженных закономерностей
Это относится к форме, в которой должны отображаться обнаруженные закономерности. Эти представления могут включать следующее. -
- Rules
- Tables
- Charts
- Graphs
- Деревья решений
- Cubes