Data Mining - Темы

Теоретические основы интеллектуального анализа данных

Теоретические основы интеллектуального анализа данных включают следующие концепции:

  • Data Reduction- Основная идея этой теории состоит в том, чтобы уменьшить представление данных, которое торгует точностью за скорость в ответ на необходимость получать быстрые приблизительные ответы на запросы в очень больших базах данных. Некоторые из методов сокращения данных заключаются в следующем:

    • Разложение единственного числа

    • Wavelets

    • Regression

    • Лог-линейные модели

    • Histograms

    • Clustering

    • Sampling

    • Построение индексных деревьев

  • Data Compression - Основная идея этой теории состоит в том, чтобы сжать данные путем кодирования в терминах следующего:

    • Bits

    • Правила ассоциации

    • Деревья решений

    • Clusters

  • Pattern Discovery- Основная идея этой теории - обнаруживать закономерности, встречающиеся в базе данных. Ниже приведены области, которые способствуют этой теории:

    • Машинное обучение

    • Нейронная сеть

    • Ассоциация горного дела

    • Последовательное сопоставление с образцом

    • Clustering

  • Probability Theory- Эта теория основана на статистической теории. Основная идея этой теории - обнаружить совместные распределения вероятностей случайных величин.

  • Probability Theory - Согласно этой теории, интеллектуальный анализ данных находит закономерности, которые интересны только в той степени, в которой их можно использовать в процессе принятия решений на каком-либо предприятии.

  • Microeconomic View- Согласно этой теории, схема базы данных состоит из данных и шаблонов, которые хранятся в базе данных. Следовательно, интеллектуальный анализ данных - это задача индукции по базам данных.

  • Inductive databases- Помимо методов, ориентированных на базы данных, существуют статистические методы анализа данных. Эти методы могут быть применены к научным данным, а также к данным из экономических и социальных наук.

Статистический анализ данных

Некоторые из методов сбора статистических данных следующие:

  • Regression- Методы регрессии используются для прогнозирования значения переменной ответа из одной или нескольких переменных-предикторов, где переменные являются числовыми. Ниже перечислены формы регрессии -

    • Linear

    • Multiple

    • Weighted

    • Polynomial

    • Nonparametric

    • Robust

  • Generalized Linear Models - Обобщенная линейная модель включает -

    • Логистическая регрессия

    • Регрессия Пуассона

    Обобщение модели позволяет связывать категориальную переменную отклика с набором предикторных переменных аналогично моделированию числовой переменной отклика с использованием линейной регрессии.

  • Analysis of Variance - Эта методика анализирует -

    • Экспериментальные данные для двух или более популяций, описываемых числовой переменной ответа.

    • Одна или несколько категориальных переменных (факторов).

  • Mixed-effect Models- Эти модели используются для анализа сгруппированных данных. Эти модели описывают взаимосвязь между переменной ответа и некоторыми ковариациями в данных, сгруппированных по одному или нескольким факторам.

  • Factor Analysis- Факторный анализ используется для прогнозирования категориальной переменной ответа. Этот метод предполагает, что независимые переменные подчиняются многомерному нормальному распределению.

  • Time Series Analysis - Ниже приведены методы анализа данных временных рядов.

    • Методы авторегрессии.

    • Одномерное моделирование ARIMA (AutoRegressive Integrated Moving Average).

    • Моделирование временных рядов с длинной памятью.

Визуальный анализ данных

Visual Data Mining использует методы визуализации данных и / или знаний для обнаружения неявных знаний из больших наборов данных. Визуальный анализ данных можно рассматривать как интеграцию следующих дисциплин:

  • Визуализация данных

  • Сбор данных

Визуальный анализ данных тесно связан со следующим:

  • Компьютерная графика

  • Мультимедийные системы

  • Взаимодействие человека с компьютером

  • Распознавание образов

  • Высокопроизводительные вычисления

Как правило, визуализацию данных и интеллектуальный анализ данных можно интегрировать следующими способами:

  • Data Visualization - Данные в базе данных или хранилище данных можно просматривать в нескольких визуальных формах, перечисленных ниже -

    • Boxplots

    • 3-D кубики

    • Графики распределения данных

    • Curves

    • Surfaces

    • Графики ссылок и т. Д.

  • Data Mining Result Visualization- Визуализация результатов интеллектуального анализа данных - это представление результатов интеллектуального анализа данных в визуальной форме. Эти визуальные формы могут быть разрозненными сюжетами, коробками и т. Д.

  • Data Mining Process Visualization- Визуализация процесса интеллектуального анализа данных представляет несколько процессов интеллектуального анализа данных. Это позволяет пользователям видеть, как извлекаются данные. Это также позволяет пользователям видеть, из какой базы данных или хранилища данных данные очищаются, интегрируются, предварительно обрабатываются и добываются.

Аудиоданные

Интеллектуальный анализ аудиоданных использует аудиосигналы для обозначения шаблонов данных или особенностей результатов интеллектуального анализа данных. Преобразуя паттерны в звук и размышляя, мы можем слушать звуки и мелодии вместо просмотра картинок, чтобы определить что-нибудь интересное.

Интеллектуальный анализ данных и совместная фильтрация

Сегодня покупатели сталкиваются с самыми разными товарами и услугами, совершая покупки. Во время реальных транзакций клиента система рекомендаций помогает потребителю, давая рекомендации по продукту. Подход совместной фильтрации обычно используется для рекомендации продуктов клиентам. Эти рекомендации основаны на мнениях других клиентов.