Minería de datos: temas
Fundamentos teóricos de la minería de datos
Los fundamentos teóricos de la minería de datos incluyen los siguientes conceptos:
Data Reduction- La idea básica de esta teoría es reducir la representación de datos que intercambia precisión por velocidad en respuesta a la necesidad de obtener respuestas rápidas aproximadas a consultas en bases de datos muy grandes. Algunas de las técnicas de reducción de datos son las siguientes:
Valor singular de descomposición
Wavelets
Regression
Modelos log-lineales
Histograms
Clustering
Sampling
Construcción de árboles de índice
Data Compression - La idea básica de esta teoría es comprimir los datos dados mediante la codificación en términos de lo siguiente:
Bits
Reglas de asociación
Árboles de decisión
Clusters
Pattern Discovery- La idea básica de esta teoría es descubrir patrones que ocurren en una base de datos. Las siguientes son las áreas que contribuyen a esta teoría:
Aprendizaje automático
Red neuronal
Asociación Minera
Coincidencia de patrones secuenciales
Clustering
Probability Theory- Esta teoría se basa en la teoría estadística. La idea básica detrás de esta teoría es descubrir distribuciones de probabilidad conjunta de variables aleatorias.
Probability Theory - Según esta teoría, la minería de datos encuentra los patrones que son interesantes solo en la medida en que pueden utilizarse en el proceso de toma de decisiones de alguna empresa.
Microeconomic View- Según esta teoría, un esquema de base de datos consta de datos y patrones que se almacenan en una base de datos. Por tanto, la minería de datos es la tarea de realizar inducción en bases de datos.
Inductive databases- Además de las técnicas orientadas a bases de datos, existen técnicas estadísticas disponibles para el análisis de datos. Estas técnicas pueden aplicarse a datos científicos y también a datos de las ciencias económicas y sociales.
Minería de datos estadísticos
Algunas de las técnicas de minería de datos estadísticos son las siguientes:
Regression- Los métodos de regresión se utilizan para predecir el valor de la variable de respuesta a partir de una o más variables predictoras donde las variables son numéricas. A continuación se enumeran las formas de regresión:
Linear
Multiple
Weighted
Polynomial
Nonparametric
Robust
Generalized Linear Models - El modelo lineal generalizado incluye -
Regresión logística
Regresión de Poisson
La generalización del modelo permite que una variable de respuesta categórica se relacione con un conjunto de variables predictoras de una manera similar al modelado de la variable de respuesta numérica mediante regresión lineal.
Analysis of Variance - Esta técnica analiza -
Datos experimentales para dos o más poblaciones descritas por una variable de respuesta numérica.
Una o más variables categóricas (factores).
Mixed-effect Models- Estos modelos se utilizan para analizar datos agrupados. Estos modelos describen la relación entre una variable de respuesta y algunas covariables en los datos agrupados según uno o más factores.
Factor Analysis- El análisis factorial se utiliza para predecir una variable de respuesta categórica. Este método asume que las variables independientes siguen una distribución normal multivariante.
Time Series Analysis - A continuación se muestran los métodos para analizar datos de series de tiempo -
Métodos de autoregresión.
Modelado univariante ARIMA (media móvil integrada autorregresiva).
Modelado de series de tiempo de memoria larga.
Minería de datos visual
Visual Data Mining utiliza técnicas de visualización de datos y / o conocimientos para descubrir conocimientos implícitos de grandes conjuntos de datos. La minería de datos visual se puede ver como una integración de las siguientes disciplinas:
Visualización de datos
Procesamiento de datos
La minería de datos visual está estrechamente relacionada con lo siguiente:
Gráficos de computadora
Sistemas multimedia
La interacción persona-ordenador
Reconocimiento de patrones
Computación de alto rendimiento
Generalmente, la visualización de datos y la minería de datos se pueden integrar de las siguientes maneras:
Data Visualization - Los datos en una base de datos o un almacén de datos se pueden ver en varias formas visuales que se enumeran a continuación -
Boxplots
Cubos 3-D
Gráficos de distribución de datos
Curves
Surfaces
Vincular gráficos, etc.
Data Mining Result Visualization- La visualización de resultados de minería de datos es la presentación de los resultados de la minería de datos en formas visuales. Estas formas visuales pueden ser diagramas de dispersión, diagramas de caja, etc.
Data Mining Process Visualization- La visualización del proceso de minería de datos presenta los diversos procesos de minería de datos. Permite a los usuarios ver cómo se extraen los datos. También permite a los usuarios ver desde qué base de datos o almacén de datos se limpian, integran, preprocesan y extraen los datos.
Minería de datos de audio
La minería de datos de audio utiliza señales de audio para indicar los patrones de datos o las características de los resultados de la minería de datos. Al transformar patrones en sonido y meditación, podemos escuchar tonos y melodías, en lugar de mirar imágenes, para identificar algo interesante.
Minería de datos y filtrado colaborativo
Los consumidores de hoy encuentran una variedad de bienes y servicios mientras compran. Durante las transacciones de los clientes en vivo, un sistema de recomendación ayuda al consumidor al hacer recomendaciones de productos. El enfoque de filtrado colaborativo se utiliza generalmente para recomendar productos a los clientes. Estas recomendaciones se basan en las opiniones de otros clientes.