Minería de datos: terminologías

Procesamiento de datos

La minería de datos se define como la extracción de información de un gran conjunto de datos. En otras palabras, podemos decir que la minería de datos consiste en extraer el conocimiento de los datos. Esta información se puede utilizar para cualquiera de las siguientes aplicaciones:

  • Análisis de mercado
  • Detección de fraudes
  • Retención de clientes
  • Control de producción
  • Exploración de la ciencia

Motor de minería de datos

El motor de minería de datos es muy esencial para el sistema de minería de datos. Consiste en un conjunto de módulos funcionales que realizan las siguientes funciones:

  • Characterization
  • Análisis de asociación y correlación
  • Classification
  • Prediction
  • Análisis de conglomerados
  • Análisis de valores atípicos
  • Análisis de evolución

Base de conocimientos

Este es el conocimiento del dominio. Este conocimiento se utiliza para guiar la búsqueda o evaluar el interés de los patrones resultantes.

Descubrimiento del conocimiento

Algunas personas tratan la minería de datos de la misma manera que el descubrimiento de conocimientos, mientras que otras ven la minería de datos como un paso esencial en el proceso de descubrimiento de conocimientos. Aquí está la lista de pasos involucrados en el proceso de descubrimiento de conocimiento:

  • Limpieza de datos
  • Integración de datos
  • Selección de datos
  • Transformación de datos
  • Procesamiento de datos
  • Evaluación de patrones
  • Presentación de conocimientos

Interfaz de usuario

La interfaz de usuario es el módulo del sistema de minería de datos que ayuda a la comunicación entre los usuarios y el sistema de minería de datos. La interfaz de usuario permite las siguientes funcionalidades:

  • Interactúe con el sistema especificando una tarea de consulta de minería de datos.
  • Proporcionar información para ayudar a enfocar la búsqueda.
  • Minería basada en los resultados de minería de datos intermedios.
  • Explore esquemas o estructuras de datos de bases de datos y almacenes de datos.
  • Evaluar patrones extraídos.
  • Visualice los patrones en diferentes formas.

Integración de datos

La integración de datos es una técnica de preprocesamiento de datos que fusiona los datos de múltiples fuentes de datos heterogéneas en un almacén de datos coherente. La integración de datos puede involucrar datos inconsistentes y, por lo tanto, necesita limpieza de datos.

Limpieza de datos

La limpieza de datos es una técnica que se aplica para eliminar los datos ruidosos y corregir las inconsistencias en los datos. La limpieza de datos implica transformaciones para corregir los datos incorrectos. La limpieza de datos se realiza como un paso de preprocesamiento de datos mientras se preparan los datos para un almacén de datos.

Selección de datos

La selección de datos es el proceso en el que los datos relevantes para la tarea de análisis se recuperan de la base de datos. A veces, la transformación y consolidación de datos se realizan antes del proceso de selección de datos.

Clusters

Clúster se refiere a un grupo de objetos similares. El análisis de conglomerados se refiere a la formación de un grupo de objetos que son muy similares entre sí, pero muy diferentes de los objetos de otros conglomerados.

Transformación de datos

En este paso, los datos se transforman o consolidan en formas apropiadas para la minería, realizando operaciones de resumen o agregación.