Minería de datos: evaluación
Almacén de datos
Un almacén de datos presenta las siguientes características para respaldar el proceso de toma de decisiones de la gerencia:
Subject Oriented- El almacén de datos está orientado al tema porque nos proporciona la información sobre un tema en lugar de las operaciones en curso de la organización. Estos temas pueden ser productos, clientes, proveedores, ventas, ingresos, etc. El data warehouse no se enfoca en las operaciones en curso, sino que se enfoca en el modelado y análisis de datos para la toma de decisiones.
Integrated - El almacén de datos se construye mediante la integración de datos de fuentes heterogéneas como bases de datos relacionales, archivos planos, etc. Esta integración mejora el análisis eficaz de los datos.
Time Variant- Los datos recopilados en un almacén de datos se identifican con un período de tiempo particular. Los datos de un almacén de datos proporcionan información desde un punto de vista histórico.
Non-volatile- No volátil significa que los datos anteriores no se eliminan cuando se agregan nuevos datos. El almacén de datos se mantiene separado de la base de datos operativa, por lo que los cambios frecuentes en la base de datos operativa no se reflejan en el almacén de datos.
Almacenamiento de datos
El almacenamiento de datos es el proceso de construcción y uso del almacén de datos. Un almacén de datos se construye integrando los datos de múltiples fuentes heterogéneas. Es compatible con informes analíticos, consultas estructuradas y / o ad hoc y toma de decisiones.
El almacenamiento de datos implica la limpieza de datos, la integración de datos y la consolidación de datos. Para integrar bases de datos heterogéneas, tenemos los siguientes dos enfoques:
- Enfoque basado en consultas
- Actualización del enfoque impulsado
Enfoque basado en consultas
Este es el enfoque tradicional para integrar bases de datos heterogéneas. Este enfoque se utiliza para construir contenedores e integradores sobre múltiples bases de datos heterogéneas. Estos integradores también se conocen como mediadores.
Proceso de enfoque basado en consultas
Cuando se envía una consulta al lado del cliente, un diccionario de metadatos traduce la consulta en las consultas, apropiadas para el sitio heterogéneo individual involucrado.
Ahora estas consultas se asignan y se envían al procesador de consultas local.
Los resultados de sitios heterogéneos se integran en un conjunto de respuestas global.
Desventajas
Este enfoque tiene las siguientes desventajas:
El enfoque basado en consultas necesita procesos de filtrado e integración complejos.
Es muy ineficiente y muy caro para consultas frecuentes.
Este enfoque es costoso para consultas que requieren agregaciones.
Enfoque basado en actualizaciones
Los sistemas de almacenamiento de datos actuales siguen un enfoque basado en actualizaciones en lugar del enfoque tradicional discutido anteriormente. En el enfoque basado en actualizaciones, la información de múltiples fuentes heterogéneas se integra de antemano y se almacena en un almacén. Esta información está disponible para consultas y análisis directos.
Ventajas
Este enfoque tiene las siguientes ventajas:
Este enfoque proporciona un alto rendimiento.
Los datos se pueden copiar, procesar, integrar, anotar, resumir y reestructurar en el almacén de datos semánticos por adelantado.
El procesamiento de consultas no requiere una interfaz con el procesamiento en fuentes locales.
Desde el almacenamiento de datos (OLAP) hasta la minería de datos (OLAM)
La minería analítica en línea se integra con el procesamiento analítico en línea con la minería de datos y el conocimiento de la minería en bases de datos multidimensionales. Aquí está el diagrama que muestra la integración de OLAP y OLAM:
Importancia de OLAM
OLAM es importante por las siguientes razones:
High quality of data in data warehouses- Las herramientas de minería de datos son necesarias para trabajar con datos integrados, coherentes y limpios. Estos pasos son muy costosos en el preprocesamiento de datos. Los almacenes de datos construidos mediante dicho procesamiento previo son fuentes valiosas de datos de alta calidad para OLAP y también para la minería de datos.
Available information processing infrastructure surrounding data warehouses - La infraestructura de procesamiento de información se refiere al acceso, integración, consolidación y transformación de múltiples bases de datos heterogéneas, acceso a la web y facilidades de servicio, informes y herramientas de análisis OLAP.
OLAP−based exploratory data analysis- Se requiere un análisis de datos exploratorio para una extracción de datos eficaz. OLAM proporciona la posibilidad de minar datos en varios subconjuntos de datos y en diferentes niveles de abstracción.
Online selection of data mining functions - La integración de OLAP con múltiples funciones de minería de datos y la minería analítica en línea brindan a los usuarios la flexibilidad de seleccionar las funciones de minería de datos deseadas e intercambiar las tareas de minería de datos de forma dinámica.