Minería de datos: problemas
La minería de datos no es una tarea fácil, ya que los algoritmos utilizados pueden volverse muy complejos y los datos no siempre están disponibles en un solo lugar. Debe integrarse a partir de diversas fuentes de datos heterogéneas. Estos factores también crean algunos problemas. Aquí, en este tutorial, discutiremos los principales problemas relacionados con:
- Metodología minera e interacción del usuario
- Problemas de desempeño
- Problemas de diversos tipos de datos
El siguiente diagrama describe los principales problemas.
Metodología de minería y problemas de interacción del usuario
Se refiere a los siguientes tipos de problemas:
Mining different kinds of knowledge in databases- Diferentes usuarios pueden estar interesados en diferentes tipos de conocimiento. Por lo tanto, es necesario que la minería de datos cubra una amplia gama de tareas de descubrimiento de conocimientos.
Interactive mining of knowledge at multiple levels of abstraction - El proceso de minería de datos debe ser interactivo porque permite a los usuarios enfocar la búsqueda de patrones, proporcionando y refinando las solicitudes de minería de datos en función de los resultados devueltos.
Incorporation of background knowledge- Para guiar el proceso de descubrimiento y expresar los patrones descubiertos, se puede utilizar el conocimiento previo. El conocimiento previo puede usarse para expresar los patrones descubiertos no solo en términos concisos sino en múltiples niveles de abstracción.
Data mining query languages and ad hoc data mining - El lenguaje de consulta de minería de datos que permite al usuario describir tareas de minería ad hoc, debe integrarse con un lenguaje de consulta de almacén de datos y optimizarse para una minería de datos eficiente y flexible.
Presentation and visualization of data mining results- Una vez que se descubren los patrones, es necesario expresarlos en lenguajes de alto nivel y representaciones visuales. Estas representaciones deben ser fácilmente comprensibles.
Handling noisy or incomplete data- Los métodos de limpieza de datos son necesarios para manejar el ruido y los objetos incompletos mientras se extraen las regularidades de los datos. Si los métodos de limpieza de datos no existen, la precisión de los patrones descubiertos será deficiente.
Pattern evaluation - Los patrones descubiertos deben ser interesantes porque representan un conocimiento común o carecen de novedad.
Problemas de desempeño
Puede haber problemas relacionados con el rendimiento como los siguientes:
Efficiency and scalability of data mining algorithms - Para extraer de manera efectiva la información de una gran cantidad de datos en bases de datos, el algoritmo de minería de datos debe ser eficiente y escalable.
Parallel, distributed, and incremental mining algorithms- Los factores como el enorme tamaño de las bases de datos, la amplia distribución de datos y la complejidad de los métodos de minería de datos motivan el desarrollo de algoritmos de minería de datos distribuidos y paralelos. Estos algoritmos dividen los datos en particiones que se procesan posteriormente de forma paralela. Entonces se fusionan los resultados de las particiones. Los algoritmos incrementales actualizan las bases de datos sin volver a extraer los datos desde cero.
Problemas de diversos tipos de datos
Handling of relational and complex types of data - La base de datos puede contener objetos de datos complejos, objetos de datos multimedia, datos espaciales, datos temporales, etc. No es posible que un sistema extraiga todos estos tipos de datos.
Mining information from heterogeneous databases and global information systems- Los datos están disponibles en diferentes fuentes de datos en LAN o WAN. Estas fuentes de datos pueden estar estructuradas, semiestructuradas o no estructuradas. Por lo tanto, extraer el conocimiento de ellos agrega desafíos a la minería de datos.