Minería de datos: análisis de clústeres
Cluster es un grupo de objetos que pertenece a la misma clase. En otras palabras, los objetos similares se agrupan en un grupo y los objetos diferentes se agrupan en otro grupo.
¿Qué es la agrupación en clústeres?
La agrupación es el proceso de convertir un grupo de objetos abstractos en clases de objetos similares.
Points to Remember
Un grupo de objetos de datos se puede tratar como un grupo.
Mientras hacemos el análisis de conglomerados, primero dividimos el conjunto de datos en grupos según la similitud de los datos y luego asignamos las etiquetas a los grupos.
La principal ventaja de la agrupación sobre la clasificación es que es adaptable a los cambios y ayuda a identificar características útiles que distinguen diferentes grupos.
Aplicaciones del análisis de conglomerados
El análisis de agrupamiento se utiliza ampliamente en muchas aplicaciones, como la investigación de mercado, el reconocimiento de patrones, el análisis de datos y el procesamiento de imágenes.
La agrupación en clústeres también puede ayudar a los especialistas en marketing a descubrir grupos distintos en su base de clientes. Y pueden caracterizar a sus grupos de clientes en función de los patrones de compra.
En el campo de la biología, se puede utilizar para derivar taxonomías de plantas y animales, categorizar genes con funcionalidades similares y obtener información sobre las estructuras inherentes a las poblaciones.
La agrupación también ayuda a identificar áreas de uso similar de la tierra en una base de datos de observación de la tierra. También ayuda en la identificación de grupos de casas en una ciudad según el tipo de casa, el valor y la ubicación geográfica.
La agrupación en clústeres también ayuda a clasificar documentos en la web para el descubrimiento de información.
La agrupación en clústeres también se utiliza en aplicaciones de detección de valores atípicos, como la detección de fraudes con tarjetas de crédito.
Como función de minería de datos, el análisis de conglomerados sirve como una herramienta para conocer mejor la distribución de datos para observar las características de cada conglomerado.
Requisitos de la agrupación en clústeres en minería de datos
Los siguientes puntos arrojan luz sobre por qué se requiere la agrupación en clústeres en la minería de datos:
Scalability - Necesitamos algoritmos de agrupación en clúster altamente escalables para tratar con grandes bases de datos.
Ability to deal with different kinds of attributes - Los algoritmos deben poder aplicarse a cualquier tipo de datos, como datos basados en intervalos (numéricos), datos categóricos y binarios.
Discovery of clusters with attribute shape- El algoritmo de agrupación debe ser capaz de detectar agrupaciones de forma arbitraria. No deben limitarse únicamente a medidas de distancia que tienden a encontrar grupos esféricos de pequeños tamaños.
High dimensionality - El algoritmo de agrupamiento no solo debería poder manejar datos de baja dimensión sino también el espacio de alta dimensión.
Ability to deal with noisy data- Las bases de datos contienen datos ruidosos, faltantes o erróneos. Algunos algoritmos son sensibles a estos datos y pueden dar lugar a clústeres de mala calidad.
Interpretability - Los resultados de la agrupación deben ser interpretables, comprensibles y utilizables.
Métodos de agrupación
Los métodos de agrupación en clústeres se pueden clasificar en las siguientes categorías:
- Método de partición
- Método jerárquico
- Método basado en densidad
- Método basado en cuadrícula
- Método basado en modelos
- Método basado en restricciones
Método de partición
Suponga que se nos da una base de datos de 'n' objetos y el método de partición construye una partición de datos 'k'. Cada partición representará un grupo y k ≤ n. Significa que clasificará los datos en k grupos, que satisfacen los siguientes requisitos:
Cada grupo contiene al menos un objeto.
Cada objeto debe pertenecer exactamente a un grupo.
Points to remember −
Para un número determinado de particiones (digamos k), el método de partición creará una partición inicial.
Luego utiliza la técnica de reubicación iterativa para mejorar la partición moviendo objetos de un grupo a otro.
Métodos jerárquicos
Este método crea una descomposición jerárquica del conjunto dado de objetos de datos. Podemos clasificar los métodos jerárquicos sobre la base de cómo se forma la descomposición jerárquica. Aquí hay dos enfoques:
- Enfoque aglomerativo
- Enfoque divisivo
Enfoque aglomerativo
Este enfoque también se conoce como enfoque de abajo hacia arriba. En esto, comenzamos con cada objeto formando un grupo separado. Continúa fusionando los objetos o grupos cercanos entre sí. Continuará haciéndolo hasta que todos los grupos se fusionen en uno o hasta que se mantenga la condición de terminación.
Enfoque divisivo
Este enfoque también se conoce como enfoque de arriba hacia abajo. En esto, comenzamos con todos los objetos en el mismo grupo. En la iteración continua, un grupo se divide en grupos más pequeños. Está inactivo hasta que se cumple cada objeto de un grupo o la condición de terminación. Este método es rígido, es decir, una vez que se realiza una fusión o división, nunca se puede deshacer.
Enfoques para mejorar la calidad de la agrupación jerárquica
Estos son los dos enfoques que se utilizan para mejorar la calidad de la agrupación jerárquica:
Realice un análisis cuidadoso de los vínculos de objetos en cada partición jerárquica.
Integre la aglomeración jerárquica utilizando primero un algoritmo de aglomeración jerárquica para agrupar objetos en micro-clústeres y luego realizando macro-clústeres en los micro-clústeres.
Método basado en densidad
Este método se basa en la noción de densidad. La idea básica es continuar creciendo el grupo dado siempre que la densidad en el vecindario exceda algún umbral, es decir, para cada punto de datos dentro de un grupo dado, el radio de un grupo dado debe contener al menos un número mínimo de puntos.
Método basado en cuadrícula
En esto, los objetos juntos forman una cuadrícula. El espacio del objeto se cuantifica en un número finito de celdas que forman una estructura de cuadrícula.
Advantages
La principal ventaja de este método es el tiempo de procesamiento rápido.
Depende solo del número de celdas en cada dimensión en el espacio cuantificado.
Métodos basados en modelos
En este método, se formula la hipótesis de un modelo para cada grupo para encontrar el mejor ajuste de datos para un modelo dado. Este método ubica los clústeres agrupando la función de densidad. Refleja la distribución espacial de los puntos de datos.
Este método también proporciona una forma de determinar automáticamente el número de conglomerados basándose en estadísticas estándar, teniendo en cuenta los valores atípicos o el ruido. Por lo tanto, produce métodos de agrupación sólidos.
Método basado en restricciones
En este método, la agrupación se realiza mediante la incorporación de restricciones orientadas al usuario o a la aplicación. Una restricción se refiere a las expectativas del usuario o las propiedades de los resultados de agrupación deseados. Las restricciones nos brindan una forma interactiva de comunicación con el proceso de agrupamiento. Las restricciones pueden ser especificadas por el usuario o el requisito de la aplicación.