Minería de datos: clasificación y predicción
Hay dos formas de análisis de datos que se pueden utilizar para extraer modelos que describen clases importantes o para predecir tendencias de datos futuras. Estas dos formas son las siguientes:
- Classification
- Prediction
Los modelos de clasificación predicen etiquetas de clases categóricas; y los modelos de predicción predicen funciones continuas valoradas. Por ejemplo, podemos construir un modelo de clasificación para categorizar las solicitudes de préstamos bancarios como seguras o riesgosas, o un modelo de predicción para predecir los gastos en dólares de los clientes potenciales en equipos informáticos dados sus ingresos y ocupación.
¿Qué es la clasificación?
A continuación se muestran ejemplos de casos en los que la tarea de análisis de datos es Clasificación:
Un oficial de préstamos bancarios quiere analizar los datos para saber qué clientes (solicitantes de préstamos) tienen riesgo o cuáles son seguros.
Un gerente de marketing de una empresa necesita analizar a un cliente con un perfil determinado, que comprará una computadora nueva.
En los dos ejemplos anteriores, se construye un modelo o clasificador para predecir las etiquetas categóricas. Estas etiquetas son riesgosas o seguras para los datos de las solicitudes de préstamos y sí o no para los datos de marketing.
¿Qué es la predicción?
A continuación se muestran ejemplos de casos en los que la tarea de análisis de datos es Predicción:
Suponga que el gerente de marketing necesita predecir cuánto gastará un cliente determinado durante una venta en su empresa. En este ejemplo, nos molesta predecir un valor numérico. Por tanto, la tarea de análisis de datos es un ejemplo de predicción numérica. En este caso, se construirá un modelo o un predictor que predice una función de valor continuo o un valor ordenado.
Note - El análisis de regresión es una metodología estadística que se utiliza con mayor frecuencia para la predicción numérica.
¿Cómo funciona la clasificación?
Con la ayuda de la solicitud de préstamo bancario que hemos discutido anteriormente, comprendamos el funcionamiento de la clasificación. El proceso de clasificación de datos incluye dos pasos:
- Construyendo el Clasificador o Modelo
- Usar clasificador para clasificación
Construyendo el Clasificador o Modelo
Este paso es el paso de aprendizaje o la fase de aprendizaje.
En este paso, los algoritmos de clasificación construyen el clasificador.
El clasificador se construye a partir del conjunto de entrenamiento formado por tuplas de base de datos y sus etiquetas de clase asociadas.
Cada tupla que constituye el conjunto de entrenamiento se denomina categoría o clase. Estas tuplas también se pueden denominar muestras, objetos o puntos de datos.
Usar clasificador para clasificación
En este paso, el clasificador se utiliza para la clasificación. Aquí, los datos de prueba se utilizan para estimar la precisión de las reglas de clasificación. Las reglas de clasificación se pueden aplicar a las nuevas tuplas de datos si la precisión se considera aceptable.
Problemas de clasificación y predicción
El problema principal es preparar los datos para clasificación y predicción. La preparación de los datos implica las siguientes actividades:
Data Cleaning- La limpieza de datos implica eliminar el ruido y tratar los valores perdidos. El ruido se elimina aplicando técnicas de suavizado y el problema de los valores perdidos se resuelve reemplazando un valor faltante con el valor más común para ese atributo.
Relevance Analysis- La base de datos también puede tener los atributos irrelevantes. El análisis de correlación se utiliza para saber si dos atributos dados están relacionados.
Data Transformation and reduction - Los datos se pueden transformar mediante cualquiera de los siguientes métodos.
Normalization- Los datos se transforman mediante normalización. La normalización implica escalar todos los valores para un atributo dado para que caigan dentro de un pequeño rango especificado. La normalización se usa cuando en el paso de aprendizaje, se usan las redes neuronales o los métodos que involucran mediciones.
Generalization- Los datos también se pueden transformar generalizándolos al concepto superior. Para ello podemos utilizar las jerarquías de conceptos.
Note - Los datos también se pueden reducir mediante algunos otros métodos, como la transformación de ondículas, el agrupamiento, el análisis de histogramas y el agrupamiento.
Comparación de métodos de clasificación y predicción
Aquí están los criterios para comparar los métodos de clasificación y predicción:
Accuracy- La precisión del clasificador se refiere a la capacidad del clasificador. Predice la etiqueta de clase correctamente y la precisión del predictor se refiere a qué tan bien un predictor determinado puede adivinar el valor del atributo predicho para un nuevo dato.
Speed - Se refiere al costo computacional de generar y usar el clasificador o predictor.
Robustness - Se refiere a la capacidad del clasificador o predictor para realizar predicciones correctas a partir de datos ruidosos dados.
Scalability- La escalabilidad se refiere a la capacidad de construir el clasificador o predictor de manera eficiente; dada una gran cantidad de datos.
Interpretability - Se refiere a hasta qué punto entiende el clasificador o predictor.