Mineração de dados - Classificação e previsão
Existem duas formas de análise de dados que podem ser usadas para extrair modelos que descrevem classes importantes ou para prever tendências de dados futuras. Essas duas formas são as seguintes -
- Classification
- Prediction
Os modelos de classificação prevêem rótulos de classe categóricos; e os modelos de previsão prevêem funções de valor contínuo. Por exemplo, podemos construir um modelo de classificação para categorizar os pedidos de empréstimo bancário como seguros ou arriscados, ou um modelo de previsão para prever os gastos em dólares de clientes potenciais em equipamentos de informática, de acordo com sua renda e ocupação.
O que é classificação?
A seguir estão os exemplos de casos em que a tarefa de análise de dados é Classificação -
Um oficial de crédito bancário deseja analisar os dados para saber qual cliente (solicitante do empréstimo) é arriscado ou seguro.
O gerente de marketing de uma empresa precisa analisar um cliente com determinado perfil, que vai comprar um novo computador.
Em ambos os exemplos acima, um modelo ou classificador é construído para prever os rótulos categóricos. Esses rótulos são arriscados ou seguros para dados de solicitação de empréstimo e sim ou não para dados de marketing.
O que é previsão?
A seguir estão os exemplos de casos em que a tarefa de análise de dados é Predição -
Suponha que o gerente de marketing precise prever quanto um determinado cliente gastará durante uma venda em sua empresa. Neste exemplo, estamos preocupados em prever um valor numérico. Portanto, a tarefa de análise de dados é um exemplo de previsão numérica. Nesse caso, um modelo ou preditor será construído para prever uma função de valor contínuo ou valor ordenado.
Note - A análise de regressão é uma metodologia estatística usada com mais frequência para previsão numérica.
Como funciona a classificação?
Com a ajuda do aplicativo de empréstimo bancário que discutimos acima, vamos entender o funcionamento da classificação. O processo de classificação de dados inclui duas etapas -
- Construindo o Classificador ou Modelo
- Usando classificador para classificação
Construindo o Classificador ou Modelo
Esta etapa é a etapa de aprendizagem ou a fase de aprendizagem.
Nesta etapa, os algoritmos de classificação constroem o classificador.
O classificador é construído a partir do conjunto de treinamento composto de tuplas de banco de dados e seus rótulos de classe associados.
Cada tupla que constitui o conjunto de treinamento é chamada de categoria ou classe. Essas tuplas também podem ser chamadas de amostra, objeto ou pontos de dados.
Usando classificador para classificação
Nesta etapa, o classificador é usado para classificação. Aqui, os dados de teste são usados para estimar a precisão das regras de classificação. As regras de classificação podem ser aplicadas às novas tuplas de dados se a precisão for considerada aceitável.
Problemas de classificação e previsão
O principal problema é preparar os dados para Classificação e Previsão. A preparação dos dados envolve as seguintes atividades -
Data Cleaning- A limpeza de dados envolve a remoção do ruído e o tratamento dos valores ausentes. O ruído é removido aplicando técnicas de suavização e o problema de valores ausentes é resolvido substituindo um valor ausente pelo valor de ocorrência mais comum para esse atributo.
Relevance Analysis- O banco de dados também pode ter atributos irrelevantes. A análise de correlação é usada para saber se dois atributos dados estão relacionados.
Data Transformation and reduction - Os dados podem ser transformados por qualquer um dos seguintes métodos.
Normalization- Os dados são transformados usando normalização. A normalização envolve o dimensionamento de todos os valores de determinado atributo para fazê-los cair dentro de um pequeno intervalo especificado. A normalização é utilizada quando na etapa de aprendizagem são utilizadas as redes neurais ou os métodos que envolvem medições.
Generalization- Os dados também podem ser transformados generalizando-os para o conceito superior. Para isso, podemos usar as hierarquias de conceitos.
Note - Os dados também podem ser reduzidos por alguns outros métodos, como transformação wavelet, binning, análise de histograma e clustering.
Comparação de métodos de classificação e previsão
Aqui estão os critérios para comparar os métodos de classificação e previsão -
Accuracy- A precisão do classificador refere-se à capacidade do classificador. Ele prevê o rótulo da classe corretamente e a precisão do preditor se refere a quão bem um determinado preditor pode adivinhar o valor do atributo predito para um novo dado.
Speed - Refere-se ao custo computacional na geração e uso do classificador ou preditor.
Robustness - Refere-se à capacidade do classificador ou preditor de fazer previsões corretas a partir de dados com ruído fornecidos.
Scalability- Escalabilidade refere-se à capacidade de construir o classificador ou preditor de forma eficiente; dada grande quantidade de dados.
Interpretability - Refere-se a até que ponto o classificador ou preditor entende.