Data Mining - Análise de Cluster

Cluster é um grupo de objetos que pertence à mesma classe. Em outras palavras, objetos semelhantes são agrupados em um cluster e objetos diferentes são agrupados em outro cluster.

O que é clustering?

Clustering é o processo de transformar um grupo de objetos abstratos em classes de objetos semelhantes.

Points to Remember

  • Um cluster de objetos de dados pode ser tratado como um grupo.

  • Ao fazer a análise de cluster, primeiro particionamos o conjunto de dados em grupos com base na similaridade de dados e, em seguida, atribuímos os rótulos aos grupos.

  • A principal vantagem do agrupamento sobre a classificação é que ele é adaptável às mudanças e ajuda a destacar recursos úteis que distinguem grupos diferentes.

Aplicações de Análise de Cluster

  • A análise de agrupamento é amplamente usada em muitas aplicações, como pesquisa de mercado, reconhecimento de padrões, análise de dados e processamento de imagens.

  • O agrupamento também pode ajudar os profissionais de marketing a descobrir grupos distintos em sua base de clientes. E eles podem caracterizar seus grupos de clientes com base nos padrões de compra.

  • No campo da biologia, pode ser usado para derivar taxonomias de plantas e animais, categorizar genes com funcionalidades semelhantes e obter informações sobre as estruturas inerentes às populações.

  • O agrupamento também ajuda na identificação de áreas de uso da terra semelhantes em um banco de dados de observação da Terra. Também ajuda na identificação de grupos de casas em uma cidade de acordo com o tipo de casa, valor e localização geográfica.

  • O clustering também ajuda a classificar documentos na web para descoberta de informações.

  • O clustering também é usado em aplicativos de detecção de outliers, como detecção de fraude de cartão de crédito.

  • Como uma função de mineração de dados, a análise de cluster serve como uma ferramenta para obter insights sobre a distribuição de dados para observar as características de cada cluster.

Requisitos de Clustering em Data Mining

Os pontos a seguir lançam luz sobre por que o clustering é necessário na mineração de dados -

  • Scalability - Precisamos de algoritmos de agrupamento altamente escalonáveis ​​para lidar com grandes bancos de dados.

  • Ability to deal with different kinds of attributes - Os algoritmos devem ser capazes de ser aplicados em qualquer tipo de dados, como dados baseados em intervalos (numéricos), dados categóricos e binários.

  • Discovery of clusters with attribute shape- O algoritmo de agrupamento deve ser capaz de detectar clusters de forma arbitrária. Eles não devem ser limitados apenas a medidas de distância que tendem a encontrar aglomerados esféricos de tamanhos pequenos.

  • High dimensionality - O algoritmo de agrupamento deve ser capaz de lidar não apenas com dados de baixa dimensão, mas também com o espaço de alta dimensão.

  • Ability to deal with noisy data- Os bancos de dados contêm dados ruidosos, ausentes ou errôneos. Alguns algoritmos são sensíveis a esses dados e podem levar a clusters de baixa qualidade.

  • Interpretability - Os resultados do agrupamento devem ser interpretáveis, compreensíveis e utilizáveis.

Métodos de agrupamento

Os métodos de agrupamento podem ser classificados nas seguintes categorias -

  • Método de Particionamento
  • Método Hierárquico
  • Método baseado em densidade
  • Método baseado em grade
  • Método baseado em modelo
  • Método baseado em restrição

Método de Particionamento

Suponha que recebamos um banco de dados de 'n' objetos e o método de particionamento construa uma partição 'k' de dados. Cada partição representará um cluster ek ≤ n. Isso significa que ele classificará os dados em k grupos, que satisfazem os seguintes requisitos -

  • Cada grupo contém pelo menos um objeto.

  • Cada objeto deve pertencer a exatamente um grupo.

Points to remember −

  • Para um determinado número de partições (digamos k), o método de particionamento criará um particionamento inicial.

  • Em seguida, ele usa a técnica de realocação iterativa para melhorar o particionamento movendo objetos de um grupo para outro.

Métodos Hierárquicos

Este método cria uma decomposição hierárquica de um determinado conjunto de objetos de dados. Podemos classificar os métodos hierárquicos com base em como a decomposição hierárquica é formada. Existem duas abordagens aqui -

  • Abordagem Aglomerativa
  • Abordagem Divisiva

Abordagem Aglomerativa

Essa abordagem também é conhecida como abordagem ascendente. Neste, começamos com cada objeto formando um grupo separado. Ele continua mesclando os objetos ou grupos que estão próximos uns dos outros. Isso continuará até que todos os grupos sejam mesclados em um ou até que a condição de encerramento seja mantida.

Abordagem Divisiva

Essa abordagem também é conhecida como abordagem de cima para baixo. Neste, começamos com todos os objetos no mesmo cluster. Na iteração contínua, um cluster é dividido em clusters menores. Ele está inativo até que cada objeto em um cluster ou a condição de terminação seja mantida. Este método é rígido, ou seja, uma vez que uma fusão ou divisão é feita, ela nunca pode ser desfeita.

Abordagens para melhorar a qualidade do cluster hierárquico

Aqui estão as duas abordagens que são usadas para melhorar a qualidade do clustering hierárquico -

  • Execute uma análise cuidadosa das ligações de objetos em cada partição hierárquica.

  • Integre a aglomeração hierárquica usando primeiro um algoritmo aglomerativo hierárquico para agrupar objetos em micro-clusters e, em seguida, executando macro-clustering nos micro-clusters.

Método baseado em densidade

Este método é baseado na noção de densidade. A ideia básica é continuar crescendo o dado cluster enquanto a densidade na vizinhança exceder algum limite, ou seja, para cada ponto de dados dentro de um determinado cluster, o raio de um determinado cluster deve conter pelo menos um número mínimo de pontos.

Método baseado em grade

Neste, os objetos juntos formam uma grade. O espaço do objeto é quantizado em um número finito de células que formam uma estrutura de grade.

Advantages

  • A principal vantagem desse método é o tempo de processamento rápido.

  • Depende apenas do número de células em cada dimensão no espaço quantizado.

Métodos baseados em modelo

Neste método, um modelo é hipotetizado para cada cluster para encontrar o melhor ajuste de dados para um determinado modelo. Este método localiza os clusters agrupando a função de densidade. Ele reflete a distribuição espacial dos pontos de dados.

Este método também fornece uma maneira de determinar automaticamente o número de clusters com base em estatísticas padrão, levando em consideração valores discrepantes ou ruído. Portanto, produz métodos de agrupamento robustos.

Método baseado em restrição

Nesse método, o clustering é realizado pela incorporação de restrições orientadas ao usuário ou à aplicação. Uma restrição se refere à expectativa do usuário ou às propriedades dos resultados de clustering desejados. As restrições nos fornecem uma forma interativa de comunicação com o processo de agrupamento. As restrições podem ser especificadas pelo usuário ou pelo requisito do aplicativo.