Алгоритмы кластеризации - иерархическая кластеризация
Введение в иерархическую кластеризацию
Иерархическая кластеризация - это еще один алгоритм обучения без учителя, который используется для группировки немаркированных точек данных, имеющих схожие характеристики. Алгоритмы иерархической кластеризации делятся на следующие две категории:
Agglomerative hierarchical algorithms- В агломеративных иерархических алгоритмах каждая точка данных обрабатывается как единый кластер, а затем последовательно объединяются или агломерируются (восходящий подход) пары кластеров. Иерархия кластеров представлена в виде дендрограммы или древовидной структуры.
Divisive hierarchical algorithms - С другой стороны, в разделяющих иерархических алгоритмах все точки данных обрабатываются как один большой кластер, а процесс кластеризации включает разделение (подход сверху-вниз) одного большого кластера на несколько небольших кластеров.
Шаги по выполнению агломеративной иерархической кластеризации
Мы собираемся объяснить наиболее часто используемую и важную иерархическую кластеризацию, то есть агломеративную. Шаги, чтобы выполнить то же самое, следующие:
Step 1- Рассматривайте каждую точку данных как отдельный кластер. Следовательно, мы будем иметь, скажем, K кластеров в начале. Количество точек данных также будет K в начале.
Step 2- Теперь, на этом этапе нам нужно сформировать большой кластер, объединив две точки данных в шкафу. В результате получатся кластеры K-1.
Step 3- Теперь, чтобы сформировать больше кластеров, нам нужно объединить два кластера туалетов. В результате получатся кластеры K-2.
Step 4 - Теперь, чтобы сформировать один большой кластер, повторите три вышеуказанных шага до тех пор, пока K не станет равным 0, т. Е. Больше не останется точек данных для объединения.
Step 5 - Наконец, после создания одного большого кластера дендрограммы будут использоваться для разделения на несколько кластеров в зависимости от проблемы.
Роль дендрограмм в агломеративной иерархической кластеризации
Как мы обсуждали на последнем шаге, роль дендрограммы начинается после формирования большого кластера. Дендрограмма будет использоваться для разделения кластеров на несколько кластеров связанных точек данных в зависимости от нашей проблемы. Это можно понять с помощью следующего примера -
Пример 1
Чтобы понять, давайте начнем с импорта необходимых библиотек следующим образом:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
Далее мы будем рисовать точки данных, которые мы взяли для этого примера -
X = np.array([[7,8],[12,20],[17,19],[26,15],[32,37],[87,75],[73,85], [62,80],[73,60],[87,96],])
labels = range(1, 11)
plt.figure(figsize=(10, 7))
plt.subplots_adjust(bottom=0.1)
plt.scatter(X[:,0],X[:,1], label='True Position')
for label, x, y in zip(labels, X[:, 0], X[:, 1]):
plt.annotate(label,xy=(x, y), xytext=(-3, 3),textcoords='offset points', ha='right', va='bottom')
plt.show()
Из приведенной выше диаграммы очень легко увидеть, что у нас есть два кластера в точках данных, но в реальных данных могут быть тысячи кластеров. Далее мы будем строить дендрограммы наших точек данных с помощью библиотеки Scipy -
from scipy.cluster.hierarchy import dendrogram, linkage
from matplotlib import pyplot as plt
linked = linkage(X, 'single')
labelList = range(1, 11)
plt.figure(figsize=(10, 7))
dendrogram(linked, orientation='top',labels=labelList, distance_sort='descending',show_leaf_counts=True)
plt.show()
Теперь, когда сформирован большой кластер, выбирается самое длинное расстояние по вертикали. Затем через него проводится вертикальная линия, как показано на следующей диаграмме. Поскольку горизонтальная линия пересекает синюю линию в двух точках, количество кластеров будет равно двум.
Затем нам нужно импортировать класс для кластеризации и вызвать его метод fit_predict для прогнозирования кластера. Мы импортируем класс AgglomerativeClustering из библиотеки sklearn.cluster -
from sklearn.cluster import AgglomerativeClustering
cluster = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='ward')
cluster.fit_predict(X)
Затем постройте кластер с помощью следующего кода -
plt.scatter(X[:,0],X[:,1], c=cluster.labels_, cmap='rainbow')
На приведенной выше диаграмме показаны два кластера из наших точек данных.
Пример2
Поскольку мы поняли концепцию дендрограмм из простого примера, описанного выше, давайте перейдем к другому примеру, в котором мы создаем кластеры точки данных в наборе данных о диабете Pima Indian Diabetes Dataset, используя иерархическую кластеризацию -
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline
import numpy as np
from pandas import read_csv
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names=headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
data.shape
(768, 9)
data.head()
слно. | preg | Plas | Pres | кожа | контрольная работа | масса | педи | возраст | класс |
---|---|---|---|---|---|---|---|---|---|
0 | 6 | 148 | 72 | 35 год | 0 | 33,6 | 0,627 | 50 | 1 |
1 | 1 | 85 | 66 | 29 | 0 | 26,6 | 0,351 | 31 год | 0 |
2 | 8 | 183 | 64 | 0 | 0 | 23,3 | 0,672 | 32 | 1 |
3 | 1 | 89 | 66 | 23 | 94 | 28,1 | 0,167 | 21 год | 0 |
4 | 0 | 137 | 40 | 35 год | 168 | 43,1 | 2,288 | 33 | 1 |
patient_data = data.iloc[:, 3:5].values
import scipy.cluster.hierarchy as shc
plt.figure(figsize=(10, 7))
plt.title("Patient Dendograms")
dend = shc.dendrogram(shc.linkage(data, method='ward'))
from sklearn.cluster import AgglomerativeClustering
cluster = AgglomerativeClustering(n_clusters=4, affinity='euclidean', linkage='ward')
cluster.fit_predict(patient_data)
plt.figure(figsize=(10, 7))
plt.scatter(patient_data[:,0], patient_data[:,1], c=cluster.labels_, cmap='rainbow')