Алгоритмы кластеризации - алгоритм K-средних
Введение в алгоритм K-средних
Алгоритм кластеризации K-средних вычисляет центроиды и выполняет итерацию, пока не найдет оптимальный центроид. Предполагается, что количество кластеров уже известно. Его еще называютflat clusteringалгоритм. Количество кластеров, идентифицированных алгоритмом из данных, представлено буквой K в K-средних.
В этом алгоритме точки данных назначаются кластеру таким образом, чтобы сумма квадрата расстояния между точками данных и центроидом была минимальной. Следует понимать, что меньшее количество вариаций внутри кластеров приведет к большему количеству схожих точек данных в одном и том же кластере.
Работа алгоритма K-средних
Мы можем понять работу алгоритма кластеризации K-Means с помощью следующих шагов:
Step 1 - Во-первых, нам нужно указать количество кластеров K, которые должны быть сгенерированы этим алгоритмом.
Step 2- Затем случайным образом выберите K точек данных и назначьте каждую точку данных кластеру. Проще говоря, классифицируйте данные по количеству точек данных.
Step 3 - Теперь он будет вычислять центроиды кластера.
Step 4 - Затем продолжайте повторять следующее, пока мы не найдем оптимальный центроид, который представляет собой назначение точек данных кластерам, которые больше не меняются -
4.1 - Сначала будет вычислена сумма квадратов расстояния между точками данных и центроидами.
4.2 - Теперь мы должны назначить каждую точку данных кластеру, который находится ближе, чем другой кластер (центроид).
4.3 - Наконец, вычислите центроиды для кластеров, взяв среднее значение всех точек данных этого кластера.
K-означает следующее Expectation-Maximizationподход к решению проблемы. Шаг ожидания используется для присвоения точек данных ближайшему кластеру, а шаг максимизации используется для вычисления центроида каждого кластера.
При работе с алгоритмом K-средних нам необходимо позаботиться о следующих вещах:
При работе с алгоритмами кластеризации, включая K-средние, рекомендуется стандартизировать данные, поскольку такие алгоритмы используют измерение на основе расстояния для определения сходства между точками данных.
Из-за итеративного характера K-средних и случайной инициализации центроидов, K-средние могут придерживаться локального оптимума и могут не сходиться к глобальному оптимуму. Поэтому рекомендуется использовать разные инициализации центроидов.
Реализация на Python
Следующие два примера реализации алгоритма кластеризации K-средних помогут нам лучше понять его:
Пример 1
Это простой пример, чтобы понять, как работают k-means. В этом примере мы сначала сгенерируем 2D-набор данных, содержащий 4 разных капли, а затем применим алгоритм k-средних, чтобы увидеть результат.
Сначала мы начнем с импорта необходимых пакетов -
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans
Следующий код сгенерирует 2D, содержащий четыре капли -
from sklearn.datasets.samples_generator import make_blobs
X, y_true = make_blobs(n_samples=400, centers=4, cluster_std=0.60, random_state=0)
Затем следующий код поможет нам визуализировать набор данных -
plt.scatter(X[:, 0], X[:, 1], s=20);
plt.show()
Затем создайте объект KMeans вместе с указанием количества кластеров, обучите модель и выполните прогноз следующим образом:
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)
Теперь с помощью следующего кода мы можем построить и визуализировать центры кластера, выбранные оценщиком Python k-means:
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=20, cmap='summer')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='blue', s=100, alpha=0.9);
plt.show()
Пример 2
Давайте перейдем к другому примеру, в котором мы собираемся применить кластеризацию K-средних к набору данных простых цифр. K-means попытается определить похожие цифры без использования исходной информации на этикетке.
Сначала мы начнем с импорта необходимых пакетов -
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from sklearn.cluster import KMeans
Затем загрузите набор данных цифр из sklearn и сделайте из него объект. Мы также можем найти количество строк и столбцов в этом наборе данных следующим образом:
from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape
Вывод
(1797, 64)
Приведенный выше вывод показывает, что этот набор данных содержит 1797 образцов с 64 функциями.
Мы можем выполнить кластеризацию, как в примере 1 выше -
kmeans = KMeans(n_clusters=10, random_state=0)
clusters = kmeans.fit_predict(digits.data)
kmeans.cluster_centers_.shape
Вывод
(10, 64)
Приведенный выше вывод показывает, что K-means создал 10 кластеров с 64 функциями.
fig, ax = plt.subplots(2, 5, figsize=(8, 3))
centers = kmeans.cluster_centers_.reshape(10, 8, 8)
for axi, center in zip(ax.flat, centers):
axi.set(xticks=[], yticks=[])
axi.imshow(center, interpolation='nearest', cmap=plt.cm.binary)
Вывод
На выходе мы получим следующее изображение, показывающее центры кластеров, полученные с помощью k-средних.
Следующие строки кода будут сопоставлять изученные метки кластера с найденными в них истинными метками:
from scipy.stats import mode
labels = np.zeros_like(clusters)
for i in range(10):
mask = (clusters == i)
labels[mask] = mode(digits.target[mask])[0]
Затем мы можем проверить точность следующим образом -
from sklearn.metrics import accuracy_score
accuracy_score(digits.target, labels)
Вывод
0.7935447968836951
Приведенный выше вывод показывает, что точность составляет около 80%.
Преимущества и недостатки
Преимущества
Ниже приведены некоторые преимущества алгоритмов кластеризации K-средних:
Это очень легко понять и реализовать.
Если у нас есть большое количество переменных, то K-средних будет быстрее, чем иерархическая кластеризация.
При повторном вычислении центроидов экземпляр может изменить кластер.
Более плотные кластеры формируются с помощью K-средних по сравнению с иерархической кластеризацией.
Недостатки
Ниже приведены некоторые недостатки алгоритмов кластеризации K-средних:
Сложно предсказать количество кластеров, то есть значение k.
На выход сильно влияют исходные данные, такие как количество кластеров (значение k).
Порядок данных будет иметь сильное влияние на конечный результат.
Он очень чувствителен к изменению масштаба. Если мы изменим масштаб наших данных с помощью нормализации или стандартизации, то вывод полностью изменится. Конечный вывод.
Если кластеры имеют сложную геометрическую форму, это нехорошо.
Применение алгоритма кластеризации K-средних
Основные цели кластерного анализа:
Чтобы получить осмысленную интуицию на основе данных, с которыми мы работаем.
Кластер, а затем спрогнозируйте, где будут построены разные модели для разных подгрупп.
Для достижения вышеупомянутых целей кластеризация K-средних работает достаточно хорошо. Его можно использовать в следующих приложениях -
Сегментация рынка
Кластеризация документов
Сегментация изображения
Сжатие изображения
Сегментация клиентов
Анализ тренда на динамических данных