Введение в алгоритм кластеризации Kmeans

May 01 2023

Что такое кластеризация K-средних? Кластеризация K-средних — это неконтролируемый алгоритм машинного обучения, используемый для кластеризации или группировки похожих точек данных вместе в наборе данных. Это алгоритм разделения, который делит данные на непересекающиеся кластеры, где каждая точка данных принадлежит одному кластеру.

Что такое кластеризация K-средних?

Кластеризация K-средних — это неконтролируемый алгоритм машинного обучения, используемый для кластеризации или группировки похожих точек данных вместе в наборе данных. Это алгоритм разделения, который делит данные на непересекающиеся кластеры, где каждая точка данных принадлежит одному кластеру. Кластеризация K-средних направлена на минимизацию суммы квадратов расстояний между каждой точкой данных и назначенным ей центроидом.

Теория — как это работает?

Шаг 1. Во-первых, нам нужно определить значение K, то есть количество кластеров, которые мы хотим создать. Значение K можно определить либо случайным образом, либо с помощью какого-либо метода, такого как локоть, силуэт.

Шаг 2. Затем мы случайным образом выбираем K точек из набора данных, которые будут действовать как начальные центроиды для каждого кластера.

Шаг 3. Затем мы вычисляем евклидово расстояние между каждой точкой данных и центроидами и назначаем точку данных ближайшему центроиду, создавая K кластеров.

Шаг 4. После присвоения всех точек данных их ближайшему центроиду мы обновляем местоположение каждого центроида, вычисляя среднее значение всех точек данных, назначенных этому центроиду.

Шаг 5. Мы повторяем шаги 3 и 4 до тех пор, пока алгоритм не сойдется, что означает, что центроиды больше не перемещаются или улучшение суммы квадратов расстояний между точками данных и назначенным им центроидом не станет незначительным.

Введение в алгоритм кластеризации Kmeans

Что такое кластеризация K-средних?

Теория — как это работает?

Как работает код?

Импортируйте необходимые библиотеки:

Ограничения алгоритма K-средних