Kümeleme Algoritmaları - Genel Bakış

Kümelemeye Giriş

Kümeleme yöntemleri, en kullanışlı denetimsiz makine öğrenimi yöntemlerinden biridir. Bu yöntemler, veri örnekleri arasındaki benzerliğin yanı sıra ilişki modellerini bulmak için kullanılır ve daha sonra bu örnekleri, özelliklere dayalı olarak benzerliğe sahip gruplar halinde kümelendirir.

Kümeleme önemlidir çünkü mevcut etiketlenmemiş veriler arasındaki içsel gruplamayı belirler. Temelde benzerliklerini oluşturmak için veri noktaları hakkında bazı varsayımlar yaparlar. Her varsayım, farklı ancak eşit derecede geçerli kümeler oluşturacaktır.

Örneğin, aşağıda, farklı kümelerdeki benzer türdeki verileri bir arada gruplandıran kümeleme sistemini gösteren şema yer almaktadır -

Küme Oluşturma Yöntemleri

Kümelerin küresel formda oluşması gerekli değildir. Diğer bazı küme oluşturma yöntemleri aşağıda verilmiştir -

Yoğunluğa dayalı

Bu yöntemlerde yoğun bölge olarak kümeler oluşturulur. Bu yöntemlerin avantajı, iki kümeyi birleştirme yeteneğinin yanı sıra iyi bir doğruluğa sahip olmalarıdır. Örn. Gürültülü Uygulamaların Yoğunluğa Dayalı Konumsal Kümelenmesi (DBSCAN), Kümeleme yapısını (OPTICS) belirlemek için Sıralama Noktaları vb.

Hiyerarşik tabanlı

Bu yöntemlerde kümeler, hiyerarşiye dayalı ağaç tipi bir yapı olarak oluşturulur. Aglomeratif (Aşağıdan yukarıya yaklaşım) ve Bölücü (Yukarıdan aşağıya yaklaşım) olmak üzere iki kategorileri vardır. Örn. Temsilciler (CURE) kullanarak kümeleme, Hiyerarşileri (BIRCH) kullanarak Kümelemeyi Dengeli Yinelemeli Azaltma vb.

Bölümleme

Bu yöntemlerde, kümeler, nesnelerin k kümelere bölünmesiyle oluşturulur. Küme sayısı, bölüm sayısına eşit olacaktır. Örn. K-, Rastgele Aramaya (CLARANS) dayalı Büyük Uygulamaları Kümeleme anlamına gelir.

Kafes

Bu yöntemlerde kümeler ızgara benzeri bir yapı olarak oluşturulur. Bu yöntemlerin avantajı, bu ızgaralar üzerinde yapılan tüm kümeleme işlemlerinin hızlı ve veri nesnelerinin sayısından bağımsız olmasıdır. Örn. İstatistiksel Bilgi Tablosu (STING), Görevde Kümeleme (CLIQUE).

Kümeleme Performansını Ölçme

Makine öğrenimi modeliyle ilgili en önemli hususlardan biri performansını değerlendirmektir ya da modelin kalitesi diyebilirsiniz. Denetimli öğrenme algoritmaları durumunda, modelimizin kalitesini değerlendirmek kolaydır çünkü her örnek için zaten etiketlerimiz vardır.

Öte yandan, denetimsiz öğrenme algoritmaları durumunda, etiketlenmemiş verilerle uğraştığımız için o kadar da mutlu değiliz. Ancak yine de, uygulayıcıya algoritmaya bağlı olarak kümelerde meydana gelen değişim hakkında fikir veren bazı ölçütlerimiz var.

Bu tür ölçütlere derinlemesine dalmadan önce, bu ölçütlerin modelin tahmininin geçerliliğini ölçmek yerine yalnızca modellerin karşılaştırmalı performansını değerlendirdiğini anlamalıyız. Modelin kalitesini ölçmek için kümeleme algoritmalarına uygulayabileceğimiz metriklerden bazıları aşağıda verilmiştir:

Siluet Analizi

Siluet analizi, kümeler arasındaki mesafeyi ölçerek kümeleme modelinin kalitesini kontrol etmek için kullanılır. Temel olarak bize, küme sayısı gibi parametreleri, aşağıdakilerin yardımıyla değerlendirmenin bir yolunu sağlar:Silhouette score. Bu puan, bir kümedeki her bir noktanın, komşu kümelerdeki noktalara ne kadar yakın olduğunu ölçer.

Silüet Puanının Analizi

Silhouette skorunun aralığı [-1, 1] 'dir. Analizi aşağıdaki gibidir -

+1 Score - +1 civarında Silhouette score örneğin komşu kümeden uzakta olduğunu gösterir.
0 Score - 0 Silhouette score , numunenin iki komşu kümeyi ayıran karar sınırında veya buna çok yakın olduğunu gösterir.
-1 Score & eksi -1 Silhouette score örneklerin yanlış kümelere atandığını gösterir.

Silhouette puanının hesaplanması aşağıdaki formül kullanılarak yapılabilir -

= (-) / (,)

Burada, = en yakın kümedeki noktalara olan ortalama mesafe

Ve, = tüm noktalara küme içi mesafe anlamına gelir.

Davis-Bouldin Endeksi

DB indeksi, kümeleme algoritmalarının analizini gerçekleştirmek için başka bir iyi ölçüttür. DB indeksi yardımıyla, kümeleme modeli hakkında aşağıdaki noktaları anlayabiliriz -

Kümelerin birbirinden iyi aralıklı olup olmadığı?
Kümeler ne kadar yoğun?

Aşağıdaki formül yardımıyla DB endeksini hesaplayabiliriz -

$$ DB = \ frac {1} {n} \ displaystyle \ sum \ limits_ {i = 1} ^ n max_ {j \ neq {i}} \ left (\ frac {\ sigma_ {i} + \ sigma_ {j }} {d (c_ {i}, c_ {j})} \ sağ) $$

Burada, = küme sayısı

σ _i = kümedeki tüm noktaların küme merkezden ortalama uzaklığı.

DB indeksi ne kadar azsa, kümeleme modeli daha iyidir.

Dunn Endeksi

DB endeksi ile aynı şekilde çalışır, ancak her ikisinin de farklı olduğu aşağıdaki noktalar vardır:

Dunn indeksi yalnızca en kötü durumu, yani birbirine yakın olan kümeleri dikkate alırken, DB indeksi, kümeleme modelinde tüm kümelerin dağılımını ve ayrılmasını dikkate alır.
Performans arttıkça Dunn indeksi artar, kümeler iyi aralıklı ve yoğun olduğunda DB indeksi iyileşir.

Dunn indeksini aşağıdaki formül yardımıyla hesaplayabiliriz -

$$ D = \ frac {min_ {1 \ leq i <{j} \ leq {n}} P (i, j)} {mix_ {1 \ leq i <k \ leq n} q (k)} $$

Burada, ,, = kümeler için her bir endeks

= küme arası mesafe

q = küme içi mesafe

ML Kümeleme Algoritması Türleri

Aşağıdakiler en önemli ve kullanışlı ML kümeleme algoritmalarıdır -

K-anlamına gelir Kümeleme

Bu kümeleme algoritması, ağırlık merkezlerini hesaplar ve en uygun ağırlık merkezini bulana kadar yineler. Küme sayısının zaten bilindiğini varsayar. Aynı zamanda düz kümeleme algoritması olarak da adlandırılır. Verilerden algoritma ile tanımlanan küme sayısı K-ortalamalarında 'K' ile temsil edilmektedir.

Ortalama Kaydırma Algoritması

Denetimsiz öğrenmede kullanılan bir başka güçlü kümeleme algoritmasıdır. K-ortalamalı kümelemeden farklı olarak, herhangi bir varsayımda bulunmaz, dolayısıyla parametrik olmayan bir algoritmadır.

Hiyerarşik kümeleme

Benzer özelliklere sahip etiketlenmemiş veri noktalarını bir arada gruplandırmak için kullanılan bir başka denetimsiz öğrenme algoritmasıdır.

Tüm bu algoritmaları ilerleyen bölümlerde detaylı olarak tartışacağız.

Kümeleme Uygulamaları

Aşağıdaki alanlarda kümelemeyi yararlı bulabiliriz -

Data summarization and compression- Kümeleme, veri özetleme, sıkıştırma ve azaltmaya ihtiyaç duyduğumuz alanlarda yaygın olarak kullanılmaktadır. Örnekler, görüntü işleme ve vektör nicemlemedir.

Collaborative systems and customer segmentation - Kümeleme benzer ürünleri veya aynı tür kullanıcıları bulmak için kullanılabildiğinden, işbirlikçi sistemler ve müşteri segmentasyonu alanında kullanılabilir.

Serve as a key intermediate step for other data mining tasks- Küme analizi; sınıflandırma, test etme, hipotez oluşturma için verilerin kompakt bir özetini oluşturabilir; bu nedenle, diğer veri madenciliği görevleri için de önemli bir ara adım görevi görür.

Trend detection in dynamic data - Kümeleme, benzer eğilimlerden çeşitli kümeler oluşturarak dinamik verilerde eğilim tespiti için de kullanılabilir.

Social network analysis- Kümeleme, sosyal ağ analizinde kullanılabilir. Örnekler resimlerde, videolarda veya seslerde sekanslar oluşturmaktır.

Biological data analysis - Kümeleme aynı zamanda görüntü ve video kümeleri oluşturmak için de kullanılabilir, dolayısıyla biyolojik veri analizinde başarıyla kullanılabilir.