Weka - Kümeleme

Bir kümeleme algoritması, tüm veri kümesindeki benzer örnek gruplarını bulur. WEKA, EM, FilteredClusterer, HierarchicalClusterer, SimpleKMeans ve benzeri gibi çeşitli kümeleme algoritmalarını destekler. WEKA yeteneklerinden tam olarak yararlanmak için bu algoritmaları tamamen anlamalısınız.

Sınıflandırma durumunda olduğu gibi, WEKA, tespit edilen kümeleri grafiksel olarak görselleştirmenize izin verir. Kümelemeyi göstermek için sağlanan iris veritabanını kullanacağız. Veri kümesi, her biri 50 örnek içeren üç sınıf içerir. Her sınıf bir tür iris bitkisini ifade eder.

Veri yükleniyor

WEKA kaşifinde, Preprocesssekmesi. TıklaOpen file ... seçeneğini seçin ve iris.arffdosya seçimi iletişim kutusundaki dosya. Verileri yüklediğinizde, ekran aşağıdaki gibi görünür -

150 örnek ve 5 öznitelik olduğunu gözlemleyebilirsiniz. Özniteliklerin isimleri şu şekilde listelenir:sepallength, sepalwidth, petallength, petalwidth ve class. Sınıf, 3 farklı değeri olan nominal bir tür iken, ilk dört özellik sayısal tiptedir. Veritabanının özelliklerini anlamak için her bir özelliği inceleyin. Bu veriler üzerinde herhangi bir ön işlem yapmayacağız ve hemen model oluşturmaya geçmeyeceğiz.

Kümeleme

Tıkla ClusterKümeleme algoritmalarını yüklenen verilerimize uygulamak için TAB. TıklaChoosebuton. Aşağıdaki ekranı göreceksiniz -

Şimdi seçin EMkümeleme algoritması olarak. İçindeCluster mode alt pencere, seçin Classes to clusters evaluation aşağıdaki ekran görüntüsünde gösterildiği gibi seçenek -

Tıkla StartVerileri işlemek için düğmesine basın. Bir süre sonra sonuçlar ekrana gelecektir.

Sonra sonuçları inceleyelim.

Çıktının İncelenmesi

Veri işlemenin çıktısı aşağıdaki ekranda gösterilmektedir -

Çıktı ekranından şunu gözlemleyebilirsiniz -

  • Veritabanında tespit edilen 5 kümelenmiş örnek var.

  • Cluster 0 setosa'yı temsil eder, Cluster 1 Virginica'yı temsil eder, Cluster 2 versicolor'u temsil ederken, son iki kümenin kendileriyle ilişkili herhangi bir sınıfı yoktur.

Çıktı penceresini yukarı kaydırırsanız, tespit edilen çeşitli kümelerdeki özniteliklerin her biri için ortalama ve standart sapmayı veren bazı istatistikler de görürsünüz. Bu, aşağıda verilen ekran görüntüsünde gösterilmektedir -

Sonra, kümelerin görsel temsiline bakacağız.

Kümeleri Görselleştirme

Kümeleri görselleştirmek için sağ tıklayın EM sonuç Result list. Aşağıdaki seçenekleri göreceksiniz -

Seçiniz Visualize cluster assignments. Aşağıdaki çıktıyı göreceksiniz -

Sınıflandırma durumunda olduğu gibi, doğru ve yanlış tanımlanmış örnekler arasındaki farkı göreceksiniz. Sonuçları analiz etmek için X ve Y eksenlerini değiştirerek oynayabilirsiniz. Doğru tanımlanmış örneklerin konsantrasyonunu bulmak için sınıflandırma durumunda olduğu gibi titreşimi kullanabilirsiniz. Görselleştirme grafiğindeki işlemler, sınıflandırma durumunda incelediğinize benzer.

Hiyerarşik Kümeleyici Uygulama

WEKA'nın gücünü göstermek için şimdi başka bir kümeleme algoritmasının uygulamasına bakalım. WEKA gezgininde,HierarchicalClusterer ML algoritmanız olarak aşağıda gösterilen ekran görüntüsünde gösterildiği gibi -

Seç Cluster mode seçim Classes to cluster evaluationve tıklayın Startbuton. Aşağıdaki çıktıyı göreceksiniz -

Dikkat edin Result list, listelenen iki sonuç vardır: birincisi EM sonucudur ve ikincisi mevcut Hiyerarşiktir. Benzer şekilde, aynı veri kümesine birden çok ML algoritması uygulayabilir ve sonuçlarını hızlı bir şekilde karşılaştırabilirsiniz.

Bu algoritma tarafından üretilen ağacı incelerseniz, aşağıdaki çıktıyı göreceksiniz -

Bir sonraki bölümde, Associate ML algoritmalarının türü.