Mahout - Giriş
Bilginin bol olduğu bir çağda yaşıyoruz. Aşırı bilgi yüklemesi o kadar yükseldi ki, bazen küçük posta kutularımızı yönetmek zorlaşıyor! Bazı popüler web sitelerinin (Facebook, Twitter ve Youtube gibi) günlük olarak toplaması ve yönetmesi gereken veri hacmini ve kayıtları hayal edin. Daha az bilinen web sitelerinin bile büyük miktarda bilgiyi toplu olarak alması alışılmadık bir durum değildir.
Normalde, eğilimleri belirlemek ve sonuç çıkarmak için toplu verileri analiz etmek için veri madenciliği algoritmalarına geri dönüyoruz. Ancak, hiçbir veri madenciliği algoritması, çok büyük veri kümelerini işlemek için yeterince verimli olamaz ve hesaplama görevleri bulut üzerinden dağıtılmış birden fazla makinede çalıştırılmadıkça, sonuçları hızlı bir şekilde sağlayamaz.
Artık bir hesaplama görevini birden çok bölüme ayırmamıza ve her bölümü farklı bir makinede çalıştırmamıza izin veren yeni çerçevelerimiz var. Mahout büyük hacimli verileri yönetmek için normalde arka planında Hadoop altyapısıyla birlikte çalışan bir veri madenciliği çerçevesidir.
Apache Mahout nedir?
Bir mahout sahibi kadar bir fil sürücüleri biridir. İsim, logosu olarak bir fil kullanan Apache Hadoop ile olan yakın ilişkisinden gelmektedir.
Hadoop Apache'nin basit programlama modellerini kullanarak bilgisayar kümeleri arasında dağıtılmış bir ortamda büyük verilerin depolanmasına ve işlemesine izin veren açık kaynaklı bir çerçevedir.
Apaçi Mahoutöncelikle ölçeklenebilir makine öğrenme algoritmaları oluşturmak için kullanılan açık kaynaklı bir projedir. Aşağıdakiler gibi popüler makine öğrenimi tekniklerini uygular:
- Recommendation
- Classification
- Clustering
Apache Mahout, 2008'de Apache'nin Lucene'sinin bir alt projesi olarak başladı. 2010'da Mahout, Apache'nin üst düzey bir projesi oldu.
Mahout'un Özellikleri
Apache Mahout'un ilkel özellikleri aşağıda listelenmiştir.
Mahout'un algoritmaları Hadoop'un üzerine yazılmıştır, bu nedenle dağıtılmış ortamda iyi çalışır. Mahout, bulutta etkili bir şekilde ölçeklendirmek için Apache Hadoop kitaplığını kullanıyor.
Mahout, kodlayıcıya büyük hacimli veriler üzerinde veri madenciliği görevleri yapmak için kullanıma hazır bir çerçeve sunar.
Mahout, uygulamaların büyük veri kümelerini etkili ve hızlı bir şekilde analiz etmesini sağlar.
K-araçları, bulanık k-araçları, Canopy, Dirichlet ve Mean-Shift gibi MapReduce'un etkin olduğu birkaç kümeleme uygulaması içerir.
Dağıtılmış Naif Bayes ve Tamamlayıcı Naive Bayes sınıflandırma uygulamalarını destekler.
Evrimsel programlama için dağıtılmış uygunluk işlevi yetenekleriyle birlikte gelir.
Matris ve vektör kitaplıklarını içerir.
Mahout Uygulamaları
Adobe, Facebook, LinkedIn, Foursquare, Twitter ve Yahoo gibi şirketler Mahout'u dahili olarak kullanır.
Foursquare, belirli bir bölgede mevcut olan yerleri, yiyecekleri ve eğlenceleri bulmanıza yardımcı olur. Mahout'un tavsiye motorunu kullanır.
Twitter, kullanıcı ilgi modellemesi için Mahout'u kullanır.
Yahoo! örüntü madenciliği için Mahout'u kullanır.