Büyük Veri Analitiği - Problem Tanımı
Bu eğitim aracılığıyla bir proje geliştireceğiz. Bu eğitimdeki sonraki her bölüm, mini proje bölümündeki daha büyük projenin bir bölümünü ele almaktadır. Bunun, gerçek dünyadaki bir soruna maruz kalmayı sağlayacak uygulamalı bir eğitim bölümü olduğu düşünülmektedir. Bu durumda, projenin problem tanımıyla başlayacağız.
Proje Açıklaması
Bu projenin amacı, özgeçmiş (CV) metinlerini girdi olarak kullanan kişilerin saatlik maaşlarını tahmin etmek için bir makine öğrenimi modeli geliştirmek olacaktır.
Yukarıda tanımlanan çerçeveyi kullanarak sorunu tanımlamak basittir. X = {x 1 , x 2 ,…, x n } 'yi kullanıcıların CV'leri olarak tanımlayabiliriz , burada her özellik mümkün olan en basit şekilde bu kelimenin görünme miktarı olabilir. O zaman cevap gerçek değerlidir, bireylerin saatlik maaşını dolar cinsinden tahmin etmeye çalışıyoruz.
Bu iki husus, sunulan sorunun denetimli bir regresyon algoritması ile çözülebileceği sonucuna varmak için yeterlidir.
Problem tanımı
Problem Definitionbüyük veri analitiği hattında muhtemelen en karmaşık ve en çok ihmal edilen aşamalardan biridir. Bir veri ürününün çözeceği problemi tanımlamak için deneyim zorunludur. Çoğu veri bilimcisi adayının bu aşamada çok az deneyimi vardır veya hiç yoktur.
Çoğu büyük veri sorunu aşağıdaki şekillerde kategorize edilebilir:
- Denetimli sınıflandırma
- Denetimli regresyon
- Denetimsiz öğrenme
- Sıralamayı öğrenmek
Şimdi bu dört kavram hakkında daha fazla bilgi edinelim.
Denetimli Sınıflandırma
X = {x 1 , x 2 , ..., x n } özelliklerinin bir matrisi verildiğinde , y = {c 1 , c 2 , ..., c n } olarak tanımlanan farklı sınıfları tahmin etmek için bir M modeli geliştiririz . Örneğin: Bir sigorta şirketindeki müşterilerin işlem verileri göz önüne alındığında, bir müşterinin işi bırakıp bırakmayacağını tahmin edecek bir model geliştirmek mümkündür. İkincisi, iki sınıfın veya hedef değişkenlerin olduğu ikili bir sınıflandırma problemidir: çalkalama ve çalkalama değil.
Diğer problemler birden fazla sınıfı tahmin etmeyi içerir, rakam tanıma yapmak ilgimizi çekebilir, bu nedenle yanıt vektörü şu şekilde tanımlanır: y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} en son teknoloji modeli evrişimli sinir ağı olacaktır ve özelliklerin matrisi görüntünün pikselleri olarak tanımlanacaktır.
Denetimli Regresyon
Bu durumda, problem tanımı önceki örneğe oldukça benzerdir; fark, cevaba bağlıdır. Bir regresyon probleminde, y ∈ ℜ cevabı, bu, cevabın gerçek değerli olduğu anlamına gelir. Örneğin, özgeçmişlerinin külliyatı verilen bireylerin saatlik maaşlarını tahmin etmek için bir model geliştirebiliriz.
Denetimsiz Öğrenme
Yönetim genellikle yeni anlayışlara susamıştır. Segmentasyon modelleri, pazarlama departmanının farklı segmentler için ürünler geliştirmesi için bu içgörüyü sağlayabilir. Algoritmaları düşünmek yerine bir segmentasyon modeli geliştirmek için iyi bir yaklaşım, istenen segmentasyonla ilgili özellikleri seçmektir.
Örneğin, bir telekomünikasyon şirketinde, müşterileri cep telefonu kullanımlarına göre bölümlere ayırmak ilginçtir. Bu, segmentasyon hedefiyle hiçbir ilgisi olmayan özellikleri göz ardı etmeyi ve yalnızca yapanları dahil etmeyi içerir. Bu durumda, bu, bir ayda kullanılan SMS sayısı, gelen ve giden dakika sayısı vb. Gibi özelliklerin seçilmesi olacaktır.
Sıralamayı Öğrenmek
Bu problem bir regresyon problemi olarak düşünülebilir, ancak belirli özelliklere sahiptir ve ayrı bir muameleyi hak eder. Sorun, bir sorguya en uygun sıralamayı bulmaya çalıştığımız bir dizi belgeyi içerir. Denetimli bir öğrenme algoritması geliştirmek için, bir sorgu verildiğinde bir siparişin ne kadar alakalı olduğunu etiketlemek gerekir.
Denetimli bir öğrenme algoritması geliştirmek için eğitim verilerinin etiketlenmesi gerektiğine dikkat etmek önemlidir. Bu, örneğin bir görüntüdeki basamakları tanıyan bir modeli eğitmek için, önemli miktarda örneği elle etiketlememiz gerektiği anlamına gelir. Bu işlemi hızlandırabilen ve bu görev için yaygın olarak kullanılan amazon mekanik türk gibi web servisleri vardır. Öğrenme algoritmalarının daha fazla veri sağlandığında performanslarını artırdığı kanıtlanmıştır, bu nedenle denetimli öğrenmede makul miktarda örnek etiketlemek pratik olarak zorunludur.