Makine Öğreniminde Özellik Seçimi: Motivasyon
Bu kısa makale, özellik seçme tekniklerini açıklayan bir dizinin ilkidir. Dostane bir girişle başladım ve özellik seçim sürecinin arkasındaki güçlü nedenleri sundum. Gelecek yazılarda, her özellik seçim yönteminden ayrıntılı olarak bahsedeceğim.
Özellik seçimi, makine öğrenimi algoritmaları oluşturmak için bir veri kümesindeki bir düzeyin toplam özelliklerinden ilgili özelliklerin (değişkenler, tahmin ediciler) bir alt kümesini seçme işlemidir. Tipik olarak çok sayıda değişken içeren bir başlangıç veri seti verildiğinde, tahminler yapılırken önemli olan özellik havuzunu seçmek için ne yapabiliriz? Özellik seçme sürecinin bir parçası olarak uygulayabileceğimiz çeşitli prosedürler veya teknikler vardır.
Özellik seçme tekniklerine dalmadan önce, başlamak için neden özellikleri seçiyoruz? İşte bazı nedenler.
- Daha basit modellerin yorumlanması daha kolaydır. Model kullanıcılarının 10 değişken kullanan bir modelin çıktısını anlaması, 100 değişken kullanan bir modelin çıktısına göre daha kolaydır.
- Daha kısa eğitim süreleri. Makine öğrenimi modellerini oluşturmak için kullanılan değişken sayısını azaltmak, hesaplama maliyetini azaltır ve bu nedenle model oluşturmayı hızlandırır. Ancak daha da önemlisi, daha basit modeller, uygulamalardan daha hızlı puan alır; bu, özellikle model, kararların saniyenin altında alınması gereken canlı bir ortamdaysa önemlidir.
- Aşırı uydurmayı azaltarak geliştirilmiş genelleme. Çok sık olarak, değişkenlerin çoğu, herhangi bir tahmin değeri varsa bile çok az olan gürültüdür. Ancak makine öğrenimi modelleri, fazla uydurmaya neden olan ve genellemeyi azaltan bu gürültüden öğrenir. Alakasız gürültülü özellikleri ortadan kaldırarak, bir makine öğrenimi modelinin genelleştirilmesini önemli ölçüde geliştirebiliriz.
- Yazılım geliştiriciler tarafından uygulanması daha kolaydır. Makine öğrenimi modeli dağıtıldığında, genellikle yazılım geliştiricilerin çıktıyı üretmek için modele beslenmesi gereken değişkenleri çağırmak için kod yazmaları gerekir. 10 ila 50 değişken için kod yazmak, 400 değişken için yazmaktan çok daha hızlıdır. Ek olarak, daha az kod hataya daha az eğilimlidir ve bu nedenle daha güvenli bir ortam sağlar.
- Model kullanımı sırasında azaltılmış veri hatası riski. Şirketler genellikle, makine öğrenimi modelini geçmek için değişkenleri seçecekleri üçüncü taraf verilerine yapılan çağrılara güvenir. Makine öğrenimi modelinde kullanılan değişken sayısının azaltılması, işletmenin üçüncü şahısların veri toplama ve depolama hatalarına maruz kalmasını ve ayrıca aynı işletme içinde ortaya çıkabilecek olası veri toplama hatalarını azaltır.
- Değişken fazlalık. Çoğu zaman, bir veri kümesindeki özellikler yüksek oranda ilişkilidir. Yüksek oranda ilişkili özellikler, aynı bilginin özünü sağlar. Bu nedenle biraz fazlalıktırlar. Bilgi kaybetmeden birini tutabilir ve geri kalanını kaldırabiliriz.
- Yüksek boyutlu uzaylarda kötü öğrenme davranışı. Özellikle ağaç tabanlı algoritmalarda Makine Öğrenimi modeli performansı, azaltılmış özellik alanları tarafından tercih edilir. Bu, başka bir deyişle, yüksek boyutların ağaç tabanlı yöntemlerde düşük performansa neden olduğu ve bu nedenle özellik alanını azaltmanın daha sağlam ve tahmine dayalı modeller oluşturmaya yardımcı olduğu anlamına gelir.
Bir özellik seçme algoritması, yeni özellik altkümeleri önermek için bir arama tekniği ile farklı özellik altkümelerini puanlayan bir evrim ölçüsünün kombinasyonu olarak görülebilir. İdeal olarak, bir özellik seçme yöntemi, belirli bir veri kümesinden elde edilebilecek özellik kombinasyonlarının tüm olası alt kümelerini arayacak ve en iyi makine öğrenimi modeli performansını üreten özellik kombinasyonunu bulacaktır. Uygulamada, hesaplama maliyeti nedeniyle bu genellikle bir seçenek değildir. Ek olarak, farklı özellik alt kümeleri, farklı makine öğrenimi algoritmaları için en uygun performansı üretebilir. Bu, yalnızca bir özellik alt kümesi değil, kullanmayı amaçladığımız makine öğrenimi algoritmasına bağlı olarak potansiyel olarak birçok optimum özellik alt kümesi olduğu anlamına gelir. Bu nedenle yıllar boyunca, Mümkün olduğu kadar çok uyarı ve sınırlamayı denemek ve barındırmak için özellikleri seçmek için çok farklı yöntemler geliştirilmiştir. Bu makale dizisi boyunca, özellik seçimi için pek çok farklı yöntemi, avantaj ve dezavantajların neler olduğunu ve bunların pratikte nasıl uygulanacağını iş veri seti örneklerini kullanarak açıklayacağım.