Özgeçmişinizde Kaggle Veri Kümelerini Neden Asla Kullanmamalısınız!

Nov 26 2022
Kaggle Veri Kümeleri Aşırı Kullanılıyor ve Gerçekçi Değil! Kaggle, yeni başlayan veri bilimcileri için harika bir başlangıç ​​noktası olsa da, özgeçmişte veri kümelerini asla kullanmamalısınız. Acı gerçek şu ki, görüşmeciler sizin Titanic veri setini modellemenizi umursamıyor.

Kaggle Veri Kümeleri Aşırı Kullanılıyor ve Gerçekçi Değil!

Kaggle Yarışmaları Ana Sayfası, Yazarın Fotoğrafı

Kaggle, yeni başlayan veri bilimcileri için harika bir başlangıç ​​noktası olsa da, özgeçmişte veri kümelerini asla kullanmamalısınız. Acı gerçek şu ki, görüşmeciler sizin Titanic veri setini modellemenizi umursamıyor.

Görüşmeciler, sizi kalabalıktan ayıran özel bir şey arıyor. Kaggle sizi bu kalabalığa dahil ediyor çünkü herkes Kaggle Veri Setlerini kullanıyor!

Kaggle Veri Kümeleri ile ilgili bir başka sorun da verilerin çoğunun sizin için zaten temizlenmiş olmasıdır! Bu, gerçek hayattaki iş deneyimiyle karşılaştırıldığında çok büyük bir farktır. Gerçek dünya ortamında, verileri temizlemeniz ve verilerin içgörülere yol açacağından gerçekten emin olmanız gerekir. Kaggle veri kümeleriyle, modelin öğreneceğini zaten biliyorsunuz (en azından veri kümelerinin çoğu).

Peki, kendinizi kalabalıktan nasıl ayırırsınız?

Kendinizi kalabalıktan ayırmanın birçok yolu olsa da, en iyi yollardan biri kendi veri kümenizi oluşturmaktır. Kendi veri kümenizi oluşturmak için web kazıma, kendi verilerinizi kullanma, gerçek zamanlı veriler, API'lerden alınan veriler vb. yüzleri sınıflandıran model.

Kendi veri kümenizi oluşturmanın veya kalabalığın arasından sıyrılmanın başka bir yolu da GAN'ları kullanmaktır. Bu tür modeller, diğer verileri kullanarak veri üretebilir. Örneğin, sorunu çözmek için yeterli veriye sahip değilseniz, daha fazla veri üretmek için bir GAN kullanmayı deneyebilirsiniz. Ardından, modeli yeni verilere uydurduktan sonra sonuçların iyileşip iyileşmediğini görebilirsiniz.

Kalabalıktan sıyrılmanın bir başka yolu da modellenmeye hazır olmayan veri kümelerini kullanmaktır. Bu, verilerin temizlenmediği, yani verileri temizlemek için çeşitli teknikler kullanmanız gerekeceği anlamına gelir.

Kendi veri kümenizi oluşturmak, verileri nasıl hazırlayacağınız ve verileri nasıl keşfedeceğiniz konusundaki bilginizi genişletecektir. Kalabalıktan ayrı olup olmadığınızı anlamanın en iyi yollarından biri, verilerin cevaplayabileceği sorular bulmaktır. Ne de olsa çoğu şirket, daha fazla para kazanmalarına yardımcı olacak anlamlı içgörüler bulmaları için veri bilimcileri tutar.

Üzerinde çalıştığım projelerden biri, sürücüsüz mini bir araba. Bu, derin öğrenme modelini eğitmek için gerçek zamanlı verileri kullanır. Bu, görüşmecilerin ilgisini çekecek benzersiz bir proje örneğidir.

Kaggle'ı Kullanmanız Gereken Gerçek Yol

Kaggle görüşmecileri etkilemese de, veri kümelerini modellemekten öğrendiğiniz beceriler etkileyecektir. Kaggle, veri kümelerinin nasıl modelleneceğini öğrenmenin açık ara en iyi yoludur çünkü pek çok veri kümesine erişiminiz vardır. Kaggle'ı düzgün kullanmak için kendinize zayıf yönlerinizin neler olduğunu sormalısınız. Bir zayıflık bulduktan sonra, zayıflığınızı geliştirmenize yardımcı olabilecek bir veri kümesi bulun.

Örneğin, GAN'ları daha iyi anlamak ve onlarla kodlama konusunda daha fazla deneyim kazanmak istediğimi varsayalım. Yapacağım ilk şey, MNIST gibi basit bir veri kümesi bulmak ve onu bir GAN ile modellemek. O andan itibaren, hedefime başarılı bir şekilde ulaşana kadar daha zor veri kümelerine kadar yoluma devam edecektim, bu örnekte, GAN'ları ve bunların nasıl kullanılacağını anlamaktı.

Zayıf noktamı iyileştirdikten sonra, bunu kendi oluşturduğum bir veri kümesine veya kullanımı zor bir veri kümesine uygulayabilirim.

Kaggle ayrıca veri kümelerini kullanılabilirliğe göre derecelendirir; veri analizinizi ve EDA becerilerinizi geliştirmenin bir yolu, daha düşük kullanılabilirlik puanına sahip bir veri kümesi bulmaktır.