Büyük Veri Analitiği - Metodoloji
Metodoloji açısından, büyük veri analitiği, deneysel tasarımın geleneksel istatistiksel yaklaşımından önemli ölçüde farklıdır. Analitik verilerle başlar. Normalde verileri bir yanıtı açıklayacak şekilde modelleriz. Bu yaklaşımın amacı, yanıt davranışını tahmin etmek veya girdi değişkenlerinin bir yanıtla nasıl ilişkili olduğunu anlamaktır. Normalde istatistiksel deneysel tasarımlarda bir deney geliştirilir ve sonuç olarak veriler alınır. Bu, bağımsızlık, normallik ve rastgeleleştirme gibi belirli varsayımların geçerli olduğu istatistiksel bir model tarafından kullanılabilecek bir şekilde veri üretmeye izin verir.
Büyük veri analitiğinde verilerle karşımıza çıkıyor. Favori istatistiksel modelimizi karşılayan bir deney tasarlayamayız. Büyük ölçekli analitik uygulamalarında, yalnızca verileri temizlemek için büyük miktarda çalışma (normalde çabanın% 80'i) gerekir, bu nedenle bir makine öğrenimi modeli tarafından kullanılabilir.
Gerçek büyük ölçekli uygulamalarda izleyeceğimiz benzersiz bir metodolojimiz yok. Normalde iş problemi tanımlandıktan sonra, kullanılacak metodolojiyi tasarlamak için bir araştırma aşamasına ihtiyaç vardır. Bununla birlikte, genel yönergelerin belirtilmesi ve hemen hemen tüm problemler için geçerli olması önemlidir.
Büyük veri analitiğindeki en önemli görevlerden biri statistical modeling, denetimli ve denetimsiz sınıflandırma veya regresyon problemleri anlamına gelir. Veriler temizlendikten ve ön işlemden geçirildikten sonra, modelleme için kullanılabilir, farklı modellerin makul kayıp ölçüleriyle değerlendirilmesine özen gösterilmeli ve ardından model uygulandıktan sonra daha fazla değerlendirme ve sonuçlar raporlanmalıdır. Tahmine dayalı modellemede sık karşılaşılan bir tuzak, modeli uygulamak ve performansını asla ölçmemektir.