Big Data Analytics - Definisi Masalah
Melalui tutorial ini, kami akan mengembangkan sebuah proyek. Setiap bab berikutnya dalam tutorial ini berhubungan dengan bagian dari proyek yang lebih besar di bagian proyek mini. Ini dianggap sebagai bagian tutorial terapan yang akan memberikan eksposur ke masalah dunia nyata. Dalam hal ini, kami akan mulai dengan definisi masalah proyek.
Deskripsi Proyek
Tujuan dari proyek ini adalah untuk mengembangkan model pembelajaran mesin untuk memprediksi gaji per jam orang menggunakan teks curriculum vitae (CV) mereka sebagai input.
Menggunakan kerangka kerja yang didefinisikan di atas, mudah untuk mendefinisikan masalah. Kita dapat mendefinisikan X = {x 1 , x 2 ,…, x n } sebagai CV pengguna, di mana setiap fitur dapat, dengan cara yang paling sederhana, berapa kali kata ini muncul. Maka tanggapannya benar-benar dihargai, kami mencoba memprediksi gaji per jam individu dalam dolar.
Kedua pertimbangan ini cukup untuk menyimpulkan bahwa masalah yang disajikan dapat diselesaikan dengan algoritma regresi terbimbing.
Definisi masalah
Problem Definitionmungkin salah satu tahapan paling kompleks dan sangat diabaikan dalam pipeline analitik data besar. Untuk menentukan masalah yang akan dipecahkan oleh produk data, pengalaman adalah wajib. Sebagian besar calon ilmuwan data memiliki sedikit atau tidak ada pengalaman dalam tahap ini.
Sebagian besar masalah big data dapat dikategorikan dengan cara berikut -
- Klasifikasi terbimbing
- Regresi yang diawasi
- Pembelajaran tanpa pengawasan
- Belajar menentukan peringkat
Sekarang mari kita pelajari lebih lanjut tentang keempat konsep ini.
Klasifikasi Terbimbing
Diberikan matriks fitur X = {x 1 , x 2 , ..., x n } kami mengembangkan model M untuk memprediksi berbagai kelas yang didefinisikan sebagai y = {c 1 , c 2 , ..., c n } . Misalnya: Dengan adanya data transaksi pelanggan di perusahaan asuransi, dimungkinkan untuk mengembangkan model yang akan memprediksi apakah klien akan churn atau tidak. Yang terakhir adalah masalah klasifikasi biner, di mana ada dua kelas atau variabel target: churn dan bukan churn.
Masalah lain melibatkan prediksi lebih dari satu kelas, kita mungkin tertarik untuk melakukan pengenalan digit, oleh karena itu vektor respon akan didefinisikan sebagai: y = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} , model yang paling canggih adalah jaringan saraf konvolusional dan matriks fitur akan didefinisikan sebagai piksel gambar.
Regresi yang Diawasi
Dalam hal ini, definisi masalah agak mirip dengan contoh sebelumnya; perbedaannya bergantung pada respons. Dalam masalah regresi, respon y ∈ ℜ, ini berarti respon tersebut bernilai nyata. Misalnya, kami dapat mengembangkan model untuk memprediksi gaji per jam individu berdasarkan korpus CV mereka.
Pembelajaran Tanpa Pengawasan
Manajemen seringkali haus akan wawasan baru. Model segmentasi dapat memberikan wawasan ini agar departemen pemasaran dapat mengembangkan produk untuk segmen yang berbeda. Pendekatan yang baik untuk mengembangkan model segmentasi, daripada memikirkan algoritma, adalah dengan memilih fitur yang relevan dengan segmentasi yang diinginkan.
Misalnya, di perusahaan telekomunikasi, menarik untuk menyegmentasikan klien berdasarkan penggunaan ponsel mereka. Ini akan melibatkan pengabaian fitur yang tidak ada hubungannya dengan tujuan segmentasi dan hanya menyertakan yang terkait. Dalam hal ini, ini akan memilih fitur seperti jumlah SMS yang digunakan dalam sebulan, jumlah menit masuk dan keluar, dll.
Belajar Peringkat
Masalah ini dapat dianggap sebagai masalah regresi, tetapi memiliki karakteristik tertentu dan memerlukan perlakuan tersendiri. Masalahnya melibatkan kumpulan dokumen yang kami cari untuk menemukan urutan paling relevan yang diberikan kueri. Untuk mengembangkan algoritme pembelajaran yang diawasi, perlu diberi label seberapa relevan pengurutan, jika diberi kueri.
Perlu diperhatikan bahwa untuk mengembangkan algoritme pembelajaran terbimbing, diperlukan pemberian label pada data pelatihan. Ini berarti bahwa untuk melatih model yang akan, misalnya, mengenali angka dari sebuah gambar, kita perlu memberi label pada sejumlah besar contoh secara manual. Ada layanan web yang dapat mempercepat proses ini dan biasanya digunakan untuk tugas ini seperti amazon mechanical turk. Terbukti bahwa algoritme pembelajaran meningkatkan kinerjanya saat dilengkapi dengan lebih banyak data, jadi pelabelan sejumlah contoh yang layak secara praktis wajib dalam pembelajaran yang diawasi.