Mengapa Anda Tidak Boleh Menggunakan Kumpulan Data Kaggle dalam Resume!
Kumpulan Data Kaggle Sering Digunakan dan Tidak Realistis!

Meskipun Kaggle mungkin tempat yang bagus untuk memulai ilmuwan data pemula, Anda tidak boleh menggunakan kumpulan data dalam resume. Kebenaran pahitnya adalah, pewawancara tidak peduli dengan Anda yang memodelkan kumpulan data Titanic.
Pewawancara mencari sesuatu yang istimewa, sesuatu yang membedakan Anda dari orang lain. Kaggle membuat Anda bergabung dengan kerumunan itu karena semua orang menggunakan Kumpulan Data Kaggle!
Masalah lain dengan Kaggle Datasets adalah sebagian besar data sudah dibersihkan untuk Anda! Ini adalah perbedaan besar jika dibandingkan dengan pengalaman kerja kehidupan nyata. Dalam pengaturan dunia nyata, Anda perlu membersihkan data dan benar-benar memastikan bahwa data tersebut akan menghasilkan wawasan. Dengan kumpulan data Kaggle, Anda sudah tahu bahwa model akan belajar (setidaknya sebagian besar kumpulan data).
Nah, bagaimana Anda memisahkan diri dari orang banyak?
Meskipun ada banyak cara untuk membedakan diri Anda dari orang lain, salah satu cara terbaik adalah dengan membuat kumpulan data Anda sendiri. Untuk membuat dataset Anda sendiri, Anda dapat menggunakan berbagai metode seperti web-scraping, menggunakan data Anda sendiri, data real-time, data dari API, dll. Satu ide yang saya pikirkan adalah mengimpor foto dari Foto Google dan mencoba membangun sebuah model yang mengklasifikasikan wajah.
Cara lain untuk membuat kumpulan data Anda sendiri atau menonjol dari yang lain adalah dengan menggunakan GAN. Jenis model ini dapat menghasilkan data dengan menggunakan data lain. Misalnya, jika Anda tidak memiliki cukup data untuk menyelesaikan masalah, Anda dapat mencoba menggunakan GAN untuk menghasilkan lebih banyak data. Kemudian setelah memasang model pada data baru Anda bisa melihat apakah hasilnya membaik.
Cara lain untuk menonjol dari yang lain adalah dengan menggunakan kumpulan data yang belum siap untuk dimodelkan. Artinya data tidak dibersihkan artinya Anda perlu menggunakan berbagai teknik untuk membersihkan data.
Membuat kumpulan data Anda sendiri akan memperluas pengetahuan Anda tentang cara menyiapkan data dan menjelajahi data. Salah satu cara terbaik untuk memahami apakah Anda terpisah dari orang banyak adalah dengan menemukan pertanyaan yang dapat dijawab oleh data. Lagi pula, sebagian besar perusahaan mempekerjakan ilmuwan data untuk menemukan wawasan bermakna yang membantu mereka menghasilkan lebih banyak uang.
Salah satu proyek yang saya kerjakan adalah mobil mini self-driving. Ini akan menggunakan data waktu nyata untuk melatih model pembelajaran mendalam. Ini adalah salah satu contoh proyek unik yang membuat pewawancara tertarik.
Cara Nyata Anda Harus Menggunakan Kaggle
Meskipun Kaggle mungkin tidak membuat pewawancara terkesan, keterampilan yang Anda pelajari dari pemodelan kumpulan data akan mengesankan. Kaggle sejauh ini merupakan cara terbaik untuk mempelajari cara memodelkan kumpulan data karena Anda memiliki akses ke begitu banyak. Untuk menggunakan Kaggle dengan benar, Anda harus bertanya pada diri sendiri apa kelemahan Anda. Setelah Anda menemukan kelemahan, temukan dataset yang dapat membantu Anda memperbaiki kelemahan Anda.
Misalnya, katakanlah saya ingin memahami lebih baik tentang GAN dan juga mendapatkan lebih banyak pengalaman coding dengan mereka. Hal pertama yang akan saya lakukan adalah menemukan kumpulan data sederhana seperti MNIST dan memodelkannya dengan GAN. Sejak saat itu saya akan bekerja sampai ke kumpulan data yang lebih sulit sampai saya berhasil mencapai tujuan saya, dalam hal ini, untuk memahami GAN dan cara menggunakannya.
Setelah saya memperbaiki kelemahan saya, saya kemudian dapat menerapkannya pada kumpulan data yang telah saya buat atau pada kumpulan data yang sulit digunakan.
Kaggle juga menilai kumpulan data berdasarkan kegunaan, salah satu cara Anda dapat meningkatkan analisis data dan keterampilan EDA adalah dengan menemukan kumpulan data dengan skor kegunaan yang lebih kecil.