ทำไมคุณไม่ควรใช้ชุดข้อมูล Kaggle ในประวัติย่อ!

Nov 26 2022
ชุดข้อมูล Kaggle ใช้งานมากเกินไปและไม่สมจริง! แม้ว่า Kaggle อาจเป็นจุดเริ่มต้นที่ดีสำหรับนักวิทยาศาสตร์ข้อมูลมือใหม่ แต่คุณไม่ควรใช้ชุดข้อมูลในประวัติย่อ ความจริงที่รุนแรงก็คือ ผู้สัมภาษณ์ไม่สนใจว่าคุณสร้างแบบจำลองชุดข้อมูลไททานิค

ชุดข้อมูล Kaggle ใช้งานมากเกินไปและไม่สมจริง!

โฮมเพจการแข่งขัน Kaggle, ภาพถ่ายโดยผู้แต่ง

แม้ว่า Kaggle อาจเป็นจุดเริ่มต้นที่ดีสำหรับนักวิทยาศาสตร์ข้อมูลมือใหม่ แต่คุณไม่ควรใช้ชุดข้อมูลในประวัติย่อ ความจริงที่รุนแรงก็คือ ผู้สัมภาษณ์ไม่สนใจว่าคุณสร้างแบบจำลองชุดข้อมูลไททานิค

ผู้สัมภาษณ์กำลังมองหาบางสิ่งที่พิเศษ บางอย่างที่ทำให้คุณแตกต่างจากคนอื่นๆ Kaggle ทำให้คุณเข้าร่วมกลุ่มนั้นเพราะทุกคนใช้ Kaggle Datasets!

ปัญหาอีกประการหนึ่งของชุดข้อมูล Kaggle คือข้อมูลส่วนใหญ่ได้รับการล้างข้อมูลให้คุณแล้ว! นี่เป็นความแตกต่างอย่างมากเมื่อเทียบกับประสบการณ์การทำงานในชีวิตจริง ในสภาพแวดล้อมจริง คุณจะต้องทำความสะอาดข้อมูลและตรวจสอบให้แน่ใจว่าข้อมูลดังกล่าวจะนำไปสู่ข้อมูลเชิงลึก ด้วยชุดข้อมูล Kaggle คุณรู้อยู่แล้วว่าโมเดลจะเรียนรู้ (อย่างน้อยชุดข้อมูลส่วนใหญ่)

คุณจะแยกตัวเองออกจากฝูงชนได้อย่างไร?

แม้ว่าจะมีหลายวิธีในการแยกตัวคุณออกจากฝูงชน แต่วิธีที่ดีที่สุดวิธีหนึ่งคือการสร้างชุดข้อมูลของคุณเอง ในการสร้างชุดข้อมูลของคุณเอง คุณสามารถใช้วิธีการต่างๆ ได้ เช่น การขูดเว็บ การใช้ข้อมูลของคุณเอง ข้อมูลแบบเรียลไทม์ ข้อมูลจาก API เป็นต้น แนวคิดหนึ่งที่ฉันนึกถึงคือการนำเข้ารูปภาพจาก Google Photos และพยายามสร้าง แบบจำลองที่จำแนกใบหน้า

อีกวิธีหนึ่งในการสร้างชุดข้อมูลของคุณเองหรือทำให้โดดเด่นกว่าใครคือการใช้ GAN แบบจำลองประเภทนี้สามารถสร้างข้อมูลโดยใช้ข้อมูลอื่นๆ ตัวอย่างเช่น ถ้าคุณมีข้อมูลไม่เพียงพอที่จะแก้ปัญหา คุณสามารถลองใช้ GAN เพื่อสร้างข้อมูลเพิ่มเติมได้ หลังจากปรับโมเดลเข้ากับข้อมูลใหม่แล้ว คุณจะเห็นได้ว่าผลลัพธ์ดีขึ้นหรือไม่

อีกวิธีหนึ่งที่จะทำให้โดดเด่นกว่าใครคือการใช้ชุดข้อมูลที่ไม่พร้อมสำหรับการสร้างแบบจำลอง ซึ่งหมายความว่าข้อมูลจะไม่ถูกล้าง หมายความว่าคุณจะต้องใช้เทคนิคต่างๆ ในการล้างข้อมูล

การสร้างชุดข้อมูลของคุณเองจะขยายความรู้ของคุณเกี่ยวกับวิธีเตรียมข้อมูลและสำรวจข้อมูล วิธีที่ดีที่สุดวิธีหนึ่งในการทำความเข้าใจว่าคุณอยู่นอกเหนือฝูงชนหรือไม่ คือการค้นหาคำถามที่ข้อมูลสามารถตอบได้ ท้ายที่สุด บริษัทส่วนใหญ่จ้างนักวิทยาศาสตร์ข้อมูลเพื่อค้นหาข้อมูลเชิงลึกที่มีความหมายซึ่งช่วยให้พวกเขาทำเงินได้มากขึ้น

โครงการหนึ่งที่ฉันกำลังทำอยู่คือรถยนต์ไร้คนขับขนาดเล็ก สิ่งนี้จะใช้ข้อมูลแบบเรียลไทม์เพื่อฝึกโมเดลการเรียนรู้เชิงลึก นี่เป็นตัวอย่างหนึ่งของโครงการที่ไม่เหมือนใครซึ่งผู้สัมภาษณ์จะต้องทึ่ง

วิธีที่แท้จริงที่คุณควรใช้ Kaggle

แม้ว่า Kaggle อาจไม่ประทับใจผู้สัมภาษณ์ แต่ทักษะที่คุณเรียนรู้จากการสร้างแบบจำลองชุดข้อมูลจะสร้างความประทับใจ Kaggle เป็นวิธีที่ดีที่สุดในการเรียนรู้วิธีสร้างโมเดลชุดข้อมูล เพราะคุณสามารถเข้าถึงได้มากมาย ในการใช้ Kaggle อย่างถูกต้อง คุณต้องถามตัวเองว่าจุดอ่อนของคุณคืออะไร หลังจากที่คุณพบจุดอ่อนแล้ว ให้หาชุดข้อมูลที่สามารถช่วยคุณปรับปรุงจุดอ่อนของคุณได้

ตัวอย่างเช่น สมมติว่าฉันต้องการเข้าใจ GAN มากขึ้นและรับประสบการณ์เพิ่มเติมในการเขียนโค้ดด้วย สิ่งแรกที่ฉันจะทำคือหาชุดข้อมูลง่ายๆ เช่น MNIST และจำลองด้วย GAN จากนั้นฉันก็จะพยายามหาชุดข้อมูลที่ยากขึ้นจนกว่าจะบรรลุเป้าหมาย ในกรณีนี้คือการทำความเข้าใจ GAN และวิธีการใช้งาน

หลังจากที่ฉันได้ปรับปรุงจุดอ่อนของฉันแล้ว ฉันสามารถนำสิ่งนั้นไปใช้กับชุดข้อมูลที่ฉันสร้างขึ้นหรือกับชุดข้อมูลที่ยากต่อการใช้งาน

Kaggle ยังให้คะแนนชุดข้อมูลตามความสามารถในการใช้งาน วิธีหนึ่งที่คุณสามารถปรับปรุงการวิเคราะห์ข้อมูลและทักษะ EDA ของคุณได้คือการค้นหาชุดข้อมูลที่มีคะแนนความสามารถในการใช้งานที่น้อยกว่า