Dlaczego nigdy nie powinieneś używać zestawów danych Kaggle w CV!

Nov 26 2022
Zestawy danych Kaggle są nadużywane i nie są realistyczne! Chociaż Kaggle może być świetnym miejscem do rozpoczęcia dla początkujących analityków danych, nigdy nie należy używać zestawów danych w CV. Smutna prawda jest taka, że ​​ankieterów nie obchodzi to, że modelujesz zestaw danych Titanica.

Zestawy danych Kaggle są nadużywane i nie są realistyczne!

Strona główna konkursu Kaggle, fot. autor

Chociaż Kaggle może być świetnym miejscem do rozpoczęcia dla początkujących analityków danych, nigdy nie należy używać zestawów danych w CV. Smutna prawda jest taka, że ​​ankieterów nie obchodzi to, że modelujesz zestaw danych Titanica.

Ankieterzy szukają czegoś wyjątkowego, czegoś, co wyróżni Cię z tłumu. Kaggle sprawia, że ​​dołączasz do tego tłumu, ponieważ wszyscy używają zestawów danych Kaggle!

Innym problemem związanym z zestawami danych Kaggle jest to, że większość danych jest już dla Ciebie oczyszczona! To ogromna różnica w porównaniu z rzeczywistym doświadczeniem zawodowym. W rzeczywistych warunkach będziesz musiał wyczyścić dane i faktycznie upewnić się, że dane doprowadzą do spostrzeżeń. Dzięki zestawom danych Kaggle już wiesz, że model będzie się uczył (przynajmniej większość zestawów danych).

No właśnie, jak wyróżnić się z tłumu?

Chociaż istnieje wiele sposobów na wyróżnienie się z tłumu, jednym z najlepszych sposobów jest utworzenie własnego zbioru danych. Aby utworzyć własny zestaw danych, możesz użyć różnych metod, takich jak web-scraping, wykorzystanie własnych danych, danych w czasie rzeczywistym, danych z interfejsów API itp. Jednym z pomysłów, o którym pomyślałem, było zaimportowanie zdjęć ze Zdjęć Google i próba zbudowania model klasyfikujący twarze.

Innym sposobem na stworzenie własnego zestawu danych lub po prostu wyróżnienie się z tłumu jest użycie sieci GAN. Te typy modeli mogą generować dane przy użyciu innych danych. Na przykład, jeśli nie masz wystarczającej ilości danych, aby rozwiązać problem, możesz spróbować użyć sieci GAN do wygenerowania większej ilości danych. Następnie po dopasowaniu modelu do nowych danych można było zobaczyć, czy wyniki uległy poprawie.

Innym sposobem wyróżnienia się z tłumu jest użycie zestawów danych, które nie są gotowe do modelowania. Oznacza to, że dane nie są czyszczone, co oznacza, że ​​będziesz musiał użyć różnych technik, aby wyczyścić dane.

Stworzenie własnego zbioru danych poszerzy Twoją wiedzę na temat przygotowywania danych i ich eksploracji. Jednym z najlepszych sposobów, aby zrozumieć, czy wyróżniasz się z tłumu, jest znalezienie pytań, na które dane mogą odpowiedzieć. W końcu większość firm zatrudnia analityków danych, aby znaleźć znaczące spostrzeżenia, które pomogą im zarobić więcej pieniędzy.

Jednym z projektów, nad którymi pracuję, jest mini samojezdny samochód. Będzie to wykorzystywać dane w czasie rzeczywistym do trenowania modelu głębokiego uczenia się. To jeden z przykładów wyjątkowego projektu, który zaintryguje ankieterów.

Prawdziwy sposób, w jaki powinieneś używać Kaggle

Chociaż Kaggle może nie zaimponować ankieterom, umiejętności, których nauczysz się podczas modelowania zestawów danych, zrobią to. Kaggle to zdecydowanie najlepszy sposób na naukę modelowania zestawów danych, ponieważ masz dostęp do tak wielu. Aby właściwie używać Kaggle, musisz zadać sobie pytanie, jakie są twoje słabości. Po znalezieniu słabego punktu znajdź zestaw danych, który może pomóc Ci poprawić tę słabość.

Załóżmy na przykład, że chciałbym lepiej zrozumieć sieci GAN, a także zdobyć więcej doświadczenia w ich kodowaniu. Pierwszą rzeczą, którą bym zrobił, to znaleźć prosty zestaw danych, taki jak MNIST, i modelować go za pomocą GAN. Od tego czasu przechodzę do trudniejszych zestawów danych, aż pomyślnie osiągnę swój cel, w tym przypadku było to zrozumienie sieci GAN i tego, jak z nich korzystać.

Po poprawieniu mojej słabości mógłbym zastosować to do zbioru danych, który stworzyłem lub do zbioru danych, który jest trudny w użyciu.

Kaggle ocenia również zestawy danych na podstawie użyteczności. Jednym ze sposobów poprawy analizy danych i umiejętności EDA jest znalezienie zestawu danych o mniejszym wyniku użyteczności.