Perché non dovresti mai usare i set di dati Kaggle in un curriculum!

Nov 26 2022

I set di dati Kaggle sono sovrautilizzati e non sono realistici! Sebbene Kaggle possa essere un ottimo punto di partenza per i data scientist principianti, non dovresti mai utilizzare i set di dati in un curriculum. La dura verità è che agli intervistatori non interessa che tu modelli il set di dati del Titanic.

I set di dati Kaggle sono sovrautilizzati e non sono realistici!

Kaggle Competitions Homepage, foto per autore

Sebbene Kaggle possa essere un ottimo punto di partenza per i data scientist principianti, non dovresti mai utilizzare i set di dati in un curriculum. La dura verità è che agli intervistatori non interessa che tu modelli il set di dati del Titanic.

Gli intervistatori cercano qualcosa di speciale, qualcosa che ti distingua dalla massa. Kaggle ti fa unire a quella folla perché tutti usano i set di dati Kaggle!

Un altro problema con Kaggle Datasets è che la maggior parte dei dati è già stata pulita per te! Questa è una grande differenza rispetto all'esperienza lavorativa nella vita reale. In un ambiente reale, dovrai pulire i dati e assicurarti effettivamente che i dati portino a approfondimenti. Con i set di dati Kaggle, sai già che il modello imparerà (almeno la maggior parte dei set di dati).

Bene, come ti distingui dalla massa?

Sebbene ci siano molti modi per distinguerti dalla massa, uno dei modi migliori è creare il tuo set di dati. Per creare il tuo set di dati, puoi utilizzare vari metodi come il web scraping, l'utilizzo dei tuoi dati, i dati in tempo reale, i dati delle API e così via. Un'idea a cui ho pensato è stata quella di importare foto da Google Foto e provare a creare un modello che classifica i volti.

Un altro modo per creare il proprio set di dati o semplicemente distinguersi dalla massa è utilizzare i GAN. Questi tipi di modelli possono generare dati utilizzando altri dati. Ad esempio, se non disponi di dati sufficienti per risolvere il problema, puoi tentare di utilizzare un GAN per generare più dati. Quindi, dopo aver adattato il modello ai nuovi dati, potresti vedere se i risultati sono migliorati.

Un altro modo per distinguersi dalla massa è utilizzare set di dati che non sono pronti per essere modellati. Ciò significa che i dati non vengono puliti, il che significa che sarà necessario utilizzare una varietà di tecniche per pulire i dati.

La creazione del tuo set di dati amplierà le tue conoscenze su come preparare i dati ed esplorare i dati. Uno dei modi migliori per capire se sei lontano dalla massa è trovare domande a cui i dati possono rispondere. Dopotutto, la maggior parte delle aziende assume data scientist per trovare approfondimenti significativi che li aiutino a guadagnare di più.

Un progetto su cui sto lavorando è una mini auto a guida autonoma. Questo utilizzerà dati in tempo reale per addestrare un modello di deep learning. Questo è un esempio di un progetto unico che incuriosirà gli intervistatori.

Il vero modo in cui dovresti usare Kaggle

Sebbene Kaggle potrebbe non impressionare gli intervistatori, le abilità che apprendi dalla modellazione dei set di dati lo faranno. Kaggle è di gran lunga il modo migliore per imparare a modellare i set di dati perché hai accesso a così tanti. Per usare correttamente Kaggle, devi chiederti quali sono i tuoi punti deboli. Dopo aver trovato un punto debole, trova un set di dati che possa aiutarti a migliorare il tuo punto debole.

Ad esempio, supponiamo che mi piacerebbe comprendere meglio i GAN e anche acquisire maggiore esperienza di codifica con essi. La prima cosa che farei è trovare un semplice set di dati come MNIST e modellarlo con un GAN. Da allora mi sarei fatto strada fino a set di dati più difficili fino a quando non avessi raggiunto con successo il mio obiettivo, in questo caso era capire i GAN e come usarli.

Dopo aver migliorato la mia debolezza, potrei quindi applicarla a un set di dati che ho creato oa un set di dati difficile da usare.

Kaggle valuta anche i set di dati in base all'usabilità, un modo per migliorare l'analisi dei dati e le competenze EDA è trovare un set di dati con un punteggio di usabilità inferiore.