Warum Sie niemals Kaggle-Datensätze in einem Lebenslauf verwenden sollten!

Nov 26 2022
Kaggle-Datensätze werden überstrapaziert und sind nicht realistisch! Obwohl Kaggle ein großartiger Ausgangspunkt für Anfänger im Bereich Data Scientists sein kann, sollten Sie die Datensätze niemals in einem Lebenslauf verwenden. Die harte Wahrheit ist, dass es den Interviewern egal ist, ob Sie den Titanic-Datensatz modellieren.

Kaggle-Datensätze werden überstrapaziert und sind nicht realistisch!

Homepage der Kaggle-Wettbewerbe, Foto vom Autor

Obwohl Kaggle ein großartiger Ausgangspunkt für Anfänger im Bereich Data Scientists sein kann, sollten Sie die Datensätze niemals in einem Lebenslauf verwenden. Die harte Wahrheit ist, dass es den Interviewern egal ist, ob Sie den Titanic-Datensatz modellieren.

Interviewer suchen das Besondere, etwas, das Sie von der Masse abhebt. Kaggle bringt Sie dazu, sich dieser Menge anzuschließen, weil jeder Kaggle-Datensätze verwendet!

Ein weiteres Problem mit Kaggle Datasets ist, dass die meisten Daten bereits für Sie bereinigt sind! Das ist ein gewaltiger Unterschied im Vergleich zur realen Arbeitserfahrung. In einer realen Umgebung müssen Sie die Daten bereinigen und sicherstellen, dass die Daten zu Erkenntnissen führen. Bei Kaggle-Datensätzen wissen Sie bereits, dass das Modell lernen wird (zumindest die meisten Datensätze).

Nun, wie heben Sie sich von der Masse ab?

Obwohl es viele Möglichkeiten gibt, sich von der Masse abzuheben, ist eine der besten Möglichkeiten, einen eigenen Datensatz zu erstellen. Um Ihren eigenen Datensatz zu erstellen, können Sie verschiedene Methoden wie Web-Scraping, Verwenden Ihrer eigenen Daten, Echtzeitdaten, Daten von APIs usw. verwenden Modell, das die Gesichter klassifiziert.

Eine weitere Möglichkeit, Ihren eigenen Datensatz zu erstellen oder sich einfach von der Masse abzuheben, ist die Verwendung von GANs. Diese Arten von Modellen können Daten generieren, indem sie andere Daten verwenden. Wenn Sie beispielsweise nicht über genügend Daten verfügen, um das Problem zu lösen, können Sie versuchen, mithilfe eines GAN weitere Daten zu generieren. Nachdem Sie das Modell an die neuen Daten angepasst haben, können Sie sehen, ob sich die Ergebnisse verbessert haben.

Eine weitere Möglichkeit, sich von der Masse abzuheben, ist die Verwendung von Datensätzen, die noch nicht modellierbar sind. Dies bedeutet, dass die Daten nicht bereinigt werden, was bedeutet, dass Sie eine Vielzahl von Techniken anwenden müssen, um die Daten zu bereinigen.

Das Erstellen Ihres eigenen Datensatzes erweitert Ihr Wissen darüber, wie Sie Daten vorbereiten und Daten untersuchen. Eine der besten Möglichkeiten, um zu verstehen, ob Sie sich von der Masse abheben, besteht darin, Fragen zu finden, die die Daten beantworten können. Schließlich stellen die meisten Unternehmen Data Scientists ein, um aussagekräftige Erkenntnisse zu gewinnen, die ihnen helfen, mehr Geld zu verdienen.

Ein Projekt, an dem ich arbeite, ist ein selbstfahrendes Mini-Auto. Dabei werden Echtzeitdaten verwendet, um ein Deep-Learning-Modell zu trainieren. Dies ist ein Beispiel für ein einzigartiges Projekt, von dem Interviewer fasziniert sein werden.

Die wahre Art und Weise, wie Sie Kaggle verwenden sollten

Auch wenn Kaggle die Interviewer vielleicht nicht beeindrucken wird, werden die Fähigkeiten, die Sie durch die Modellierung der Datensätze lernen, es tun. Kaggle ist bei weitem der beste Weg, um zu lernen, wie Datensätze modelliert werden, da Sie Zugriff auf so viele haben. Um Kaggle richtig zu verwenden, müssen Sie sich fragen, was Ihre Schwächen sind. Nachdem Sie eine Schwäche gefunden haben, finden Sie einen Datensatz, der Ihnen helfen kann, Ihre Schwäche zu verbessern.

Nehmen wir zum Beispiel an, ich möchte ein besseres Verständnis von GANs erlangen und auch mehr Erfahrung mit dem Codieren mit ihnen sammeln. Als erstes würde ich einen einfachen Datensatz wie MNIST finden und ihn mit einem GAN modellieren. Von da an würde ich mich zu schwierigeren Datensätzen hocharbeiten, bis ich mein Ziel erfolgreich erreicht habe, in diesem Fall war es, GANs zu verstehen und wie man sie verwendet.

Nachdem ich meine Schwäche verbessert habe, könnte ich das dann auf einen Datensatz anwenden, den ich erstellt habe, oder auf einen Datensatz, der schwierig zu verwenden ist.

Kaggle bewertet Datensätze auch basierend auf der Benutzerfreundlichkeit. Eine Möglichkeit, Ihre Datenanalyse- und EDA-Fähigkeiten zu verbessern, besteht darin, einen Datensatz mit einem niedrigeren Benutzerfreundlichkeitswert zu finden.