Pourquoi vous ne devriez jamais utiliser les ensembles de données Kaggle dans un CV !

Nov 26 2022

Les ensembles de données Kaggle sont surutilisés et ne sont pas réalistes ! Bien que Kaggle puisse être un excellent point de départ pour les scientifiques de données débutants, vous ne devez jamais utiliser les ensembles de données dans un CV. La dure vérité est que les enquêteurs ne se soucient pas que vous modélisiez l'ensemble de données du Titanic.

Les ensembles de données Kaggle sont surutilisés et ne sont pas réalistes !

Page d'accueil des compétitions Kaggle, photo de l'auteur

Bien que Kaggle puisse être un excellent point de départ pour les scientifiques de données débutants, vous ne devez jamais utiliser les ensembles de données dans un CV. La dure vérité est que les enquêteurs ne se soucient pas que vous modélisiez l'ensemble de données du Titanic.

Les intervieweurs recherchent quelque chose de spécial, quelque chose qui vous distingue de la foule. Kaggle vous fait rejoindre cette foule parce que tout le monde utilise les jeux de données Kaggle !

Un autre problème avec Kaggle Datasets est que la plupart des données sont déjà nettoyées pour vous ! C'est une grande différence par rapport à l'expérience de travail réelle. Dans un environnement réel, vous devrez nettoyer les données et vous assurer que les données conduiront à des informations. Avec les jeux de données Kaggle, vous savez déjà que le modèle apprendra (la plupart des jeux de données au moins).

Eh bien, comment vous démarquez-vous de la foule?

Bien qu'il existe de nombreuses façons de vous démarquer de la foule, l'une des meilleures consiste à créer votre propre ensemble de données. Pour créer votre propre ensemble de données, vous pouvez utiliser diverses méthodes telles que le grattage Web, l'utilisation de vos propres données, des données en temps réel, des données d'API, etc. Une idée à laquelle j'ai pensé était d'importer des photos de Google Photos et d'essayer de créer un modèle qui classe les visages.

Une autre façon de créer votre propre ensemble de données ou simplement de vous démarquer consiste à utiliser des GAN. Ces types de modèles peuvent générer des données en utilisant d'autres données. Par exemple, si vous ne disposez pas de suffisamment de données pour résoudre le problème, vous pouvez essayer d'utiliser un GAN pour générer davantage de données. Ensuite, après avoir ajusté le modèle sur les nouvelles données, vous pourrez voir si les résultats se sont améliorés.

Une autre façon de se démarquer consiste à utiliser des ensembles de données qui ne sont pas prêts à être modélisés. Cela signifie que les données ne sont pas nettoyées, ce qui signifie que vous devrez utiliser diverses techniques pour nettoyer les données.

La création de votre propre ensemble de données élargira vos connaissances sur la façon de préparer les données et d'explorer les données. L'une des meilleures façons de comprendre si vous êtes en dehors de la foule est de trouver des questions auxquelles les données peuvent répondre. Après tout, la plupart des entreprises embauchent des scientifiques des données pour trouver des informations significatives qui les aident à gagner plus d'argent.

Un projet sur lequel je travaille est une mini voiture autonome. Cela utilisera des données en temps réel pour former un modèle d'apprentissage en profondeur. Il s'agit d'un exemple de projet unique qui intriguera les enquêteurs.

La vraie façon dont vous devriez utiliser Kaggle

Bien que Kaggle n'impressionne peut-être pas les enquêteurs, les compétences que vous apprenez en modélisant les ensembles de données le feront. Kaggle est de loin le meilleur moyen d'apprendre à modéliser des ensembles de données, car vous avez accès à un si grand nombre. Pour bien utiliser Kaggle, vous devez vous demander quelles sont vos faiblesses. Après avoir trouvé une faiblesse, trouvez un ensemble de données qui peut vous aider à améliorer votre faiblesse.

Par exemple, disons que j'aimerais mieux comprendre les GAN et également acquérir plus d'expérience en matière de codage avec eux. La première chose que je ferais est de trouver un ensemble de données simple comme MNIST et de le modéliser avec un GAN. À partir de là, je travaillerais jusqu'à des ensembles de données plus difficiles jusqu'à ce que j'aie atteint mon objectif avec succès, dans ce cas, il s'agissait de comprendre les GAN et comment les utiliser.

Après avoir amélioré ma faiblesse, je pourrais ensuite l'appliquer à un ensemble de données que j'ai créé ou à un ensemble de données difficile à utiliser.

Kaggle évalue également les ensembles de données en fonction de leur convivialité. Une façon d'améliorer vos compétences en analyse de données et en EDA consiste à trouver un ensemble de données avec un score de convivialité plus petit.