¡Por qué nunca debe usar conjuntos de datos de Kaggle en un currículum!

Nov 26 2022
¡Los conjuntos de datos de Kaggle se usan en exceso y no son realistas! Si bien Kaggle puede ser un excelente lugar para que comiencen los científicos de datos principiantes, nunca debe usar los conjuntos de datos en un currículum. La dura verdad es que a los entrevistadores no les importa que modeles el conjunto de datos del Titanic.

¡Los conjuntos de datos de Kaggle se usan en exceso y no son realistas!

Página de inicio de competencias de Kaggle, foto del autor

Si bien Kaggle puede ser un excelente lugar para que comiencen los científicos de datos principiantes, nunca debe usar los conjuntos de datos en un currículum. La dura verdad es que a los entrevistadores no les importa que modeles el conjunto de datos del Titanic.

Los entrevistadores buscan algo especial, algo que lo diferencie de la multitud. ¡Kaggle te hace unirte a esa multitud porque todos usan Kaggle Datasets!

¡Otro problema con Kaggle Datasets es que la mayoría de los datos ya están limpios! Esta es una gran diferencia en comparación con la experiencia laboral de la vida real. En un entorno del mundo real, deberá limpiar los datos y asegurarse de que los datos conduzcan a información. Con los conjuntos de datos de Kaggle, ya sabe que el modelo aprenderá (al menos la mayoría de los conjuntos de datos).

Bueno, ¿cómo te distingues de la multitud?

Si bien hay muchas maneras de diferenciarse de la multitud, una de las mejores es crear su propio conjunto de datos. Para crear su propio conjunto de datos, puede usar varios métodos, como web-scraping, usar sus propios datos, datos en tiempo real, datos de API, etc. Una idea que se me ocurrió fue importar fotos de Google Photos e intentar crear un modelo que clasifica las caras.

Otra forma de crear su propio conjunto de datos o simplemente destacar entre la multitud es mediante el uso de GAN. Estos tipos de modelos pueden generar datos utilizando otros datos. Por ejemplo, si no tiene suficientes datos para resolver el problema, podría intentar usar una GAN para generar más datos. Luego, después de ajustar el modelo a los nuevos datos, podría ver si los resultados han mejorado.

Otra forma de destacar entre la multitud es mediante el uso de conjuntos de datos que no están listos para ser modelados. Esto significa que los datos no se limpian, lo que significa que deberá usar una variedad de técnicas para limpiar los datos.

La creación de su propio conjunto de datos ampliará su conocimiento sobre cómo preparar y explorar datos. Una de las mejores maneras de saber si está aparte de la multitud es encontrar preguntas que los datos puedan responder. Después de todo, la mayoría de las empresas contratan científicos de datos para encontrar información significativa que les ayude a ganar más dinero.

Un proyecto en el que estoy trabajando es un mini coche autónomo. Esto utilizará datos en tiempo real para entrenar un modelo de aprendizaje profundo. Este es un ejemplo de un proyecto único que intrigará a los entrevistadores.

La forma real en que debes usar Kaggle

Aunque es posible que Kaggle no impresione a los entrevistadores, las habilidades que aprenda al modelar los conjuntos de datos lo harán. Kaggle es, con mucho, la mejor manera de aprender a modelar conjuntos de datos porque tiene acceso a muchos. Para usar Kaggle correctamente, debes preguntarte cuáles son tus debilidades. Después de encontrar una debilidad, encuentre un conjunto de datos que pueda ayudarlo a mejorar su debilidad.

Por ejemplo, digamos que me gustaría comprender mejor las GAN y también obtener más experiencia codificando con ellas. Lo primero que haría sería encontrar un conjunto de datos simple como MNIST y modelarlo con una GAN. A partir de entonces, me abrí camino hacia conjuntos de datos más difíciles hasta que logré con éxito mi objetivo, en este caso, era comprender las GAN y cómo usarlas.

Después de haber mejorado mi debilidad, podría aplicarlo a un conjunto de datos que he creado o a un conjunto de datos que es difícil de usar.

Kaggle también califica los conjuntos de datos en función de la usabilidad, una forma en que podría mejorar su análisis de datos y sus habilidades de EDA es encontrar un conjunto de datos con un puntaje de usabilidad más bajo.