El portafolio asesino de ciencia de datos que lo contrata

Nov 24 2022

¡Aprenda cómo crear la cartera de ciencia de datos definitiva que le permitirá obtener el trabajo de científico de datos que ha estado buscando!

Si está solicitando trabajos de ciencia de datos sin una cartera de proyectos para mostrar sus habilidades, se está vendiendo corto. En este artículo, hablaré sobre por qué una cartera es imprescindible para cualquier analista de datos o científico de datos y cómo construir una cartera de ciencia de datos impresionante.

¿Necesito una cartera de proyectos de ciencia de datos?

¡Imagina contratar una banda para tu boda sin saber qué tipo de música tocan! Esa es una estrategia de "Me siento con suerte" que podría conducir a un comienzo difícil.

Ahora, la imagen tiene tres bandas para seleccionar. Uno de ellos ha incluido un portafolio de SoundCloud donde tienen vistas previas de sus canciones perfectamente organizadas por géneros como listas de reproducción. ¿No te llevaría eso de inmediato a escuchar su música, compartirla con tu pareja y llegar colectivamente a la decisión de contratarlos y sugerir personalizaciones?

Lo mismo sucede con los reclutadores y gerentes de contratación que revisan su currículum. Es más probable que hagan clic en su cartera, exploren sus proyectos, lean los comentarios públicos, vean su historial de actividades, etc.

Al incluir una cartera, está aumentando drásticamente las posibilidades de que su cliente (el HM o el reclutador) aprenda más sobre usted , sus habilidades con los datos, su capacidad para aplicar esas habilidades y, con suerte, su pasión genuina por el análisis de datos. Entonces, SÍ , absolutamente necesitas una cartera.

Cómo crear un portafolio de ciencia de datos impresionante

Exploremos cómo los científicos de datos, los analistas de datos y otros entusiastas de los datos pueden crear una cartera increíble que seguramente creará entusiasmo e interés para los empleadores potenciales. Más allá del empleo, los portafolios son una excelente manera de mantenerse motivado para aprender y exhibir: ¡construya su propia marca!

Un portafolio definitivo de ciencia de datos tiene 4 componentes que deben ser extremadamente sólidos:

Dónde alojar el portafolio: es fundamental asegurarse de alojar su portafolio en una plataforma que esté diseñada para mostrar su trabajo públicamente y enfatizar la profundidad y calidad de su código. GitHub es, con mucho, la opción más popular desde estas dos perspectivas. También es una práctica normal que un gerente de contratación solicite o explore de manera proactiva el perfil de GitHub de un candidato a un puesto de trabajo para comprender el nivel de habilidad del candidato.
Organice los proyectos en colecciones significativas: un portafolio bien organizado le dice al mundo que tiene lo que se necesita para entregar información compleja e interconectada en un formato fácil de entender.
Seleccione proyectos impactantes que transmitan el mensaje que le gustaría que se llevara el gerente de contratación o el reclutador, que son: "usted es bueno para comenzar desde la ambigüedad " → "usted es bueno para explorar de manera guiada y planificada" → "usted es bueno para técnicas básicas de ML ” → “usted es bueno para estimar el impacto ” → y “puede hacer todo eso con una calidad de código sobresaliente ”

Utilice GitHub para su cartera de ciencia de datos

Hay muchas razones por las que GitHub es la plataforma preferida para alojar código, proyectos y datos. GitHub es de uso gratuito y tiene opciones pagas con funciones avanzadas como CI/CD. Para uso personal, como alojar su cartera de ciencia de datos, proyectos de aprendizaje automático y similares, la versión gratuita es una excelente opción.

Además de ser de uso gratuito, hay tres razones (de las muchas) por las que GitHub es perfecto para nuestro caso de uso:

Léame: los archivos Léame son joyas absolutas si se usan de manera efectiva. Piense si los archivos Léame son un documento de introducción, explicación y conclusiones, similar a un informe de laboratorio. Aquí es donde le cuentas a la audiencia sobre el proyecto, el problema en cuestión, el enfoque que estás tomando y por qué, las suposiciones que has hecho, los conocimientos que has recopilado, la aplicación de esos conocimientos en el mundo real y las mejoras futuras. te gustaría hacer. Demasiados detalles aquí te harán parecer inmaduro. Muy pocos detalles te harán parecer inexperto. Por lo tanto, proporcione la cantidad correcta de detalles que son esenciales para que el lector obtenga una visión general. Esto es importante porque esto es lo que hacen los científicos de datos cuando no están modelando: explicar los problemas comerciales y describir sus soluciones .
Visibilidad: los portafolios están destinados a ser públicos, es decir, cualquier persona en la web puede encontrar su portafolio y ver los proyectos en los que está trabajando. GitHub tiene una excelente visibilidad en los motores de búsqueda, lo que significa que cualquier persona que busque proyectos similares podrá acceder al tuyo.
Perfil: Su perfil de GitHub es lo que idealmente compartiría con los demás. Dentro de tu perfil habrá repositorios así como tu gráfica de aportes. El gráfico de contribución es una forma rápida para que los gerentes de contratación y los reclutadores evalúen si sus habilidades son activas o pasivas.

Mi perfil de GitHub como ejemplo te dice que codifico mucho y me comprometo mucho. Reviso un poco el código y a veces creo solicitudes de incorporación de cambios. No creo muchos problemas. Como administrador, esto transmite que soy un administrador MUY práctico que todavía codifica todos los días (dentro o fuera de GitHub). Esto es exactamente lo que quiero que transmita mi perfil en este momento de mi carrera.

Vista previa de Jupyter Notebook: la mayoría de los científicos de datos usan Jupyter Notebook para trabajar en proyectos de datos y compartirlos públicamente. GitHub presenta Jupyter Notebooks de forma nativa, lo que permite a los lectores ver su código, texto y gráficos exactamente como los guardó. Esto asegura una alta legibilidad.

Use a modern notebook platform
Rather than using Jupyter Notebooks locally, I would recommend using a modern notebook platform like Noteable. The interactive data explorer and visualizations will help speed up your projects and allow you to focus on your the strength of your models, insights, discussions and conclusions.
You can then export the project as a Jupyter Notebook and upload to GitHub. Needless to say, you should also make your Noteable project public.

Una vez que tenga una cuenta de GitHub, la siguiente pregunta es qué proyectos mostrar. Dependiendo del área elegida y posiblemente de su especialidad, estos proyectos pueden variar mucho.

Qué temas cubrir en un portafolio para científicos de datos

Los científicos de datos deben demostrar que son competentes en las siguientes tres áreas:

Identificación de problemas comerciales: su capacidad para tomar un conjunto de datos públicos, leer sobre él y luego formular algunas hipótesis o algunos problemas comerciales inventados demostrará su capacidad para aplicar su conocimiento a aplicaciones del mundo real. Por ejemplo, en este conjunto de datos de comercio electrónico público , podría plantear un problema comercial de "Encuentre los productos más vendidos y determine si anunciarlos en las redes sociales o no".
Consulta de extracción de datos
, limpieza, agregación de conjuntos de datos desordenados usando SQL, Pandas (y cualquier otra biblioteca que sea su favorita). No puedo enfatizar lo suficiente sobre lo importante que es mostrar las habilidades de SQL . Como gerente de contratación, es muy poco probable que contrate a un científico de datos que sea excelente en Python pero que no sepa SQL.
- Escribir SQL en archivos Excel y CSV directamente : Escribir SQL en Jupyter Notebooks es una molestia. Por lo general, debe usar una biblioteca y luego escribir el SQL entre comillas. Recomiendo usar un cuaderno moderno como noteable.io que le permite ejecutar consultas directamente en un archivo Excel o CSV sin necesidad de ninguna base de datos.. Después de todo, dado que no está solicitando un rol de Arquitecto de base de datos, realmente hay poco o ningún valor en luchar para crear una base de datos local.
- Conectarse a la base de datos: por supuesto, puede conectarse a las bases de datos en Noteble, pero puede que no sea tan fácil (o gratuito) acceder a una base de datos pública. Si tiene acceso (Google: "Conjuntos de datos públicos de BigQuery") a una base de datos, podrá escribir SQL nativo en Noteable. No hay necesidad de paquetes, cotizaciones y todas esas tonterías.
- Cree una base de datos local: alternativamente, puede crear una base de datos local en su computadora, pero todo eso lleva tiempo y lo obliga a generar datos que necesita ingresar en las tablas. Después de todo, su objetivo es mostrar sus habilidades de SQL, no sus habilidades de administración de bases de datos SQL.Entonces, considero esta ruta una pérdida de tiempo bastante grande .
Exploración de datos, visualización
Es esencial para cualquier profesional de datos poder escribir código de buena calidad para segmentar, filtrar, explorar y visualizar datos rápidamente. La mayoría usará Python o R. Por lo tanto, mientras que las plataformas de portátiles modernas como Noteable le permitirán crear gráficos de forma interactiva, todavía recomiendo agregar un par de visualizaciones realmente geniales (consulte r/dataisbeautiful para inspirarse) que muestren su capacidad para usar Pandas, lambda funciones (opcional pero excelente), y matplotlib/seaborn, etc.
Aprendizaje automático
Sin embargo, a la mayoría de los científicos de datos, analistas de datos, ingenieros de datos, ingenieros de inteligencia comercial e ingenieros de aprendizaje automático les resultará beneficioso incluir algunos de los siguientes métodos en sus proyectos:
● Árboles de decisión
● Agrupamiento de K-medias
● K-vecinos más cercanos ( KNN)
● Regresión lineal
● Regresión logística
● Naive Bayes
● Análisis de componentes principales (PCA)
● Bosques aleatorios
● Máquina de vectores de soporte
Esta lista incluye algunos de los métodos más populares y más utilizados en el mundo profesional, por lo que es una gran fuente de inspiración para tus futuros proyectos. Al tener un conocimiento íntimo incluso con algunos de estos métodos, aumenta significativamente sus posibilidades de impresionar al gerente de contratación en su próxima entrevista de trabajo. Le recomiendo que considere el tipo de trabajo que le gustaría obtener y luego trabaje con algunos de los algoritmos anteriores que se implementan comúnmente en su campo elegido.

Cuando se trata de elegir su próximo proyecto, el mejor consejo que he encontrado es centrarse en un problema de la vida real e intentar resolverlo. Por supuesto, la mayoría de los problemas del mundo real están llenos de variables desconocidas y grandes cantidades de datos.

Así que trate de elegir un problema que sea algo limitado, ya sea en alcance o complejidad, ¡o tal vez incluso en ambos! También ten en cuenta que debes apasionarte, al menos un poco, en el proyecto que elijas .

Si no está involucrado en absoluto con el proceso o los resultados, es probable que la calidad de su trabajo sea inferior a la media y es más probable que se queme y se dé por vencido antes de completarlo. Por lo tanto , encuentra algo que te apasione, incluso si ya se ha hecho antes . ¡Todavía aprenderá lecciones valiosas y tendrá un proyecto completo para usar en su cartera!

Inspiración para tus próximos proyectos

Estas son mis fuentes favoritas personales para encontrar ideas para proyectos o para aprender un nuevo tema. Ambos tienen una gran cantidad de recursos, así que asegúrese de no perderse en el ancho del contenido. Más bien, elija un tema y concéntrese en la profundidad a la que puede llegar.

https://goodboychan.github.io/categories/: Este es mi repositorio/blog favorito para seguir. Tiene una cantidad alucinante de tutoriales y ejemplos que están perfectamente organizados por temas.
Kaggle : sigue siendo una mina de oro de conjuntos de datos, así como cuadernos públicos que pueden ayudarlo a aprender y mejorar la calidad de su código.

proyecto de ejemplo

Por ejemplo, un método popular es el agrupamiento de K-means, que es un algoritmo extremadamente simple para el aprendizaje automático, donde solo necesita conocer algunas variables y puntos de datos diferentes para obtener resultados interesantes.

Imaginemos que está trabajando para una gran empresa de comercio electrónico en línea y que esta empresa ha recopilado información clave de sus clientes. Estos datos incluyen las edades de los clientes, la cantidad que gastan y los tipos de productos que compraron.

El agrupamiento de K-means le permite segmentar cada compra y usuario en grupos, para obtener una descripción general de las diferentes personas compradoras. Todo esto, con solo 3 variables diferentes.

Cómo abordar los proyectos.

Si su propósito principal para crear una cartera en línea de sus proyectos de ciencia de datos es atraer a posibles empleadores, entonces debe abordar cada proyecto con un conjunto de reglas estrictas que establezca . Esto lo salvará de la fuga de alcance y la fuga de tiempo.

Si es nuevo en el mundo de la ciencia de datos, simplemente obtener más experiencia será la mayor recompensa que puede obtener. Después de todo, está compitiendo contra miles de otros desarrolladores, ingenieros y científicos de datos, por lo que debe ser lo mejor que pueda. Y la práctica hace al maestro.

Sigue trabajando en diferentes proyectos cuando tengas tiempo, y tarde o temprano te darás cuenta de que ahora estás muchos niveles por encima de donde estabas hace unos meses.

También es importante recordar que muy pocos entrevistadores de trabajo realmente revisarán todo su código en GitHub, y aún menos descargarán y compilarán sus guiones. Lo importante es que demuestre que tiene el conocimiento de algoritmos comunes, la capacidad de resolución de problemas para abordar desafíos ambiguos y las habilidades de programación necesarias para que esto suceda .

Por supuesto, tampoco deberías simplemente subir proyectos rotos. Es importante que escriba el código usted mismo, incluso si sigue un tutorial o una guía en línea. De esta manera te familiarizarás más con cada línea de código y tu comprensión será mucho mejor. Por otro lado, si solo copia/pega otro proyecto y cambia el nombre de algunas variables, puedo garantizarle que arruinará la entrevista.

Generar interés por tu perfil

Si ha estado trabajando arduamente en un proyecto de ciencia de datos del que está orgulloso, podría considerar generar cierta exposición para usted y su proyecto. No debe esperar que toneladas de personas aprendan sobre su proyecto simplemente cargando su código fuente en GitHub.

Pero eso no significa que tu proyecto deba pasar desapercibido. Le recomiendo que escriba una publicación de blog detallada en Medium.com o en su propio sitio web, que entre en detalles con los detalles de su proyecto, y que lo escriba de tal manera que sea percibido como un experto en el tema.

Y recuerde incluir enlaces a su perfil y proyectos de GitHub en esta publicación de blog, por supuesto.

Pensamientos finales

Ahí tienes. He cubierto algunas de las cosas más importantes a tener en cuenta al crear una cartera increíble como científico de datos. Al ceñirse a los temas que le interesan y que utilizan algunos de los métodos y algoritmos líderes en la industria, puede prepararse para el éxito en futuras entrevistas de trabajo. ¡Es realmente así de simple!

— Escrito con ❤️ bajo la medianoche ️

PD: Solo soy un humilde blogger. Cometo errores y tengo puntos ciegos. Si notas cosas que puedo mejorar o si solo quieres chatear, no dudes en enviarme un mensaje privado :)