Das Killer-Data-Science-Portfolio, mit dem Sie eingestellt werden
Wenn Sie sich für Data-Science-Jobs ohne ein Portfolio von Projekten bewerben, um Ihre Fähigkeiten zu demonstrieren, verkaufen Sie sich unter Wert. In diesem Artikel werde ich darüber sprechen, warum ein Portfolio ein Muss für jeden Datenanalysten oder Datenwissenschaftler ist und wie man ein beeindruckendes Data-Science-Portfolio aufbaut.
Benötige ich ein Portfolio von Data-Science-Projekten?
Stellen Sie sich vor, Sie engagieren eine Band für Ihre Hochzeit, ohne zu wissen, welche Art von Musik sie spielen! Das ist eine „Ich fühle mich glücklich“-Strategie, die zu einem holprigen Start führen könnte.
Nun, Bildgebung mit drei Bändern zur Auswahl. Einer von ihnen hat ein SoundCloud-Portfolio hinzugefügt, in dem sie Vorschauen ihrer Songs haben, die ordentlich nach Genres als Wiedergabelisten organisiert sind. Würde das Sie nicht sofort dazu bringen, ihre Musik zu hören, mit Ihrem Partner zu teilen und gemeinsam zu einer Entscheidung zu kommen, sie einzustellen und Anpassungen vorzuschlagen?
Dasselbe passiert mit den Personalvermittlern und Einstellungsmanagern, die Ihren Lebenslauf überprüfen. Es ist wahrscheinlicher, dass sie auf Ihr Portfolio klicken, Ihre Projekte erkunden, die öffentlichen Kommentare lesen, Ihren Aktivitätsverlauf sehen usw.
Indem Sie ein Portfolio hinzufügen, erhöhen Sie die Chancen Ihres Kunden (der HM oder der Personalvermittler) drastisch, mehr über Sie , Ihre Datenkenntnisse, Ihre Fähigkeit, diese Fähigkeiten anzuwenden, und hoffentlich Ihre echte Leidenschaft für die Datenanalyse zu erfahren. Also, JA , Sie brauchen unbedingt ein Portfolio.
Wie man ein großartiges Data-Science-Portfolio aufbaut
Lassen Sie uns untersuchen, wie Datenwissenschaftler, Datenanalysten und andere Datenbegeisterte ein erstaunliches Portfolio erstellen können, das bei potenziellen Arbeitgebern mit Sicherheit Aufregung und Interesse wecken kann. Über die Beschäftigung hinaus sind Portfolios eine großartige Möglichkeit, sich zum Lernen und Präsentieren zu motivieren – bauen Sie Ihre eigene Marke auf!
Ein ultimatives Data-Science-Portfolio besteht aus 4 Komponenten , die extrem solide sein müssen:
- Wo das Portfolio gehostet werden soll: Es ist wichtig sicherzustellen, dass Sie Ihr Portfolio auf einer Plattform hosten, die darauf ausgelegt ist, Ihre Arbeit öffentlich zu präsentieren und gleichzeitig Ihre Codetiefe und -qualität hervorzuheben. Aus beiden Perspektiven ist GitHub bei weitem die beliebteste Wahl. Es ist auch üblich, dass ein Personalchef nach dem GitHub-Profil eines Stellenbewerbers fragt oder es proaktiv durchsucht, um das Qualifikationsniveau des Kandidaten zu verstehen.
- Organisieren Sie die Projekte in aussagekräftigen Sammlungen: Ein ordentlich organisiertes Portfolio zeigt der Welt, dass Sie das Zeug dazu haben, komplexe und miteinander verbundene Informationen in einem leicht verständlichen Format bereitzustellen.
- Wählen Sie wirkungsvolle Projekte aus , die die Botschaft vermitteln, die der Personalchef oder Personalvermittler mitnehmen soll – nämlich: „Sie sind gut darin, von Mehrdeutigkeiten auszugehen “ → „Sie sind gut darin, geführt und geplant zu erkunden “ → „Sie sind gut darin Kern-ML- Techniken“ → „Sie können Auswirkungen gut einschätzen “ → „Sie können all das mit hervorragender Codequalität tun “
Nutzen Sie GitHub für Ihr Data-Science-Portfolio
Es gibt viele Gründe, warum GitHub die bevorzugte Plattform zum Hosten von Code, Projekten und Daten ist. GitHub kann kostenlos verwendet werden und bietet kostenpflichtige Optionen mit erweiterten Funktionen wie CI/CD. Für den persönlichen Gebrauch, wie das Hosten Ihres Data-Science-Portfolios, Machine-Learning-Projekte und ähnliches, ist die kostenlose Version eine gute Wahl.
Neben der kostenlosen Nutzung gibt es drei Gründe (von vielen), warum GitHub perfekt für unseren Anwendungsfall ist:
- Readme: Die Readme-Dateien sind absolute Juwelen, wenn sie effektiv eingesetzt werden. Stellen Sie sich Readme-Dateien als ein Einführungs-, Erklärungs- und Schlussfolgerungsdokument vor – ähnlich wie ein Laborbericht. Hier erzählen Sie dem Publikum über das Projekt, das vorliegende Problem, Ihren Ansatz und warum, die Annahmen, die Sie getroffen haben, die Erkenntnisse, die Sie gesammelt haben, die Anwendung dieser Erkenntnisse in der realen Welt und die zukünftigen Verbesserungen Sie machen möchten. Zu viele Details lassen Sie hier unreif erscheinen. Zu wenig Details lassen Sie ungeschickt aussehen. Geben Sie also die richtige Menge an Details an, die für einen Leser unerlässlich sind, um sich einen Überblick zu verschaffen. Dies ist wichtig, da Datenwissenschaftler genau das tun, wenn sie nicht modellieren – Geschäftsprobleme erklären und ihre Lösungen beschreiben .
- Auffindbarkeit: Portfolios sollen öffentlich sein, dh jeder im Internet kann Ihr Portfolio finden und die Projekte sehen, an denen Sie arbeiten. GitHub hat eine hervorragende Sichtbarkeit in Suchmaschinen – was bedeutet, dass jeder, der nach ähnlichen Projekten sucht, auf Ihrem landen kann!
- Profil: Ihr GitHub-Profil ist das, was Sie idealerweise mit anderen teilen würden. In Ihrem Profil gibt es Repositories sowie Ihr Beitragsdiagramm. Das Beitragsdiagramm ist eine schnelle Möglichkeit für Personalchefs und Personalvermittler zu beurteilen, ob Ihre Fähigkeiten aktiv oder passiv sind.
- Jupyter Notebook-Vorschau: Die meisten Data Scientists verwenden Jupyter Notebooks, um an Datenprojekten zu arbeiten und sie öffentlich freizugeben. GitHub rendert Jupyter Notebooks nativ, sodass Leser Ihren Code, Text und Diagramme genau so sehen können, wie Sie sie speichern. Dies gewährleistet eine hohe Lesbarkeit.
Use a modern notebook platform
Rather than using Jupyter Notebooks locally, I would recommend using a modern notebook platform like Noteable. The interactive data explorer and visualizations will help speed up your projects and allow you to focus on your the strength of your models, insights, discussions and conclusions.
You can then export the project as a Jupyter Notebook and upload to GitHub. Needless to say, you should also make your Noteable project public.
Sobald Sie ein GitHub-Konto haben, stellt sich die nächste Frage, welche Projekte präsentiert werden sollen. Abhängig von Ihrem gewählten Bereich und möglicherweise Ihrer Spezialität können diese Projekte sehr unterschiedlich sein.
Welche Themen sollten in einem Portfolio für Data Scientists behandelt werden?
Data Scientists müssen zeigen, dass sie in den folgenden drei Bereichen kompetent sind:
- Identifizierung von Geschäftsproblemen: Ihre Fähigkeit, einen öffentlichen Datensatz zu nehmen, darüber zu lesen und dann einige Hypothesen oder ein paar erfundene Geschäftsprobleme zu formulieren, wird Ihre Fähigkeit demonstrieren, Ihr Wissen auf reale Anwendungen anzuwenden. In diesem öffentlichen E-Commerce-Datensatz könnten Sie beispielsweise auf ein Geschäftsproblem kommen, das lautet: „Finden Sie die meistverkauften Produkte und bestimmen Sie, ob sie in sozialen Medien beworben werden sollen oder nicht“.
- Datenextraktion
Abfragen, Bereinigen, Aggregieren chaotischer Datensätze mit SQL, Pandas (und welche anderen Bibliotheken auch immer Sie bevorzugen). Ich kann gar nicht genug betonen, wie wichtig es ist, SQL-Kenntnisse zu demonstrieren . Als Personalchef ist es höchst unwahrscheinlich, dass ich einen Datenwissenschaftler einstellen werde, der großartig in Python ist, aber kein SQL kennt.
- Schreiben Sie SQL direkt in Excel- und CSV-Dateien : Das Schreiben von SQL in Jupyter Notebooks ist mühsam. Normalerweise müssen Sie eine Bibliothek verwenden und dann die SQL in Anführungszeichen schreiben. Ich empfehle die Verwendung eines modernen Notebooks wie noteable.io , mit dem Sie Abfragen direkt in einer Excel- oder CSV-Datei ausführen können, ohne eine Datenbank zu benötigen. Da Sie sich schließlich nicht um die Rolle eines Datenbankarchitekten bewerben, ist es wirklich wenig bis gar nicht sinnvoll, sich um die Erstellung einer lokalen Datenbank zu bemühen.
- Mit Datenbank verbinden : Natürlich können Sie in Noteable eine Verbindung zu Datenbanken herstellen, aber es ist möglicherweise nicht so einfach (oder kostenlos), auf eine öffentliche Datenbank zuzugreifen. Wenn Sie Zugriff (Google: „BigQuery public datasets“) auf eine Datenbank haben, können Sie natives SQL in Noteable schreiben. Keine Notwendigkeit für Pakete, Angebote und all diesen Unsinn.
- Erstellen Sie eine lokale Datenbank: Alternativ könnten Sie eine lokale Datenbank auf Ihrem Computer erstellen, aber das alles kostet Zeit und zwingt Sie dazu, Daten zu erstellen, die Sie in die Tabellen eingeben müssen. Schließlich ist es Ihr Ziel, Ihre SQL-Kenntnisse zu demonstrieren, nicht Ihre Fähigkeiten in der SQL-Datenbankverwaltung.Daher halte ich diese Route für eine ziemlich große Zeitverschwendung . - Datenexploration, Visualisierung
Für jeden Datenpraktiker ist es wichtig, qualitativ hochwertigen Code schreiben zu können, um Daten schnell zu segmentieren, zu filtern, zu untersuchen und zu visualisieren. Die meisten werden Python oder R verwenden. Während Sie mit modernen Notebook-Plattformen wie Noteable Diagramme interaktiv erstellen können, empfehle ich dennoch, ein paar wirklich coole Visualisierungen hinzuzufügen (siehe r/dataisbeautiful als Inspiration), die Ihre Fähigkeit zur Verwendung von Pandas, Lambda, demonstrieren Funktionen (optional, aber großartig) und Matplotlib/Seaborn usw. - Maschinelles Lernen
Die meisten Data Scientists, Datenanalysten, Data Engineers, Business Intelligence Engineers und Machine Learning Engineers finden es jedoch vorteilhaft, einige der folgenden Methoden in ihre Projekte aufzunehmen:
● Entscheidungsbäume
● K-Means-Clustering
● K-nächste Nachbarn ( KNN)
● Lineare Regression
● Logistische Regression
● Naive Bayes
● Hauptkomponentenanalyse (PCA)
● Random Forests
● Support Vector Machine
Diese Liste enthält einige der beliebtesten und am weitesten verbreiteten Methoden in der Berufswelt und ist daher eine großartige Inspirationsquelle für Ihre zukünftigen Projekte. Indem Sie sich mit nur wenigen dieser Methoden auskennen, erhöhen Sie Ihre Chancen, den Personalchef bei Ihrem nächsten Vorstellungsgespräch zu beeindrucken, erheblich. Ich empfehle Ihnen, die Art des Jobs zu berücksichtigen, den Sie erhalten möchten, und dann mit einigen der oben genannten Algorithmen zu arbeiten, die üblicherweise in Ihrem gewählten Bereich implementiert sind.
Wenn es um die Auswahl Ihres nächsten Projekts geht, ist der beste Ratschlag, den ich je bekommen habe, sich auf ein echtes Problem zu konzentrieren und zu versuchen, es zu lösen. Natürlich sind die meisten Probleme in der realen Welt mit unbekannten Variablen und großen Datenmengen gefüllt.
Versuchen Sie also, ein Problem auszuwählen, das etwas begrenzt ist, entweder im Umfang oder in der Komplexität oder vielleicht sogar in beidem! Denken Sie auch daran, dass Sie leidenschaftlich sein sollten, zumindest etwas in dem Projekt, das Sie wählen .
Wenn Sie sich überhaupt nicht mit dem Prozess oder den Ergebnissen beschäftigen, wird die Qualität Ihrer Arbeit wahrscheinlich unterdurchschnittlich sein und Sie werden eher ausbrennen und aufgeben, bevor Sie sie abgeschlossen haben. Suchen Sie sich daher etwas aus, für das Sie sich begeistern, auch wenn es schon einmal gemacht wurde . Sie werden trotzdem wertvolle Lektionen lernen und ein vollständiges Projekt in Ihrem Portfolio verwenden können!
Inspiration für Ihre nächsten Projekte
Dies sind meine persönlichen Lieblingsquellen, um Ideen für Projekte zu finden oder ein neues Thema zu lernen. Beide verfügen über eine Fülle von Ressourcen - vergewissern Sie sich also, dass Sie sich nicht in der Breite des Inhalts verlieren. Wählen Sie lieber ein Thema aus und konzentrieren Sie sich auf die Tiefe, zu der Sie gehen können.
- https://goodboychan.github.io/categories/: Dies ist mein Lieblings-Repo/Blog, dem ich folgen möchte. Es hat eine überwältigende Menge an Tutorials und Beispielen, die ordentlich nach Themen geordnet sind.
- Kaggle : Es bleibt eine Goldgrube an Datensätzen sowie öffentlichen Notizbüchern, die Ihnen beim Lernen und Verbessern Ihrer Codequalität helfen können.
Beispielprojekt
Eine beliebte Methode ist beispielsweise K-Means-Clustering, ein extrem einfacher Algorithmus für maschinelles Lernen, bei dem Sie nur wenige verschiedene Variablen und Datenpunkte kennen müssen, um interessante Ergebnisse zu erhalten.
Stellen wir uns vor, Sie arbeiten für ein großes Online-E-Commerce-Unternehmen und dieses Unternehmen hat einige wichtige Informationen von seinen Kunden gesammelt. Zu diesen Daten gehören das Alter der Kunden, der Betrag, den sie ausgeben, und die Art der Produkte, die sie gekauft haben.
K-Means-Clustering ermöglicht es Ihnen dann, jeden Kauf und Benutzer in Cluster zu segmentieren, um einen Überblick über die verschiedenen Käuferpersönlichkeiten zu erhalten. All dies mit nur 3 verschiedenen Variablen.
Wie man an die Projekte herangeht
Wenn Ihr Hauptzweck für die Erstellung eines Online-Portfolios Ihrer Data-Science-Projekte darin besteht, potenzielle Arbeitgeber anzuziehen, sollten Sie jedes Projekt mit einer Reihe strenger Regeln angehen, die Sie aufstellen . Dies erspart Ihnen Scope Creep und Zeitverlust.
Wenn Sie neu in der Welt der Datenwissenschaft sind, dann ist es die größte Belohnung, die Sie bekommen können, einfach mehr Erfahrung zu sammeln. Schließlich konkurrieren Sie mit Tausenden anderer Entwickler, Ingenieure und Datenwissenschaftler, also müssen Sie das Beste aus sich machen. Und Übung macht den Meister.
Arbeiten Sie weiter an verschiedenen Projekten, wenn Sie Zeit haben, und früher oder später werden Sie feststellen, dass Sie jetzt viele Ebenen über dem stehen, was Sie noch vor ein paar Monaten waren.
Es ist auch wichtig, sich daran zu erinnern, dass nur sehr wenige Vorstellungsgespräche Ihren gesamten Code auf GitHub durchsehen und noch weniger Ihre Skripte tatsächlich herunterladen und kompilieren werden. Wichtig ist, dass Sie zeigen, dass Sie über Kenntnisse gängiger Algorithmen, die Fähigkeit zur Problemlösung bei mehrdeutigen Herausforderungen und die dafür erforderlichen Programmierkenntnisse verfügen .
Natürlich sollten Sie auch nicht nur kaputte Projekte hochladen. Es ist wichtig, dass Sie den Code selbst schreiben, auch wenn Sie online einem Tutorial oder einer Anleitung folgen. Auf diese Weise werden Sie mit jeder Codezeile vertrauter und Ihr Verständnis wird viel besser. Auf der anderen Seite, wenn Sie einfach ein anderes Projekt kopieren/einfügen und ein paar Variablen umbenennen, kann ich Ihnen garantieren, dass Sie das Interview bombardieren werden.
Interesse für Ihr Profil wecken
Wenn Sie hart an einem Data-Science-Projekt gearbeitet haben, auf das Sie stolz sind, könnten Sie erwägen, etwas Aufmerksamkeit für sich und Ihr Projekt zu generieren. Sie sollten nicht damit rechnen, dass unzählige Leute etwas über Ihr Projekt erfahren, indem Sie einfach Ihren Quellcode auf GitHub hochladen.
Das heißt aber nicht, dass Ihr Projekt unbemerkt bleiben muss. Ich empfehle Ihnen, einen ausführlichen Blogpost auf Medium.com oder auf Ihrer eigenen Website zu verfassen, der detailliert auf Ihre Projektspezifika eingeht und diesen so verfasst, dass Sie als Experte für das Thema wahrgenommen werden.
Und denken Sie daran, natürlich auch Links zu Ihrem GitHub-Profil und Ihren Projekten in diesen Blogpost aufzunehmen.
Abschließende Gedanken
Hier hast du es. Ich habe einige der wichtigsten Dinge behandelt, die beim Aufbau eines erstaunlichen Portfolios als Datenwissenschaftler zu beachten sind. Indem Sie sich an Themen halten, die Sie interessieren und die einige der führenden Methoden und Algorithmen der Branche verwenden, können Sie sich bei zukünftigen Vorstellungsgesprächen auf Erfolg einstellen. Es ist wirklich so einfach!
— Geschrieben mit ❤️ unter Mitternacht ️
PS: Ich bin nur ein bescheidener Blogger. Ich mache Fehler und ich habe blinde Flecken. Wenn Sie Dinge bemerken, die ich verbessern kann, oder wenn Sie einfach nur chatten möchten, können Sie mir gerne eine DM schreiben :)