あなたを雇うキラーデータサイエンスポートフォリオ

Nov 24 2022
あなたが目指していたデータサイエンティストの仕事を得る究極のデータサイエンスポートフォリオを構築する方法を学びましょう!
スキルを紹介するプロジェクトのポートフォリオを持たずにデータ サイエンスの仕事に応募している場合は、自分自身を安売りしていることになります。この記事では、データ アナリストやデータ サイエンティストにとってポートフォリオが必須である理由と、見事なデータ サイエンス ポートフォリオを構築する方法について説明します。

スキルを紹介するプロジェクトのポートフォリオを持たずにデータ サイエンスの仕事に応募している場合は、自分自身を安売りしていることになります。この記事では、データ アナリストやデータ サイエンティストにとってポートフォリオが必須である理由と、見事なデータ サイエンス ポートフォリオを構築する方法について説明します。

データ サイエンス プロジェクトのポートフォリオは必要ですか?

彼らが演奏する音楽の種類を知らずに、あなたの結婚式のためにバンドを雇うことを想像してみてください! それは、困難なスタートにつながる可能性のある「私は幸運だと感じている」戦略です。

ここで、選択する 3 つのバンドを持つイメージング。そのうちの 1 つには、SoundCloud ポートフォリオが含まれており、プレイリストとしてジャンルごとにきちんと整理された曲のプレビューがあります。すぐに彼らの音楽を聴き、パートナーと共有し、彼らを雇ってカスタマイズを提案する決定に至りませんか?

履歴書を確認する採用担当者や採用マネージャーにも同じことが起こります。彼らはあなたのポートフォリオをクリックしたり、あなたのプロジェクトを調べたり、パブリックコメントを読んだり、あなたの活動履歴を見たりする可能性が高くなります.

ポートフォリオを含めることで、クライアント (HM または採用担当者) があなた、あなたのデータ スキル、それらのスキルを適用する能力、そして願わくばデータ分析に対するあなたの真の情熱についてもっと知る機会が大幅に増えます。はい、ポートフォリオは絶対に必要です。

優れたデータ サイエンス ポートフォリオを構築する方法

データ サイエンティスト、データ アナリスト、およびその他のデータ愛好家が、潜在的な雇用主の興奮と関心を確実に生み出す素晴らしいポートフォリオを作成する方法を探ってみましょう。雇用を超えて、ポートフォリオは、学習とショーケースへのモチベーションを維持するための優れた方法です。つまり、独自のブランドを構築してください!

究極のデータ サイエンス ポートフォリオには、非常に強固である必要がある4 つのコンポーネントがあります。

  • ポートフォリオをホストする場所:コードの深さと品質を強調するとともに、作品を公開するように構築されたプラットフォームでポートフォリオをホストすることが重要です。GitHub は、これら両方の観点から断然最も人気のある選択肢です。また、採用マネージャーが求職者のスキルレベルを理解するために求職者の GitHub プロファイルを求めたり、事前に調査したりすることも通常の慣習です。
  • プロジェクトを意味のあるコレクションに整理する: きちんと整理されたポートフォリオは、複雑で相互に関連した情報を把握しやすい形式で提供するために必要なものがあることを世界に伝えます。
  • 採用マネージャーまたは採用担当者に伝えてほしいメッセージを伝える影響力のあるプロジェクトを選択します。つまり、「あいまいなところから始めるのが得意です」 「ガイド付きの計画的な方法で調査するのが得意です」 「が得意です」主要な MLテクニック」→ 「あなたは影響を見積もるのが得意です」 → そして、「優れたコード品質でそれをすべて行うことができます」

データ サイエンス ポートフォリオに GitHub を使用する

GitHub がコード、プロジェクト、データのホスティングに好まれるプラットフォームである理由はたくさんあります。GitHub は無料で使用でき、CI/CD などの高度な機能を備えた有料オプションがあります。データ サイエンス ポートフォリオ、機械学習プロジェクトなどのホスティングなどの個人的な使用には、無料版が最適です。

無料で使用できることに加えて、GitHub が私たちのユースケースに最適である理由 (多くの理由の 1 つ) が 3 つあります。

  • Readme: readme ファイルは、効果的に使用すれば絶対的な宝石です。readme ファイルは、導入、説明、および結論のドキュメントであると考えてください。これは、ラボ レポートに似ています。ここでは、プロジェクト、目下の問題、採用しているアプローチとその理由、仮定、収集した洞察、それらの洞察の現実世界への適用、および将来の改善について聴衆に説明します。あなたが作りたいです。ここで詳細すぎると、未熟に見えます。詳細が少なすぎると、未熟に見えます。そのため、読者が概要を理解するために不可欠な適切な量の詳細を提供してください。これは、データ サイエンティストがモデリングを行っていないときに行うことであるため、重要です。つまり、ビジネス上の問題を説明し、ソリューションを説明します
  • 発見可能性:ポートフォリオは公開されることを目的としています。つまり、Web 上の誰もがあなたのポートフォリオを見つけて、あなたが取り組んでいるプロジェクトを見ることができます。GitHub は検索エンジンでの可視性に優れています。つまり、同様のプロジェクトを探している人は誰でもあなたのプロジェクトにたどり着くことができます!
  • プロフィール: GitHub プロフィールは、理想的には他のユーザーと共有するものです。プロフィール内には、リポジトリと貢献グラフがあります。貢献度グラフは、採用担当者や採用担当者が自分のスキルがアクティブかパッシブかを評価するための簡単な方法です。
  • 例としての私の GitHub プロファイルは、私が多くのコードを作成し、多くのコミットを行っていることを示しています。コードを少し見直して、ときどきプル リクエストを作成します。私は多くの問題を作成しません。マネージャーとして、これは、私がまだ毎日 (GitHub の内外で) コーディングを行っている非常に実践的なマネージャーであることを示しています。これはまさに、私のキャリアのこの時点で私のプロフィールが伝えたいことです。
  • Jupyter Notebook プレビュー:ほとんどのデータ サイエンティストは、Jupyter Notebook を使用してデータ プロジェクトに取り組み、それらを公開して共有します。GitHub は Jupyter Notebook をネイティブにレンダリングするため、読者はコード、テキスト、チャートを保存したとおりに表示できます。これにより、高い可読性が保証されます。
  • Use a modern notebook platform
    Rather than using Jupyter Notebooks locally, I would recommend using a modern notebook platform like Noteable. The interactive data explorer and visualizations will help speed up your projects and allow you to focus on your the strength of your models, insights, discussions and conclusions.
    You can then export the project as a Jupyter Notebook and upload to GitHub. Needless to say, you should also make your Noteable project public.
    

GitHub アカウントを取得したら、次の質問は、どのプロジェクトを紹介するかです。選択した分野や専門分野によって、これらのプロジェクトは大きく異なります。

データ サイエンティスト向けのポートフォリオで取り上げるトピック

データ サイエンティストは、次の 3 つの分野に習熟していることを示す必要があります。

  1. ビジネス上の問題の特定:公開データセットを取得し、それについて読み、いくつかの仮説またはいくつかのビジネス上の問題を作成する能力は、知識を実際のアプリケーションに適用する能力を実証します。たとえば、この公開されている e コマース データセットでは、「最も売れている製品を見つけて、ソーシャル メディアで宣伝するかどうかを決定する」というビジネス上の問題を考えることができます。
  2. データ抽出
    クエリ、クリーニング、SQL、Pandas (およびその他のお気に入りのライブラリ) を使用した乱雑なデータセットの集計。SQL スキルを紹介することの重要性はいくら強調してもしすぎることはありません。採用マネージャーとして、Python は得意だが SQL を知らないデータ サイエンティストを採用する可能性はほとんどありません。
    - Excel および CSV ファイルに SQL を直接書き込む: Jupyter Notebook で SQL を記述するのは面倒です。通常、ライブラリを使用してから、SQL を引用符で囲む必要があります。データベースを必要とせずに Excel または CSV ファイルで直接クエリを実行できる、noteable.ioのような最新のノートブックを使用することをお勧めします。. 結局、彼らはデータベース アーキテクトの役割に応募していないので、ローカル データベースの作成に苦労してもほとんど価値がありません。
    -データベースへの接続:もちろん、Noteable でデータベースに接続することはできますが、パブリック データベースにアクセスするのは簡単 (または無料) ではない場合があります。データベースにアクセスできる場合 (Google: 「BigQuery パブリック データセット」)、Noteable でネイティブ SQL を記述できます。パッケージ、見積もり、その他すべてのナンセンスは必要ありません。
    -ローカル DB の作成:別の方法として、コンピューターにローカル データベースを作成することもできますが、それには時間がかかり、テーブルに入力する必要があるデータを作成する必要があります。結局のところ、あなたの目標は、SQL データベース管理のスキルではなく、SQL のスキルを示すことです。ですから、このルートはかなりの時間の無駄だと思います。
  3. データの探索、視覚化
    データの専門家にとって、データのセグメント化、フィルタリング、探索、視覚化を迅速に行うには、高品質のコードを記述できることが不可欠です。ほとんどは Python または R を使用します。そのため、Noteable のような最新のノートブック プラットフォームではインタラクティブにチャートを作成できますが、Pandas、lambda を使用する能力を示す、いくつかの非常に優れた視覚化 (インスピレーションについては r/dataisbeautiful を参照) を挿入することをお勧めします。関数 (オプションですが素晴らしい)、および matplotlib/seaborn など。
  4. 機械学習
    ただし、ほとんどのデータ サイエンティスト、データ アナリスト、データ エンジニア、ビジネス インテリジェンス エンジニア、および機械学習エンジニアは、プロジェクトに次の方法のいくつかを含めることが有益であることに気付くでしょ
    う。 KNN) ● 線形回帰● ロジスティック回帰● 単純ベイズ● 主成分分析 (PCA) ● ランダム フォレスト● サポート ベクター マシン








    このリストには、プロの世界で最も人気があり、最も広く使用されている方法がいくつか含まれているため、将来のプロジェクトのインスピレーションの大きな源となります. これらの方法のほんの一部でも詳細な知識を持つことで、次の就職面接で採用担当者に好印象を与えるチャンスが大幅に増えます。取得したい仕事の種類を検討してから、選択した分野で一般的に実装されている上記のアルゴリズムのいくつかを使用することをお勧めします.

次のプロジェクトを選択するとき、私がこれまで出会った中で最も優れたアドバイスは、現実の問題に焦点を当て、それを解決しようとすることです。もちろん、現実世界のほとんどの問題は、未知の変数と大量のデータで満たされています。

したがって、範囲または複雑さ、あるいはその両方において、ある程度制限された問題を選択するようにしてください! また、選択したプロジェクトでは、少なくともある程度は情熱的であることを忘れないでください

プロセスや結果にまったく関与していない場合、仕事の質は標準以下になる可能性が高く、完了する前に燃え尽きてあきらめる可能性が高くなります. したがって、たとえそれが以前に行われたとしても、あなたが情熱を注いでいることを見つけてください。貴重な教訓を学び、ポートフォリオで使用する完全なプロジェクトを手に入れることができます!

次のプロジェクトのインスピレーション

これらは、プロジェクトのアイデアを見つけたり、新しいトピックを学習したりするための個人的なお気に入りの情報源です。どちらも豊富なリソースを備えているため、コンテンツの幅に迷わないようにしてください。むしろ、トピックを選んで、あなたが掘り下げることができる深さに焦点を合わせてください.

  1. https://goodboychan.github.io/categories/: これは私のお気に入りのレポ/ブログです。トピックの下にきちんと整理された、驚異的な量のチュートリアルと例があります。
  2. Kaggle : データセットの宝庫であり、コードの品質を学習して改善するのに役立つ公開ノートブックでもあります。

サンプルプロジェクト

たとえば、一般的な方法の 1 つは K-means クラスタリングです。これは機械学習用の非常に単純なアルゴリズムであり、興味深い結果を得るためにいくつかの異なる変数とデータ ポイントを知るだけで済みます。

あなたが大規模なオンライン e コマース ビジネスで働いていて、このビジネスが顧客からいくつかの重要な情報を収集しているとします。このデータには、顧客の年齢、支出額、購入した製品の種類が含まれます。

次に、K-means クラスタリングを使用すると、さまざまな購入者のペルソナの概要を把握するために、すべての購入とユーザーをクラスターにセグメント化できます。これらすべて、わずか 3 つの異なる変数を使用します。

プロジェクトへの取り組み方

データ サイエンス プロジェクトのオンライン ポートフォリオを作成する主な目的が潜在的な雇用主を引き付けることである場合は、一連の厳格なルールを作成してすべてのプロジェクトにアプローチする必要があります。これにより、スコープ クリープや時間の浪費を防ぐことができます。

データ サイエンスの世界に不慣れな場合は、単純に経験を積むことが最大の報酬になります。結局のところ、何千人もの他の開発者、エンジニア、データ サイエンティストと競争しているので、自分自身を最高のものにする必要があります。そして、練習は完璧になります。

時間があれば、さまざまなプロジェクトに取り組み続けてください。遅かれ早かれ、ほんの数か月前よりもはるかに多くのレベルを超えていることに気付くでしょう。

また、GitHub 上のすべてのコードを実際に確認する就職面接官はほとんどいないことを覚えておくことも重要です。実際にスクリプトをダウンロードしてコンパイルする人はさらに少なくなります。重要なのは、一般的なアルゴリズムの知識、あいまいな課題に取り組む問題解決能力、それを実現するために必要なプログラミング スキルがあることを示すことです。

もちろん、壊れたプロジェクトをアップロードするだけではいけません。オンラインのチュートリアルやガイドに従っている場合でも、自分でコードを作成することが重要です。このようにして、コードの各行をより深く理解し、理解を深めることができます。一方、別のプロジェクトをコピーして貼り付け、いくつかの変数の名前を変更しただけでは、インタビューを爆破することは保証できます。

プロフィールへの関心を高める

誇りに思うデータ サイエンス プロジェクトに懸命に取り組んできた場合は、自分自身と自分のプロジェクトを公開することを検討するかもしれません。ソースコードを GitHub にアップロードするだけで、多くの人がプロジェクトについて学ぶことを期待すべきではありません。

しかし、それはあなたのプロジェクトが見過ごされる必要があるという意味ではありません。Medium.com または自分の Web サイトで、プロジェクトの詳細を詳しく説明する詳細なブログ投稿を作成し、そのトピックの専門家として認識されるような方法でこれを作成することをお勧めします。

もちろん、このブログ投稿にも GitHub プロファイルとプロジェクトへのリンクを含めることを忘れないでください。

最終的な考え

そこにあります。データ サイエンティストとして素晴らしいポートフォリオを構築する際に留意すべき最も重要なことをいくつか取り上げました。興味のあるトピックに固執し、業界をリードする方法とアルゴリズムを使用することで、将来の就職面接で成功するための準備を整えることができます. それは本当に簡単です!

—真夜中️の下に❤️で書かれています

PS: 私はただの謙虚なブロガーです。私は間違いを犯し、盲点があります。改善できる点に気づいた場合、またはチャットしたいだけの場合は、お気軽に DM でお知らせください :)