Portofolio Ilmu Data Pembunuh yang Membuat Anda Dipekerjakan

Nov 24 2022
Pelajari cara membangun portofolio ilmu data terbaik yang memberi Anda pekerjaan ilmuwan data yang Anda minati!
Jika Anda melamar pekerjaan ilmu data tanpa portofolio proyek untuk menunjukkan keahlian Anda, Anda menjual diri Anda sendiri. Pada artikel ini, saya akan berbicara tentang mengapa portofolio adalah suatu keharusan bagi setiap analis data atau ilmuwan data dan bagaimana cara membangun portofolio ilmu data yang menakjubkan.

Jika Anda melamar pekerjaan ilmu data tanpa portofolio proyek untuk menunjukkan keahlian Anda, Anda menjual diri Anda sendiri. Pada artikel ini, saya akan berbicara tentang mengapa portofolio adalah suatu keharusan bagi setiap analis data atau ilmuwan data dan bagaimana cara membangun portofolio ilmu data yang menakjubkan.

Apakah saya memerlukan portofolio proyek ilmu data?

Bayangkan menyewa sebuah band untuk pernikahan Anda tanpa mengetahui jenis musik apa yang mereka mainkan! Itu adalah strategi "Saya merasa beruntung" yang dapat menyebabkan awal yang sulit.

Sekarang, pencitraan memiliki tiga pita untuk dipilih. Salah satunya menyertakan portofolio SoundCloud di mana mereka memiliki pratinjau lagu-lagu mereka yang diatur dengan rapi di bawah genre sebagai daftar putar. Bukankah itu akan segera mengarahkan Anda untuk mendengarkan musik mereka, berbagi dengan pasangan Anda, dan secara kolektif sampai pada keputusan untuk mempekerjakan mereka serta menyarankan penyesuaian?

Hal yang sama terjadi pada perekrut dan manajer perekrutan yang meninjau resume Anda. Mereka lebih cenderung mengklik portofolio Anda, menjelajahi proyek Anda, membaca komentar publik, melihat riwayat aktivitas Anda, dll.

Dengan memasukkan portofolio, Anda secara drastis meningkatkan peluang klien Anda (HM atau Perekrut) untuk mempelajari lebih lanjut tentang Anda , keterampilan data Anda, kemampuan Anda untuk menerapkan keterampilan tersebut, dan semoga hasrat tulus Anda untuk analisis data. Jadi, YA , Anda benar-benar membutuhkan portofolio.

Cara membangun portofolio ilmu data yang mengagumkan

Mari jelajahi bagaimana ilmuwan data, analis data, dan penggemar data lainnya dapat membuat portofolio luar biasa yang pasti akan menciptakan kegembiraan dan minat calon pemberi kerja. Di luar pekerjaan, portofolio adalah cara yang bagus untuk membuat Anda tetap termotivasi untuk belajar dan memamerkan — bangun merek Anda sendiri!

Portofolio ilmu data pamungkas memiliki 4 komponen yang harus sangat solid:

  • Tempat menghosting portofolio: Sangat penting untuk memastikan Anda menghosting portofolio Anda di platform yang dibangun untuk memamerkan karya Anda secara publik sekaligus menekankan kedalaman dan kualitas kode Anda. GitHub sejauh ini merupakan pilihan paling populer dari kedua perspektif ini. Ini juga merupakan praktik normal bagi manajer perekrutan untuk meminta atau secara proaktif menjelajahi profil GitHub dari kandidat pekerjaan untuk memahami tingkat keahlian kandidat.
  • Atur proyek menjadi koleksi yang bermakna: Portofolio yang tertata rapi memberi tahu dunia bahwa Anda memiliki apa yang diperlukan untuk menyampaikan informasi yang kompleks dan saling berhubungan dalam format yang mudah dipahami.
  • Pilih proyek berdampak yang menyampaikan pesan yang Anda ingin diambil oleh manajer perekrutan atau perekrut - yaitu: "Anda pandai memulai dari ambiguitas " "Anda pandai mengeksplorasi dengan cara terencana yang dipandu" "Anda ahli dalam teknik ML inti ” “Anda pandai memperkirakan dampak ” → dan, “Anda dapat melakukan semua itu dengan kualitas kode yang luar biasa ”

Gunakan GitHub untuk Portofolio Ilmu Data Anda

Ada banyak alasan mengapa GitHub adalah platform pilihan untuk menghosting kode, proyek, dan data. GitHub gratis untuk digunakan dan memiliki opsi berbayar dengan fitur lanjutan seperti CI/CD. Untuk penggunaan pribadi, seperti menghosting portofolio ilmu data, proyek pembelajaran mesin, dan sejenisnya, versi gratis adalah pilihan yang tepat.

Selain gratis untuk digunakan, ada tiga alasan (dari sekian banyak) mengapa GitHub sempurna untuk kasus penggunaan kami:

  • Readme: File readme adalah permata mutlak jika digunakan secara efektif. Pikirkan jika file readme sebagai dokumen pengantar, penjelasan, dan kesimpulan — mirip dengan laporan lab. Di sinilah Anda memberi tahu audiens tentang proyek, masalah yang dihadapi, pendekatan yang Anda ambil dan alasannya, asumsi yang Anda buat, wawasan yang telah Anda kumpulkan, penerapan wawasan tersebut di dunia nyata, dan perbaikan di masa depan Anda ingin membuat. Terlalu banyak detail di sini akan membuat Anda terlihat tidak dewasa. Terlalu sedikit detail akan membuat Anda terlihat tidak terampil. Jadi, berikan jumlah detail yang tepat yang penting bagi pembaca untuk mendapatkan gambaran umum. Ini penting karena inilah yang dilakukan ilmuwan data saat mereka tidak membuat model — menjelaskan masalah bisnis dan menjelaskan solusinya .
  • Dapat ditemukan : Portofolio dimaksudkan untuk umum, yaitu siapa pun di web dapat menemukan portofolio Anda dan melihat proyek yang sedang Anda kerjakan. GitHub memiliki visibilitas Mesin Pencari yang luar biasa — artinya siapa pun yang mencari proyek serupa akan dapat mendarat di proyek Anda!
  • Profil: Profil GitHub Anda adalah apa yang idealnya Anda bagikan dengan orang lain. Di dalam profil Anda, akan ada repositori serta grafik kontribusi Anda. Grafik kontribusi adalah cara cepat untuk mempekerjakan manajer dan perekrut untuk menilai apakah keahlian Anda aktif atau pasif.
  • Profil GitHub saya sebagai contoh memberi tahu Anda bahwa saya banyak membuat kode dan melakukan banyak hal. Saya meninjau kode sedikit dan kadang-kadang saya membuat permintaan tarik. Saya tidak banyak membuat masalah. Sebagai seorang manajer, ini menunjukkan bahwa saya SANGAT manajer aktif yang masih membuat kode setiap hari (di dalam atau di luar GitHub). Inilah yang ingin saya sampaikan pada profil saya saat ini dalam karier saya.
  • Pratinjau Notebook Jupyter: Sebagian besar ilmuwan data menggunakan Notebook Jupyter untuk mengerjakan proyek data dan membagikannya secara publik. GitHub membuat Notebook Jupyter secara native memungkinkan pembaca untuk melihat kode, teks, dan bagan Anda ditampilkan persis seperti yang Anda simpan. Ini memastikan keterbacaan yang tinggi.
  • Use a modern notebook platform
    Rather than using Jupyter Notebooks locally, I would recommend using a modern notebook platform like Noteable. The interactive data explorer and visualizations will help speed up your projects and allow you to focus on your the strength of your models, insights, discussions and conclusions.
    You can then export the project as a Jupyter Notebook and upload to GitHub. Needless to say, you should also make your Noteable project public.
    

Setelah Anda memiliki akun GitHub, pertanyaan selanjutnya adalah proyek mana yang akan ditampilkan. Bergantung pada bidang yang Anda pilih, dan mungkin spesialisasi Anda, proyek ini bisa sangat bervariasi.

Topik apa yang harus dibahas dalam portofolio untuk Ilmuwan Data

Ilmuwan data perlu menunjukkan bahwa mereka mahir dalam tiga bidang berikut:

  1. Identifikasi Masalah Bisnis: Kemampuan Anda untuk mengambil kumpulan data publik, membacanya dan kemudian merumuskan beberapa hipotesis atau beberapa masalah bisnis yang dibuat-buat akan menunjukkan kemampuan Anda untuk menerapkan pengetahuan Anda ke aplikasi dunia nyata. Misalnya, dalam kumpulan data e-niaga publik ini , Anda dapat menemukan masalah bisnis "Temukan produk dengan penjualan tertinggi dan tentukan apakah akan mengiklankannya di media sosial atau tidak"
  2. Permintaan Ekstraksi Data
    , Pembersihan, Pengumpulan kumpulan data yang berantakan menggunakan SQL, Pandas (dan perpustakaan lain apa pun yang menjadi favorit Anda). Saya tidak bisa cukup menekankan tentang betapa pentingnya memamerkan keterampilan SQL . Sebagai manajer perekrutan, sangat tidak mungkin saya akan mempekerjakan seorang ilmuwan data yang hebat dalam Python tetapi tidak tahu SQL.
    - Menulis SQL di file Excel dan CSV secara langsung : Menulis SQL di Jupyter Notebooks sangat merepotkan. Anda biasanya harus menggunakan perpustakaan dan kemudian menulis SQL dalam tanda kutip. Saya sarankan menggunakan buku catatan modern seperti noteable.io yang memungkinkan Anda menjalankan kueri langsung pada file Excel atau CSV tanpa memerlukan basis data apa pun. Lagi pula, karena tidak melamar peran Arsitek Basis Data, benar-benar tidak ada gunanya berjuang untuk membuat basis data lokal.
    - Hubungkan ke Database: Tentu saja, Anda dapat terhubung ke database di Noteable tetapi mungkin tidak mudah (atau gratis) bagi Anda untuk mengakses database publik. Jika Anda memiliki akses (Google: "BigQuery public datasets") ke database, maka Anda akan dapat menulis SQL asli di Noteable. Tidak perlu paket, kutipan, dan semua omong kosong itu.
    - Buat DB Lokal: Sebagai alternatif, Anda dapat membuat database lokal di komputer Anda, tetapi itu semua membutuhkan waktu dan memaksa Anda untuk menghasilkan data yang perlu Anda masukkan ke dalam tabel. Lagipula, tujuan Anda adalah untuk memamerkan keterampilan SQL Anda, bukan keterampilan Administrasi Database SQL.Jadi, saya menganggap rute ini membuang-buang waktu .
  3. Eksplorasi Data, Visualisasi
    Sangat penting bagi setiap praktisi data untuk dapat menulis kode berkualitas baik untuk mengelompokkan, memfilter, menjelajahi, dan memvisualisasikan data dengan cepat. Sebagian besar akan menggunakan Python atau R. Jadi, meskipun platform notebook modern seperti Noteable akan memungkinkan Anda membuat bagan secara interaktif, saya tetap menyarankan untuk memasukkan beberapa visualisasi yang sangat keren (lihat r/dataisbeautiful untuk inspirasi) yang menunjukkan kemampuan Anda menggunakan Pandas, lambda fungsi (opsional tapi bagus), dan matplotlib/seaborn dll.
  4. Pembelajaran Mesin
    Namun, sebagian besar ilmuwan data, analis data, insinyur data, insinyur intelijen bisnis, dan insinyur pembelajaran mesin akan merasa bermanfaat untuk menyertakan beberapa metode berikut dalam proyek mereka:
    ● Pohon Keputusan
    ● Pengelompokan K-means
    ● Tetangga terdekat K ( KNN)
    ● Regresi Linier
    ● Regresi Logistik
    ● Naive Bayes
    ● Analisis Komponen Utama (PCA)
    ● Hutan Acak
    ● Mendukung Mesin Vektor
    Daftar ini mencakup beberapa metode yang paling populer dan paling banyak digunakan di dunia profesional, dan karenanya merupakan sumber inspirasi yang bagus untuk proyek masa depan Anda. Dengan memiliki pengetahuan mendalam bahkan hanya dengan beberapa metode ini, Anda meningkatkan peluang Anda secara signifikan untuk mengesankan manajer perekrutan pada wawancara kerja Anda berikutnya. Saya sarankan Anda mempertimbangkan jenis pekerjaan yang ingin Anda dapatkan, dan kemudian bekerja dengan beberapa algoritme di atas yang biasanya diterapkan di bidang pilihan Anda.

Ketika memilih proyek Anda berikutnya, saran terbaik yang pernah saya temui adalah fokus pada masalah kehidupan nyata, dan mencoba menyelesaikannya. Tentu saja, sebagian besar masalah di dunia nyata diisi dengan variabel yang tidak diketahui dan data dalam jumlah besar.

Jadi cobalah untuk memilih masalah yang agak terbatas, baik dalam ruang lingkup maupun kompleksitasnya, atau bahkan mungkin keduanya! Juga perlu diingat bahwa Anda harus bersemangat, setidaknya dalam proyek yang Anda pilih .

Jika Anda sama sekali tidak terlibat dalam proses atau hasil, kualitas pekerjaan Anda kemungkinan besar akan di bawah standar dan Anda cenderung akan kelelahan dan menyerah sebelum menyelesaikannya. Karena itu temukan sesuatu yang Anda sukai, meskipun itu sudah pernah dilakukan sebelumnya . Anda masih akan mempelajari pelajaran berharga, dan memiliki proyek lengkap untuk digunakan dalam portofolio Anda!

Inspirasi untuk proyek Anda selanjutnya

Ini adalah sumber favorit pribadi saya untuk menemukan ide proyek atau mempelajari topik baru. Keduanya memiliki banyak sumber daya - jadi pastikan Anda tidak tersesat dalam lebarnya konten. Alih-alih, pilih topik dan fokus pada kedalaman yang bisa Anda tuju.

  1. https://goodboychan.github.io/categories/: Ini adalah repo/blog favorit saya untuk diikuti. Ini memiliki sejumlah tutorial dan contoh yang menakjubkan yang diatur dengan rapi di bawah topik.
  2. Kaggle : Itu tetap menjadi tambang emas kumpulan data serta buku catatan publik yang dapat membantu Anda mempelajari dan meningkatkan kualitas kode Anda.

Contoh proyek

Misalnya, salah satu metode populer adalah pengelompokan K-means, yang merupakan algoritme yang sangat sederhana untuk pembelajaran mesin, di mana Anda hanya perlu mengetahui beberapa variabel dan titik data yang berbeda untuk mendapatkan hasil yang menarik.

Bayangkan Anda bekerja untuk bisnis e-niaga online besar, dan bisnis ini telah mengumpulkan beberapa informasi penting dari pelanggan mereka. Data ini mencakup usia pelanggan, jumlah yang mereka keluarkan, dan jenis produk yang mereka beli.

Pengelompokan K-means kemudian memungkinkan Anda untuk mengelompokkan setiap pembelian dan pengguna ke dalam kelompok, untuk mendapatkan gambaran umum tentang persona pembeli yang berbeda. Semua ini, hanya dengan 3 variabel berbeda.

Bagaimana mendekati proyek

Jika tujuan utama Anda membuat portofolio online dari proyek ilmu data Anda adalah untuk menarik calon pemberi kerja, maka Anda harus mendekati setiap proyek dengan seperangkat aturan ketat yang Anda buat . Ini menyelamatkan Anda dari scope creep dan pengurasan waktu.

Jika Anda baru mengenal dunia ilmu data, mendapatkan lebih banyak pengalaman akan menjadi hadiah terbesar yang bisa Anda dapatkan. Lagi pula, Anda bersaing dengan ribuan pengembang, insinyur, dan ilmuwan data lainnya, jadi Anda harus menjadikan diri Anda sebaik mungkin. Dan latihan membuat sempurna.

Teruslah mengerjakan proyek yang berbeda ketika Anda punya waktu, dan cepat atau lambat Anda akan menyadari bahwa Anda sekarang berada jauh di atas level Anda beberapa bulan yang lalu.

Penting juga untuk diingat bahwa sangat sedikit pewawancara kerja yang benar-benar akan memeriksa semua kode Anda di GitHub, dan bahkan lebih sedikit lagi yang benar-benar mengunduh dan mengompilasi skrip Anda. Yang penting adalah Anda menunjukkan bahwa Anda memiliki pengetahuan tentang algoritme umum, kemampuan pemecahan masalah untuk mendekati tantangan yang ambigu, dan keterampilan pemrograman yang diperlukan untuk mewujudkannya .

Tentu saja Anda juga tidak boleh hanya mengunggah proyek yang rusak. Penting bagi Anda untuk menulis kode sendiri, bahkan jika Anda mengikuti tutorial atau panduan online. Dengan cara ini Anda akan menjadi lebih akrab dengan setiap baris kode, dan pemahaman Anda akan jauh lebih baik. Di sisi lain, jika Anda hanya menyalin/menempel proyek lain dan mengganti nama beberapa variabel, saya jamin Anda akan mengebom wawancara.

Membangkitkan minat untuk profil Anda

Jika Anda telah bekerja keras pada proyek ilmu data yang Anda banggakan, Anda dapat mempertimbangkan untuk membuat beberapa eksposur untuk diri sendiri dan proyek Anda. Anda seharusnya tidak mengharapkan banyak orang mempelajari proyek Anda hanya dengan mengunggah kode sumber Anda ke GitHub.

Tapi itu tidak berarti proyek Anda harus luput dari perhatian. Saya sarankan Anda menulis posting blog yang mendalam di Medium.com atau di situs web Anda sendiri, yang menjelaskan detail proyek Anda, dan Anda menulis ini sedemikian rupa sehingga Anda dianggap sebagai ahli dalam topik tersebut.

Dan ingat untuk menyertakan tautan ke profil dan proyek GitHub Anda di blogpost ini juga tentunya.

Pikiran terakhir

Itu dia. Saya telah membahas beberapa hal terpenting yang perlu diingat saat membangun portofolio yang luar biasa sebagai ilmuwan data. Dengan tetap berpegang pada topik yang Anda minati, dan yang menggunakan beberapa metode dan algoritme terkemuka di industri ini, Anda dapat mempersiapkan diri untuk sukses dalam wawancara kerja di masa mendatang. Sesederhana itu!

— Ditulis dengan ❤️ di bawah tengah malam ️

PS: Saya hanya seorang blogger yang rendah hati. Saya membuat kesalahan dan saya memiliki titik buta. Jika Anda melihat hal-hal yang dapat saya tingkatkan atau jika Anda hanya ingin mengobrol, silakan DM saya :)