İşe Alınmanızı Sağlayan Katil Veri Bilimi Portföyü
Becerilerinizi sergilemek için bir proje portföyü olmadan veri bilimi işlerine başvuruyorsanız, kendinizi eksik satıyorsunuz demektir. Bu makalede, herhangi bir veri analisti veya veri bilimcisi için bir portföyün neden bir zorunluluk olduğundan ve çarpıcı bir veri bilimi portföyü oluşturmanın nasıl yapılacağından bahsedeceğim.
Bir veri bilimi projeleri portföyüne ihtiyacım var mı?
Ne tür müzik çaldıklarını bilmeden düğününüz için bir grup tuttuğunuzu hayal edin! Bu, zorlu bir başlangıca yol açabilecek bir “kendimi şanslı hissediyorum” stratejisidir.
Şimdi, aralarından seçim yapabileceğiniz üç bandı olan görüntüleme. Bunlardan biri, çalma listeleri olarak türler altında düzgün bir şekilde düzenlenmiş şarkılarının önizlemelerini içeren bir SoundCloud portföyü içeriyor. Bu sizi hemen onların müziklerini dinlemeye, partnerinizle paylaşmaya ve toplu olarak onları işe alma kararına ve özelleştirme önerilerine götürmez mi?
Aynı şey, özgeçmişinizi inceleyen işe alım uzmanları ve işe alım yöneticileri için de geçerlidir. Portföyünüze tıklama, projelerinizi keşfetme, herkese açık yorumları okuma, etkinlik geçmişinizi görme vb. olasılıkları daha yüksektir.
Bir portföy ekleyerek, müşterinizin (HM veya Recruiter) sizin hakkınızda daha fazla bilgi edinme şansını, veri becerilerinizi, bu becerileri uygulama becerinizi ve umarız veri analizine olan gerçek tutkunuzu büyük ölçüde artırırsınız. Yani, EVET , kesinlikle bir portföye ihtiyacınız var.
Harika bir veri bilimi portföyü nasıl oluşturulur?
Veri bilimcilerin, veri analistlerinin ve diğer veri meraklılarının, potansiyel işverenler için heyecan ve ilgi yaratacağı kesin olan harika bir portföyü nasıl oluşturabileceklerini keşfedelim. İstihdamın ötesinde, portföyler kendinizi öğrenmeye ve sergilemeye motive etmenin harika bir yoludur - yani kendi markanızı oluşturun!
Nihai bir veri bilimi portföyü, son derece sağlam olması gereken 4 bileşene sahiptir:
- Portföy nerede barındırılmalı: Portföyünüzü, kod derinliğinizi ve kalitenizi vurgulamanın yanı sıra çalışmanızı herkese açık bir şekilde sergilemek için oluşturulmuş bir platformda barındırdığınızdan emin olmanız çok önemlidir. GitHub, bu iki açıdan da açık ara en popüler seçimdir. Bir işe alım yöneticisinin, adayın beceri düzeyini anlamak için bir iş adayının GitHub profilini istemesi veya proaktif olarak bu profili keşfetmesi de normal bir uygulamadır.
- Projeleri anlamlı koleksiyonlar halinde organize edin: Düzgün bir şekilde organize edilmiş bir portföy, dünyaya karmaşık ve birbiriyle bağlantılı bilgi parçalarını anlaşılması kolay bir formatta sunmak için gerekenlere sahip olduğunuzu söyler.
- İşe alma müdürünün veya işe alma görevlisinin götürmesini istediğiniz mesajı ileten etkili projeler seçin - bunlar: " belirsizlikten başlamakta iyisiniz " → " yönlendirilmiş planlı bir şekilde keşfetmekte iyisiniz" → " işte iyisiniz " temel makine öğrenimi teknikleri" → " etkiyi tahmin etmede iyisiniz " → ve "tüm bunları olağanüstü kod kalitesiyle yapabilirsiniz "
Veri Bilimi Portföyünüz için GitHub'ı kullanın
Kod, proje ve veri barındırmak için GitHub'ın tercih edilen platform olmasının birçok nedeni vardır. GitHub'ın kullanımı ücretsizdir ve CI/CD gibi gelişmiş özelliklere sahip ücretli seçeneklere sahiptir. Veri bilimi portföyünüzü barındırma, makine öğrenimi projeleri ve benzerleri gibi kişisel kullanım için ücretsiz sürüm harika bir seçimdir.
Ücretsiz kullanımının yanı sıra GitHub'ın bizim kullanım durumumuz için mükemmel olmasının (pek çok nedenden) üç nedeni vardır:
- Beni oku: Beni oku dosyaları, etkin bir şekilde kullanılırsa mutlak mücevherlerdir. Benioku dosyalarını bir laboratuvar raporuna benzer şekilde bir giriş, açıklama ve sonuç belgesi olarak düşünün. Burada izleyicilere proje, eldeki sorun, benimsediğiniz yaklaşım ve neden, yaptığınız varsayımlar, topladığınız içgörüler, bu içgörülerin gerçek dünyada uygulanması ve gelecekteki iyileştirmeler anlatılır. yapmak istersin Burada çok fazla ayrıntı olgunlaşmamış görünmenize neden olur. Çok az ayrıntı sizi beceriksiz gösterir. Bu nedenle, bir okuyucunun genel bir bakış elde etmesi için gerekli olan doğru miktarda ayrıntı sağlayın. Bu önemlidir, çünkü veri bilimcilerin modelleme yapmadıkları zamanlarda yaptıkları budur - iş sorunlarını açıklamak ve çözümlerini açıklamak .
- Keşfedilebilirlik: Portföylerin herkese açık olması amaçlanmıştır, yani web'deki herkes portföyünüzü bulabilir ve üzerinde çalıştığınız projeleri görebilir. GitHub, olağanüstü bir Arama Motoru görünürlüğüne sahiptir - yani benzer projeler arayan herkes sizinkine gelebilir!
- Profil: GitHub profiliniz, ideal olarak başkalarıyla paylaşacağınız profildir. Profilinizin içinde depolar ve katkı grafiğiniz olacaktır. Katkı grafiği, işe alma yöneticilerinin ve işe alım görevlilerinin becerilerinizin aktif mi yoksa pasif mi olduğunu değerlendirmelerinin hızlı bir yoludur.
- Jupyter Not Defteri Önizlemesi: Çoğu veri bilimci, veri projeleri üzerinde çalışmak ve bunları herkese açık olarak paylaşmak için Jupyter Not Defterlerini kullanır. GitHub, okuyucuların kodunuzu, metninizi ve çizelgelerinizi tam olarak onları kaydettiğiniz şekilde görüntülemesini sağlayan Jupyter Not Defterlerini yerel olarak işler. Bu, yüksek okunabilirlik sağlar.
Use a modern notebook platform
Rather than using Jupyter Notebooks locally, I would recommend using a modern notebook platform like Noteable. The interactive data explorer and visualizations will help speed up your projects and allow you to focus on your the strength of your models, insights, discussions and conclusions.
You can then export the project as a Jupyter Notebook and upload to GitHub. Needless to say, you should also make your Noteable project public.
Bir GitHub hesabınız olduğunda sıradaki soru hangi projelerin sergileneceği olur. Seçtiğiniz alana ve muhtemelen uzmanlığınıza bağlı olarak, bu projeler büyük ölçüde değişebilir.
Veri Bilimcileri için bir portföyde ele alınacak konular nelerdir?
Veri bilimcilerin aşağıdaki üç alanda yetkin olduklarını göstermeleri gerekir:
- İş Sorunu Tespiti: Herkese açık bir veri kümesini alma, onun hakkında okuma ve ardından birkaç hipotez veya birkaç uydurulmuş iş sorunu formüle etme beceriniz, bilginizi gerçek dünya uygulamalarına uygulama becerinizi gösterecek. Örneğin, bu halka açık e-ticaret veri setinde , "En çok satan ürünleri bulun ve bunların sosyal medyada reklamını yapıp yapmayacağınıza karar verin" şeklinde bir iş problemi ile karşılaşabilirsiniz.
- Veri Çıkarma
Sorgulama, Temizleme, SQL, Pandas (ve diğer favori kitaplıklarınızı) kullanarak dağınık veri kümelerini toplama. SQL becerilerini sergilemenin ne kadar önemli olduğunu yeterince vurgulayamıyorum . Bir işe alma yöneticisi olarak, Python'da harika olan ancak SQL bilmeyen bir veri bilimciyi işe almam pek olası değil.
- SQL'i doğrudan Excel ve CSV dosyalarına yazın : Jupyter Defterlerinde SQL yazmak bir acıdır. Genellikle bir kitaplık kullanmanız ve ardından SQL'i tırnak işaretleri içinde yazmanız gerekir. Sorguları herhangi bir veritabanına ihtiyaç duymadan doğrudan bir Excel veya CSV dosyasında çalıştırmanıza izin veren noteable.io gibi modern bir not defteri kullanmanızı öneririm.. Ne de olsa, bir Veritabanı Mimarı rolü için başvurmadığımız için, yerel bir veritabanı oluşturmak için uğraşmanın gerçekten çok az değeri var veya hiç değeri yok.
- Veritabanına Bağlan: Elbette, Noteable'da veritabanlarına bağlanabilirsiniz, ancak genel bir veritabanına erişmek sizin için o kadar kolay (veya ücretsiz) olmayabilir. Bir veritabanına erişiminiz varsa (Google: "BigQuery genel veri kümeleri"), Noteable'da yerel SQL yazabilirsiniz. Paketlere, alıntılara ve tüm bu saçmalıklara gerek yok.
- Bir Yerel Veritabanı Oluşturun: Alternatif olarak, bilgisayarınızda yerel bir veritabanı oluşturabilirsiniz, ancak bunların tümü zaman alır ve sizi tablolara girmeniz gereken verileri bulmaya zorlar. Sonuçta amacınız, SQL Veritabanı Yönetimi becerilerinizi değil, SQL becerilerinizi sergilemektir.Bu yüzden, bu rotayı oldukça büyük bir zaman kaybı olarak görüyorum . - Veri Keşfi, Görselleştirme Verileri
hızlı bir şekilde bölümlere ayırmak, filtrelemek, keşfetmek ve görselleştirmek için kaliteli kod yazabilmek, herhangi bir veri pratisyeninin esastır. Çoğu Python veya R kullanır. Bu nedenle, Noteable gibi modern not defteri platformları etkileşimli olarak grafikler oluşturmanıza izin verirken, yine de Pandaları, lambdaları kullanma becerinizi sergileyen gerçekten harika birkaç görselleştirme (ilham için r/dataisbeautiful'a bakın) eklemenizi öneririm. işlevler (isteğe bağlı ancak harika) ve matplotlib/seaborn vb. - Makine Öğrenimi
Ancak çoğu veri bilimcisi, veri analisti, veri mühendisi, iş zekası mühendisi ve makine öğrenimi mühendisi, projelerine aşağıdaki yöntemlerden bazılarını dahil etmeyi faydalı bulacaktır:
● Karar Ağaçları
● K-ortalama kümeleme
● K-en yakın komşular ( KNN)
● Lineer Regresyon
● Lojistik Regresyon
● Naive Bayes
● Temel Bileşen Analizi (PCA)
● Rastgele Ormanlar
● Destek Vektör Makinesi
Bu liste, profesyonel dünyada en popüler ve en çok kullanılan yöntemlerden bazılarını içerir ve bu nedenle gelecekteki projeleriniz için harika bir ilham kaynağıdır. Bu yöntemlerden sadece birkaçı hakkında derinlemesine bilgi sahibi olarak, bir sonraki iş görüşmenizde işe alım müdürünü etkileme şansınızı önemli ölçüde artırırsınız. Almak istediğiniz işin türünü düşünmenizi ve ardından, seçtiğiniz alanda yaygın olarak uygulanan yukarıdaki algoritmalardan bazılarıyla çalışmanızı tavsiye ederim.
Bir sonraki projenizi seçmek söz konusu olduğunda, şimdiye kadar karşılaştığım en iyi tavsiye, gerçek hayattaki bir soruna odaklanmak ve onu çözmeye çalışmaktır. Tabii ki, gerçek dünyadaki çoğu problem bilinmeyen değişkenler ve büyük miktarda veri ile doludur.
Bu nedenle, kapsam veya karmaşıklık veya hatta belki her ikisi açısından biraz sınırlı bir problem seçmeye çalışın! Ayrıca , seçtiğiniz projede en azından biraz tutkulu olmanız gerektiğini unutmayın .
Süreç veya sonuçlarla hiç ilgilenmiyorsanız, işinizin kalitesi muhtemelen vasatın altında olacak ve muhtemelen daha fazla tükenecek ve onu tamamlamadan pes edeceksiniz. Bu nedenle , daha önce yapılmış olsa bile tutkulu olduğunuz bir şey bulun . Hala değerli dersler öğrenecek ve portföyünüzde kullanabileceğiniz eksiksiz bir projeye sahip olacaksınız!
Sonraki projeleriniz için ilham kaynağı
Bunlar, projeler için fikir bulmak veya yeni bir konu öğrenmek için kişisel favori kaynaklarım. Her ikisinin de zengin kaynakları vardır - bu nedenle içeriğin genişliği içinde kaybolmadığınızdan emin olun. Bunun yerine, bir konu seçin ve inebileceğiniz derinliğe odaklanın.
- https://goodboychan.github.io/categories/: Bu benim takip etmeyi en sevdiğim depo/blog. Konular altında özenle düzenlenmiş akıllara durgunluk veren miktarda öğretici ve örnek var.
- Kaggle : Kod kalitenizi öğrenmenize ve geliştirmenize yardımcı olabilecek veri kümelerinin yanı sıra herkese açık not defterlerinden oluşan bir altın madeni olmaya devam ediyor.
örnek proje
Örneğin, popüler yöntemlerden biri, ilginç sonuçlar elde etmek için yalnızca birkaç farklı değişkeni ve veri noktasını bilmeniz gereken, makine öğrenimi için son derece basit bir algoritma olan K-means kümelemedir.
Büyük bir çevrimiçi e-ticaret işletmesinde çalıştığınızı ve bu işletmenin müşterilerinden bazı önemli bilgiler topladığını düşünelim. Bu veriler, müşteri yaşlarını, harcadıkları tutarı ve satın aldıkları ürün türlerini içerir.
K-means kümeleme, farklı alıcı kişilere ilişkin genel bir bakış elde etmek için her satın alma işlemini ve kullanıcıyı kümelere ayırmanıza olanak tanır. Tüm bunlar, sadece 3 farklı değişkenle.
Projelere nasıl yaklaşılır?
Veri bilimi projelerinizin çevrimiçi bir portföyünü oluşturmaktaki asıl amacınız potansiyel işverenleri çekmekse, her projeye koyduğunuz bir dizi katı kuralla yaklaşmalısınız . Bu sizi kapsam kaymasından ve zaman kaybından kurtarır.
Veri bilimi dünyasında yeniyseniz, daha fazla deneyim kazanmak alabileceğiniz en büyük ödül olacaktır. Ne de olsa, diğer binlerce geliştiriciye, mühendise ve veri bilimciye karşı rekabet ediyorsunuz, bu yüzden kendinizi olabildiğiniz en iyi hale getirmeniz gerekiyor. Ve pratik mükemmelleştirir.
Vakit buldukça farklı projeler üzerinde çalışmaya devam edin ve er ya da geç birkaç ay önce bulunduğunuz yerden çok daha yukarıda olduğunuzu fark edeceksiniz.
Ayrıca, çok az sayıda iş görüşmecisinin GitHub'daki tüm kodunuzu gözden geçireceğini ve daha da azının betiklerinizi gerçekten indirip derleyeceğini unutmamak önemlidir. Önemli olan , ortak algoritmalar hakkında bilgi sahibi olduğunuzu, belirsiz zorluklara yaklaşmak için problem çözme yeteneğinizi ve bunu gerçekleştirmek için gereken programlama becerilerini göstermenizdir .
Elbette sadece bozuk projeleri de yüklememelisiniz. Çevrimiçi bir öğreticiyi veya kılavuzu takip etseniz bile kodu kendiniz yazmanız önemlidir. Bu şekilde, her bir kod satırıyla daha yakından ilgilenecek ve anlayışınız çok daha iyi olacaktır. Öte yandan, başka bir projeyi kopyalayıp yapıştırır ve birkaç değişkeni yeniden adlandırırsanız, röportajı bombalayacağınızın garantisini verebilirim.
Profiliniz için ilgi uyandırmak
Gurur duyduğunuz bir veri bilimi projesinde çok çalışıyorsanız, kendiniz ve projeniz için biraz teşhir oluşturmayı düşünebilirsiniz. Kaynak kodunuzu GitHub'a yükleyerek tonlarca insanın projenizi öğrenmesini beklememelisiniz.
Ancak bu, projenizin gözden kaçması gerektiği anlamına gelmez. Medium.com'da veya kendi web sitenizde, projenizin ayrıntılarını içeren derinlemesine bir blog yazısı yazmanızı ve bunu konunun uzmanı olarak algılanacak şekilde yazmanızı öneririm.
Ve tabii ki bu blog gönderisine GitHub profilinizin ve projelerinizin bağlantılarını da eklemeyi unutmayın.
Son düşünceler
İşte aldın. Bir veri bilimcisi olarak harika bir portföy oluştururken akılda tutulması gereken en önemli şeylerden bazılarını ele aldım. Sizi ilgilendiren ve sektördeki önde gelen yöntemlerden ve algoritmalardan bazılarını kullanan konulara bağlı kalarak, gelecekteki iş görüşmelerinde kendinizi başarıya hazırlayabilirsiniz. Gerçekten bu kadar basit!
— ❤️ ile gece yarısı ️ ile yazılmıştır.
Not: Ben sadece mütevazi bir blog yazarıyım. Hatalar yapıyorum ve kör noktalarım var. İyileştirebileceğim şeyler fark ederseniz veya sadece sohbet etmek isterseniz, bana DM'den ulaşabilirsiniz :)