Danh mục đầu tư khoa học dữ liệu sát thủ giúp bạn được tuyển dụng

Nov 24 2022
Tìm hiểu cách xây dựng danh mục đầu tư khoa học dữ liệu cuối cùng giúp bạn có được công việc nhà khoa học dữ liệu mà bạn đang để mắt tới!
Nếu bạn đang nộp đơn xin việc về khoa học dữ liệu mà không có danh mục dự án để thể hiện các kỹ năng của mình, thì bạn đang bán rẻ bản thân. Trong bài viết này, tôi sẽ nói về lý do tại sao một danh mục đầu tư là điều bắt buộc đối với bất kỳ nhà phân tích dữ liệu hoặc nhà khoa học dữ liệu nào và cách xây dựng một danh mục đầu tư khoa học dữ liệu tuyệt vời.

Nếu bạn đang nộp đơn xin việc về khoa học dữ liệu mà không có danh mục dự án để thể hiện các kỹ năng của mình, thì bạn đang bán rẻ bản thân. Trong bài viết này, tôi sẽ nói về lý do tại sao một danh mục đầu tư là điều bắt buộc đối với bất kỳ nhà phân tích dữ liệu hoặc nhà khoa học dữ liệu nào và cách xây dựng một danh mục đầu tư khoa học dữ liệu tuyệt vời.

Tôi có cần một danh mục các dự án khoa học dữ liệu không?

Hãy tưởng tượng thuê một ban nhạc cho đám cưới của bạn mà không biết họ chơi thể loại nhạc gì! Đó là một chiến lược “Tôi cảm thấy may mắn” có thể dẫn đến một khởi đầu khó khăn.

Bây giờ, hình ảnh có ba dải để chọn. Một trong số họ đã bao gồm danh mục đầu tư SoundCloud nơi họ xem trước các bài hát của mình được sắp xếp gọn gàng theo thể loại dưới dạng danh sách phát. Điều đó sẽ không ngay lập tức khiến bạn nghe nhạc của họ, chia sẻ với đối tác của bạn và cùng nhau đi đến quyết định thuê họ cũng như đề xuất các tùy chỉnh sao?

Điều tương tự cũng xảy ra với các nhà tuyển dụng và người quản lý tuyển dụng, những người xem xét sơ yếu lý lịch của bạn. Họ có nhiều khả năng nhấp vào danh mục đầu tư của bạn, khám phá các dự án của bạn, đọc các bình luận công khai, xem lịch sử hoạt động của bạn, v.v.

Bằng cách bao gồm một danh mục đầu tư, bạn đang tăng đáng kể cơ hội để khách hàng của mình (HM hoặc Nhà tuyển dụng) tìm hiểu thêm về bạn , kỹ năng dữ liệu của bạn, khả năng áp dụng các kỹ năng đó của bạn và hy vọng là niềm đam mê thực sự của bạn đối với phân tích dữ liệu. Vì vậy, , bạn hoàn toàn cần một danh mục đầu tư.

Cách xây dựng danh mục khoa học dữ liệu tuyệt vời

Hãy khám phá cách các nhà khoa học dữ liệu, nhà phân tích dữ liệu và những người đam mê dữ liệu khác có thể tạo ra một danh mục đầu tư tuyệt vời chắc chắn sẽ tạo hứng thú và sự quan tâm cho các nhà tuyển dụng tiềm năng. Ngoài việc làm, danh mục đầu tư là một cách tuyệt vời để giữ cho bạn có động lực học hỏi và thể hiện — xây dựng thương hiệu của riêng bạn!

Danh mục khoa học dữ liệu cuối cùng có 4 thành phần cần phải cực kỳ chắc chắn:

  • Nơi lưu trữ danh mục đầu tư: Điều quan trọng là đảm bảo bạn lưu trữ danh mục đầu tư của mình trên một nền tảng được xây dựng để giới thiệu công khai tác phẩm của bạn cùng với việc nhấn mạnh độ sâu và chất lượng mã của bạn. GitHub cho đến nay là lựa chọn phổ biến nhất từ ​​cả hai quan điểm này. Việc người quản lý tuyển dụng yêu cầu hoặc chủ động khám phá hồ sơ GitHub của ứng viên để hiểu trình độ kỹ năng của ứng viên cũng là một thông lệ.
  • Sắp xếp các dự án thành các bộ sưu tập có ý nghĩa: Một danh mục đầu tư được sắp xếp gọn gàng cho cả thế giới biết rằng bạn có những gì cần thiết để cung cấp các mẩu thông tin phức tạp và có liên kết với nhau ở định dạng dễ nắm bắt.
  • Chọn các dự án có tác động truyền tải thông điệp mà bạn muốn người quản lý tuyển dụng hoặc nhà tuyển dụng ghi nhận - đó là: “bạn giỏi bắt đầu từ sự mơ hồ “bạn giỏi khám phá theo cách có kế hoạch có hướng dẫn” “bạn giỏi các kỹ thuật ML cốt lõi “bạn rất giỏi trong việc ước tính tác động ” → và “bạn có thể làm tất cả những điều đó với chất lượng mã vượt trội ”

Sử dụng GitHub cho Danh mục Khoa học Dữ liệu của bạn

Có nhiều lý do tại sao GitHub là nền tảng ưa thích để lưu trữ mã, dự án và dữ liệu. GitHub miễn phí sử dụng và có các tùy chọn trả phí với các tính năng nâng cao như CI/CD. Đối với mục đích sử dụng cá nhân, chẳng hạn như lưu trữ danh mục khoa học dữ liệu, dự án máy học và tương tự, phiên bản miễn phí là một lựa chọn tuyệt vời.

Bên cạnh việc miễn phí sử dụng, có ba lý do (trong số rất nhiều lý do) khiến GitHub hoàn hảo cho trường hợp sử dụng của chúng tôi:

  • Readme: Các tệp readme là những viên ngọc tuyệt đối nếu được sử dụng hiệu quả. Hãy nghĩ nếu tệp readme là tài liệu giới thiệu, giải thích và kết luận — tương tự như báo cáo phòng thí nghiệm. Đây là nơi bạn nói với khán giả về dự án, vấn đề hiện tại, cách tiếp cận bạn đang thực hiện và lý do tại sao, các giả định bạn đã đưa ra, những hiểu biết bạn đã thu thập được, ứng dụng của những hiểu biết đó trong thế giới thực và những cải tiến trong tương lai. bạn muốn thực hiện. Quá nhiều chi tiết ở đây sẽ khiến bạn trông có vẻ non nớt. Quá ít chi tiết sẽ khiến bạn trông không có kỹ năng. Vì vậy, hãy cung cấp đúng số lượng chi tiết cần thiết để người đọc có được cái nhìn tổng quan. Điều này rất quan trọng vì đây là những gì các nhà khoa học dữ liệu làm khi họ không lập mô hình — giải thích các vấn đề kinh doanh và mô tả các giải pháp của họ .
  • Khả năng khám phá: Danh mục đầu tư nhằm mục đích công khai, tức là bất kỳ ai trên web đều có thể tìm thấy danh mục đầu tư của bạn và xem các dự án mà bạn đang thực hiện. GitHub có khả năng hiển thị Công cụ Tìm kiếm nổi bật — nghĩa là bất kỳ ai đang tìm kiếm các dự án tương tự đều có thể tiếp cận dự án của bạn!
  • Hồ sơ: Hồ sơ GitHub của bạn là những gì lý tưởng nhất bạn nên chia sẻ với người khác. Trong hồ sơ của bạn, sẽ có các kho lưu trữ cũng như biểu đồ đóng góp của bạn. Biểu đồ đóng góp là một cách nhanh chóng để người quản lý tuyển dụng và nhà tuyển dụng đánh giá xem kỹ năng của bạn là chủ động hay thụ động.
  • Hồ sơ GitHub của tôi làm ví dụ cho bạn biết rằng tôi viết mã rất nhiều và cam kết rất nhiều. Tôi xem lại mã một chút và đôi khi tôi tạo các yêu cầu kéo. Tôi không tạo ra nhiều vấn đề. Với tư cách là một người quản lý, điều này cho thấy rằng tôi là một người quản lý RẤT thực tế, người vẫn viết mã hàng ngày (trong hoặc ngoài GitHub). Đây chính xác là những gì tôi muốn hồ sơ của mình truyền tải vào thời điểm này trong sự nghiệp của mình.
  • Jupyter Notebook Preview: Hầu hết các nhà khoa học dữ liệu sử dụng Jupyter Notebook để làm việc trên các dự án dữ liệu và chia sẻ chúng công khai. GitHub hiển thị Jupyter Notebooks nguyên bản cho phép người đọc xem mã, văn bản và biểu đồ của bạn được hiển thị chính xác như cách bạn lưu chúng. Điều này đảm bảo khả năng đọc cao.
  • Use a modern notebook platform
    Rather than using Jupyter Notebooks locally, I would recommend using a modern notebook platform like Noteable. The interactive data explorer and visualizations will help speed up your projects and allow you to focus on your the strength of your models, insights, discussions and conclusions.
    You can then export the project as a Jupyter Notebook and upload to GitHub. Needless to say, you should also make your Noteable project public.
    

Sau khi bạn có tài khoản GitHub, câu hỏi tiếp theo sẽ là dự án nào sẽ được giới thiệu. Tùy thuộc vào lĩnh vực bạn chọn và có thể là chuyên môn của bạn, các dự án này có thể khác nhau rất nhiều.

Những chủ đề cần đề cập trong danh mục đầu tư cho Nhà khoa học dữ liệu

Các nhà khoa học dữ liệu cần thể hiện rằng họ thành thạo trong ba lĩnh vực sau:

  1. Xác định vấn đề kinh doanh: Khả năng lấy tập dữ liệu công khai của bạn, đọc về nó và sau đó hình thành một vài giả thuyết hoặc một vài vấn đề kinh doanh được tạo ra sẽ chứng tỏ khả năng áp dụng kiến ​​thức của bạn vào các ứng dụng trong thế giới thực. Ví dụ: trong bộ dữ liệu thương mại điện tử công khai này , bạn có thể đưa ra một vấn đề kinh doanh là “Tìm các sản phẩm bán chạy nhất và xác định xem có nên quảng cáo chúng trên mạng xã hội hay không”
  2. Truy vấn trích xuất dữ liệu
    , làm sạch, tổng hợp các bộ dữ liệu lộn xộn bằng SQL, Pandas (và bất kỳ thư viện nào khác mà bạn yêu thích). Tôi không thể nhấn mạnh đủ về tầm quan trọng của việc thể hiện các kỹ năng SQL . Với tư cách là người quản lý tuyển dụng, rất khó có khả năng tôi sẽ thuê một nhà khoa học dữ liệu giỏi Python nhưng lại không biết SQL.
    - Viết trực tiếp SQL trên các tệp Excel và CSV : Viết SQL trong Jupyter Notebooks là một công việc khó khăn. Bạn thường phải sử dụng một thư viện và sau đó viết SQL trong dấu ngoặc kép. Tôi khuyên bạn nên sử dụng sổ ghi chép hiện đại như notable.io cho phép bạn chạy truy vấn trực tiếp trên tệp Excel hoặc CSV mà không cần bất kỳ cơ sở dữ liệu nào. Rốt cuộc, vì không ứng tuyển vào vai trò Kiến trúc sư cơ sở dữ liệu, nên thực sự có rất ít hoặc không có giá trị gì trong việc đấu tranh để tạo cơ sở dữ liệu cục bộ.
    - Kết nối với cơ sở dữ liệu: Tất nhiên, bạn có thể kết nối với cơ sở dữ liệu trong Noteable nhưng có thể không dễ dàng (hoặc miễn phí) để bạn truy cập cơ sở dữ liệu công cộng. Nếu bạn có quyền truy cập (Google: “Bộ dữ liệu công khai BigQuery”) vào cơ sở dữ liệu, thì bạn sẽ có thể viết SQL gốc trong Đáng chú ý. Không cần các gói, báo giá và tất cả những điều vô nghĩa đó.
    - Tạo một Cơ sở dữ liệu cục bộ: Ngoài ra, bạn có thể tạo một cơ sở dữ liệu cục bộ trên máy tính của mình nhưng tất cả đều mất thời gian và buộc bạn phải đưa ra dữ liệu mà bạn cần nhập vào các bảng. Sau cùng, mục tiêu của bạn là thể hiện các kỹ năng SQL của mình, không phải kỹ năng Quản trị cơ sở dữ liệu SQL.Vì vậy, tôi coi tuyến đường này là một sự lãng phí thời gian khá lớn .
  3. Khám phá dữ liệu, trực quan hóa
    Điều cần thiết đối với bất kỳ người thực hành dữ liệu nào là có thể viết mã chất lượng tốt để nhanh chóng phân đoạn, lọc, khám phá và trực quan hóa dữ liệu. Hầu hết sẽ sử dụng Python hoặc R. Vì vậy, trong khi các nền tảng máy tính xách tay hiện đại như Đáng chú ý sẽ cho phép bạn tạo biểu đồ một cách tương tác, tôi vẫn khuyên bạn nên sử dụng một số hình ảnh trực quan thực sự thú vị (xem r/dataisđẹp để lấy cảm hứng) thể hiện khả năng sử dụng Pandas, lambda của bạn chức năng (tùy chọn nhưng tuyệt vời) và matplotlib/seaborn, v.v.
  4. Học máy
    Tuy nhiên, hầu hết các nhà khoa học dữ liệu, nhà phân tích dữ liệu, kỹ sư dữ liệu, kỹ sư kinh doanh thông minh và kỹ sư máy học sẽ thấy hữu ích khi đưa một số phương pháp sau vào dự án của họ:
    ● Cây quyết định
    ● Phân cụm K-nghĩa
    ● K-láng giềng gần nhất ( KNN)
    ● Hồi quy tuyến tính
    ● Hồi quy logistic
    ● Naive Bayes
    ● Phân tích thành phần chính (PCA)
    ● Rừng ngẫu nhiên
    ● Máy vectơ hỗ trợ
    Danh sách này bao gồm một số phương pháp phổ biến nhất và được sử dụng rộng rãi nhất trong thế giới chuyên nghiệp, và do đó là nguồn cảm hứng tuyệt vời cho các dự án trong tương lai của bạn. Bằng cách có kiến ​​thức sâu sắc với thậm chí chỉ một vài trong số các phương pháp này, bạn sẽ tăng đáng kể cơ hội gây ấn tượng với người quản lý tuyển dụng trong cuộc phỏng vấn việc làm tiếp theo của mình. Tôi khuyên bạn nên xem xét loại công việc bạn muốn nhận, sau đó làm việc với một số thuật toán ở trên thường được triển khai trong lĩnh vực bạn chọn.

Khi nói đến việc chọn dự án tiếp theo của bạn, lời khuyên tốt nhất mà tôi từng gặp là tập trung vào một vấn đề thực tế trong cuộc sống và cố gắng giải quyết vấn đề đó. Tất nhiên, hầu hết các vấn đề trong thế giới thực đều chứa đầy các biến chưa biết và lượng dữ liệu lớn.

Vì vậy, hãy cố gắng chọn một vấn đề có phần hạn chế, về phạm vi hoặc độ phức tạp, hoặc thậm chí có thể là cả hai! Ngoài ra, hãy nhớ rằng bạn nên đam mê, ít nhất là phần nào trong dự án bạn chọn .

Nếu bạn hoàn toàn không tham gia vào quá trình hoặc kết quả, thì chất lượng công việc của bạn có thể sẽ ở mức thấp và bạn có nhiều khả năng kiệt sức và bỏ cuộc trước khi hoàn thành nó. Do đó , hãy tìm thứ gì đó mà bạn đam mê, ngay cả khi nó đã được thực hiện trước đó . Bạn vẫn sẽ học được những bài học quý giá và có một dự án đầy đủ để sử dụng trong danh mục đầu tư của mình!

Cảm hứng cho các dự án tiếp theo của bạn

Đây là những nguồn yêu thích của cá nhân tôi để tìm ý tưởng cho các dự án hoặc để tìm hiểu một chủ đề mới. Cả hai đều có nguồn tài nguyên phong phú - vì vậy hãy đảm bảo rằng bạn không bị lạc trong chiều rộng của nội dung. Thay vào đó, hãy chọn một chủ đề và tập trung vào chiều sâu mà bạn có thể tìm hiểu.

  1. https://goodboychan.github.io/categories/: Đây là repo/blog yêu thích của tôi để theo dõi. Nó có một số lượng lớn các hướng dẫn và ví dụ được sắp xếp gọn gàng theo các chủ đề.
  2. Kaggle : Nó vẫn là một mỏ vàng chứa các tập dữ liệu cũng như sổ ghi chép công khai có thể giúp bạn tìm hiểu và cải thiện chất lượng mã của mình.

dự án ví dụ

Chẳng hạn, một phương pháp phổ biến là phân cụm K-means, đây là một thuật toán cực kỳ đơn giản dành cho máy học, trong đó bạn chỉ cần biết một vài biến và điểm dữ liệu khác nhau để có được kết quả thú vị.

Hãy để chúng tôi tưởng tượng bạn đang làm việc cho một doanh nghiệp thương mại điện tử trực tuyến lớn và doanh nghiệp này đã thu thập một số thông tin chính từ khách hàng của họ. Dữ liệu này bao gồm độ tuổi của khách hàng, số tiền họ chi tiêu và loại sản phẩm họ đã mua.

Sau đó, phân cụm K-means cho phép bạn phân đoạn mọi giao dịch mua và người dùng thành các cụm để có được cái nhìn tổng quan về các diện người mua khác nhau. Tất cả điều này, chỉ với 3 biến khác nhau.

Cách tiếp cận các dự án

Nếu mục đích chính của bạn khi tạo danh mục dự án khoa học dữ liệu trực tuyến là để thu hút các nhà tuyển dụng tiềm năng, thì bạn nên tiếp cận mọi dự án bằng một bộ quy tắc nghiêm ngặt mà bạn đưa ra . Điều này giúp bạn tránh khỏi phạm vi leo thang và tiêu tốn thời gian.

Nếu bạn chưa quen với thế giới khoa học dữ liệu, thì chỉ cần có thêm kinh nghiệm sẽ là phần thưởng lớn nhất mà bạn có thể nhận được. Xét cho cùng, bạn đang cạnh tranh với hàng nghìn nhà phát triển, kỹ sư và nhà khoa học dữ liệu khác, vì vậy bạn cần phải cố gắng hết sức có thể. Và thực hành làm cho hoàn hảo.

Hãy tiếp tục làm việc với các dự án khác nhau khi bạn có thời gian, và sớm hay muộn bạn sẽ nhận ra rằng bạn hiện đã ở trên nhiều cấp độ so với mức mà bạn chỉ mới vài tháng trước.

Cũng cần nhớ rằng rất ít người phỏng vấn việc làm sẽ thực sự xem qua tất cả mã của bạn trên GitHub và thậm chí còn ít người thực sự tải xuống và biên dịch các tập lệnh của bạn. Điều quan trọng là bạn cho thấy mình có kiến ​​thức về các thuật toán phổ biến, khả năng giải quyết vấn đề để tiếp cận những thách thức không rõ ràng và các kỹ năng lập trình cần thiết để thực hiện điều đó .

Tất nhiên, bạn cũng không nên chỉ tải lên các dự án bị hỏng. Điều quan trọng là bạn phải tự viết mã, ngay cả khi bạn làm theo hướng dẫn hoặc hướng dẫn trực tuyến. Bằng cách này, bạn sẽ trở nên thân thiết hơn với từng dòng mã và sự hiểu biết của bạn sẽ tốt hơn nhiều. Mặt khác, nếu bạn chỉ sao chép/dán một dự án khác và đổi tên một số biến, tôi có thể đảm bảo với bạn rằng bạn sẽ đánh bom cuộc phỏng vấn.

Tạo sự quan tâm cho hồ sơ của bạn

Nếu bạn đang làm việc chăm chỉ cho một dự án khoa học dữ liệu mà bạn tự hào, bạn có thể cân nhắc tạo ra một số tiếp xúc cho bản thân và dự án của mình. Bạn không nên mong đợi hàng tấn người tìm hiểu về dự án của mình chỉ bằng cách tải mã nguồn của bạn lên GitHub.

Nhưng điều đó không có nghĩa là dự án của bạn không được chú ý. Tôi khuyên bạn nên viết một blogpost chuyên sâu trên Medium.com hoặc trên trang web của riêng bạn, đi sâu vào chi tiết cụ thể về dự án của bạn và bạn viết bài này theo cách mà bạn được coi là chuyên gia về chủ đề này.

Và tất nhiên, hãy nhớ bao gồm các liên kết đến hồ sơ GitHub của bạn và các dự án trong bài đăng trên blog này.

suy nghĩ cuối cùng

Ở đó bạn có nó. Tôi đã đề cập đến một số điều quan trọng nhất cần ghi nhớ khi xây dựng danh mục đầu tư tuyệt vời với tư cách là một nhà khoa học dữ liệu. Bằng cách gắn bó với các chủ đề mà bạn quan tâm và sử dụng một số phương pháp và thuật toán hàng đầu trong ngành, bạn có thể chuẩn bị cho mình thành công trong các cuộc phỏng vấn việc làm trong tương lai. Nó thật sự đơn giản!

— Được viết bằng ❤️ dưới nửa đêm ️

Tái bút: Tôi chỉ là một blogger khiêm tốn. Tôi phạm sai lầm và tôi có những điểm mù. Nếu bạn nhận thấy những điều tôi có thể cải thiện hoặc nếu bạn chỉ muốn trò chuyện, vui lòng gửi tin nhắn trực tiếp cho tôi :)