Tại sao bạn không bao giờ nên sử dụng bộ dữ liệu Kaggle trong sơ yếu lý lịch!
Bộ dữ liệu Kaggle bị lạm dụng và không thực tế!
![](https://post.nghiatu.com/assets/images/m/max/724/1*0kbMVcSwvqIp1lFbjFFOag.png)
Mặc dù Kaggle có thể là một nơi tuyệt vời để các nhà khoa học dữ liệu mới bắt đầu bắt đầu, nhưng bạn không bao giờ nên sử dụng các bộ dữ liệu trong sơ yếu lý lịch. Sự thật phũ phàng là những người phỏng vấn không quan tâm đến việc bạn lập mô hình bộ dữ liệu Titanic.
Những người phỏng vấn đang tìm kiếm điều gì đó đặc biệt, điều gì đó khiến bạn khác biệt với đám đông. Kaggle khiến bạn tham gia vào đám đông đó vì mọi người đều sử dụng Bộ dữ liệu Kaggle!
Một vấn đề khác với Bộ dữ liệu Kaggle là hầu hết dữ liệu đã được làm sạch cho bạn! Đây là một sự khác biệt lớn khi so sánh với kinh nghiệm làm việc thực tế. Trong môi trường thực tế, bạn sẽ cần làm sạch dữ liệu và thực sự đảm bảo rằng dữ liệu sẽ dẫn đến thông tin chuyên sâu. Với bộ dữ liệu Kaggle, bạn đã biết rằng mô hình sẽ học (ít nhất là hầu hết các bộ dữ liệu).
Chà, làm thế nào để bạn tách mình ra khỏi đám đông?
Mặc dù có nhiều cách để tạo sự khác biệt với đám đông, nhưng một trong những cách tốt nhất là tạo tập dữ liệu của riêng bạn. Để tạo tập dữ liệu của riêng mình, bạn có thể sử dụng nhiều phương pháp khác nhau như quét web, sử dụng dữ liệu của riêng bạn, dữ liệu thời gian thực, dữ liệu từ API, v.v. Một ý tưởng mà tôi nghĩ đến là nhập ảnh từ Google Photos và cố gắng tạo một tập dữ liệu mô hình phân loại các khuôn mặt.
Một cách khác để tạo tập dữ liệu của riêng bạn hoặc nổi bật so với đám đông là sử dụng GAN. Các loại mô hình này có thể tạo dữ liệu bằng cách sử dụng dữ liệu khác. Ví dụ: nếu bạn không có đủ dữ liệu để giải quyết vấn đề, bạn có thể thử sử dụng GAN để tạo thêm dữ liệu. Sau đó, sau khi điều chỉnh mô hình trên dữ liệu mới, bạn có thể xem liệu kết quả có được cải thiện hay không.
Một cách khác để nổi bật giữa đám đông là sử dụng các bộ dữ liệu chưa sẵn sàng để lập mô hình. Điều này có nghĩa là dữ liệu không được làm sạch nghĩa là bạn sẽ cần sử dụng nhiều kỹ thuật khác nhau để làm sạch dữ liệu.
Tạo tập dữ liệu của riêng bạn sẽ mở rộng kiến thức của bạn về cách chuẩn bị dữ liệu và khám phá dữ liệu. Một trong những cách tốt nhất để hiểu liệu bạn có khác biệt với đám đông hay không là tìm câu hỏi mà dữ liệu có thể trả lời. Rốt cuộc, hầu hết các công ty thuê các nhà khoa học dữ liệu để tìm ra những hiểu biết có ý nghĩa giúp họ kiếm được nhiều tiền hơn.
Một dự án mà tôi đang thực hiện là một chiếc ô tô tự lái mini. Điều này sẽ sử dụng dữ liệu thời gian thực để đào tạo một mô hình học sâu. Đây là một ví dụ về một dự án độc đáo mà người phỏng vấn sẽ bị hấp dẫn.
Cách thực sự bạn nên sử dụng Kaggle
Mặc dù Kaggle có thể không gây ấn tượng với người phỏng vấn, nhưng những kỹ năng bạn học được từ việc lập mô hình bộ dữ liệu sẽ gây ấn tượng. Cho đến nay, Kaggle là cách tốt nhất để học cách lập mô hình bộ dữ liệu vì bạn có quyền truy cập vào rất nhiều. Để sử dụng Kaggle đúng cách, bạn phải tự hỏi đâu là điểm yếu của mình. Sau khi bạn tìm ra điểm yếu, hãy tìm tập dữ liệu có thể giúp bạn cải thiện điểm yếu của mình.
Ví dụ: giả sử rằng tôi muốn hiểu rõ hơn về GAN và cũng có thêm kinh nghiệm viết mã với chúng. Điều đầu tiên tôi sẽ làm là tìm một tập dữ liệu đơn giản như MNIST và lập mô hình cho nó bằng GAN. Từ đó, tôi sẽ làm việc theo cách của mình với các bộ dữ liệu khó hơn cho đến khi tôi đạt được thành công mục tiêu của mình, trong trường hợp này, đó là hiểu GAN và cách sử dụng chúng.
Sau khi tôi đã cải thiện điểm yếu của mình, tôi có thể áp dụng điều đó cho tập dữ liệu mà tôi đã tạo hoặc cho tập dữ liệu khó sử dụng.
Kaggle cũng xếp hạng các bộ dữ liệu dựa trên khả năng sử dụng, một cách để bạn có thể cải thiện kỹ năng phân tích dữ liệu và EDA của mình là tìm một bộ dữ liệu có điểm khả năng sử dụng nhỏ hơn.