이력서에 Kaggle 데이터 세트를 사용하면 안 되는 이유!
Kaggle 데이터 세트는 과도하게 사용되며 현실적이지 않습니다!

Kaggle은 초보자 데이터 과학자가 시작하기에 좋은 장소일 수 있지만 이력서에 데이터 세트를 사용해서는 안 됩니다. 가혹한 사실은 면접관이 Titanic 데이터 세트를 모델링하는 데 관심이 없다는 것입니다.
면접관은 군중과 차별화되는 특별한 것을 찾고 있습니다. 모두가 Kaggle Datasets를 사용하기 때문에 Kaggle을 통해 군중에 합류할 수 있습니다!
Kaggle Datasets의 또 다른 문제는 대부분의 데이터가 이미 정리되어 있다는 것입니다! 이것은 실제 업무 경험과 비교할 때 엄청난 차이입니다. 실제 환경에서는 데이터를 정리하고 실제로 데이터가 인사이트로 이어지는지 확인해야 합니다. Kaggle 데이터 세트를 사용하면 모델이 학습할 것임을 이미 알고 있습니다(적어도 대부분의 데이터 세트).
글쎄, 당신은 군중과 어떻게 차별화됩니까?
군중과 차별화되는 방법은 여러 가지가 있지만 가장 좋은 방법 중 하나는 고유한 데이터 세트를 만드는 것입니다. 나만의 데이터셋을 만들려면 웹 스크래핑, 자신의 데이터, 실시간 데이터, API의 데이터 등 다양한 방법을 사용할 수 있습니다. 제가 생각한 한 가지 아이디어는 Google 포토에서 사진을 가져와서 얼굴을 분류하는 모델.
자신의 데이터 세트를 만들거나 군중에서 눈에 띄는 또 다른 방법은 GAN을 사용하는 것입니다. 이러한 유형의 모델은 다른 데이터를 사용하여 데이터를 생성할 수 있습니다. 예를 들어, 문제를 해결하기에 데이터가 충분하지 않은 경우 GAN을 사용하여 더 많은 데이터를 생성할 수 있습니다. 그런 다음 새 데이터에 모델을 맞춘 후 결과가 개선되었는지 확인할 수 있습니다.
군중에서 눈에 띄는 또 다른 방법은 모델링할 준비가 되지 않은 데이터 세트를 사용하는 것입니다. 이는 데이터가 정리되지 않음을 의미하며 데이터를 정리하기 위해 다양한 기술을 사용해야 합니다.
고유한 데이터 세트를 만들면 데이터를 준비하고 탐색하는 방법에 대한 지식이 확장됩니다. 당신이 군중에서 떨어져 있는지 이해하는 가장 좋은 방법 중 하나는 데이터가 대답할 수 있는 질문을 찾는 것입니다. 결국 대부분의 회사는 더 많은 수익을 창출하는 데 도움이 되는 의미 있는 통찰력을 찾기 위해 데이터 과학자를 고용합니다.
제가 작업하고 있는 프로젝트 중 하나는 미니 자율주행차입니다. 이는 실시간 데이터를 사용하여 딥 러닝 모델을 교육합니다. 이것은 면접관이 흥미를 가질 독특한 프로젝트의 한 예입니다.
Kaggle을 사용해야 하는 실제 방법
Kaggle이 면접관에게 깊은 인상을 주지 못할 수도 있지만 데이터 세트 모델링을 통해 배우는 기술은 그럴 것입니다. Kaggle은 매우 많은 데이터 세트에 액세스할 수 있기 때문에 데이터 세트를 모델링하는 방법을 배우는 가장 좋은 방법입니다. Kaggle을 제대로 사용하려면 자신의 약점이 무엇인지 스스로에게 물어봐야 합니다. 약점을 찾은 후에는 약점을 개선하는 데 도움이 되는 데이터 세트를 찾으십시오.
예를 들어, GAN에 대해 더 잘 이해하고 싶고 GAN을 사용한 코딩 경험을 더 얻고 싶다고 가정해 보겠습니다. 가장 먼저 할 일은 MNIST와 같은 간단한 데이터 세트를 찾아 GAN으로 모델링하는 것입니다. 그때부터 목표에 성공적으로 도달할 때까지 더 어려운 데이터 세트로 작업할 것입니다. 이 경우에는 GAN과 사용 방법을 이해하는 것이 었습니다.
내 약점을 개선한 후에는 내가 만든 데이터 세트나 사용하기 어려운 데이터 세트에 적용할 수 있습니다.
Kaggle은 또한 사용성을 기준으로 데이터 세트를 평가합니다. 데이터 분석 및 EDA 기술을 향상할 수 있는 한 가지 방법은 사용성 점수가 더 작은 데이터 세트를 찾는 것입니다.