履歴書で Kaggle データセットを使用してはいけない理由
Kaggle のデータセットは過剰に使用されており、現実的ではありません!

Kaggle は初心者のデータ サイエンティストが始めるのに最適な場所かもしれませんが、履歴書でデータセットを使用しないでください。厳しい真実は、インタビュアーはあなたがタイタニック データセットをモデル化することを気にしていないということです。
インタビュアーは何か特別なもの、あなたを他の人と差別化する何かを求めています。誰もが Kaggle データセットを使用しているため、Kaggle はあなたをその群集に参加させます!
Kaggle Datasets のもう 1 つの問題は、ほとんどのデータが既にクリーンアップされていることです。これは、実際の仕事の経験と比較すると、大きな違いです。実際の環境では、データをクリーンアップし、実際にデータが洞察につながることを確認する必要があります。Kaggle データセットを使用すると、モデルが学習することが既にわかっています (少なくともほとんどのデータセット)。
さて、どうやって群衆から離れますか?
群衆から自分を際立たせる方法はたくさんありますが、最善の方法の 1 つは、独自のデータセットを作成することです。独自のデータセットを作成するには、Web スクレイピング、独自のデータ、リアルタイム データ、API からのデータなどを使用するさまざまな方法を使用できます。私が考えた 1 つのアイデアは、Google フォトから写真をインポートして、顔を分類するモデル。
独自のデータセットを作成したり、群衆から際立ったりするもう 1 つの方法は、GAN を使用することです。これらのタイプのモデルは、他のデータを使用してデータを生成できます。たとえば、問題を解決するのに十分なデータがない場合は、GAN を使用してより多くのデータを生成することを試みることができます。次に、新しいデータにモデルを当てはめた後、結果が改善されたかどうかを確認できます。
群衆から目立つもう 1 つの方法は、モデル化する準備ができていないデータセットを使用することです。これは、データが消去されないことを意味します。つまり、さまざまな手法を使用してデータを消去する必要があります。
独自のデータセットを作成すると、データの準備方法とデータの探索方法に関する知識が広がります。あなたが群衆から離れているかどうかを理解する最良の方法の 1 つは、データが答えられる質問を見つけることです。結局のところ、ほとんどの企業はデータ サイエンティストを雇って、より多くの利益を得るのに役立つ有意義な洞察を見つけています。
私が取り組んでいるプロジェクトの 1 つは、小型の自動運転車です。これは、リアルタイム データを使用してディープ ラーニング モデルをトレーニングします。これは、インタビュアーが興味をそそられるユニークなプロジェクトの一例です。
Kaggle の本当の使い方
Kaggle はインタビュアーに好印象を与えるものではないかもしれませんが、データセットのモデリングから学んだスキルは好印象を与えるでしょう。非常に多くのデータセットにアクセスできるため、Kaggle はデータセットをモデル化する方法を学ぶための最良の方法です。Kaggle を適切に使用するには、自分の弱点は何かを自問する必要があります。弱点を見つけたら、弱点を改善するのに役立つデータセットを見つけます。
たとえば、GAN の理解を深め、GAN を使用したコーディングの経験を積みたいとします。私が最初に行うことは、MNIST のような単純なデータセットを見つけて、GAN でモデル化することです。それから、目標を達成するまで、より難しいデータセットに取り組みました。この例では、GAN とその使用方法を理解することでした。
自分の弱点を改善したら、自分で作成したデータセットや使いにくいデータセットにそれを適用できます。
また、Kaggle はユーザビリティに基づいてデータセットを評価します。データ分析と EDA のスキルを向上させる方法の 1 つは、ユーザビリティ スコアが小さいデータセットを見つけることです。