Por que você nunca deve usar conjuntos de dados Kaggle em um currículo!
Os conjuntos de dados Kaggle são usados em demasia e não são realistas!
Embora o Kaggle possa ser um ótimo lugar para cientistas de dados iniciantes começarem, você nunca deve usar os conjuntos de dados em um currículo. A dura verdade é que os entrevistadores não se importam com você modelando o conjunto de dados do Titanic.
Os entrevistadores estão procurando por algo especial, algo que o diferencie da multidão. Kaggle faz você se juntar a essa multidão porque todo mundo usa Kaggle Datasets!
Outro problema com Kaggle Datasets é que a maioria dos dados já está limpa para você! Esta é uma grande diferença quando comparada com a experiência de trabalho da vida real. Em uma configuração do mundo real, você precisará limpar os dados e realmente garantir que os dados levem a insights. Com os conjuntos de dados do Kaggle, você já sabe que o modelo aprenderá (pelo menos a maioria dos conjuntos de dados).
Bem, como você se diferencia da multidão?
Embora existam muitas maneiras de se diferenciar da multidão, uma das melhores é criar seu próprio conjunto de dados. Para criar seu próprio conjunto de dados, você pode usar vários métodos, como web-scraping, usar seus próprios dados, dados em tempo real, dados de APIs etc. Uma ideia que tive foi importar fotos do Google Fotos e tentar criar um modelo que classifica as faces.
Outra maneira de criar seu próprio conjunto de dados ou apenas se destacar da multidão é usando GANs. Esses tipos de modelos podem gerar dados usando outros dados. Por exemplo, se você não tiver dados suficientes para resolver o problema, poderá tentar usar uma GAN para gerar mais dados. Depois de ajustar o modelo aos novos dados, você pode ver se os resultados melhoraram.
Outra maneira de se destacar da multidão é usar conjuntos de dados que não estão prontos para serem modelados. Isso significa que os dados não são limpos, o que significa que você precisará usar várias técnicas para limpá-los.
Criar seu próprio conjunto de dados expandirá seu conhecimento sobre como preparar e explorar dados. Uma das melhores maneiras de entender se você está separado da multidão é encontrar perguntas que os dados possam responder. Afinal, a maioria das empresas contrata cientistas de dados para encontrar insights significativos que as ajudem a ganhar mais dinheiro.
Um projeto em que estou trabalhando é um minicarro autônomo. Isso usará dados em tempo real para treinar um modelo de aprendizado profundo. Este é um exemplo de um projeto único que deixará os entrevistadores intrigados.
A verdadeira maneira de usar o Kaggle
Embora o Kaggle possa não impressionar os entrevistadores, as habilidades que você aprende com a modelagem dos conjuntos de dados irão. O Kaggle é de longe a melhor maneira de aprender a modelar conjuntos de dados porque você tem acesso a muitos. Para usar o Kaggle corretamente, você deve se perguntar quais são seus pontos fracos. Depois de encontrar uma fraqueza, encontre um conjunto de dados que possa ajudá-lo a melhorar sua fraqueza.
Por exemplo, digamos que eu gostaria de compreender melhor as GANs e também obter mais experiência em codificação com elas. A primeira coisa que eu faria seria encontrar um conjunto de dados simples como o MNIST e modelá-lo com um GAN. A partir de então, eu trabalharia para conjuntos de dados mais difíceis até atingir meu objetivo com sucesso, neste caso, era entender os GANs e como usá-los.
Depois de melhorar meu ponto fraco, posso aplicá-lo a um conjunto de dados que criei ou a um conjunto de dados difícil de usar.
Kaggle também classifica conjuntos de dados com base na usabilidade, uma maneira de melhorar sua análise de dados e habilidades de EDA é encontrar um conjunto de dados com uma pontuação de usabilidade menor.