3 choses qui vous aideront à tirer le meilleur parti de votre bootcamp de science des données

Nov 28 2022
Et des recommandations de ressources gratuites
Les bootcamps de science des données sont intensifs avec un programme chargé. Si vous êtes quelqu'un qui ne sait pas si un bootcamp est le meilleur moyen pour vous d'apprendre la science des données, vous pouvez lire mon article précédent ici.
Photo de David Iskander sur Unsplash

Les bootcamps de science des données sont intensifs avec un programme chargé. Si vous êtes quelqu'un qui ne sait pas si un bootcamp est le meilleur moyen pour vous d'apprendre la science des données, vous pouvez lire mon article précédent ici. Dans cet article, je partage mes réflexions sur la façon de tirer le meilleur parti du bootcamp une fois que vous avez pris la décision d'en rejoindre un.

Lorsque j'ai commencé mon bootcamp avec Codeop , j'avais une vague idée de ce que je vais apprendre en me basant sur le cursus qui m'a été fourni en début de formation. Maintenant que je suis dans le vif du sujet, je suis reconnaissant pour certaines choses que j'ai faites avant le premier jour de cours et d'autres que j'aurais aimé passer du temps à faire dans le cadre de la préparation. Donc, sur la base de mon expérience, en prévision du premier jour de cours, utilisez le temps entre les deux pour :

  1. Familiarisez-vous avec le langage de programmation de votre choix
  2. Apprendre les bases des statistiques
  3. Comprendre les terminologies de base de l'apprentissage automatique

Avis de non-responsabilité : les ressources partagées ne sont pas du contenu sponsorisé. Ils sont tous basés sur mon expérience personnelle de leur utilisation.

Familiarisez-vous avec le langage de programmation de votre choix

Comme c'est le cas pour un débutant dans n'importe quel domaine, la courbe d'apprentissage avec le codage sera la plus raide au début. Il y aura de fréquents obstacles à surmonter et il est impossible d'échapper à cette partie ardue du parcours pour devenir un scientifique des données. Cependant, les compétences acquises à ce stade sont des tremplins qui jettent les bases de la qualité que l'on peut obtenir. Il est donc important de comprendre les concepts et de maîtriser les bases du codage dans n'importe quel langage de programmation.

Le programme des bootcamps a peu de place pour le mou et cela permet de rester facilement à la traîne dans la cimentation d'une bonne compréhension des sujets introduits. Au sein d'une telle structure, il peut être séduisant de sauter quelques étapes ou de passer à l'étape suivante avec une compréhension superflue des sujets précédents. Pour éviter de tomber dans ce piège, il est extrêmement utile d'avoir une longueur d'avance sur les bases du langage de programmation avec lequel on veut coder. Ceux-ci peuvent inclure des concepts tels que l'environnement de codage, la syntaxe et les structures de données, entre autres.

Ma recommandation:

Je recommande de faire les cours d'introduction sur Dataquest où l'on peut commencer à apprendre gratuitement (avec des abonnements payants pour un accès illimité après un certain point). Il est auto-rythmé et livré entièrement en ligne. J'ai particulièrement aimé l'approche 'apprendre en faisant' des cours sur cette plateforme qui est différente des autres (comme Datacamp ). Cette approche m'a aidé à mieux retenir ce que j'ai appris. Les cours visent à enseigner aux étudiants comment apprendre en réfléchissant à un problème et en les orientant vers la documentation. Décomposer un problème complexe et utiliser la documentation pour obtenir de l'aide sont des compétences inestimables à posséder en tant que data scientist.

Apprendre les bases des statistiques

L'une des composantes essentielles de la science des données est la statistique. Les scientifiques des données utilisent des statistiques pour collecter, examiner, analyser et tirer des conclusions à partir de données, ainsi que pour créer des modèles de données. En bref, les statistiques aident à faire ressortir des informations significatives à partir de données qui peuvent soutenir des actions fondées sur des preuves.

Un bon bootcamp visera à couvrir des concepts statistiques importants dans le cadre de son programme. Mais cela peut devenir technique pour quelqu'un qui n'a jamais rencontré de statistiques auparavant. Même pour ceux qui auraient pu faire des statistiques 101 à un moment donné de leur formation, bien comprendre tous les sujets nécessaires à des domaines tels que l'apprentissage automatique peut ne pas être un jeu d'enfant.

Bien qu'il puisse être décourageant de déterminer par où commencer l'apprentissage, de nombreuses ressources gratuites sont disponibles sur les bases des statistiques nécessaires à la science des données. Je vois trois principaux domaines de statistiques qui sont utiles en science des données :

  1. Concepts statistiques de base — Statistiques descriptives, distributions, tests d'hypothèses et régression.
  2. Statistiques bayésiennes — Probabilité conditionnelle, a priori, a posteriori et maximum de vraisemblance.
  3. Apprentissage automatique statistique - concepts de machine statistique de base utiles dans la modélisation prédictive qui se distingue des méthodes statistiques classiques
  • Si vous aimez apprendre à travers des livres, vous pouvez consulter les statistiques pratiques pour les scientifiques des données par Peter Bruce, Andrew Bruce et Peter Gedeck. Le livre couvre les sujets essentiels dans un format facile à lire et convient aux débutants.
  • Si vous préférez apprendre par le biais de vidéos (comme moi), je vous recommande la série de vidéos sur les fondamentaux de la statistique par Josh Starmer sur sa chaîne youtube Statquest. Il explique les concepts statistiques avec un style d'enseignement clair et concis tout en faisant bon usage des visuels.

L'apprentissage automatique (ML) est un sous-ensemble du domaine général de la science des données. L'apprentissage automatique est un ensemble de méthodes, d'outils et d'algorithmes informatiques utilisés pour former des machines à analyser, comprendre et trouver des modèles cachés dans les données et à faire des prédictions. Il est couramment utilisé dans les entreprises du domaine de l'intelligence artificielle.

Les bootcamps technologiques sont susceptibles de couvrir des sujets d'apprentissage automatique dans son programme, car il s'agit aujourd'hui d'un ensemble de compétences recherchées dans une carrière en science des données. Pour bien comprendre les concepts théoriques à travers le bootcamp, il est utile de parcourir quelques terminologies et concepts de base à votre rythme. Cela permettra ensuite d'utiliser les classes réelles pour clarifier sa compréhension et approfondir des sujets d'intérêt spécifiques pour éventuellement commencer à créer des modèles ML.

Ma recommandation:

J'ai trouvé la vidéo de Cassie Kozyrov Introduction au ML et à l'IA - MFML Partie 1 comme une ressource incroyable disponible pour les débutants. Making Friends with Machine Learning (MFML) était un cours Google réservé à l'interne, désormais accessible à tous. Elle se concentre sur la compréhension conceptuelle (plutôt que sur les détails mathématiques et de programmation) et guide à travers les idées qui constituent la base de l'apprentissage automatique. Si vous préférez plutôt lire à ce sujet, elle a également écrit un article moyen à ce sujet.