Comment démarrer avec la vision par ordinateur en 2023 ?

May 09 2023
Une feuille de route de zéro à non zéro pour devenir ingénieur ou chercheur en vision par ordinateur en 2023. Sachez quoi apprendre et comment appliquer les compétences acquises dans des projets réels pour entrer dans l'industrie ou le milieu universitaire.

Une feuille de route de zéro à non zéro pour devenir ingénieur ou chercheur en vision par ordinateur en 2023. Sachez quoi apprendre et comment appliquer les compétences acquises dans des projets réels pour entrer dans l'industrie ou le milieu universitaire.

Source : Image de Possedphotography sur Unsplash.

Motivation

La vision par ordinateur (CompVis) est un domaine de l'intelligence artificielle (IA) qui consiste à entraîner des ordinateurs à interpréter et à comprendre des images et des vidéos . Les applications pratiques de CompVis vont des robots de fabrication industrielle, des voitures autonomes et de la vidéosurveillance à l'imagerie médicale et à la réalité augmentée. Dans de nombreux cas, CompVis peut automatiser les tâches et faire gagner du temps et des efforts pour nous, les Néandertaliens , ce qui le rend utile pour des applications pratiques. De plus, dans certains cas, il surpasse également les humains, faisant de CompVis un outil vital pour de nombreuses industries. [1]

Dans cet article, je vais partager une feuille de route que vous pouvez utiliser pour démarrer avec CompVis, que ce soit dans l'industrie ou dans le milieu universitaire. Tout d'abord, je vais partager quelques ressources d'apprentissage gratuites et accessibles au public. Ensuite, je parlerai des plates-formes où vous pouvez appliquer les compétences acquises pour construire votre portefeuille. Si vous êtes nouveau ou avez une certaine expérience, ce guide peut potentiellement vous rendre encore meilleur dans ce domaine très excitant et en évolution rapide !

Cet article est organisé comme suit:

  1. Ressources d'apprentissage
  2. Concours en ligne
  3. Collaborations avec l'industrie et la recherche

Ressources d'apprentissage

Dans cette section, je vais passer en revue trois ressources que vous devriez envisager de prendre afin de bien comprendre la théorie ainsi que la pratique derrière la construction de systèmes CompVis. Il s'agit d'augmenter votre profondeur en tant que praticien CompVis. Les deux suivants seront ceux que vous devriez parcourir pour avoir une idée des différentes tâches et paradigmes d'apprentissage dans CompVis. C'est pour augmenter votre largeur.

La spécialisation en apprentissage profond se compose d'un total de cinq cours qui vous apprendront les bases de l'apprentissage en profondeur appliqué à CompVis, au traitement du langage naturel, etc. Elle couvre à la fois des concepts théoriques et pratiques pour construire, former et tester des modèles d'apprentissage en profondeur. Vous pourrez construire et former vos propres modèles via les devoirs du cours. Prenez votre temps pour terminer sincèrement les cinq cours !

CS231n : Apprentissage en profondeur pour la vision par ordinateur plonge dans les détails des architectures de classification d'images en mettant l'accent sur l'apprentissage de modèles de bout en bout. Il se compose d'exercices pratiques qui vous permettent de mettre en œuvre et de former vos propres modèles CompVis sur un problème réel de votre choix. Il fournit également des détails sur les conseils et astuces d'ingénierie pratiques pour la formation et le réglage fin des modèles d'apprentissage en profondeur.

L'apprentissage en profondeur dans la vision par ordinateur avec PyTorch vous offre une présentation rapide et facile de la formation et du test des algorithmes de classification d'images et de segmentation sémantique sur vos propres ensembles de données . Enfin, il vous montre comment créer et exécuter une interface Web simple afin que tout le monde puisse utiliser vos modèles nouvellement formés. ( Autopublicité éhontée ! )

Apprentissage en profondeur pour la vision par ordinateur, Justin Johnson couvre la mise en œuvre, la formation et le débogage des réseaux de neurones et fournit une compréhension approfondie de la recherche de pointe dans CompVis. Il couvre les tâches CompVis telles que la détection d'objets, la segmentation sémantique, la vision 3D et les modèles génératifs, ainsi que l'apprentissage par renforcement.

Deep Learning in Computer Vision, le professeur Kosta Derpanis est un cours plus récent qui couvre une gamme de sujets tels que la reconnaissance d'action, la vision et le langage, les réseaux de neurones graphiques. Il couvre également les paradigmes d'apprentissage comme l'apprentissage métrique et l'apprentissage auto-supervisé.

Source : Photo de l'auteur. Certificat de spécialisation en apprentissage profond. Les cinq parcours représentent cinq pierres de l'infini ! C'est quoi le sixième ? ;)

Quelques autres ressources d'apprentissage qu'il pourrait être utile de consulter :

  1. Tutoriels Roboflow sur l'utilisation des modèles de vision par ordinateur SOTA
  2. Tâches du visage
  3. Tutoriels sur les transformateurs de visage étreignant

Concours en ligne

Ensuite, je vais énumérer quelques compétitions/défis précédents que vous pouvez faire vous-même et appliquer vos compétences acquises dans les cours mentionnés ci-dessus. Cela vous aidera également à vous faire une idée du fonctionnement des compétitions en ligne (par exemple, obtenir des données , former des modèles , tester et analyser , soumettre des résultats et itérer ). Ensuite, je mentionnerai les noms des plateformes de compétition qui hébergent également des défis de conférences CompVis populaires où vous pourriez éventuellement commencer votre première compétition en ligne !

Dogs vs. Cats : Une tâche de classification d'images où vous construirez un modèle pour prédire les chiens et les chats à partir d'images.

Classification des fleurs avec des TPU : Tâche similaire à Dogs vs. Cats mais avec de nombreuses classes. C'est ce qu'on appelle la classification d'images multi-classes . Ici, vous allez construire un modèle pour classer plus de 100 types de fleurs. Au lieu d'utiliser des GPU, vous vous familiariserez avec l'utilisation des TPU.

Carvana Image Masking Challenge : Une tâche de segmentation sémantique où l'objectif est de développer un modèle pour supprimer l'arrière-plan du studio photo de la voiture. Ceci est similaire à la classification des images mais à un niveau de pixel où chaque pixel se voit attribuer une étiquette de classe qui conduit à un masque de sortie final de l'objet souhaité (c'est-à-dire une voiture).

Détection globale de blé : Un problème de détection d'objets dont le but est de construire un modèle pour localiser (par exemple, dessiner des boîtes englobantes) sur des épis de blé à partir d'images extérieures de plants de blé.

Détection d'embolie pulmonaire RSNA STR : les tâches de classification précédentes traitent des images 2D ; dans ce défi, l'objectif est de détecter et de classer les anomalies à partir des scanners thoraciques qui sont des images 3D. Il s'agit de la classification d'images 3D .

Plateformes de compétitions ML : Les compétitions ci-dessus sont hébergées sur Kaggle, qui est la plateforme de compétition la plus populaire. Il existe d'autres plateformes qui hébergent différentes compétitions auxquelles vous pouvez participer. Je vais en passer quelques-unes :

  1. Grand Challenge : Principalement pour des problèmes d'imagerie biomédicale. Les conférences ateliers de la MICCAI accueillent des compétitions ici.
  2. AIcrowd : Entreprises, universités, agences gouvernementales ou ONG accueillent divers challenges. Des concours sont également organisés par NeurIPS sous forme d'ateliers.

Collaborations industrielles et académiques

Maintenant, dans cette dernière section, je parlerai des moyens qui permettent les collaborations industrielles et universitaires . Une fois que vous avez participé à quelques-uns des concours en ligne, ils construisent votre intuition sur la construction de systèmes CompVis, car ils sont principalement basés sur des données du monde réel. À partir de là, vous pouvez soit vous diriger vers l'industrie pour travailler sur des problèmes commerciaux, soit vers le milieu universitaire pour mener des recherches.

Omdena AI : J'ai demandé à perplexity.ai ce qu'est Omdena, et voici ce qu'il a dit :

Omdena AI est une plateforme collaborative qui crée des solutions d'IA et de science des données pour résoudre des problèmes du monde réel. Il s'agit d'une première organisation communautaire qui permet aux ingénieurs en IA du monde entier de devenir des acteurs du changement et aide les organisations et les startups axées sur la mission à créer des solutions d'IA percutantes grâce à une collaboration mondiale. Omdena AI organise des défis qui rassemblent des scientifiques des données du monde entier pour travailler sur des projets spécifiques, tels que la détection des incendies de forêt en Amazonie.

Fondamentalement, c'est une plate-forme où vous pouvez travailler avec des entreprises sur des problèmes du monde réel. Une mise en garde est qu'au début, le travail que vous ferez n'est pas rémunéré. Cependant, au fur et à mesure que vous terminez quelques projets (chacun avec une entreprise différente), vous construisez votre portefeuille et pouvez entrer dans le programme Omdena Top Talent , où vous êtes payé pour travailler sur des projets ou même travailler à temps plein ! En tant que débutant, je pense que c'est le plus proche que vous pouvez travailler avec des gens de l'industrie, à part obtenir un stage ! C'est un moyen efficace pour quelqu'un (même vous !) d'acquérir de l'expérience sur des problèmes du monde réel et de percer dans l' industrie .

Votre université: C'est vrai, tu es universitaire ! Cela semble très évident, mais je comprends souvent cela. Vous pouvez collaborer avec vos professeurs d'université, éventuellement en tant qu'assistant de recherche, si vous souhaitez vous concentrer davantage sur la recherche CompVis et viser de bonnes publications. Cela a fonctionné pour moi lorsque j'ai commencé la recherche CompVis. Je vais laisser cette histoire pour un autre morceau! Voici ce que vous pouvez faire. Tout d'abord, identifiez les professeurs de votre université avec lesquels vous aimeriez travailler. Jetez un œil à leur profil de recherche, sur quels sujets ils travaillent et voyez si vous êtes réellement intéressé par ceux-ci. Ensuite, envoyez-leur un e-mail en leur disant que vous aimeriez travailler avec eux, c'est bien de mentionner les sujets. Ce n'est pas grave si vous n'entendez pas parler de la plupart d'entre eux. Cela devient un peu facile si vous les connaissez déjà en personne et avez suivi leurs cours ; rendez-vous dans leurs bureaux ! Et c'est ainsi que vous entrez dansuniversitaire !

Conclusion

Dans cet article, j'ai parlé des moyens de se lancer dans la vision par ordinateur en tant que débutant et de percer dans l'industrie ou dans le milieu universitaire. J'ai mentionné des ressources pour apprendre les bases de la vision par ordinateur, ainsi que des plateformes pour appliquer vos nouvelles connaissances via des concours en ligne et même entrer dans des collaborations industrie/académie.

J'écris actuellement cet article lors d'une escale à Doha alors que je voyage de Montréal, au Canada, à Dhaka, au Bangladesh. Aux personnes qui m'ont demandé "comment débuter avec la vision par ordinateur", celle-ci est pour vous ! Bonne chance.

A propos de l'auteur

Aloha ! Je suis titulaire d'un doctorat. candidat à l'Université Concordia à Montréal, Canada, travaillant sur les problèmes de vision par ordinateur. Je travaille également à temps partiel chez Décathlon, où j'aide à créer des outils basés sur les données pour transformer des images et des vidéos de sport en intelligence exploitable. Si vous souhaitez en savoir plus sur moi, veuillez visiter ma page Web ici .

Les références

[1] Harl, Max., et al. "Une lumière dans le noir : pratiques d'apprentissage en profondeur pour la vision industrielle par ordinateur". Dans arXiv, 2022.