Wie fange ich 2023 mit Computer Vision an?

May 09 2023
Eine Null-zu-Nicht-Null-Roadmap, um im Jahr 2023 Computer Vision-Ingenieur oder -Forscher zu werden. Wissen, was zu lernen ist und wie man die erlernten Fähigkeiten in realen Projekten anwendet, um in die Industrie oder die Wissenschaft zu gelangen.

Eine Null-zu-Nicht-Null-Roadmap, um im Jahr 2023 Computer Vision- Ingenieur oder -Forscher zu werden . Wissen, was zu lernen ist und wie man die erlernten Fähigkeiten in realen Projekten anwendet, um in die Industrie oder die Wissenschaft zu gelangen.

Quelle: Bild von OwnedPhotography bei Unsplash.

Motivation

Computer Vision (CompVis) ist ein Bereich der künstlichen Intelligenz (KI), bei dem Computer darauf trainiert werden, Bilder und Videos zu interpretieren und zu verstehen . Praktische Anwendungen von CompVis reichen von industriellen Fertigungsrobotern, selbstfahrenden Autos und Videoüberwachung bis hin zu medizinischer Bildgebung und Augmented Reality. In vielen Fällen kann CompVis Aufgaben automatisieren und spart uns Neandertalern Zeit und Mühe , was es für praktische Anwendungen nützlich macht. Darüber hinaus übertrifft es in einigen Fällen auch Menschen, was CompVis zu einem wichtigen Werkzeug für viele Branchen macht. [1]

In diesem Artikel teile ich eine Roadmap, die Sie verwenden können, um mit CompVis zu beginnen, entweder in der Industrie oder im akademischen Bereich. Zuerst werde ich einige kostenlose und öffentlich zugängliche Lernressourcen teilen. Dann werde ich über Plattformen sprechen, auf denen Sie die erlernten Fähigkeiten anwenden können, um Ihr Portfolio aufzubauen. Wenn Sie neu sind oder etwas Erfahrung haben, kann Sie dieser Leitfaden in diesem sehr aufregenden und sich schnell entwickelnden Bereich möglicherweise noch besser machen!

Dieser Artikel ist wie folgt gegliedert:

  1. Lernmittel
  2. Online-Wettbewerbe
  3. Industrie- und Forschungskooperationen

Lernmittel

In diesem Abschnitt gehe ich auf drei Ressourcen ein, die Sie berücksichtigen sollten, um ein gutes Verständnis der Theorie sowie der Praxis hinter dem Aufbau von CompVis-Systemen zu erlangen. Dies soll Ihre Tiefe als CompVis-Anwender erweitern. Die nächsten beiden sind diejenigen, die Sie durchgehen sollten, um sich ein Bild von den verschiedenen Aufgaben und Lernparadigmen in CompVis zu machen. Dies dient dazu, Ihre Breite zu erhöhen.

Deep Learning Specialization besteht aus insgesamt fünf Kursen , die Ihnen die Grundlagen des Deep Learning in Anwendung auf CompVis, Verarbeitung natürlicher Sprache usw. vermitteln. Es umfasst sowohl theoretische als auch praktische Konzepte zum Erstellen, Trainieren und Testen von Deep-Learning-Modellen. Über die Kursaufgaben können Sie Ihre eigenen Modelle bauen und trainieren. Nehmen Sie sich Zeit, um alle fünf Kurse aufrichtig zu beenden!

CS231n: Deep Learning for Computer Vision taucht tief in die Details von Bildklassifizierungsarchitekturen ein, mit Schwerpunkt auf dem Lernen von End-to-End-Modellen. Es besteht aus praktischen Aufgaben, mit denen Sie Ihre eigenen CompVis-Modelle für ein reales Problem Ihrer Wahl implementieren und trainieren können. Es enthält auch Details zu praktischen technischen Tipps und Tricks für das Training und die Feinabstimmung von Deep-Learning-Modellen.

Deep Learning in Computer Vision mit PyTorch bietet Ihnen eine schnelle und einfache Anleitung zum Trainieren und Testen von Bildklassifizierungs- und semantischen Segmentierungsalgorithmen an Ihren eigenen Datensätzen . Schließlich zeigt es Ihnen, wie Sie eine einfache Webschnittstelle erstellen und ausführen, damit jeder Ihre neu trainierten Modelle verwenden kann. ( Schamlose Eigenwerbung! )

Deep Learning for Computer Vision behandelt Justin Johnson das Implementieren, Trainieren und Debuggen neuronaler Netze und bietet ein tiefes Verständnis der Spitzenforschung in CompVis. Es deckt CompVis-Aufgaben wie Objekterkennung, semantische Segmentierung, 3D-Vision und generative Modelle sowie Reinforcement Learning ab.

Deep Learning in Computer Vision, Prof. Kosta Derpanis, ist ein neuerer Kurs, der eine Reihe von Themen wie Aktionserkennung, Sehen und Sprache sowie graphische neuronale Netze abdeckt. Es deckt auch Lernparadigmen wie metrisches Lernen und selbstüberwachtes Lernen ab.

Quelle: Foto des Autors. Deep Learning-Spezialisierungszertifikat. Die fünf Kurse repräsentieren fünf Unendlichkeitssteine! Was ist der sechste? ;)

Einige andere Lernressourcen, die nützlich sein könnten:

  1. Roboflow-Tutorials zur Verwendung von SOTA-Computer-Vision-Modellen
  2. Aufgaben zum Umarmen des Gesichts
  3. Umarmendes Gesicht Transformers Tutorials

Online-Wettbewerbe

Als Nächstes zähle ich einige frühere Wettbewerbe/Herausforderungen auf, die Sie selbst bewältigen können, und wenden Sie Ihre erlernten Fähigkeiten aus den oben genannten Kursen an. Dies hilft Ihnen auch dabei, sich ein Bild davon zu machen, wie Online-Wettbewerbe funktionieren (z. B. Daten abrufen , Modelle trainieren , testen und analysieren , Ergebnisse einreichen und iterieren ). Dann werde ich Namen von Wettbewerbsplattformen erwähnen, die auch Herausforderungen von beliebten CompVis-Konferenzen veranstalten, auf denen Sie möglicherweise Ihren ersten Online-Wettbewerb starten könnten!

Hunde vs. Katzen : Eine Bildklassifizierungsaufgabe, bei der Sie ein Modell erstellen, um Hunde und Katzen anhand von Bildern vorherzusagen.

Blumenklassifizierung mit TPUs : Ähnliche Aufgabe wie Dogs vs. Cats, aber viele Klassen. Dies wird als mehrklassige Bildklassifizierung bezeichnet. Hier bauen Sie ein Modell, um über 100 Blumenarten zu klassifizieren. Anstatt GPUs zu verwenden, machen Sie sich mit der Verwendung von TPUs vertraut.

Carvana Image Masking Challenge : Eine semantische Segmentierungsaufgabe , bei der das Ziel darin besteht, ein Modell zu entwickeln, um den Hintergrund des Fotostudios aus dem Auto zu entfernen. Dies ähnelt der Bildklassifizierung, jedoch auf einer Pixelebene, bei der jedem Pixel ein Klassenetikett zugewiesen wird, das zu einer endgültigen Ausgabemaske des gewünschten Objekts (z. B. Auto) führt.

Globale Weizenerkennung : Ein Objekterkennungsproblem , bei dem das Ziel darin besteht, ein Modell zum Lokalisieren (z. B. Zeichnen von Begrenzungsrahmen) auf Weizenköpfen aus Außenbildern von Weizenpflanzen aufzubauen.

RSNA STR Erkennung von Lungenembolien : Frühere Klassifizierungsaufgaben befassen sich mit 2D-Bildern; Bei dieser Herausforderung besteht das Ziel darin, Anomalien aus Brust-CT-Scans, bei denen es sich um 3D-Bilder handelt, zu erkennen und zu klassifizieren. Dies ist die 3D-Bildklassifizierung .

Plattformen für ML-Wettbewerbe : Die oben genannten Wettbewerbe werden auf Kaggle gehostet, der beliebtesten Wettbewerbsplattform. Es gibt andere Plattformen, auf denen verschiedene Wettbewerbe stattfinden, an denen Sie teilnehmen können. Ich werde einige durchgehen:

  1. Grand Challenge : Hauptsächlich für biomedizinische Bildgebungsprobleme. Konferenzen, Workshops in MICCAI veranstalten hier Wettbewerbe.
  2. AIcrowd : Unternehmen, Universitäten, Regierungsbehörden oder NGOs veranstalten verschiedene Challenges. Auch Wettbewerbe werden von NeurIPS als Workshops veranstaltet.

Industrielle und akademische Kooperationen

In diesem letzten Abschnitt werde ich nun über Möglichkeiten sprechen, die eine Zusammenarbeit zwischen Industrie und Wissenschaft ermöglichen . Sobald Sie an einigen der Online-Wettbewerbe teilgenommen haben, bauen sie Ihre Intuition für den Aufbau von CompVis-Systemen auf, da sie hauptsächlich auf realen Daten basieren. Von dort aus können Sie entweder in die Industrie gehen, um an geschäftlichen Problemen zu arbeiten, oder in die Wissenschaft, um Forschung zu betreiben.

Omdena AI : Ich habe perplexity.ai gefragt , was Omdena ist, und das ist, was es sagte:

Omdena AI ist eine kollaborative Plattform, die KI- und Data-Science-Lösungen für reale Probleme entwickelt. Es ist eine Community-First-Organisation, die KI-Ingenieure weltweit befähigt, Veränderungen zu bewirken, und missionsorientierten Organisationen und Start-ups hilft, durch globale Zusammenarbeit wirkungsvolle KI-Lösungen zu entwickeln. Omdena AI führt Herausforderungen durch, die Datenwissenschaftler aus der ganzen Welt zusammenbringen, um an bestimmten Projekten zu arbeiten, wie z. B. der Erkennung von Waldbränden im Amazonas.

Im Grunde ist es eine Plattform, auf der Sie mit Unternehmen an realen Problemen arbeiten können. Eine Einschränkung ist, dass die Arbeit, die Sie tun werden, am Anfang unbezahlt ist. Wenn Sie jedoch ein paar Projekte (jeweils bei einem anderen Unternehmen) abschließen, bauen Sie Ihr Portfolio auf und können in das Omdena Top Talent- Programm aufgenommen werden, bei dem Sie für die Arbeit an Projekten bezahlt werden oder sogar Vollzeit arbeiten! Als Anfänger denke ich, dass dies die nächste Möglichkeit ist, mit Menschen in der Branche zusammenzuarbeiten, abgesehen von einem Praktikum! Dies ist eine effektive Möglichkeit für jemanden (sogar Sie!), Erfahrungen mit realen Problemen zu sammeln und in der Branche Fuß zu fassen .

Deine Universität: Richtig, du bist Universität! Das scheint sehr offensichtlich, aber ich bekomme das oft. Sie können mit Ihren Universitätsprofessoren zusammenarbeiten, möglicherweise als wissenschaftlicher Mitarbeiter, wenn Sie sich stärker auf die CompVis-Forschung konzentrieren und gute Publikationen anstreben. Dies funktionierte für mich, als ich mit der CompVis-Forschung begann. Ich werde diese Geschichte für ein anderes Stück verlassen! Folgendes können Sie tun. Grenzen Sie zunächst die Professoren Ihrer Universität ein, mit denen Sie zusammenarbeiten möchten. Schauen Sie sich ihr Forschungsprofil an, an welchen Themen sie arbeiten, und sehen Sie, ob Sie sich tatsächlich dafür interessieren. Dann schicken Sie allen eine E-Mail und sagen Sie, dass Sie gerne mit ihnen arbeiten würden. Es ist schön zu erwähnen, zu welchen Themen. Es ist in Ordnung, wenn Sie von den meisten nichts hören. Dies wird ein bisschen einfach, wenn Sie sie bereits persönlich kennen und ihre Kurse besucht haben; gehen Sie einfach in ihre Büros! Und so kommt man hineinAkademie !

Abschluss

In diesem Beitrag habe ich darüber gesprochen, wie Sie als Anfänger mit Computer Vision beginnen und in die Industrie oder in die Wissenschaft einsteigen können. Ich habe Ressourcen erwähnt, um die Grundlagen der Computer Vision zu erlernen, sowie Plattformen, um Ihr neues Wissen über Online-Wettbewerbe anzuwenden und sogar Industrie-/Akademiker-Kooperationen einzugehen.

Ich schreibe dieses Stück derzeit auf einem Zwischenstopp in Doha, während ich von Montreal, Kanada, nach Dhaka, Bangladesch, reise. An Leute, die mich gefragt haben, „wie man mit Computer Vision anfängt“, dieses hier ist für Sie! Viel Glück.

Über den Autor

Aloha! Ich bin ein Ph.D. Kandidat an der Concordia University in Montreal, Kanada, der sich mit Computer-Vision-Problemen beschäftigt. Ich arbeite auch in Teilzeit bei Décathlon, wo ich helfe, datengesteuerte Tools zu entwickeln, um Sportbilder und -videos in verwertbare Informationen umzuwandeln. Wenn Sie mehr über mich erfahren möchten, besuchen Sie bitte meine Webseite hier .

Verweise

[1] Harl, Max., et al. „Ein Licht im Dunkeln: Deep-Learning-Praktiken für die industrielle Bildverarbeitung“. In arXiv, 2022.