Jak zacząć korzystać z wizji komputerowej w 2023 roku?

May 09 2023
Mapa drogowa od zera do niezera, aby zostać inżynierem lub badaczem zajmującym się wizją komputerową w 2023 r. Dowiedz się, czego się uczyć i jak zastosować nabyte umiejętności w rzeczywistych projektach, aby dostać się do przemysłu lub środowiska akademickiego.

Mapa drogowa od zera do niezera, aby zostać inżynierem lub badaczem zajmującym się wizją komputerową w 2023 r. Dowiedz się, czego się uczyć i jak zastosować nabyte umiejętności w rzeczywistych projektach, aby dostać się do przemysłu lub środowiska akademickiego.

Źródło: zdjęcie posiadanej fotografii w Unsplash.

Motywacja

Wizja komputerowa (CompVis) to dziedzina sztucznej inteligencji (AI), która obejmuje szkolenie komputerów w zakresie interpretacji i rozumienia obrazów i filmów . Praktyczne zastosowania CompVis obejmują przemysłowe roboty produkcyjne, samojezdne samochody i nadzór wideo, a także obrazowanie medyczne i rozszerzoną rzeczywistość. W wielu przypadkach CompVis może zautomatyzować zadania i oszczędzić nam, neandertalczykom, czasu i wysiłku , co czyni go użytecznym w zastosowaniach praktycznych. Dodatkowo, w niektórych przypadkach przewyższa również ludzi, co sprawia, że ​​CompVis jest niezbędnym narzędziem dla wielu branż. [1]

W tym artykule podzielę się mapą drogową, której możesz użyć, aby rozpocząć pracę z CompVis, zarówno w przemyśle, jak iw środowisku akademickim. Najpierw podzielę się kilkoma darmowymi i publicznie dostępnymi zasobami edukacyjnymi. Następnie opowiem o platformach, na których możesz zastosować zdobyte umiejętności do budowania swojego portfolio. Jeśli jesteś nowy lub masz jakieś doświadczenie, ten przewodnik może potencjalnie sprawić, że staniesz się jeszcze lepszy w tej bardzo ekscytującej i szybko rozwijającej się dziedzinie!

Ten artykuł jest zorganizowany w następujący sposób:

  1. Zasoby edukacyjne
  2. Konkursy internetowe
  3. Współpraca przemysłowa i naukowa

Zasoby edukacyjne

W tej sekcji omówię trzy zasoby, z których warto skorzystać, aby dobrze zrozumieć teorię i praktykę budowania systemów CompVis. Ma to na celu pogłębienie Twojej wiedzy jako praktyka CompVis. Następne dwa to te, które powinieneś przejrzeć, aby zapoznać się z różnymi zadaniami i paradygmatami uczenia się w CompVis. Ma to na celu zwiększenie szerokości.

Specjalizacja Deep Learning składa się w sumie z pięciu kursów , które nauczą Cię podstaw głębokiego uczenia stosowanego w CompVis, przetwarzania języka naturalnego itp. Obejmuje zarówno teoretyczne, jak i praktyczne koncepcje budowania, szkolenia i testowania modeli głębokiego uczenia się. Będziesz mógł budować i trenować własne modele za pomocą zadań kursowych. Nie spiesz się, aby szczerze ukończyć wszystkie pięć kursów!

CS231n: Deep Learning for Computer Vision zagłębia się w szczegóły architektur klasyfikacji obrazów, koncentrując się na nauce kompleksowych modeli. Składa się z praktycznych zadań, które pozwalają wdrażać i trenować własne modele CompVis w zakresie wybranego przez Ciebie rzeczywistego problemu. Zawiera również szczegółowe informacje na temat praktycznych wskazówek i sztuczek inżynierskich dotyczących szkolenia i dostrajania modeli głębokiego uczenia się.

Deep Learning in Computer Vision with PyTorch zapewnia szybki i łatwy przewodnik po szkoleniu i testowaniu klasyfikacji obrazów oraz algorytmów segmentacji semantycznej na własnych zestawach danych . Na koniec pokazuje, jak zbudować i uruchomić prosty interfejs sieciowy , aby każdy mógł korzystać z nowo wyszkolonych modeli. ( Bezwstydna autopromocja! )

Deep Learning for Computer Vision, Justin Johnson, obejmuje wdrażanie, szkolenie i debugowanie sieci neuronowych oraz zapewnia dogłębne zrozumienie najnowocześniejszych badań w CompVis. Obejmuje zadania CompVis, takie jak wykrywanie obiektów, segmentacja semantyczna, wizja 3D i modele generatywne, a także uczenie się przez wzmacnianie.

Deep Learning in Computer Vision, prof. Kosta Derpanis, to nowszy kurs, który obejmuje szereg tematów, takich jak rozpoznawanie akcji, wizja i język, grafowe sieci neuronowe. Obejmuje również paradygmaty uczenia się, takie jak uczenie się metryczne i uczenie się samonadzorowane.

Źródło: Zdjęcie autorstwa autora. Certyfikat specjalizacji Deep Learning. Pięć kursów reprezentuje pięć kamieni nieskończoności! Jaki jest szósty? ;)

Niektóre inne zasoby edukacyjne, które mogą być przydatne:

  1. Samouczki Roboflow dotyczące korzystania z komputerowych modeli wizyjnych SOTA
  2. Zadania przytulania twarzy
  3. Tutoriale Transformers do przytulania twarzy

Konkursy internetowe

Następnie wymienię kilka wcześniejszych zawodów/wyzwań, które możesz wykonać samodzielnie i zastosować umiejętności zdobyte na wyżej wymienionych kursach. Pomoże Ci to również zorientować się, jak działają konkursy online (np. pozyskiwanie danych , trenowanie modeli , testowanie i analizowanie , przesyłanie wyników i powtarzanie ). Następnie wspomnę nazwy platform konkursowych, na których odbywają się również wyzwania z popularnych konferencji CompVis, na których możesz rozpocząć swój pierwszy konkurs online!

Psy kontra koty : zadanie klasyfikacji obrazów , w którym zbudujesz model do przewidywania psów i kotów na podstawie obrazów.

Klasyfikacja kwiatów za pomocą TPU : podobne zadanie jak psy kontra koty, ale wiele klas. Jest to znane jako wieloklasowa klasyfikacja obrazów . Tutaj zbudujesz model do sklasyfikowania ponad 100 rodzajów kwiatów. Zamiast korzystać z GPU, zapoznasz się z obsługą TPU.

Carvana Image Masking Challenge : Zadanie semantycznej segmentacji , którego celem jest opracowanie modelu usuwania tła studia fotograficznego z samochodu. Jest to podobne do klasyfikacji obrazu, ale na poziomie piksela, gdzie każdy piksel ma przypisaną etykietę klasy, co prowadzi do ostatecznej maski wyjściowej żądanego obiektu (tj. samochodu).

Globalne wykrywanie pszenicy : problem z wykrywaniem obiektów , w którym celem jest zbudowanie modelu do lokalizacji (np. narysowanie ramek ograniczających) na kłosach pszenicy z zewnętrznych obrazów roślin pszenicy.

RSNA STR Wykrywanie zatorowości płucnej : poprzednie zadania klasyfikacyjne dotyczą obrazów 2D; w tym wyzwaniu celem jest wykrycie i sklasyfikowanie nieprawidłowości ze skanów TK klatki piersiowej, które są obrazami 3D. To jest klasyfikacja obrazu 3D .

Platformy konkursów ML : Powyższe konkursy są hostowane na Kaggle, która jest najpopularniejszą platformą konkursową. Istnieją inne platformy, na których odbywają się różne konkursy, w których możesz wziąć udział. Omówię kilka:

  1. Wielkie wyzwanie : głównie w przypadku problemów z obrazowaniem biomedycznym. Konferencje warsztaty w MICCAI gospodarze zawodów tutaj.
  2. AIcrowd : Przedsiębiorstwa, uniwersytety, agencje rządowe lub organizacje pozarządowe stoją przed różnymi wyzwaniami. Konkursy są również organizowane przez NeurIPS jako warsztaty.

Współpraca przemysłowa i naukowa

Teraz w tej ostatniej części omówię sposoby, które umożliwiają współpracę przemysłową i akademicką . Gdy weźmiesz udział w kilku konkursach online, budują one twoją intuicję w budowaniu systemów CompVis, ponieważ są one w większości oparte na rzeczywistych danych. Stamtąd możesz albo udać się do przemysłu, aby pracować nad problemami biznesowymi, albo do środowiska akademickiego, aby prowadzić badania.

Omdena AI : Zapytałem perplexity.ai, czym jest Omdena, i oto, co powiedział:

Omdena AI to platforma współpracy, która tworzy rozwiązania sztucznej inteligencji i analizy danych dla rzeczywistych problemów. Jest to pierwsza organizacja społecznościowa, która umożliwia inżynierom AI na całym świecie stać się twórcami zmian i pomaga organizacjom zorientowanym na misję i start-upom tworzyć skuteczne rozwiązania AI poprzez globalną współpracę. Omdena AI prowadzi wyzwania, które gromadzą analityków danych z całego świata do pracy nad konkretnymi projektami, takimi jak wykrywanie pożarów lasów w Amazonii.

Zasadniczo jest to platforma, na której możesz pracować z firmami nad rzeczywistymi problemami. Jedno zastrzeżenie jest takie, że na początku praca, którą będziesz wykonywać, jest nieodpłatna. Jednak kończąc kilka projektów (każdy z inną firmą), budujesz swoje portfolio i możesz dostać się do programu Omdena Top Talent , w którym otrzymujesz wynagrodzenie za pracę nad projektami, a nawet pracę na pełny etat! Na początek myślę, że jest to najbliższe miejsce pracy z ludźmi z branży, oprócz stażu! Jest to skuteczny sposób, w jaki ktoś (nawet ty!) może zdobyć doświadczenie na rzeczywistych problemach i wejść do branży .

Twój uniwersytet: Zgadza się, jesteś na uniwersytecie! Wydaje się to bardzo oczywiste, ale często to rozumiem. Możesz współpracować z profesorami uniwersyteckimi, być może jako asystent naukowy, jeśli chcesz bardziej skoncentrować się na badaniach CompVis i dążyć do dobrych publikacji. To zadziałało w moim przypadku, kiedy po raz pierwszy rozpocząłem badania nad CompVis. Zostawię to opowiadanie na inny artykuł! Oto, co możesz zrobić. Najpierw zawęź liczbę profesorów na swoim uniwersytecie, z którymi chciałbyś pracować. Przyjrzyj się ich profilowi ​​badawczemu, tematom, którymi się zajmują, i sprawdź, czy rzeczywiście jesteś nimi zainteresowany. Następnie wyślij e-maila do wszystkich z informacją, że chciałbyś z nimi pracować, dobrze jest wspomnieć, jakie tematy. W porządku, jeśli nie masz wiadomości od większości z nich. Staje się to trochę łatwe, jeśli znasz ich osobiście i uczęszczałeś na ich zajęcia; po prostu idź do ich biura! I tak się wchodziakademia !

Wniosek

W tym poście mówiłem o sposobach rozpoczęcia pracy z wizją komputerową jako początkujący i włamania się do branży lub środowiska akademickiego. Wspomniałem o zasobach do nauki podstaw wizji komputerowej, a także o platformach do zastosowania nowej wiedzy poprzez konkursy online, a nawet nawiązania współpracy branżowej/akademickiej.

Obecnie piszę ten artykuł podczas postoju w Doha, kiedy podróżuję z Montrealu w Kanadzie do Dhaki w Bangladeszu. Do osób, które pytały mnie „jak zacząć korzystać z wizji komputerowej”, ta jest dla Ciebie! Powodzenia.

O autorze

Aloha! jestem doktorem kandydat na Concordia University w Montrealu, Kanada, zajmujący się problemami widzenia komputerowego. Pracuję też w niepełnym wymiarze godzin w Décathlon, gdzie pomagam tworzyć narzędzia oparte na danych, które przekształcają sportowe zdjęcia i filmy w przydatne informacje. Jeśli chcesz dowiedzieć się więcej o mnie, odwiedź moją stronę internetową tutaj .

Bibliografia

[1] Harl, Max., et al. „Światło w ciemności: praktyki głębokiego uczenia się dla przemysłowej wizji komputerowej”. W arXiv, 2022.