Como começar a usar a visão computacional em 2023?
Um roteiro de zero a zero para se tornar um engenheiro ou pesquisador de visão computacional em 2023. Saiba o que aprender e como aplicar as habilidades aprendidas em projetos do mundo real para entrar na indústria ou na academia.
Motivação
A visão computacional (CompVis) é um campo da inteligência artificial (IA) que envolve o treinamento de computadores para interpretar e compreender imagens e vídeos . As aplicações práticas do CompVis abrangem desde robôs de fabricação industrial, carros autônomos e vigilância por vídeo até imagens médicas e realidade aumentada. Em muitos casos, o CompVis pode automatizar tarefas e economizar tempo e esforço para nós, neandertais , o que o torna útil para aplicações práticas. Além disso, em alguns casos, também supera os humanos, tornando o CompVis uma ferramenta vital para muitos setores. [1]
Neste artigo, compartilharei um roteiro que você pode usar para começar a usar o CompVis, seja na indústria ou na academia. Primeiro, compartilharei alguns recursos de aprendizado gratuitos e disponíveis ao público. Em seguida, falarei sobre plataformas onde você pode aplicar as habilidades aprendidas para construir seu portfólio. Se você é novo ou tem alguma experiência, este guia pode torná-lo ainda melhor neste campo tão empolgante e em rápida evolução!
Este artigo está organizado da seguinte forma:
- Recursos de aprendizagem
- Competições online
- Colaborações da indústria e da pesquisa
Recursos de aprendizagem
Nesta seção, abordarei três recursos que você deve considerar para obter um bom entendimento da teoria e da prática por trás da construção de sistemas CompVis. Isso é para aumentar sua profundidade como praticante da CompVis. Os próximos dois serão aqueles que você deve examinar para ter uma ideia das várias tarefas e paradigmas de aprendizagem no CompVis. Isso é para aumentar sua amplitude.
A Especialização em Aprendizagem Profunda consiste em um total de cinco cursos que ensinam os fundamentos da aprendizagem profunda aplicada a CompVis, processamento de linguagem natural, etc. Abrange conceitos teóricos e práticos para construir, treinar e testar modelos de aprendizagem profunda. Você poderá construir e treinar seus próprios modelos por meio das atribuições do curso. Leve o seu tempo para terminar todos os cinco cursos sinceramente!
CS231n: Deep Learning for Computer Vision mergulha profundamente nos detalhes das arquiteturas de classificação de imagens com foco no aprendizado de modelos de ponta a ponta. Consiste em tarefas práticas que permitem implementar e treinar seus próprios modelos CompVis em um problema do mundo real de sua escolha. Ele também fornece detalhes para dicas e truques práticos de engenharia para treinamento e ajuste fino de modelos de aprendizado profundo.
Deep Learning em Visão Computacional com PyTorch oferece uma explicação rápida e fácil de treinamento e teste de classificação de imagens e algoritmos de segmentação semântica em seus próprios conjuntos de dados . Por fim, mostra como criar e executar uma interface da Web simples para que qualquer pessoa possa usar seus modelos recém-treinados. ( Auto-publicidade sem vergonha! )
Deep Learning for Computer Vision, Justin Johnson abrange a implementação, treinamento e depuração de redes neurais e fornece uma compreensão aprofundada da pesquisa de ponta em CompVis. Abrange tarefas CompVis como detecção de objetos, segmentação semântica, visão 3D e modelos generativos, bem como aprendizado por reforço.
Deep Learning in Computer Vision, Prof. Kosta Derpanis é um curso mais recente que abrange uma variedade de tópicos como reconhecimento de ação, visão e linguagem, redes neurais de gráficos. Ele também cobre paradigmas de aprendizado como aprendizado métrico e aprendizado auto-supervisionado.
Alguns outros recursos de aprendizado que podem ser úteis:
- Tutoriais do Roboflow sobre o uso de modelos de visão computacional SOTA
- Tarefas de rosto abraçado
- Tutoriais de Transformadores de Rosto Abraçando
Competições online
A seguir, enumerarei algumas competições/desafios anteriores que você mesmo pode fazer e aplicar as habilidades aprendidas nos cursos mencionados acima. Isso também ajudará você a ter uma ideia de como as competições online funcionam (por exemplo, obter dados , treinar modelos , testar e analisar , enviar resultados e iterar ). Em seguida, mencionarei nomes de plataformas de competição que também hospedam desafios de conferências populares da CompVis, onde você pode começar sua primeira competição online!
Cães vs. Gatos : Uma tarefa de classificação de imagens onde você construirá um modelo para prever cães e gatos a partir de imagens.
Classificação de flores com TPUs : Tarefa semelhante a Dogs vs. Cats, mas com muitas classes. Isso é conhecido como classificação de imagem multiclasse . Aqui você construirá um modelo para classificar mais de 100 tipos de flores. Em vez de usar GPUs, você se familiarizará com o uso de TPUs.
Carvana Image Masking Challenge : Uma tarefa de segmentação semântica onde o objetivo é desenvolver um modelo para remover o fundo do estúdio fotográfico do carro. Isso é semelhante à classificação de imagem, mas em um nível de pixel, onde cada pixel recebe um rótulo de classe que leva a uma máscara de saída final do objeto desejado (ou seja, carro).
Detecção Global de Trigo : Um problema de detecção de objetos em que o objetivo é construir um modelo para localizar (por exemplo, desenhar caixas delimitadoras) em cabeças de trigo a partir de imagens externas de plantas de trigo.
Detecção de Embolia Pulmonar RSNA STR : Tarefas de classificação anteriores lidam com imagens 2D; neste desafio, o objetivo é detectar e classificar anormalidades de tomografias de tórax que são imagens 3D. Esta é a classificação de imagens 3D .
Plataformas de competições de ML : as competições acima são hospedadas no Kaggle, que é a plataforma de competição mais popular. Existem outras plataformas que hospedam diferentes competições das quais você pode participar. Vou falar sobre algumas:
- Grande Desafio : Principalmente para problemas de imagem biomédica. Workshops de conferências em MICCAI hospedam competições aqui.
- AIcrowd : Empresas, universidades, agências governamentais ou ONGs hospedam vários desafios. As competições também são organizadas pelo NeurIPS como workshops.
Colaborações industriais e acadêmicas
Agora, nesta seção final, falarei sobre maneiras que permitem colaborações acadêmicas e industriais . Depois de fazer algumas das competições on-line, eles desenvolvem sua intuição na construção de sistemas CompVis, pois são baseados principalmente em dados do mundo real. A partir daí, você pode ir para a indústria para trabalhar em problemas de negócios ou para a academia para realizar pesquisas.
Omdena AI : Perguntei ao perplexity.ai o que é Omdena, e foi isso que ele disse:
Omdena AI é uma plataforma colaborativa que cria soluções de IA e ciência de dados para problemas do mundo real. É uma organização voltada para a comunidade que capacita engenheiros de IA em todo o mundo para se tornarem criadores de mudanças e ajuda organizações e startups orientadas a missões a criar soluções de IA impactantes por meio da colaboração global. A Omdena AI realiza desafios que reúnem cientistas de dados de todo o mundo para trabalhar em projetos específicos, como a detecção de incêndios florestais na Amazônia.
Basicamente, é uma plataforma onde você trabalha com empresas em problemas do mundo real. Uma ressalva é que, no início, o trabalho que você fará não é remunerado. No entanto, ao concluir alguns projetos (cada um com uma empresa diferente), você constrói seu portfólio e pode entrar no programa Omdena Top Talent , onde você é pago para trabalhar em projetos ou até mesmo trabalhar em período integral! Para começar, acho que isso é o mais próximo que você consegue de trabalhar com pessoas do setor, além de conseguir um estágio! Esta é uma maneira eficaz para alguém (até mesmo você!) poderia construir experiência em problemas do mundo real e entrar na indústria .
sua universidade: Isso mesmo, você é universitário! Isso parece muito óbvio, mas eu entendo muito disso. Você pode colaborar com seus professores universitários, possivelmente como assistente de pesquisa, se quiser se concentrar mais na pesquisa do CompVis e almejar boas publicações. Isso funcionou para mim quando comecei a pesquisa do CompVis. Vou deixar essa história para outra peça! Aqui está o que você pode fazer. Primeiro, restrinja os professores da sua universidade com os quais você gostaria de trabalhar. Dê uma olhada no perfil de pesquisa deles, em quais tópicos eles trabalham e veja se você está realmente interessado neles. Em seguida, envie um e-mail para todos eles dizendo que gostaria de trabalhar com eles, é bom mencionar quais tópicos. Tudo bem se você não ouvir a maioria deles. Isso se torna um pouco fácil se você já os conhece pessoalmente e já fez suas aulas; basta ir aos seus escritórios! E é assim que você entraacademia !
Conclusão
Neste post, falei sobre maneiras de começar com a visão computacional como iniciante e entrar na indústria ou na academia. Mencionei recursos para aprender os fundamentos da visão computacional, bem como plataformas para aplicar seu novo conhecimento por meio de competições online e até mesmo entrar em colaborações acadêmicas/industriais.
No momento, estou escrevendo este artigo em uma escala em Doha, enquanto viajo de Montreal, Canadá, para Dhaka, Bangladesh. Para as pessoas que me perguntaram “como começar com visão computacional”, este é para você! Boa sorte.
Sobre o autor
Alô! Eu sou um Ph.D. candidato na Concordia University em Montreal, Canadá, trabalhando em problemas de visão computacional. Também trabalho meio período na Décathlon, onde ajudo a criar ferramentas baseadas em dados para transformar imagens e vídeos esportivos em inteligência acionável. Se você estiver interessado em saber mais sobre mim, visite minha página aqui .
Referências
[1] Harl, Max., e outros. “A Light in the Dark: Deep Learning Practices for Industrial Computer Vision”. Em arXiv, 2022.