2023 年にコンピューター ビジョンを始めるには?
2023 年にコンピューター ビジョンエンジニアまたは研究者になるためのゼロからゼロ以外のロードマップ。何を学び、学んだスキルを実際のプロジェクトで適用して産業界または学界に参入するかを理解します。
モチベーション
コンピューター ビジョン (CompVis) は、人工知能 (AI) の分野であり、画像や動画を解釈して理解できるようにコンピューターをトレーニングすることを含みます。CompVis の実用的なアプリケーションは、産業用製造ロボット、自動運転車、ビデオ監視から、医療用画像や拡張現実にまで及びます。多くの場合、CompVis はタスクを自動化し、私たちネアンデルタール人の時間と労力を節約できるため、実用的なアプリケーションに役立ちます。さらに、場合によっては人間よりも優れているため、CompVis は多くの業界にとって重要なツールとなっています。[1]
この記事では、産業界または学界で CompVis を使い始めるために使用できるロードマップを紹介します。まず、無料で公開されている学習リソースを紹介します。次に、学んだスキルを応用してポートフォリオを構築できるプラットフォームについて説明します。あなたが初心者であるか、ある程度の経験を持っている場合、このガイドは、この非常にエキサイティングで急速に進化している分野であなたをさらに良くする可能性を秘めています!
この記事は次のように構成されています。
- 学習リソース
- オンライン大会
- 業界と研究のコラボレーション
学習リソース
このセクションでは、CompVis システム構築の背後にある理論と実践を十分に理解するために検討すべき 3 つのリソースについて説明します。これは、CompVis プラクティショナーとしての知識を深めるためです。次の 2 つは、CompVis のさまざまなタスクと学習パラダイムのアイデアを得るために検討する必要があるものです。これは幅を広げるためです。
Deep Learning Specialization は、 CompVis、自然言語処理などに適用されるディープ ラーニングの基礎を学習する合計 5 つのコースで構成されています。ディープ ラーニング モデルを構築、トレーニング、テストするための理論的および実践的な概念をカバーしています。コースの課題を通じて、独自のモデルを構築してトレーニングすることができます。5つのコースすべてを誠実に完了するために時間をかけてください!
CS231n: Deep Learning for Computer Vision では、エンド ツー エンド モデルの学習に焦点を当てて、画像分類アーキテクチャの詳細を深く掘り下げます。これは、選択した現実世界の問題で独自の CompVis モデルを実装およびトレーニングできる実践的な課題で構成されています。また、ディープ ラーニング モデルのトレーニングと微調整のための実用的なエンジニアリングのヒントとコツについても詳しく説明します。
PyTorch を使用したコンピューター ビジョンのディープ ラーニングでは、独自のデータセットでの画像分類アルゴリズムとセマンティック セグメンテーション アルゴリズムのトレーニングとテストをすばやく簡単に行うことができます。最後に、新しくトレーニングしたモデルを誰でも使用できるように、単純な Web インターフェイスを構築して実行する方法を示します(恥知らずの自己宣伝!)
コンピューター ビジョンのディープ ラーニングである Justin Johnson は、ニューラル ネットワークの実装、トレーニング、およびデバッグについて説明し、CompVis の最先端の研究について深く理解しています。オブジェクト検出、セマンティック セグメンテーション、3D ビジョン、生成モデル、強化学習などの CompVis タスクをカバーしています。
コンピュータ ビジョンのディープ ラーニングである Kosta Derpanis 教授は、 アクション認識、ビジョン、言語、グラフ ニューラル ネットワークなどのさまざまなトピックをカバーする最近のコースです。また、メトリック学習や自己教師あり学習などの学習パラダイムについても説明します。
参照すると役立つその他の学習リソース:
- SOTA コンピューター ビジョン モデルの使用に関する Roboflow チュートリアル
- ハグフェイスタスク
- ハグフェイス Transformers チュートリアル
オンライン大会
次に、自分でできる以前のコンテスト/チャレンジをいくつか列挙し、上記のコースで学んだスキルを適用します. これは、オンライン コンテストの仕組み (例:データの取得、モデルのトレーニング、テストと分析、結果の提出、反復)についてのアイデアを得るのにも役立ちます。次に、人気の CompVis カンファレンスからのチャレンジをホストするコンペティション プラットフォームの名前を紹介します。ここで初めてオンライン コンペティションを開始できる可能性があります。
Dogs vs. Cats :画像から犬と猫を予測するモデルを構築する画像分類タスク。
TPU を使用した花の分類: Dogs vs. Cats と同様のタスクですが、多くのクラスがあります。これは、マルチクラスの画像分類として知られています。ここでは、100 種類以上の花を分類するモデルを作成します。GPU を使用する代わりに、TPU の使用に慣れることができます。
Carvana Image Masking Challenge :車からフォト スタジオの背景を削除するモデルを開発することを目標とするセマンティック セグメンテーションタスク。これは画像分類に似ていますが、ピクセル レベルで各ピクセルにクラス ラベルが割り当てられ、目的のオブジェクト (つまり、車) の最終的な出力マスクにつながります。
Global Wheat Detection :小麦植物の屋外画像から小麦の頭をローカライズするモデルを構築する (境界ボックスを描画するなど) ことを目標とするオブジェクト検出問題。
RSNA STR 肺塞栓症の検出:以前の分類タスクは 2D 画像を扱います。この課題の目標は、3D 画像である胸部 CT スキャンから異常を検出して分類することです。これが3D 画像の分類です。
ML コンペティション プラットフォーム: 上記のコンペティションは、最も人気のあるコンペティション プラットフォームである Kaggle でホストされています。参加できるさまざまなコンテストをホストするプラットフォームは他にもあります。いくつか紹介します。
- グランド チャレンジ: 主に生物医学的画像処理の問題。MICCAI主催のコンファレンス ワークショップはここで開催されます。
- AIcrowd : 企業、大学、政府機関、または NGO はさまざまな課題を抱えています。コンペティションもワークショップとして NeurIPS が主催しています。
産学連携
この最後のセクションでは、産業界と学術界のコラボレーションを可能にする方法について説明します。いくつかのオンライン コンテストに参加すると、ほとんどが実世界のデータに基づいているため、CompVis システムの構築に関する直感が養われます。そこから、産業界に行ってビジネス上の問題に取り組むか、学界に行って研究を行うことができます。
Omdena AI : perplexity.aiにOmdena とは何かを尋ねたところ、次のように答えました。
Omdena AI は、現実世界の問題に対する AI およびデータ サイエンス ソリューションを構築する共同プラットフォームです。これは、世界中の AI エンジニアがチェンジ メーカーになる力を与え、使命志向の組織や新興企業がグローバルなコラボレーションを通じて影響力のある AI ソリューションを構築するのを支援するコミュニティ ファーストの組織です。Omdena AI は、世界中のデータ サイエンティストを集めて、アマゾンでの山火事の検出などの特定のプロジェクトに取り組む課題を実施しています。
基本的には、現実世界の問題について企業と協力するためのプラットフォームです。1つの注意点は、最初は、あなたが行う仕事は無給であるということです. ただし、いくつかのプロジェクト (それぞれ別の会社で) を完了すると、ポートフォリオが構築され、 Omdena Top Talentプログラムに参加できます。そこでは、プロジェクトに取り組むか、フルタイムで働くことで報酬を得ることができます! スターターとして、これはインターンシップを除いて、業界の人々と一緒に働くことができる最も近いものだと思います! これは、誰か (あなたも!) が現実世界の問題に関する経験を積み、業界に参入するための効果的な方法です。
あなたの大学:そうそう、あなたは大学です !これは非常に明白に思えますが、私はこれをよく理解しています。CompVis の研究にもっと集中し、優れた出版物を目指したい場合は、おそらく研究助手として大学の教授と協力することができます。CompVis の研究を始めた当初は、これでうまくいきました。その話は別の記事に譲ります!できることは次のとおりです。まず、一緒に働きたい大学の教授を絞り込みます。彼らの研究プロフィール、彼らが取り組んでいるトピックを見て、実際にそれらに興味があるかどうかを確認してください. それから、彼らと一緒に仕事をしたいということを彼ら全員に電子メールで伝えてください。ほとんどの人から連絡が来なくても大丈夫です。すでに彼らを直接知っていて、彼らのクラスを受講したことがある場合、これは少し簡単になります。彼らのオフィスに行くだけです!そして、それがあなたが入る方法ですアカデミア!
結論
この投稿では、初心者としてコンピューター ビジョンを開始し、業界や学界に参入する方法について説明しました。コンピューター ビジョンの基礎を学ぶためのリソースや、オンライン コンテストを通じて新しい知識を適用したり、業界/学術コラボレーションに参加したりするためのプラットフォームについて言及しました。
私は現在、カナダのモントリオールからバングラデシュのダッカに旅行しているため、ドーハでの乗り継ぎでこの記事を書いています。「コンピューター ビジョンを始めるにはどうすればよいか」と私に尋ねてきた人たちへ、これはあなたのためのものです! 幸運を。
著者について
アロハ!私は博士号を取得しています。カナダのモントリオールにあるコンコーディア大学の候補者で、コンピューター ビジョンの問題に取り組んでいます。また、Décathlon でパートタイムで働いており、スポーツの画像やビデオを実用的なインテリジェンスに変換するためのデータ駆動型ツールの構築を支援しています。私について詳しく知りたい場合は、こちらのウェブページをご覧ください。
参考文献
[1]ハール、マックス、他。「暗闇の中の光: 産業用コンピューター ビジョンのためのディープ ラーニングの実践」。arXiv、2022年。