Bagaimana Memulai Dengan Computer Vision Di Tahun 2023?

May 09 2023
Peta jalan nol hingga nol untuk menjadi insinyur atau peneliti visi komputer pada tahun 2023. Ketahui apa yang harus dipelajari dan bagaimana menerapkan keterampilan yang dipelajari dalam proyek dunia nyata untuk masuk ke industri atau akademisi.

Peta jalan nol hingga nol untuk menjadi insinyur atau peneliti visi komputer pada tahun 2023. Ketahui apa yang harus dipelajari dan bagaimana menerapkan keterampilan yang dipelajari dalam proyek dunia nyata untuk masuk ke industri atau akademisi.

Sumber: Gambar oleh dimilikifotografi di Unsplash.

Motivasi

Visi komputer (CompVis) adalah bidang kecerdasan buatan (AI) yang melibatkan komputer pelatihan untuk menafsirkan dan memahami gambar dan video . Aplikasi praktis CompVis mulai dari robot manufaktur industri, mobil self-driving, dan pengawasan video hingga pencitraan medis dan augmented reality. Dalam banyak kasus, CompVis dapat mengotomatiskan tugas dan menghemat waktu dan tenaga bagi kita Neanderthal , yang membuatnya berguna untuk aplikasi praktis. Selain itu, dalam beberapa kasus, CompVis juga mengungguli manusia, menjadikan CompVis alat vital bagi banyak industri. [1]

Pada artikel ini, saya akan membagikan peta jalan yang dapat Anda gunakan untuk memulai CompVis, baik di industri maupun akademisi. Pertama, saya akan membagikan beberapa sumber belajar gratis dan tersedia untuk umum. Kemudian saya akan berbicara tentang platform tempat Anda dapat menerapkan keterampilan yang dipelajari untuk membangun portofolio Anda. Jika Anda baru atau memiliki pengalaman, panduan ini berpotensi membuat Anda lebih baik lagi di bidang yang sangat menarik dan berkembang pesat ini!

Artikel ini disusun sebagai berikut:

  1. Sumber Belajar
  2. Kompetisi daring
  3. Kolaborasi industri dan penelitian

Sumber Belajar

Pada bagian ini, saya akan membahas tiga sumber yang harus Anda pertimbangkan untuk mendapatkan pemahaman yang baik tentang teori serta praktik di balik pembuatan sistem CompVis. Ini untuk meningkatkan kedalaman Anda sebagai praktisi CompVis. Dua berikutnya adalah yang harus Anda bahas untuk mendapatkan gambaran tentang berbagai tugas dan paradigma pembelajaran di CompVis. Ini untuk menambah luasnya.

Spesialisasi Pembelajaran Mendalam terdiri dari total lima kursus yang akan mengajarkan Anda dasar-dasar pembelajaran mendalam yang diterapkan pada CompVis, pemrosesan bahasa alami, dll. Ini mencakup konsep teoretis dan praktis untuk membangun, melatih, dan menguji model pembelajaran mendalam. Anda akan membangun dan melatih model Anda sendiri melalui tugas kursus. Luangkan waktu Anda untuk menyelesaikan kelima kursus dengan tulus!

CS231n: Pembelajaran Mendalam untuk Visi Komputer mendalami detail arsitektur klasifikasi gambar dengan fokus pada pembelajaran model end-to-end. Ini terdiri dari tugas langsung yang memungkinkan Anda menerapkan dan melatih model CompVis Anda sendiri pada masalah dunia nyata pilihan Anda. Ini juga memberikan detail untuk tip dan trik teknik praktis untuk pelatihan dan penyempurnaan model deep learning.

Deep Learning dalam Computer Vision dengan PyTorch memberi Anda langkah cepat dan mudah pelatihan dan pengujian klasifikasi gambar dan algoritma segmentasi semantik pada dataset Anda sendiri . Terakhir, ini menunjukkan kepada Anda cara membuat dan menjalankan antarmuka web sederhana sehingga siapa pun dapat menggunakan model yang baru Anda latih. ( Publisitas diri yang tak tahu malu! )

Pembelajaran Mendalam untuk Visi Komputer, Justin Johnson mencakup penerapan, pelatihan, dan debugging jaringan saraf dan memberikan pemahaman mendalam tentang penelitian mutakhir di CompVis. Ini mencakup tugas-tugas CompVis seperti deteksi objek, segmentasi semantik, penglihatan 3D, dan model generatif, serta pembelajaran penguatan.

Pembelajaran Mendalam dalam Visi Komputer, Prof. Kosta Derpanis adalah kursus yang lebih baru yang mencakup berbagai topik seperti pengenalan tindakan, penglihatan, dan bahasa, jaringan saraf grafik. Ini juga mencakup paradigma pembelajaran seperti pembelajaran metrik dan pembelajaran yang diawasi sendiri.

Sumber: Foto oleh penulis. Sertifikat Spesialisasi Pembelajaran Mendalam. Lima jalur mewakili lima batu tak terhingga! Apa yang keenam? ;)

Beberapa sumber belajar lain yang mungkin berguna untuk dilihat:

  1. Tutorial Roboflow tentang penggunaan model visi komputer SOTA
  2. Tugas Memeluk Wajah
  3. Tutorial Transformator Wajah Memeluk

Kompetisi daring

Selanjutnya, saya akan menyebutkan beberapa kompetisi/tantangan sebelumnya yang dapat Anda lakukan sendiri dan menerapkan keterampilan yang Anda pelajari dari kursus yang disebutkan di atas. Ini juga akan membantu Anda mendapatkan ide tentang cara kerja kompetisi online (mis., dapatkan data , latih model , uji dan analisis , kirim hasil, dan ulangi ). Kemudian, saya akan menyebutkan nama platform kompetisi yang juga menyelenggarakan tantangan dari konferensi CompVis populer tempat Anda dapat memulai kompetisi online pertama Anda!

Anjing vs. Kucing : Tugas klasifikasi gambar di mana Anda akan membuat model untuk memprediksi anjing dan kucing dari gambar.

Klasifikasi Bunga dengan TPU : Tugas serupa seperti Anjing vs. Kucing tetapi banyak kelas. Ini dikenal sebagai klasifikasi citra multi-kelas . Di sini Anda akan membuat model untuk mengklasifikasikan lebih dari 100 jenis bunga. Alih-alih menggunakan GPU, Anda akan terbiasa menggunakan TPU.

Carvana Image Masking Challenge : Tugas segmentasi semantik yang tujuannya adalah mengembangkan model untuk menghapus latar belakang studio foto dari mobil. Ini mirip dengan klasifikasi gambar tetapi pada tingkat piksel di mana setiap piksel diberi label kelas yang mengarah ke topeng keluaran akhir dari objek yang diinginkan (yaitu, mobil).

Deteksi Gandum Global : Masalah deteksi objek di mana tujuannya adalah membangun model untuk melokalkan (misalnya, menggambar kotak pembatas) pada kepala gandum dari gambar tanaman gandum di luar ruangan.

Deteksi Emboli Paru RSNA STR : Tugas klasifikasi sebelumnya berurusan dengan gambar 2D; dalam tantangan ini, tujuannya adalah untuk mendeteksi dan mengklasifikasikan kelainan dari CT scan dada yang merupakan gambar 3D. Ini adalah klasifikasi gambar 3D .

Platform Kompetisi ML : Kompetisi di atas diselenggarakan di Kaggle, yang merupakan platform kompetisi paling populer. Ada platform lain yang menyelenggarakan berbagai kompetisi yang dapat Anda ikuti. Saya akan membahas beberapa:

  1. Tantangan Besar : Sebagian besar untuk masalah pencitraan biomedis. Lokakarya konferensi di MICCAI menyelenggarakan kompetisi di sini.
  2. Acrowd : Bisnis, universitas, lembaga pemerintah atau LSM menghadapi berbagai tantangan. Kompetisi juga diselenggarakan oleh NeurIPS sebagai lokakarya.

Kolaborasi industri dan akademik

Sekarang di bagian terakhir ini, saya akan berbicara tentang cara-cara yang memungkinkan kolaborasi industri dan akademik . Setelah Anda melakukan beberapa kompetisi online, mereka membangun intuisi Anda dalam membangun sistem CompVis, karena sebagian besar didasarkan pada data dunia nyata. Dari sana, Anda bisa pergi ke industri untuk menangani masalah bisnis atau akademisi untuk melakukan penelitian.

Omdena AI : Saya tanya bingung.ai Omdena itu apa, dan begini bunyinya:

Omdena AI adalah platform kolaboratif yang membangun AI dan solusi ilmu data untuk masalah dunia nyata. Ini adalah organisasi pertama komunitas yang memberdayakan insinyur AI di seluruh dunia untuk menjadi pembuat perubahan dan membantu organisasi berbasis misi dan perusahaan rintisan membangun solusi AI yang berdampak melalui kolaborasi global. Omdena AI melakukan tantangan yang mempertemukan ilmuwan data dari seluruh dunia untuk mengerjakan proyek tertentu, seperti mendeteksi kebakaran hutan di Amazon.

Pada dasarnya, ini adalah platform tempat Anda bekerja dengan perusahaan dalam masalah dunia nyata. Satu peringatan adalah, pada awalnya, pekerjaan yang akan Anda lakukan tidak dibayar. Namun, saat Anda menyelesaikan beberapa proyek (masing-masing dengan perusahaan yang berbeda), Anda membangun portofolio dan dapat mengikuti program Omdena Top Talent , di mana Anda dibayar untuk mengerjakan proyek atau bahkan bekerja penuh waktu! Sebagai pemula, menurut saya inilah cara terdekat Anda untuk dapat bekerja dengan orang-orang di industri ini, selain mendapatkan magang! Ini adalah cara yang efektif agar seseorang (bahkan Anda!) dapat membangun pengalaman pada masalah dunia nyata dan masuk ke industri .

Universitas Anda: Itu benar, kamu universitas! Ini tampaknya sangat jelas, tetapi saya sering mendapatkannya. Anda dapat berkolaborasi dengan profesor universitas Anda, mungkin sebagai asisten peneliti, jika Anda ingin lebih fokus pada penelitian CompVis dan bertujuan untuk publikasi yang baik. Ini bekerja untuk saya ketika saya pertama kali memulai penelitian CompVis. Saya akan meninggalkan cerita itu untuk bagian lain! Inilah yang dapat Anda lakukan. Pertama, persempit profesor di universitas Anda yang ingin Anda ajak bekerja sama. Lihat profil penelitian mereka, topik apa yang mereka kerjakan, dan lihat apakah Anda benar-benar tertarik dengan itu. Kemudian, kirim email ke mereka semua dengan mengatakan Anda ingin bekerja dengan mereka, senang menyebutkan topik apa. Tidak apa-apa jika Anda tidak mendengar kabar dari sebagian besar dari mereka. Ini menjadi sedikit mudah jika Anda sudah mengenal mereka secara langsung dan telah mengikuti kelas mereka; pergi saja ke kantor mereka! Dan begitulah cara Anda masukakademisi !

Kesimpulan

Dalam posting ini, saya berbicara tentang cara memulai computer vision sebagai pemula, dan masuk ke industri atau akademisi. Saya menyebutkan sumber daya untuk mempelajari dasar-dasar computer vision, serta platform untuk menerapkan pengetahuan baru Anda melalui kompetisi online dan bahkan masuk ke dalam kolaborasi industri/akademik.

Saat ini saya menulis artikel ini saat singgah di Doha saat saya bepergian dari Montreal, Kanada ke Dhaka, Bangladesh. Kepada orang-orang yang bertanya kepada saya "bagaimana memulai dengan visi komputer", ini untuk Anda! Semoga beruntung.

Tentang Penulis

Aloha! Saya seorang Ph.D. kandidat di Universitas Concordia di Montreal, Kanada, mengerjakan masalah penglihatan komputer. Saya juga bekerja paruh waktu di Décathlon, tempat saya membantu membuat alat berbasis data untuk mengubah gambar dan video olahraga menjadi kecerdasan yang dapat ditindaklanjuti. Jika Anda tertarik untuk mempelajari lebih lanjut tentang saya, silakan kunjungi halaman web saya di sini .

Referensi

[1] Harl, Max., dkk. "A Light in the Dark: Praktik Pembelajaran Mendalam untuk Visi Komputer Industri". Di arXiv, 2022.