จะเริ่มต้นใช้งาน Computer Vision ในปี 2023 ได้อย่างไร?

May 09 2023
โรดแมปจากศูนย์ถึงศูนย์สู่การเป็นวิศวกรการมองเห็นคอมพิวเตอร์หรือนักวิจัยในปี 2566 รู้ว่าต้องเรียนรู้อะไรและวิธีใช้ทักษะที่ได้เรียนรู้ในโครงการในโลกแห่งความเป็นจริงเพื่อเข้าสู่อุตสาหกรรมหรือสถาบันการศึกษา

โรดแมปจากศูนย์ถึงศูนย์สู่การเป็นวิศวกร การมองเห็นคอมพิวเตอร์ หรือนักวิจัยในปี 2566 รู้ว่าต้องเรียนรู้อะไรและวิธีใช้ทักษะที่ได้เรียนรู้ในโครงการในโลกแห่งความเป็นจริงเพื่อเข้าสู่อุตสาหกรรมหรือสถาบันการศึกษา

ที่มา: รูปภาพโดย ownedphotography ที่ Unsplash

แรงจูงใจ

คอมพิวเตอร์วิทัศน์ (CompVis) เป็นแขนง หนึ่งของปัญญาประดิษฐ์ (AI) ที่เกี่ยวข้องกับการฝึกให้คอมพิวเตอร์ตีความและเข้าใจภาพและวิดีโอ การใช้งานจริงของ CompVis ครอบคลุมตั้งแต่หุ่นยนต์การผลิตเชิงอุตสาหกรรม รถยนต์ไร้คนขับ และกล้องวิดีโอวงจรปิด ไปจนถึงการสร้างภาพทางการแพทย์และความเป็นจริงเสริม ในหลายกรณี CompVis สามารถทำให้งานเป็นแบบอัตโนมัติและช่วยประหยัดเวลาและความพยายามให้กับมนุษย์ยุคหินซึ่งทำให้มีประโยชน์สำหรับการใช้งานจริง นอกจากนี้ ในบางกรณี ยังมีประสิทธิภาพดีกว่ามนุษย์ ทำให้ CompVis เป็นเครื่องมือสำคัญสำหรับหลายอุตสาหกรรม [1]

ในบทความนี้ ผมจะแชร์แผนงานที่คุณสามารถใช้เพื่อเริ่มต้นใช้งาน CompVis ได้ ทั้งในอุตสาหกรรมหรือสถาบันการศึกษา อันดับแรก ฉันจะแบ่งปันแหล่งข้อมูลการเรียนรู้ฟรีและเผยแพร่สู่สาธารณะ จากนั้นฉันจะพูดถึงแพลตฟอร์มที่คุณสามารถใช้ทักษะที่ได้เรียนรู้เพื่อสร้างพอร์ตโฟลิโอของคุณ หากคุณยังใหม่หรือมีประสบการณ์ คู่มือนี้อาจทำให้คุณเก่งขึ้นในสาขาที่น่าตื่นเต้นและมีการพัฒนาอย่างรวดเร็วนี้!

บทความนี้จัดดังนี้:

  1. แหล่งเรียนรู้
  2. การแข่งขันออนไลน์
  3. ความร่วมมือในอุตสาหกรรมและการวิจัย

แหล่งเรียนรู้

ในส่วนนี้ ฉันจะพูดถึงทรัพยากรสามอย่างที่คุณควรพิจารณาเพื่อทำความเข้าใจทฤษฎีและแนวทางปฏิบัติที่อยู่เบื้องหลังการสร้างระบบ CompVis นี่คือการเพิ่มความลึกของคุณในฐานะผู้ปฏิบัติงาน CompVis สองรายการถัดไปคือรายการที่คุณควรอ่านเพิ่มเติมเพื่อทำความเข้าใจเกี่ยวกับงานต่างๆ และกระบวนทัศน์การเรียนรู้ใน CompVis นี่คือการเพิ่มความกว้างของคุณ

Deep Learning Specializationประกอบด้วยหลักสูตรทั้งหมด 5 หลักสูตรที่จะสอนคุณเกี่ยวกับพื้นฐานของการเรียนรู้เชิงลึกที่ใช้กับ CompVis การประมวลผลภาษาธรรมชาติ ฯลฯ หลักสูตรนี้ครอบคลุมทั้งแนวคิดเชิงทฤษฎีและการปฏิบัติเพื่อสร้าง ฝึกฝน และทดสอบโมเดลการเรียนรู้เชิงลึก คุณจะได้สร้างและฝึกฝนโมเดลของคุณเองผ่านการมอบหมายหลักสูตร ใช้เวลาเรียนให้ครบทั้ง 5 หลักสูตรด้วยความจริงใจ!

CS231n: Deep Learning for Computer Visionเจาะลึกรายละเอียดของสถาปัตยกรรมการจัดประเภทภาพโดยเน้นที่การเรียนรู้โมเดลแบบ end-to-end ประกอบด้วยการมอบหมายงานจริงซึ่งให้คุณปรับใช้และฝึกฝนแบบจำลอง CompVis ของคุณเองในปัญหาในโลกแห่งความเป็นจริงที่คุณเลือก นอกจากนี้ยังมีรายละเอียดสำหรับเคล็ดลับและกลเม็ดทางวิศวกรรมที่ใช้งานได้จริงสำหรับการฝึกอบรมและการปรับแต่งโมเดลการเรียนรู้เชิงลึกอย่างละเอียด

การเรียนรู้เชิงลึกใน Computer Vision ด้วย PyTorchช่วยให้คุณได้รับการฝึกอบรมและการทดสอบการจัดหมวดหมู่รูปภาพและอัลกอริทึมการแบ่งส่วนความหมายในชุดข้อมูลของคุณเองอย่างรวดเร็วและง่ายดาย สุดท้ายนี้จะแสดงวิธีสร้างและเรียกใช้เว็บอินเทอร์เฟซอย่างง่ายเพื่อให้ทุกคนสามารถใช้โมเดลที่ฝึกใหม่ของคุณได้ (การประชาสัมพันธ์ตนเองไร้ยางอาย! )

จัสติน จอห์นสัน การเรียนรู้เชิงลึกสำหรับการมองเห็นด้วยคอมพิวเตอร์ครอบคลุมถึงการนำไปใช้งาน การฝึกอบรม และการดีบักโครงข่ายประสาทเทียม และมอบความเข้าใจเชิงลึกเกี่ยวกับการวิจัยที่ทันสมัยใน CompVis ครอบคลุมงาน CompVis เช่น การตรวจจับวัตถุ การแบ่งส่วนความหมาย การมองเห็น 3 มิติ และแบบจำลองเชิงกำเนิด ตลอดจนการเรียนรู้เสริมกำลัง

การเรียนรู้เชิงลึกใน Computer Vision ของ Prof. Kosta Derpanis เป็นหลักสูตรล่าสุดที่ครอบคลุมหัวข้อต่างๆ เช่น การจดจำการกระทำ การมองเห็น และภาษา โครงข่ายประสาทเทียมแบบกราฟ นอกจากนี้ยังครอบคลุมกระบวนทัศน์การเรียนรู้เช่นการเรียนรู้เมตริกและการเรียนรู้ด้วยตนเอง

ที่มา: ภาพถ่ายโดยผู้เขียน. ใบรับรองความเชี่ยวชาญการเรียนรู้เชิงลึก ห้าหลักสูตรเป็นตัวแทนของหินอินฟินิตี้ทั้งห้า! อันที่หกคืออะไร? ;)

แหล่งข้อมูลการเรียนรู้อื่น ๆ ที่อาจเป็นประโยชน์ในการดู:

  1. บทช่วยสอนของ Roboflow เกี่ยวกับการใช้โมเดลการมองเห็นด้วยคอมพิวเตอร์ SOTA
  2. กอด Face Tasks
  3. บทช่วยสอนการกอด Face Transformers

การแข่งขันออนไลน์

ต่อไป ฉันจะแจกแจงการแข่งขัน/ความท้าทายก่อนหน้านี้ที่คุณสามารถทำได้ด้วยตนเองและใช้ทักษะที่ได้เรียนรู้จากหลักสูตรที่กล่าวถึงข้างต้น นอกจากนี้ยังช่วยให้คุณได้แนวคิดว่าการแข่งขันออนไลน์ทำงานอย่างไร (เช่นรับข้อมูลฝึกโมเดลทดสอบและวิเคราะห์ส่งผลลัพธ์ และทำซ้ำ ) จากนั้น ฉันจะพูดถึงชื่อแพลตฟอร์มการแข่งขันที่จัดความท้าทายจากการประชุม CompVis ยอดนิยม ซึ่งคุณสามารถเริ่มการแข่งขันออนไลน์ครั้งแรกได้!

Dogs vs. Cats :งานจัดหมวดหมู่รูปภาพที่คุณจะสร้างแบบจำลองเพื่อทำนายสุนัขและแมวจากรูปภาพ

Flower Classification with TPUs : งานคล้ายๆ Dogs vs. Cats แต่มีหลายคลาส สิ่งนี้เรียกว่าภาพหลายระดับ ที่นี่คุณจะได้สร้างแบบจำลองเพื่อจำแนกดอกไม้กว่า 100 ชนิด แทนที่จะใช้ GPU คุณจะคุ้นเคยกับการใช้ TPU

Carvana Image Masking Challenge : งาน แบ่งกลุ่มความหมายโดยมีเป้าหมายเพื่อพัฒนาโมเดลเพื่อลบพื้นหลังของสตูดิโอถ่ายภาพออกจากรถ สิ่งนี้คล้ายกับการจัดหมวดหมู่ภาพ แต่ในระดับพิกเซลซึ่งแต่ละพิกเซลจะได้รับป้ายกำกับคลาสซึ่งนำไปสู่มาสก์ผลลัพธ์สุดท้ายของวัตถุที่ต้องการ (เช่น รถยนต์)

การตรวจจับข้าวสาลีทั่วโลก : ปัญหา การตรวจจับวัตถุที่เป้าหมายคือการสร้างแบบจำลองเพื่อแปลเป็นภาษาท้องถิ่น (เช่น การวาดกล่องที่มีขอบ) บนหัวข้าวสาลีจากภาพกลางแจ้งของต้นข้าวสาลี

RSNA STR การตรวจจับเส้นเลือดอุดตันในปอด :งานจำแนกประเภทก่อนหน้านี้จัดการกับภาพ 2 มิติ; ในความท้าทายนี้มีเป้าหมายเพื่อตรวจหาและจำแนกความผิดปกติจากการสแกน CT ทรวงอกซึ่งเป็นภาพ 3 มิติ นี่คือการจัดประเภทภาพ 3มิติ

แพลตฟอร์มการแข่งขัน ML : การแข่งขันข้างต้นจัดขึ้นบน Kaggle ซึ่งเป็นแพลตฟอร์มการแข่งขันที่ได้รับความนิยมสูงสุด มีแพลตฟอร์มอื่นๆ ที่จัดการแข่งขันต่างๆ ที่คุณสามารถเข้าร่วมได้ ฉันจะพูดถึงบางส่วน:

  1. Grand Challenge : ส่วนใหญ่สำหรับปัญหาการถ่ายภาพทางชีวการแพทย์ การประชุมเชิงปฏิบัติการในการจัดการแข่งขันMICCAI ที่นี่
  2. AIcrowd : ธุรกิจ มหาวิทยาลัย หน่วยงานรัฐบาล หรือองค์กรพัฒนาเอกชนเป็นเจ้าภาพความท้าทายต่างๆ การแข่งขันยังเป็นเจ้าภาพโดย NeurIPS เป็นเวิร์คช็อป

ความร่วมมือทางอุตสาหกรรมและวิชาการ

ในหัวข้อสุดท้ายนี้ ฉันจะพูดถึงวิธีการต่างๆ ที่ช่วยให้อุตสาหกรรมและความร่วมมือทางวิชาการ เมื่อคุณทำการแข่งขันออนไลน์สักสองสามรายการแล้ว พวกเขาจะสร้างสัญชาตญาณของคุณในการสร้างระบบ CompVis เนื่องจากส่วนใหญ่จะอิงตามข้อมูลในโลกแห่งความเป็นจริง จากตรงนั้น คุณสามารถเข้าสู่ภาคอุตสาหกรรมเพื่อทำงานเกี่ยวกับปัญหาทางธุรกิจหรือด้านการศึกษาเพื่อทำการวิจัย

Omdena AI : ฉันถามความฉงนสนเท่ห์ว่า Omdena คืออะไร และนี่คือสิ่งที่กล่าวว่า:

Omdena AI เป็นแพลตฟอร์มการทำงานร่วมกันที่สร้างโซลูชัน AI และวิทยาศาสตร์ข้อมูลสำหรับปัญหาในโลกแห่งความเป็นจริง เป็นองค์กรแห่งแรกของชุมชนที่มอบอำนาจให้วิศวกร AI ทั่วโลกกลายเป็นผู้สร้างการเปลี่ยนแปลงและช่วยเหลือองค์กรที่ขับเคลื่อนด้วยพันธกิจและสตาร์ทอัพสร้างโซลูชัน AI ที่มีประสิทธิภาพผ่านการทำงานร่วมกันทั่วโลก Omdena AI จัดการความท้าทายที่รวบรวมนักวิทยาศาสตร์ข้อมูลจากทั่วโลกเพื่อทำงานในโครงการเฉพาะ เช่น การตรวจจับไฟป่าในอเมซอน

โดยพื้นฐานแล้วมันเป็นแพลตฟอร์มที่คุณจะได้ทำงานกับบริษัทเกี่ยวกับปัญหาในโลกแห่งความเป็นจริง ข้อแม้ประการหนึ่งคือ ในตอนแรก งานที่คุณจะทำจะไม่ได้รับค่าจ้าง อย่างไรก็ตาม เมื่อคุณทำโปรเจกต์สองสามโปรเจกต์สำเร็จ (แต่ละโปรเจกต์กับบริษัทอื่น) คุณจะสร้างพอร์ตโฟลิโอของคุณและสามารถเข้าร่วมโปรแกรมOmdena Top Talentที่ซึ่งคุณจะได้รับค่าจ้างในการทำงานโปรเจกต์หรือแม้แต่ทำงานเต็มเวลา! ในฐานะผู้เริ่มต้น ฉันคิดว่านี่เป็นสิ่งที่ใกล้เคียงที่สุดที่คุณจะได้ทำงานกับคนในอุตสาหกรรม นอกเหนือจากการฝึกงาน! นี่เป็นวิธีที่มีประสิทธิภาพสำหรับใครบางคน (แม้แต่คุณ!) สามารถสร้างประสบการณ์เกี่ยวกับปัญหาในโลกแห่งความเป็นจริงและเจาะเข้าสู่อุตสาหกรรม

มหาวิทยาลัยของคุณ: ใช่แล้ว คุณอยู่มหาวิทยาลัย! ดูเหมือนชัดเจนมาก แต่ฉันได้รับสิ่งนี้มาก คุณสามารถทำงานร่วมกับอาจารย์ในมหาวิทยาลัยของคุณ อาจเป็นผู้ช่วยวิจัย หากคุณต้องการเน้นไปที่การวิจัยของ CompVis และมุ่งเป้าไปที่การตีพิมพ์ที่ดี สิ่งนี้ใช้ได้กับฉันเมื่อฉันเริ่มการวิจัย CompVis เป็นครั้งแรก ฉันจะทิ้งเรื่องราวนั้นไว้อีกชิ้นหนึ่ง! นี่คือสิ่งที่คุณสามารถทำได้ ขั้นแรก ให้จำกัดอาจารย์ในมหาวิทยาลัยที่คุณต้องการทำงานด้วยให้แคบลง ดูประวัติการวิจัยของพวกเขา หัวข้อที่พวกเขาทำ และดูว่าคุณสนใจเรื่องเหล่านั้นจริงๆ หรือไม่ จากนั้นส่งอีเมลถึงทุกคนว่าคุณต้องการร่วมงานกับพวกเขา เป็นการดีที่จะพูดถึงหัวข้อใด ไม่เป็นไรถ้าคุณไม่ได้ยินจากพวกเขาส่วนใหญ่ สิ่งนี้จะกลายเป็นเรื่องง่ายหากคุณรู้จักพวกเขาด้วยตนเองและได้เรียนในชั้นเรียนของพวกเขาแล้ว เพียงไปที่สำนักงานของพวกเขา! และนั่นคือวิธีที่คุณเข้าไปวิชาการ !

บทสรุป

ในโพสต์นี้ ฉันได้พูดคุยเกี่ยวกับวิธีเริ่มต้นใช้งานคอมพิวเตอร์วิทัศน์ในฐานะผู้เริ่มต้น และเจาะเข้าสู่อุตสาหกรรมหรือในวงวิชาการ ฉันได้กล่าวถึงแหล่งข้อมูลเพื่อเรียนรู้พื้นฐานของการมองเห็นด้วยคอมพิวเตอร์ ตลอดจนแพลตฟอร์มสำหรับใช้ความรู้ใหม่ของคุณผ่านการแข่งขันออนไลน์ และแม้แต่การเข้าร่วมความร่วมมือในอุตสาหกรรม/วิชาการ

ฉันกำลังเขียนบทความนี้ระหว่างหยุดพักในเมืองโดฮา ขณะที่ฉันกำลังเดินทางจากเมืองมอนทรีออล ประเทศแคนาดา ไปยังกรุงธากา ประเทศบังคลาเทศ สำหรับคนที่ถามฉันว่า “จะเริ่มต้นใช้งานคอมพิวเตอร์วิทัศน์ได้อย่างไร” อันนี้เหมาะสำหรับคุณ! ขอให้โชคดี.

เกี่ยวกับผู้เขียน

อโลฮ่า! ฉันเป็นปริญญาเอก ผู้สมัครที่มหาวิทยาลัยคอนคอร์เดียในมอนทรีออล ประเทศแคนาดา ทำงานเกี่ยวกับปัญหาการมองเห็นของคอมพิวเตอร์ ฉันยังทำงานพาร์ทไทม์ที่ดีแคทลอนด้วย ซึ่งฉันช่วยสร้างเครื่องมือที่ขับเคลื่อนด้วยข้อมูลเพื่อเปลี่ยนภาพกีฬาและวิดีโอให้เป็นข้อมูลอัจฉริยะที่นำไปใช้ได้จริง หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับฉัน โปรดเยี่ยมชมหน้าเว็บของฉันที่นี่

อ้างอิง

[1] ฮาร์ล แม็กซ์ และคณะ “แสงสว่างในความมืด: การเรียนรู้เชิงลึกสำหรับวิสัยทัศน์คอมพิวเตอร์อุตสาหกรรม” ใน arXiv, 2022