Szkolenie uczenia maszynowego z korzyścią dla społeczności słabowidzącej

May 04 2023
Zwieńczeniem pracy studentów CDS badającej, w jaki sposób modele sztucznej inteligencji mogą lepiej rozpoznawać obiekty, aby pomóc osobom niewidomym, został zaakceptowany na konferencji IEEE-EMBC 2023 Sztuczna inteligencja wykazała znaczący potencjał w zakresie opracowywania technologii przynoszących korzyści osobom niewidomym lub słabowidzącym. Te modele wykrywania obiektów są zwykle szkolone na danych ogólnych, a nie na zestawach danych specyficznych dla potrzeb osób niewidomych.

Na konferencji IEEE-EMBC w 2023 r. przyjęto zwieńczenie artykułu autorstwa studentów CDS badających, w jaki sposób modele sztucznej inteligencji mogą lepiej rozpoznawać obiekty, aby pomóc osobom niewidomym

Tharangini Sankarnarayanan​ (z lewej), ​Khevna Parikh​ (w środku)​​, ​Lew Paciorkowski​ (z prawej)​

Sztuczna inteligencja wykazała znaczny potencjał w zakresie opracowywania technologii z korzyścią dla osób niewidomych lub słabowidzących. Te modele wykrywania obiektów są zwykle szkolone na danych ogólnych, a nie na zestawach danych specyficznych dla potrzeb osób niewidomych. Zespół naukowców z NYU, w tym studenci studiów magisterskich CDS , Tharangini Sankarnarayanan , Lev Paciorkowski i Khevna Parikh , zmierzyli się z tym problemem w swoim projekcie zwieńczenia, opracowując zbiór danych obiektów regularnie napotykanych przez osoby słabowidzące.

Artykuł „Training AI to Recognize Objects of Interest to the Blind and Low Vision Community” ma zostać opublikowany w PubMed i został przyjęty na 45th Annual International Conference of the IEEE Engineering in Medical Biology Society (IEEE-EMBC), która odbyła się w Sydney od 24 do 27 lipca.

Współautorami pracy są: adiunkt w NYU Grossman School of Medicine Giles Hamilton-Fletcher , adiunkt w NYU Tandon Chen Feng , student studiów magisterskich w NYU Tandon Diwei Sheng, adiunkt w NYU Grossman Todd E. Hudson , Ilse Melamid Associate Profesor medycyny rehabilitacyjnej na Uniwersytecie Nowojorskim Grossman John-Ross Rizzo oraz adiunkt i dyrektor Laboratorium Neuroobrazowania i Nauk Wizualnych na Uniwersytecie Nowojorskim Grossman Kevin C. Chan . Prace były dodatkowo wspierane przez Program Badań nad Wzrokiem Departamentu Obrony Stanów Zjednoczonych oraz grant z Research to Prevent Blindness dla NYU Langone Health Department of Ophthalmology.

Wykorzystując opinie zorientowane na użytkownika, naukowcy zidentyfikowali trzydzieści pięć obiektów niezbędnych osobom niewidomym. Zebrali obrazy obiektów z publicznie dostępnych zbiorów danych i wytrenowali model YOLOv5x, aby rozpoznawał wybrane elementy. Po uruchomieniu modelu odkryli, że znacznie lepiej identyfikuje przedmioty, takie jak kubki do kawy, noże, widelce i szklanki, niż poprzednie modele. Naukowcy odkryli również, że posiadanie zrównoważonej liczby różnych typów obiektów w zbiorze danych szkoleniowych poprawiło również zdolność modelu do wykrywania obiektów, a także jego szybkość.

„To ekscytujące widzieć szybki postęp w tego rodzaju technologii widzenia komputerowego i jej potencjał dla społeczności niewidomych” — powiedzieli autorzy CDS. „Największym wyzwaniem wydaje się obecnie pozyskanie wysokiej jakości zestawów danych szkoleniowych, które dokładnie odzwierciedlają rzeczywiste środowiska, w których taki model zostałby wdrożony. Uważamy, że w przyszłości należy zwrócić większą uwagę na to, jakie obrazy szkoleniowe są używane i skąd pochodzą”.

Oprócz ulepszania dostępnych danych do opracowywania modeli uczenia maszynowego, które pomagają osobom niewidomym, badanie pokazuje znaczenie nadzorowania danych szkoleniowych dla technologii wspomagających, które zaspokajają indywidualne potrzeby użytkowników.

Przez Meryl Phair