Đào tạo học máy để mang lại lợi ích cho cộng đồng thị lực kém

May 04 2023
Một bài báo quan trọng của các sinh viên CDS khám phá cách các mô hình AI có thể nhận dạng các vật thể tốt hơn để hỗ trợ những người bị mù đã được chấp nhận tại Hội nghị IEEE-EMBC 2023 Trí tuệ nhân tạo đã cho thấy tiềm năng đáng kể trong việc phát triển các công nghệ nhằm mang lại lợi ích cho những người mù hoặc thị lực kém. Các mô hình phát hiện đối tượng này thường được đào tạo trên dữ liệu chung, thay vì bộ dữ liệu dành riêng cho nhu cầu của người khiếm thị.

Một bài báo quan trọng của các sinh viên CDS khám phá cách các mô hình AI có thể nhận dạng các vật thể tốt hơn để hỗ trợ những người bị mù đã được chấp nhận tại Hội nghị IEEE-EMBC năm 2023

Tharangini Sankarnarayanan​ (trái), ​Khevna Parikh​ (giữa), ​Lev Paciorkowski​ (phải)​

Trí tuệ nhân tạo đã cho thấy tiềm năng đáng kể để phát triển các công nghệ mang lại lợi ích cho những người mù hoặc thị lực kém. Các mô hình phát hiện đối tượng này thường được đào tạo trên dữ liệu chung, thay vì bộ dữ liệu dành riêng cho nhu cầu của người khiếm thị. Một nhóm các nhà nghiên cứu của NYU bao gồm các sinh viên thạc sĩ CDS Tharangini Sankarnarayanan , Lev Paciorkowski và Khevna Parikh đã giải quyết vấn đề này cho dự án quan trọng nhất của họ, phát triển một bộ dữ liệu về các vật thể mà những người có thị lực kém thường xuyên gặp phải.

Bài báo “Đào tạo AI để nhận biết các đối tượng quan tâm đối với cộng đồng người mù và thị lực kém” dự kiến ​​sẽ được xuất bản trên PubMed và được chấp nhận tham gia Hội nghị quốc tế thường niên lần thứ 45 của Hiệp hội kỹ thuật sinh học y tế IEEE (IEEE-EMBC) được tổ chức tại Sydney từ ngày 24 đến ngày 27 tháng 7.

Các đồng tác giả của công trình bao gồm Nghiên cứu sinh sau tiến sĩ tại Trường Y khoa NYU Grossman Giles Hamilton-Fletcher , Trợ lý Giáo sư tại NYU Tandon Chen Feng , sinh viên thạc sĩ tại NYU Tandon Diwei Sheng , Trợ lý Giáo sư Nghiên cứu tại NYU Grossman Todd E. Hudson , Ilse Melamid Associate Giáo sư Y học Phục hồi chức năng tại NYU Grossman John-Ross Rizzo , và Trợ lý Giáo sư kiêm Giám đốc Phòng thí nghiệm Khoa học Hình ảnh và Hình ảnh Thần kinh tại NYU Grossman Kevin C. Chan . Công trình còn được hỗ trợ thêm bởi Chương trình Nghiên cứu Thị lực của Bộ Quốc phòng Hoa Kỳ và một khoản trợ cấp từ Nghiên cứu Ngăn ngừa Mù lòa cho Khoa Nhãn khoa của NYU Langone Health.

Bằng cách sử dụng phản hồi lấy người dùng làm trung tâm, các nhà nghiên cứu đã xác định được 35 đồ vật cần thiết cho người mù. Họ đã thu thập hình ảnh của các đối tượng từ các bộ dữ liệu có sẵn công khai và đào tạo một mô hình YOLOv5x để nhận dạng các mục đã chọn. Thông qua việc chạy mô hình, họ nhận thấy rằng việc xác định các đồ vật như cốc cà phê, dao, nĩa và ly tốt hơn đáng kể so với các mô hình trước đó. Các nhà nghiên cứu cũng nhận thấy rằng việc có một số lượng cân bằng các loại đối tượng khác nhau trong tập dữ liệu huấn luyện cũng cải thiện khả năng phát hiện đối tượng cũng như tốc độ của mô hình.

Các tác giả của CDS cho biết: “Thật thú vị khi thấy những tiến bộ nhanh chóng trong loại công nghệ thị giác máy tính này và tiềm năng của nó đối với cộng đồng người mù. “Thách thức lớn nhất hiện nay dường như là có được các bộ dữ liệu đào tạo chất lượng cao thể hiện chính xác các môi trường trong thế giới thực mà một mô hình như vậy sẽ được triển khai. Trong tương lai, chúng tôi nghĩ rằng cần chú ý nhiều hơn đến những hình ảnh đào tạo nào được sử dụng và chúng đến từ đâu.”

Cùng với việc cải thiện dữ liệu có sẵn để phát triển các mô hình máy học hỗ trợ người mù, nghiên cứu cho thấy tầm quan trọng của việc quản lý dữ liệu đào tạo cho các công nghệ hỗ trợ đáp ứng nhu cầu của từng người dùng.

Bởi Meryl Phair