Molly'deki Güncel İlerleme
İhtiyaç temelli bir değerlendirme ve başka araştırmalar yaptıktan sonra, işte buradayım…
giriiş
Kör veya görme engelli (BVI) nüfus, günlük olarak modern bilgisayarların etrafında dönen çok sayıda sorunla karşı karşıyadır. Bunlar, bilgisayar donanımında gezinmekten, çoğu durumda kendileri için optimize edilmemiş yazılımı çalıştırmaya kadar başlar. Özellikle COVID-19 salgınının başlamasıyla örneklenen böyle bir yazılım sınırlaması, çevrimiçi video konferanstır.
Mevcut video konferans araçları (MS Teams ve Zoom), çoğunlukla görme engelliler için bilgisayar çalıştırmanın birincil modu olan ekran okuyucularla eşleştirilir. Ancak bu ekran okuyucular, paylaşılan ekranlar da dahil olmak üzere canlı video yayınlarını parçalama yeteneğinden yoksundur. Katılımcılar ekranlarını paylaşmaya başlar başlamaz görme engelli katılımcıların takip etmesi neredeyse imkansız hale geliyor. Paylaşılan bir ekrandan öğeleri okumak için her şeyi kapsayan bir yazılım kesinlikle mümkün olan en iyi çözüm olacaktır. Ancak canlı bir video akışının teknik sınırlamaları nedeniyle bunu yapmak neredeyse imkansız hale geliyor. Geçmişte JAWS ve JAWS Fusion; ancak, ses için harici yazılıma bağlanması gereken uzaktan erişim yazılımlarıdır.
Bu nedenle, mevcut video konferans yazılımını yenilemek yerine, bir sonraki mantıklı adım, bu video konferans yazılımlarından ve canlı yayınlardan katılımcılarımız için önemli görülen önemli ayrıntıları yakalamaktır.
İhtiyaç analizi
Video konferans görüşmelerindeki önemli unsurları anlamak. Purdue'da Yardımcı Teknoloji Uzmanı olan David Schwarte ile mevcut literatürü gözden geçirerek ve sohbet ederek bir ihtiyaç değerlendirmesi yaptım. Bir katılımcının ekranındaki öğeleri inceleyebilmesi sorulduğunda, David, "Bunu yapabilseydi yararlı olurdu, ama yapmıyor" dedi . Ek olarak, kendisi ve diğer katılımcılar için bir kişinin ifadelerini değerlendirirken bundan bahsetti görüntülü aramalar üzerinden konuşuyor olmaları önemlidir çünkü sözel olmayan ipuçlarını anlamalarına yardımcı olur. Ek olarak, bazı insanların nasıl ilginç geçmişleri olduğunu, ancak onları yalnızca başkalarına sorduğunda duyduğunu da belirtti.
Bu nedenle, bir kişinin yüz ifadelerini, arka planını ve kıyafetlerini anlamak, erişilebilir bir video konferans yazılımına doğru temel basamak taşları haline gelir ve bu projeyle tam olarak bunu başarmak istiyorum.
mevcut sistem
Bunu geliştirmek için, son birkaç hafta boyunca, Kaggle tarafından barındırılan fer2013 veri kümesinde önceden eğitilmiş Evrişimli Sinir Ağı tabanlı bir makine öğrenimi sınıflandırıcı kullanarak sistemin teknik yönleri üzerinde çalışabildim. Bu önceden eğitilmiş modeli Rohan Krishna'dan kullanıyorum . Model daha sonra bir şişe uygulaması ve bir ön uç ile birlikte kullanıldı. Kullanıcı arayüzü yukarıdaki resimdedir.
Sonraki adımlar
Bu projenin son birkaç haftasında, uçtan uca bir sistem oluşturmak için bir arka plan algılama modeli ve bir giysi tanımlama sınıflandırıcısı uygulamayı planlıyorum.
Bundan sonra, daha yüksek doğruluk elde etmek için modelleri yeniden eğitmeyi planlıyorum ve ardından son adımlar için, ekran okuyucuların bunları anlayabilmesi için sınıflandırıcıların sonuçlarını metin olarak çıkarmak istiyorum. Bizi izlemeye devam edin!

![Bağlantılı Liste Nedir? [Bölüm 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































