Görüntü sıralama deneyi

May 09 2023
Görüntü Görüntüleme Verimliliğini En Üst Düzeye Çıkarma: Görsel Sıralama TLDR'ye Nasıl Yardımcı Olabilir: Ocak 2022'de HTW Berlin'deki Görsel Hesaplama Grubu olarak görüntü sıralamayı değerlendirmek için bir deney gerçekleştirdik. Sıralanmış düzenlemelerdeki görüntülerin çok daha hızlı bulunduğu gösterildi.

Görüntü Görüntüleme Verimliliğini En Üst Düzeye Çıkarma: Görsel Sıralama Nasıl Yardımcı Olabilir?

256 IKEA mutfak gereçleri, solda: rastgele sırada ve sağda: benzerliklerine göre sıralanmış.

TLDR: Ocak 2022'de HTW Berlin'deki Visual Computing Group olarak görüntü sıralamayı değerlendirmek için bir deney gerçekleştirdik. Sıralanmış düzenlemelerdeki görüntülerin çok daha hızlı bulunduğu gösterildi. Görüntü sıralamayı değerlendirmeye yönelik yeni ölçümümüzün, genellikle insanlar tarafından algılanan sıralama kalitesini tanımlamak için kullanılanlardan önemli ölçüde daha iyi olduğu kanıtlandı. Ek olarak, önerilen sıralama yöntemlerimiz, diğer yöntemlere kıyasla çok daha verimli bir şekilde yüksek kaliteli görüntü sıralaması üretebildi.

Deneyimize 2000'den fazla katılımcı katıldı ve onlara burada tekrar teşekkür etmek istiyoruz. Yayınlanan makale (https://onlinelibrary.wiley.com/doi/epdf/10.1111/cgf.14718) deneyin sonuçlarını uzman olmayanlar için anlamak zor olabilir. Bu nedenle, burada deneyin motivasyonunu, uygulanmasını ve sonuçlarını anlaşılır bir şekilde özetlemeye çalışacağız.

İnsanlar aynı anda birçok görüntüyü tanımakta güçlük çekiyor

İnsanlar karmaşık görüntüleri hızlı bir şekilde algılayıp anlayabilmesine rağmen, birçok görüntüyü aynı anda tanımakta güçlük çekerler. Bu sorun, fotoğraf arşivlerinde veya e-ticaret sitelerinde ürün ararken ortaya çıkar. Bu gibi durumlarda, ilgili görüntülerin sayısı çok fazla olduğunda arama genellikle çok zordur. Bir ekranda aynı anda yalnızca 10-20 görüntü algılanabildiğinden, istenen görüntüyü veya ürünü bulmak için genellikle yapılandırılmamış listelerde sonsuz kaydırma yapmak gerekir.

İnsanlar, sıralanmış bir düzende görüntülendiğinde görüntüleri daha kolay algılayabilir. Yukarıdaki resimde 256 IKEA mutfak eşyası, sol tarafta rastgele ve sağ tarafta benzerliklerine göre sıralanmış şekilde gösterilmektedir. Belirli bir görüntüyü ararken, sıralanmamış durumda, tek seçenek görüntüleri satır satır "taramaktır". Sıralı düzenlemede, uygun bölge hızlı bir şekilde belirlenebilir ve arama o bölgeye odaklanabilir.

Deneyin Hedefleri

Gerçekleştirilen deneyin amacı, görüntülerin uygun şekilde sıralanmasıyla insanların aynı anda daha fazla görüntüyü ne ölçüde algılayabildiklerini ve bunun görüntüleri bulmak için gereken süreyi nasıl azaltabileceğini belirlemekti. Spesifik olarak, aşağıdaki sorular ele alındı:

  • İnsanlar hangi görüntü sıralama türlerini hoş ve yararlı buluyor?
  • İnsanlar tarafından algılanan görsel sıralamanın kalitesi objektif olarak nasıl ölçülebilir?
  • İnsanların tercihleriyle eşleşen sıralanmış düzenlemeleri verimli bir şekilde oluşturmak için en uygun yöntemler hangileridir?

Yukarıda belirtilen sorulara deneyde elde edilen cevapları sunmadan önce sıralama ilkesini basit bir örnekle açıklamak istiyoruz. 6, 5, 2, 8 ve 3 sayıları büyüklüklerine göre sıralanacaksa bu, sayıları bir öncekinden büyük olacak şekilde sıralamamız gerektiği anlamına gelir.

Beş sayının sıralanması

Genelde 1∙2∙3 ∙ … ∙ n = n vardır! (“n faktöriyel” olarak okuyun) n nesneyi düzenlemenin yolları. Beş sayımız söz konusu olduğunda, yalnızca ikisinin sıralandığı (artan veya azalan) 120 olası düzenleme olacaktır. Daha büyük sayı kümeleri için, sıralamayı (en uygun düzenleme) belirlemek için etkili algoritmalar vardır.

Görüntüler nasıl sıralanır?

Görüntüleri sıralama söz konusu olduğunda, iyi bir sıralamanın gerçekte neye benzediği veya nasıl belirleneceği net değildir. Sıralama sayıları ile karşılaştırıldığında, iki temel fark vardır: Birincisi, görüntülerin görünümü ve içeriği, bireysel sayılarla değil, sözde özellik vektörleriyle tanımlanır. Bu, her görüntünün, genellikle birbirine yakın yerleştirilmiş benzer görüntülerin vektörleri ile yüksek boyutlu bir uzayda bir vektör tarafından temsil edildiği anlamına gelir. İkincisi, sıralanan görüntüler genellikle 2 boyutlu bir ızgara üzerinde düzenlenir, bu da hem yatay hem de dikey yönlerde komşu olduğu anlamına gelir. Olası düzenlemelerin sayısı yine, görüntü sayısıyla birlikte faktöriyel olarak artar. 10×10 ızgarada 100 görüntüden oluşan bir düzenleme için zaten 100 tane var! = 9.3∙10¹⁵⁷ onları düzenlemek için olasılıklar (158 basamaklı bir sayı). Bu kadar büyük bir sayı göz önüne alındığında, en hızlı bilgisayarların tüm değişkenleri denemesi bile imkansızdır. Tüm düzenlemeleri karşılaştırmak mümkün olsa bile hangisinin en iyi şekilde sıralandığı net olmayacaktır.

Görüntüleri sıralama ilkesini göstermek için, iki boyutlu renk sıralaması örnek olarak kullanılabilir. Renkler kırmızı, yeşil ve mavi bileşenleri ile tanımlanır ve bu nedenle 3B vektörler olarak temsil edilebilir. Renkleri iki boyutlu olarak sıralamak için, bu 3B vektörlere 2B ızgarada bir konum atanmalıdır. Aşağıdaki şekil, 27 ∙ 27 (= 729) konumlu bir 2B ızgara üzerinde 9 ∙ 9 ∙ 9 (= 729) RGB renginin olası bir sıralanmış düzenlemesini göstermektedir.

3D RGB renk alanında 729 renk ➞ 2D ızgarada düzenlenmiş 729 renk.

Resimlerin görsel sıralamasının yukarıda belirtilen renk örneğine göre farkı sadece resimlerin özellik vektörlerinin boyutlarının çok daha yüksek olmasıdır. Bir görüntünün görsel görünümünü tanımlamak için 100'den az boyut yeterli olurken, görüntünün içeriğini açıklamak için binlerce boyut gerekebilir. Sıralama işlemi daha sonra benzer görüntüleri birbirine yakın konumlandırmaya çalışır. Görüntüleri sıralamak için kullanılan algoritmaların gerçekte nasıl çalıştığını öğrenmek istiyorsanız, makalemizde bununla ilgili okuyabilirsiniz.

Kullanılan resim setleri

Deneyi gerçekleştirmeden önce, farklı boyutlarda çeşitli görüntü kümeleriyle testler yaptık. Sıralamalarına bakılmaksızın çok fazla resimle bazılarını bulmanın çok zor olduğu ortaya çıktı. Bu kesinlikle deneydeki arama görevleri sırasında birçok katılımcının sonlandırılmasına yol açacaktı. Öte yandan, çok küçük kümelerde, istenen görüntüler genellikle hemen tanınıp bulunduğundan, görüntülerin sıralanmasının arama süresi üzerinde çok az etkisi oldu.

Deneyde dört farklı set kullanıldı. İlki, rastgele oluşturulmuş 1024 RGB renginden oluşuyordu ve yalnızca farklı sıralama yöntemlerinin algılanan kalitesini belirlemek için kullanılıyordu. Diğer üç görüntü seti için, istenen görüntüleri bulma süresi de kaydedildi. Bu üç küme, bir yandan farklı arama senaryolarını temsil edecek şekilde seçilirken, diğer yandan sıralı ve rastgele düzenlemeler arasında arama hızında hala önemli bir fark vardı. İlk set, genel bakış panolarında gösterilebilen 169 trafik işaretinden oluşuyordu. İkinci set, genellikle e-ticaret web sitelerinde sunulduğu için IKEA mutfak gereçlerinin 256 resminden oluşuyordu. Son set, internetten taranan 70 alakasız arama terimi için 400 resimden oluşuyordu. Bu set kişisel fotoğrafları temsil edebilir.

Deneyin dört test seti: İnternetten 70 arama terimi için 1024 RGB rengi, 169 trafik işareti, 256 mutfak eşyası ve 400 resim

Deneyin uygulanması

Deney iki bölümden oluşuyordu. İlk bölümde, katılımcıların tercihleri, sıralanmış görüntü düzenleme çiftlerini görmeleri ve iki düzenlemeden hangisini tercih ettiklerine karar vermeleri istenerek kaydedildi. Tercih edilen düzenlemeler, "daha net bir yapıya sahip, daha iyi bir genel bakış sağlayan ve aranan görüntüleri bulmayı kolaylaştıran" düzenlemelerdi. Deneyin ikinci bölümünde, katılımcılardan aranan görüntüleri olabildiğince hızlı bir şekilde sıralanmış düzenlemelerde bulmaları istendi. Katılımcıların sıralama tercihlerinin daha hızlı aramayı da sağlayıp sağlamadığı incelenmiştir. Ek olarak, sıralama kalitesi kullanılarak arama süresinin ne kadar iyi tahmin edilebileceğini araştırdık.

Araştırılan ayıklama yöntemleri ve kalite ölçütleri

Deneylerimizde, sıralanmış düzenlemeler oluşturmak için çeşitli yöntemler kullandık. Kendi Kendini Düzenleyen Haritalara (SOM) ek olarak , Kendi Kendini Sıralayan Haritalar (SSM), IsoMatch ve ayrı bir t-SNE projeksiyonu kullandık . Bu yöntemleri kendi yaklaşımlarımız olan Doğrusal Atama Sıralama (LAS) ve Hızlı Doğrusal Atama Sıralama ile karşılaştırdık.(FLAS). Her yöntem için kullanılan algoritmalar hakkında daha fazla ayrıntı, yukarıda belirtilen yayınımızda bulunabilir. Mümkün olduğunda, her yöntem için farklı parametre ayarları kullanarak birden çok düzenleme oluşturduk. Karşılaştırma için düşük sıralama kalitesi örneklerine sahip olmak için, bazı kötü sıralama düzenlemeleri de oluşturuldu ("düşük Kalite" olarak belirlendi). Görüntüleri bulmak çok zor olacağından, deney kesintilerine yol açacağı için rastgele düzenlemeler kullanılmadı.

2B düzenlemeleri değerlendirmek için ölçümler var, ancak bunların insanlar tarafından algılanan kaliteyi ne kadar iyi yansıttığını gösteren hiçbir çalışma yok. Bu kalite ölçütleri, yüksek boyutlu özellik vektörlerinin mesafelerini 2B ızgara üzerindeki görüntülerin ortaya çıkan mesafeleriyle karşılaştırır. Tipik olarak, çapraz korelasyon veya normalleştirilmiş enerji işlevi kullanılır, ancak her ikisi de benzer şekilde davranır, bu nedenle yalnızca ikincisini karşılaştırdık. 2B düzenlemeleri değerlendirmek için “ Mesafe Koruma Kalitesi ” (DPQ) adlı yeni bir ölçü önerdik .

Algılanan sıralama kalitesi

Bir sonraki şekil, deneyin ilk bölümünün ekran görüntüsünü göstermektedir. Tüm katılımcılara 16 çift aranjman gösterildi ve sol veya sağ düzenlemeyi mi tercih ettiklerine veya her ikisini de eşdeğer mi gördüklerine karar vermeleri istendi.

Deneyin ilk bölümünün ekran görüntüsü

Anlamsız değerlendirmelerin potansiyel etkisini dışlamak için, her deneyde bir çift son derece farklı kalite sıralaması sunuldu. Bir katılımcı bu çiftte önemli ölçüde daha kötü sıralamayı tercih ederse, tüm sıralamalar için yaptığı değerlendirmeler göz ardı edildi. Toplamda, renk seti için 32 sıralama ve üç görüntü setinin her biri için 23 sıralama incelenmiştir. Bir sezonda 18 takımın ve 18∙17 = 306 maçın olduğu ve 153 farklı karşılaşmaya karşılık gelen Alman futbolu Bundesliga'ya karşılık gelen bu deneyde, renk seti için 496 olası çift ve her biri için 253 olası çift vardı. üç görüntü kümesinden.

Bir maçın galibiyet, mağlubiyet veya beraberlikle sonuçlanabileceği tüm karşılaştırmaları değerlendirmek için futbola benzer bir yaklaşım kullanıldı. İki sıralamanın karşılaştırılmasında tercih edilen sıralama bir puan almıştır. Her iki sıralama da eşit olarak derecelendirildiyse, her ikisi de yarım puan aldı. Her sezon iki takım arasında iki maçın olduğu futbolun aksine, her sıralama çifti farklı katılımcılar tarafından en az 35 kez değerlendirildi. Bu değerlendirmelerden, bir eşleştirmedeki her sıralama için ortalama puan belirlendi. Toplamı 1 olan bu iki puan, bir sıralamanın diğerinden daha iyi derecelendirildiği oranı tanımlar. Tüm sıralamaların genel karşılaştırması için, tüm ikili karşılaştırmalardan alınan puanlar toplandı.

Ayıklama kalitesini değerlendiren bir kalite ölçüsü, kullanıcıların kalite değerlendirmesine yakından karşılık gelmelidir. Aşağıdaki şekiller, araştırılan iki kalite ölçüsüne kıyasla sıralamaların ortalama kullanıcı değerlendirmesinin (Kullanıcı Puanı) korelasyonunu göstermektedir. Burada E'1 yaygın olarak kullanılan “normalleştirilmiş enerji fonksiyonu”nu, DPQ ise tarafımızdan önerilen “Mesafe Koruma Kalitesi”ni ifade etmektedir. Sembol renkleri, farklı sıralama yöntemlerini temsil eder.

1024 RGB renkleri: Kullanıcı derecelendirmeleri ile normalleştirilmiş enerji işlevi (solda) ve Mesafe Koruma Kalitesi (sağda) arasındaki ilişki. İnsanlar tarafından daha yüksek derecelendirilen sıralamaların “normalleştirilmiş enerji fonksiyonu” tarafından daha kötü kabul edildiği gözlemlenebilir. Tersine, "Mesafe Koruma Kalitesi" değerleri (sağda), daha iyi derecelendirilmiş sıralamalar için artar.
Görüntü kümeleri: Kullanıcı derecelendirmeleri ile normalleştirilmiş enerji işlevi (solda) ve Mesafe Koruma Kalitemiz (sağda) arasındaki ilişki. Sembol şekilleri görüntü kümelerini tanımlar: trafik işaretleri (⬢), mutfak eşyaları (▲) ve internet görüntüleri (★).

İki rakam, yeni DPQ ölçümümüzün kullanıcı puanlarıyla daha yüksek bir korelasyona sahip olduğunu gösteriyor; bu da, insanlar tarafından algılanan ayıklama kalitesini tahmin etmek için daha uygun olduğu anlamına geliyor.

arama süreleri

Deneyin ikinci bölümünde, kullanıcılara, her birinde rastgele dört görüntünün bulunabileceği çeşitli sıralanmış düzenlemeler gösterildi. Bir resim bulunduğunda, hemen bir sonraki görüntülendi. Kullanılan sıralamalar, deneyin ilk kısmındakiyle aynıydı.

Deneyin ikinci bölümünün ekran görüntüsü

Elbette, bazı görseller diğerlerinden daha dikkat çekici olduğundan, görsel bulmanın zorluğu büyük ölçüde aranan görsellere bağlıdır. Ek olarak, katılımcılar arama yeteneklerinde farklılık gösterir. Yalnızca birkaç denemeyle, bu iki yön sonuçları önemli ölçüde bozabilir. Ancak, bu arama görevlerinden toplamda 28.000'den fazla gerçekleştirildi. Bu, her bir sıralama için, her biri dört görüntü için 400'den fazla arama yapıldığı anlamına gelir. Bu yüksek sayı, hem arama görevlerinin değişen zorluklarını hem de katılımcıların eşit olmayan yeteneklerini telafi etti.

Sonraki rakamlar, trafik işaretleri ve İnternet görüntüleri (Web Görüntüleri) için 23 farklı sıralama için arama sürelerinin dağılımını göstermektedir. Farklı sıralamalar için arama sürelerinin medyan değerleri renkli işaretçiler olarak gösterilir. Yine bu, normalleştirilmiş enerji fonksiyonuna kıyasla arama sürelerinin DPQ ölçümümüzle daha güçlü (negatif) korelasyonunu gösterir.

Medyan arama sürelerinin normalleştirilmiş enerji fonksiyonu (solda) ve Mesafe Koruma Kalitemiz (sağda) ile korelasyonu.

Hızlı aramaya olanak sağlayan sıralamalar ile yüksek puan alan sıralamalar karşılaştırıldığında da güçlü bir uyum gözlendi. Bununla birlikte, hızlı arama için, sonuç olarak sıralamanın genel düzenlemesi biraz daha kötü derecelendirilse bile, tüm benzer görüntülerin birbirine çok yakın düzenlenmesi daha önemliydi. Soldaki bir sonraki şekil, Web Görüntüleri seti için en yüksek derecelendirilmiş sıralamayı, sağdaki ise görüntülerin en hızlı bulunduğu sıralamayı gösterir. Solda geçişler daha yumuşak, sağda ise ilgili tüm görüntüler birbirine yakın ve bu da bazı sert geçişlere neden oluyor.

Sol: en iyi derecelendirilen sıralama; sağ: aranan resimlerin en hızlı bulunduğu sıralama.

Sıralama yöntemlerinin karşılaştırılması

Son adım, farklı sıralama yöntemlerinin performansını daha iyi anlamaktı. Çalışma zamanı büyük ölçüde donanıma bağlı olduğundan, verilen zamanlar yalnızca referans değerleri olarak işlev görür. Mesafe Koruma Kalitesi, kullanıcı tercihleri ​​ile yüksek bir korelasyona sahip olduğundan, gerekli hesaplama süresine bağlı olarak algoritmaların sıralama kalitesini karşılaştırmak için kullanılmıştır.

Bir sonraki şekil, yöntem parametrelerini değiştirirken araştırılan yöntemler için gereken hesaplama süresine karşı elde edilen sıralama kalitesini göstermektedir. 256 mutfak eşyası görüntüsü gibi daha küçük veri kümeleri için FLAS yöntemimiz, kalite ve hesaplama süresi arasında en iyi uzlaşmayı sunar. LAS ve t-SNE biraz daha yüksek kaliteler sağlayabilir ancak 10 ila 100 kat daha yavaştır. 1024 rastgele RGB rengi için LAS ve FLAS yöntemlerimiz en yüksek sıralama niteliklerini elde etti.

256 mutfak eşyası görüntüsünün (üstte) ve 1024 RGB renginin (altta) sıralaması için farklı parametre ayarları için ortalama çalışma süresiyle karşılaştırmalı ortalama sıralama kalitesi (DPQ).

Başka bir araştırma, farklı boyutlardaki görüntü kümeleri için kalite ve hesaplama süresinin nasıl davrandığını incelemekti. Önceki şekilde ⦿ ile işaretlenen parametre ayarları bu amaçla seçilmiştir. SOM, SSM, LAS ve FLAS daha fazla görüntü için daha iyi sıralama oluşturabilirken, t-SNE ve IsoMatch için sıralama daha da kötüleşti.

Farklı sıralama yöntemleri için 256 (.), 1024 (•) ve 4096 (⚈) RGB rasgele renkleri için gereken hesaplama süresinin bir fonksiyonu olarak elde edilen ortalama sıralama kalitesi.

Deneyin Sonuçları

Genel olarak, daha önce sorulan sorular net bir şekilde yanıtlanabildiğinden, deneyin sonuçlarından çok memnun kaldık. İnsanların, sıralanmış düzenlemelerde görüntüleri önemli ölçüde daha hızlı bulabildikleri gösterilmiştir. İnsanların hoş ve yararlı bulduğu görüntü sıralamayı analiz ederken, komşu görüntülerin yüksek yerel benzerliğinin, tüm görüntülerin benzerlik ilişkilerini küresel olarak sürdürmekten daha önemli olduğu bulundu. Ayrıca, görüntü sıralamanın yeni bir kalite değerlendirmesi için önerimiz, insanlar tarafından algılanan kaliteyi yansıtmada önceki yöntemlerden önemli ölçüde daha iyiydi.

Önerdiğimiz sıralama yöntemleri LAS ve FLAS'ın yüksek kaliteli sıralama üretebildiği ve FLAS'ın da çok verimli olduğu ortaya çıktı. Ek olarak, yöntemlerimiz sıralamayı etkilemek için belirli görüntülerin sabit konumlandırılması veya dikdörtgenden farklı düzenleri kullanma yeteneği gibi çeşitli seçenekler sunar. FLAS yöntemi (bir görüntü grafiğiyle birlikte) o kadar hızlıdır ki, milyonlarca görüntüyü görsel olarak keşfetmek mümkün hale gelir. Navigu.net, böyle bir görsel görüntü araştırma aracına bir örnektir.

Araştırmamız hakkında daha fazla bilgi için www.visual-computing.com adresini ziyaret edin .

Sol: Amerikan bayrağı alt orta konumda sabitlenmiş şekilde sıralanmış bayraklar. Sağ: Kalp şeklinde sıralanmış 2404 RGB rengi.