L'esperimento di ordinamento delle immagini
Massimizzare l'efficienza di visualizzazione delle immagini: come l'ordinamento visivo può aiutare
TLDR: Nel gennaio 2022, noi - il Visual Computing Group di HTW Berlin - abbiamo condotto un esperimento per valutare l'ordinamento delle immagini. È stato dimostrato che le immagini in disposizioni ordinate vengono trovate molto più rapidamente. La nostra nuova misura per valutare l'ordinamento delle immagini si è rivelata significativamente migliore di quelle solitamente utilizzate per descrivere la qualità di ordinamento percepita dagli esseri umani. Inoltre, i nostri metodi di ordinamento proposti sono stati in grado di generare un ordinamento delle immagini di alta qualità in modo molto più efficiente rispetto ad altri metodi.
Più di 2000 partecipanti hanno preso parte al nostro esperimento e vorremmo ringraziarli ancora qui. L'articolo pubblicato (https://onlinelibrary.wiley.com/doi/epdf/10.1111/cgf.14718) sui risultati dell'esperimento può essere di difficile comprensione per i non specialisti. Pertanto, cercheremo di riassumere la motivazione, l'implementazione e i risultati dell'esperimento in modo comprensibile qui.
Le persone hanno difficoltà a riconoscere molte immagini contemporaneamente
Sebbene gli esseri umani possano percepire e comprendere rapidamente immagini complesse, hanno difficoltà a riconoscere molte immagini contemporaneamente. Questo problema si presenta durante la ricerca di immagini in archivi fotografici o di prodotti su siti di e-commerce. In tali casi, la ricerca è spesso molto difficile quando il numero di immagini rilevanti è molto elevato. Poiché su uno schermo possono essere percepite solo 10-20 immagini contemporaneamente, spesso è necessario scorrere all'infinito elenchi non strutturati per trovare l'immagine o il prodotto desiderato.
Gli esseri umani possono percepire le immagini più facilmente quando vengono visualizzate in un ordine ordinato. L'immagine sopra mostra 256 articoli da cucina IKEA, sul lato sinistro in ordine casuale e sul lato destro ordinati per somiglianza. Durante la ricerca di un'immagine specifica, nel caso non ordinato, l'unica opzione è "scansionare" le immagini riga per riga. Nella disposizione ordinata, la regione appropriata può essere rapidamente identificata e la ricerca può essere focalizzata su quell'area.
Obiettivi dell'esperimento
L'obiettivo dell'esperimento condotto era determinare fino a che punto le persone sono in grado di percepire più immagini contemporaneamente attraverso un adeguato ordinamento delle immagini e in che modo ciò può ridurre il tempo necessario per trovare le immagini. Nello specifico sono state affrontate le seguenti domande:
- Quali tipi di ordinamento delle immagini le persone percepiscono come piacevoli e utili?
- Come si può misurare oggettivamente la qualità di un ordinamento visivo, così come viene percepita dalle persone?
- Quali metodi sono più adatti per creare in modo efficiente arrangiamenti ordinati che corrispondano alle preferenze delle persone?
Prima di presentare le risposte ottenute nell'esperimento alle domande sopra menzionate, vorremmo spiegare il principio dell'ordinamento utilizzando un semplice esempio. Se i numeri 6, 5, 2, 8 e 3 devono essere ordinati in base alla loro dimensione, ciò significa che dobbiamo disporre i numeri in modo tale che ogni numero sia maggiore del precedente.
In generale, ci sono 1∙2∙3 ∙ … ∙ n = n! (leggi “n fattoriale”) modi per disporre n oggetti. Nel caso dei nostri cinque numeri, ci sarebbero già 120 possibili disposizioni, di cui solo due sono ordinate (ascendente o discendente). Per insiemi di numeri più grandi, esistono algoritmi efficienti per determinare l'ordinamento (la disposizione ottimale).
Come ordinare le immagini?
Quando si tratta di ordinare le immagini, non è chiaro che aspetto abbia effettivamente un buon ordinamento o come determinarlo. Rispetto ai numeri di ordinamento, ci sono due differenze principali: in primo luogo, l'aspetto e il contenuto delle immagini non sono descritti da singoli numeri, ma piuttosto dai cosiddetti vettori di caratteristiche. Ciò significa che ogni immagine è rappresentata da un vettore in uno spazio ad alta dimensione, con vettori di immagini simili solitamente situati uno vicino all'altro. In secondo luogo, le immagini ordinate sono solitamente disposte su una griglia 2D, il che significa che ci sono vicini sia in direzione orizzontale che verticale. Il numero di possibili arrangiamenti cresce di nuovo fattorialmente con il numero di immagini. Per una disposizione di 100 immagini su una griglia 10×10, ce ne sono già 100! = 9.3∙10¹⁵⁷ possibilità (un numero di 158 cifre) per ordinarle. Dato un numero così elevato, è persino impossibile per i computer più veloci provare tutte le varianti. Anche se fosse possibile confrontare tutti gli arrangiamenti, non sarebbe chiaro quale sia il migliore.
Per illustrare il principio dell'ordinamento delle immagini, l'ordinamento bidimensionale dei colori può servire da esempio. I colori sono descritti dai loro componenti rosso, verde e blu e possono quindi essere rappresentati come vettori 3D. Per ordinare i colori in modo bidimensionale, a questi vettori 3D deve essere assegnata una posizione su una griglia 2D. La figura seguente mostra una possibile disposizione ordinata di 9 ∙ 9 ∙ 9 (= 729) colori RGB su una griglia 2D con 27 ∙ 27 (= 729) posizioni.
La differenza tra l'ordinamento visivo delle immagini rispetto all'esempio di colore sopra menzionato è solo che le dimensioni dei vettori delle caratteristiche delle immagini sono molto più elevate. Meno di 100 dimensioni sono sufficienti per descrivere l'aspetto visivo di un'immagine, mentre potrebbero essere necessarie migliaia di dimensioni per descrivere il contenuto dell'immagine. Il processo di ordinamento tenta quindi di posizionare immagini simili l'una vicino all'altra. Se vuoi sapere come funzionano effettivamente gli algoritmi per l'ordinamento delle immagini, puoi leggerlo nel nostro articolo.
Set di immagini usate
Prima di condurre l'esperimento, abbiamo eseguito test con vari set di immagini di diverse dimensioni. Si è scoperto che con troppe immagini, alcune erano molto difficili da trovare, indipendentemente dal loro ordinamento. Ciò avrebbe certamente portato alla cessazione di molti partecipanti durante le attività di ricerca nell'esperimento. D'altra parte, con set molto piccoli, l'ordinamento delle immagini ha avuto poca influenza sul tempo di ricerca, poiché le immagini desiderate venivano generalmente riconosciute e trovate immediatamente.
Nell'esperimento sono stati utilizzati quattro diversi set. Il primo consisteva in 1024 colori RGB generati casualmente ed era utilizzato solo per determinare la qualità percepita di diversi metodi di ordinamento. Per altri tre set di immagini è stato registrato anche il tempo necessario per trovare le immagini desiderate. Questi tre insiemi sono stati scelti in modo tale da rappresentare diversi scenari di ricerca da un lato, e c'era ancora una differenza significativa nella velocità di ricerca tra disposizioni ordinate e casuali dall'altro. Il primo set consisteva di 169 segnali stradali così come potevano essere raffigurati su pannelli panoramici. Il secondo set era composto da 256 immagini di articoli da cucina IKEA, in quanto sono generalmente presentati sui siti di e-commerce. L'ultimo set era composto da 400 immagini per 70 termini di ricerca non correlati che sono stati scansionati da Internet. Questo set potrebbe rappresentare foto personali.
Attuazione dell'esperimento
L'esperimento consisteva in due parti. Nella prima parte, le preferenze dei partecipanti sono state registrate chiedendo loro di visualizzare coppie di disposizioni di immagini ordinate e decidere quale delle due disposizioni preferivano. Le disposizioni preferite erano quelle che "hanno una struttura più chiara, forniscono una migliore panoramica e rendono più facile trovare le immagini cercate". Nella seconda parte dell'esperimento, ai partecipanti è stato chiesto di trovare le immagini cercate in disposizioni ordinate il più rapidamente possibile. È stato esaminato se le preferenze di ordinamento dei partecipanti consentano anche una ricerca più rapida. Inoltre, abbiamo studiato come è possibile prevedere il tempo di ricerca utilizzando la qualità dell'ordinamento.
Metodi di selezione studiati e misure di qualità
Nei nostri esperimenti, abbiamo utilizzato vari metodi per generare arrangiamenti ordinati. Oltre a Self Organizing Maps (SOM), abbiamo utilizzato Self Sorting Maps (SSM), IsoMatch e una proiezione t-SNE discreta . Abbiamo confrontato questi metodi con i nostri approcci Linear Assignment Sorting (LAS) e Fast Linear Assignment Sorting(FLAS). Ulteriori dettagli sugli algoritmi utilizzati per ciascun metodo possono essere trovati nella nostra pubblicazione di cui sopra. Quando possibile, abbiamo generato più arrangiamenti utilizzando diverse impostazioni dei parametri per ciascun metodo. Per avere esempi di bassa qualità di ordinamento per il confronto, sono stati generati anche alcuni arrangiamenti mal ordinati (designati come "low Qual."). Non sono stati utilizzati arrangiamenti casuali in quanto avrebbero portato a interruzioni dell'esperimento, poiché trovare le immagini sarebbe stato troppo difficile.
Esistono misure per valutare le disposizioni 2D, ma non ci sono studi che dimostrino quanto bene riflettano la qualità percepita dagli esseri umani. Queste misure di qualità confrontano le distanze dei vettori delle caratteristiche in alta dimensionalità con le distanze risultanti delle immagini sulla griglia 2D. In genere, viene utilizzata la funzione di correlazione incrociata o energia normalizzata, ma entrambe si comportano in modo simile, quindi abbiamo confrontato solo quest'ultima. Abbiamo proposto una nuova misura chiamata " Qualità di conservazione della distanza " (DPQ) per valutare gli arrangiamenti 2D.
Qualità di selezione percepita
La figura successiva mostra uno screenshot della prima parte dell'esperimento. A tutti i partecipanti sono state mostrate 16 coppie di arrangiamenti, ed è stato chiesto loro di decidere se preferivano l'arrangiamento sinistro o destro o considerarli entrambi equivalenti.
Per escludere la potenziale influenza di valutazioni prive di significato, in ciascun esperimento è stata presentata una coppia di classificazioni di qualità estremamente diverse. Se un partecipante preferiva l'ordinamento significativamente peggiore in questa coppia, le sue valutazioni per tutti gli ordinamenti venivano scartate. In totale, sono stati esaminati 32 ordinamenti per il set di colori e 23 ordinamenti per ciascuno dei tre set di immagini. Corrispondente alla Bundesliga calcistica tedesca, dove ci sono 18 squadre e 18∙17 = 306 partite in totale in una stagione, che corrisponde a 153 diversi matchup, in questo esperimento c'erano 496 coppie possibili per il set di colori e 253 coppie possibili per ciascuna dei tre set di immagini.
Un approccio simile al calcio è stato utilizzato per valutare tutti i confronti, in cui una partita può concludersi con una vittoria, una sconfitta o un pareggio. Nel confronto tra due ordinamenti, l'ordinamento preferito ha ricevuto un punto. Se entrambe le classificazioni sono state valutate uguali, entrambe hanno ricevuto mezzo punto. A differenza del calcio, dove ci sono due partite tra due squadre per stagione, ogni coppia di smistamento è stata valutata almeno 35 volte da partecipanti diversi. Da queste valutazioni è stato determinato il punteggio medio per ogni ordinamento in una coppia. Questi due punteggi, che sommati danno 1, descrivono il rapporto in cui un ordinamento è stato valutato meglio dell'altro. Per il confronto complessivo di tutti gli ordinamenti, sono stati sommati i punteggi ricevuti da tutti i confronti di coppia.
Una misura di qualità che valuta la qualità dell'ordinamento dovrebbe corrispondere strettamente alla valutazione della qualità degli utenti. Le figure seguenti mostrano la correlazione del voto medio degli utenti degli ordinamenti (User Score) rispetto alle due misure di qualità indagate. Qui, E'1 sta per la "funzione energetica normalizzata" comunemente usata e DPQ sta per la "Qualità di conservazione della distanza" da noi proposta. I colori dei simboli rappresentano i diversi metodi di ordinamento.
Le due figure mostrano che la nostra nuova misura DPQ ha una correlazione più elevata con le valutazioni degli utenti, il che significa che è più adatta per prevedere la qualità di smistamento percepita dagli esseri umani.
Tempi di ricerca
Nella seconda parte dell'esperimento, agli utenti sono state mostrate varie disposizioni ordinate, in ognuna delle quali si trovavano quattro immagini casuali. Una volta trovata un'immagine, veniva immediatamente visualizzata quella successiva. Gli ordinamenti utilizzati erano gli stessi della prima parte dell'esperimento.
Naturalmente, la difficoltà di trovare le immagini dipende fortemente dalle immagini cercate, in quanto alcune immagini sono più evidenti di altre. Inoltre, i partecipanti differiscono nelle loro capacità di ricerca. Con solo poche prove, questi due aspetti potrebbero distorcere in modo significativo i risultati. Tuttavia, sono state eseguite un totale di oltre 28.000 di queste attività di ricerca. Ciò significa che per ogni ordinamento sono state effettuate più di 400 ricerche per quattro immagini ciascuna. Questo numero elevato ha compensato sia la diversa difficoltà dei compiti di ricerca sia le disuguali capacità dei partecipanti.
Le figure successive mostrano la distribuzione dei tempi di ricerca per i 23 diversi ordinamenti per l'insieme dei segnali stradali e delle immagini Internet (Web Images). I valori mediani dei tempi di ricerca per i diversi ordinamenti sono mostrati come marcatori colorati. Ancora una volta, questo mostra la correlazione (negativa) più forte dei tempi di ricerca con la nostra misura DPQ rispetto alla funzione energetica normalizzata.
Quando si confrontano gli ordinamenti che consentono una ricerca rapida con quelli che hanno ottenuto un punteggio elevato, è stato osservato anche un forte accordo. Tuttavia, per una ricerca rapida, era più importante che tutte le immagini simili fossero disposte molto vicine l'una all'altra, anche se di conseguenza la disposizione globale dell'ordinamento è stata valutata leggermente peggiore. La figura successiva a sinistra mostra l'ordinamento che ha ottenuto il punteggio più alto per il set di immagini Web, mentre a destra è l'ordinamento in cui le immagini sono state trovate più velocemente. A sinistra, le transizioni sono più fluide, mentre a destra tutte le immagini correlate sono vicine tra loro, risultando in alcune transizioni difficili.
Confronto dei metodi di ordinamento
Il passaggio finale è stato quello di ottenere una migliore comprensione delle prestazioni dei diversi metodi di ordinamento. Poiché il runtime dipende fortemente dall'hardware, i tempi indicati servono solo come valori di riferimento. Poiché la Distance Preservation Quality ha un'alta correlazione con le preferenze dell'utente, è stata utilizzata per confrontare la qualità di ordinamento degli algoritmi in base al tempo di calcolo richiesto.
La figura successiva mostra la qualità di ordinamento raggiunta rispetto al tempo di calcolo richiesto per i metodi studiati variando i parametri del metodo. Per set di dati più piccoli come le 256 immagini di utensili da cucina, il nostro metodo FLAS offre il miglior compromesso tra qualità e tempo di calcolo. LAS e t-SNE possono fornire qualità leggermente superiori ma sono da 10 a 100 volte più lente. Per i 1024 colori RGB casuali, i nostri metodi LAS e FLAS hanno raggiunto le migliori qualità di selezione.
Un'altra indagine è stata quella di esaminare come si comportano la qualità e il tempo di calcolo per set di immagini di dimensioni diverse. Le impostazioni dei parametri contrassegnate con ⦿ nella figura precedente sono state scelte per questo scopo. Mentre SOM, SSM, LAS e FLAS possono generare un ordinamento migliore per più immagini, l'ordinamento per t-SNE e IsoMatch è peggiorato.
Risultati dell'esperimento
Nel complesso, siamo rimasti molto soddisfatti dei risultati dell'esperimento, in quanto è stato possibile rispondere chiaramente alle domande precedentemente poste. È stato dimostrato che gli esseri umani possono trovare le immagini molto più velocemente in disposizioni ordinate. Analizzando l'ordinamento delle immagini che le persone trovano piacevoli e utili, è emerso che un'elevata somiglianza locale delle immagini vicine è più importante del mantenimento globale delle relazioni di somiglianza di tutte le immagini. Inoltre, la nostra proposta per una nuova valutazione della qualità dell'ordinamento delle immagini era significativamente migliore rispetto ai metodi precedenti nel riflettere la qualità percepita dagli esseri umani.
È diventato chiaro che i nostri metodi di smistamento proposti LAS e FLAS possono produrre uno smistamento di alta qualità e FLAS è anche molto efficiente. Inoltre, i nostri metodi offrono una varietà di opzioni per influenzare l'ordinamento, come il posizionamento fisso di determinate immagini o la possibilità di utilizzare layout diversi da quelli rettangolari. Il metodo FLAS (insieme a un grafico immagine) è così veloce che diventa possibile esplorare visivamente milioni di immagini. Navigu.net è un esempio di tale strumento di esplorazione di immagini visive.
Per ulteriori informazioni sulla nostra ricerca, visitare www.visual-computing.com .