L'expérience de tri d'images
Maximiser l'efficacité de l'affichage des images : comment le tri visuel peut aider
TLDR : En janvier 2022, nous — le Visual Computing Group de HTW Berlin — avons mené une expérience pour évaluer le tri des images. Il a été montré que les images dans des arrangements triés sont trouvées beaucoup plus rapidement. Notre nouvelle mesure d'évaluation du tri des images s'est avérée nettement meilleure que celles habituellement utilisées pour décrire la qualité de tri perçue par les humains. De plus, nos méthodes de tri proposées ont pu générer un tri d'images de haute qualité beaucoup plus efficacement que d'autres méthodes.
Plus de 2000 participants ont pris part à notre expérience, et nous tenons à les remercier ici encore. L'article publié (https://onlinelibrary.wiley.com/doi/epdf/10.1111/cgf.14718) sur les résultats de l'expérience peut être difficile à comprendre pour les non-spécialistes. Par conséquent, nous tenterons ici de résumer la motivation, la mise en œuvre et les résultats de l'expérience de manière compréhensible.
Les gens ont du mal à reconnaître plusieurs images à la fois
Bien que les humains puissent rapidement percevoir et comprendre des images complexes, ils ont du mal à reconnaître plusieurs images à la fois. Ce problème survient lors de la recherche d'images dans des archives de photos ou de produits sur des sites de commerce électronique. Dans de tels cas, la recherche est souvent très difficile lorsque le nombre d'images pertinentes est très important. Étant donné que seules 10 à 20 images peuvent être perçues à la fois sur un écran, un défilement sans fin dans des listes non structurées est souvent nécessaire pour trouver l'image ou le produit souhaité.
Les humains peuvent percevoir les images plus facilement lorsqu'elles sont affichées dans un ordre trié. L'image ci-dessus montre 256 ustensiles de cuisine IKEA, sur le côté gauche dans un ordre aléatoire et sur le côté droit triés par similarité. Lors de la recherche d'une image spécifique, dans le cas non trié, la seule option est de "scanner" les images ligne par ligne. Dans l'arrangement trié, la région appropriée peut être rapidement identifiée et la recherche peut être concentrée sur cette zone.
Objectifs de l'expérience
L'objectif de l'expérience menée était de déterminer dans quelle mesure les gens sont capables de percevoir plus d'images à la fois grâce à un tri approprié des images, et comment cela peut réduire le temps nécessaire pour trouver les images. Plus précisément, les questions suivantes ont été abordées :
- Quels types de tri d'images les gens perçoivent-ils comme agréables et utiles ?
- Comment mesurer objectivement la qualité d'un tri visuel, telle qu'elle est perçue par les personnes ?
- Quelles méthodes sont les mieux adaptées pour créer efficacement des arrangements triés qui correspondent aux préférences des gens ?
Avant de présenter les réponses obtenues dans l'expérience aux questions évoquées ci-dessus, nous voudrions expliquer le principe du tri à l'aide d'un exemple simple. Si les nombres 6, 5, 2, 8 et 3 doivent être triés en fonction de leur taille, cela signifie que nous devons disposer les nombres de manière à ce que chaque nombre soit plus grand que le précédent.
En général, il y a 1∙2∙3 ∙ … ∙ n = n ! (lisez "n factoriel") manières d'arranger n objets. Dans le cas de nos cinq numéros, il y aurait déjà 120 arrangements possibles, dont seulement deux sont triés (croissant ou décroissant). Pour les grands ensembles de nombres, il existe des algorithmes efficaces pour déterminer le tri (l'arrangement optimal).
Comment trier les images ?
En ce qui concerne le tri des images, il n'est pas clair à quoi ressemble réellement un bon tri ni comment le déterminer. Par rapport au tri des nombres, il existe deux différences principales : premièrement, l'apparence et le contenu des images ne sont pas décrits par des nombres individuels, mais plutôt par ce que l'on appelle des vecteurs de caractéristiques. Cela signifie que chaque image est représentée par un vecteur dans un espace de grande dimension, avec des vecteurs d'images similaires généralement situés à proximité les uns des autres. Deuxièmement, les images triées sont généralement disposées sur une grille 2D, ce qui signifie qu'il existe des voisins dans les directions horizontale et verticale. Le nombre d'arrangements possibles croît à nouveau factoriellement avec le nombre d'images. Pour un arrangement de 100 images sur une grille 10×10, il y en a déjà 100 ! = 9.3∙10¹⁵⁷ possibilités (un nombre à 158 chiffres) pour les agencer. Etant donné un si grand nombre, il est même impossible pour les ordinateurs les plus rapides d'essayer toutes les variantes. Même s'il était possible de comparer tous les arrangements, il ne serait pas clair lequel est le mieux trié.
Pour illustrer le principe de tri des images, le tri bidimensionnel des couleurs peut servir d'exemple. Les couleurs sont décrites par leurs composants rouge, vert et bleu et peuvent donc être représentées sous forme de vecteurs 3D. Pour trier les couleurs en deux dimensions, ces vecteurs 3D doivent se voir attribuer une position sur une grille 2D. La figure suivante montre un arrangement trié possible de 9 ∙ 9 ∙ 9 (= 729) couleurs RVB sur une grille 2D avec 27 ∙ 27 (= 729) positions.
La différence entre le tri visuel des images par rapport à l'exemple de couleur mentionné ci-dessus est seulement que les dimensions des vecteurs caractéristiques des images sont beaucoup plus élevées. Moins de 100 dimensions suffisent pour décrire l'apparence visuelle d'une image, tandis que des milliers de dimensions peuvent être nécessaires pour décrire le contenu de l'image. Le processus de tri essaie ensuite de positionner des images similaires les unes à côté des autres. Si vous voulez savoir comment fonctionnent réellement les algorithmes de tri des images, vous pouvez lire à ce sujet dans notre article.
Jeux d'images utilisés
Avant de mener l'expérience, nous avons effectué des tests avec différents ensembles d'images de tailles différentes. Il s'est avéré qu'avec trop d'images, certaines d'entre elles étaient très difficiles à trouver, quel que soit leur tri. Cela aurait certainement conduit à l'élimination de nombreux participants lors des tâches de recherche de l'expérience. En revanche, avec de très petits ensembles, le tri des images avait peu d'influence sur le temps de recherche, car les images recherchées étaient généralement reconnues et trouvées immédiatement.
Dans l'expérience, quatre ensembles différents ont été utilisés. Le premier consistait en 1024 couleurs RVB générées aléatoirement et n'était utilisé que pour déterminer la qualité perçue des différentes méthodes de tri. Pour trois autres ensembles d'images, le temps nécessaire pour trouver les images souhaitées a également été enregistré. Ces trois ensembles ont été choisis de telle manière qu'ils représentent différents scénarios de recherche d'une part, et il y avait toujours une différence significative de vitesse de recherche entre les arrangements triés et aléatoires d'autre part. Le premier ensemble se composait de 169 panneaux de signalisation tels qu'ils pouvaient être représentés sur des panneaux d'aperçu. Le deuxième ensemble était composé de 256 images d'articles de cuisine IKEA, tels qu'ils sont généralement présentés sur les sites Web de commerce électronique. Le dernier ensemble était composé de 400 images pour 70 termes de recherche non liés qui ont été explorés sur Internet. Cet ensemble pourrait représenter des photos personnelles.
Mise en œuvre de l'expérience
L'expérience comportait deux parties. Dans la première partie, les préférences des participants ont été enregistrées en leur demandant de visualiser des paires d'arrangements d'images triées et de décider lequel des deux arrangements ils préféraient. Les dispositions préférées étaient celles qui "ont une structure plus claire, offrent une meilleure vue d'ensemble et facilitent la recherche d'images recherchées". Dans la deuxième partie de l'expérience, les participants ont été invités à trouver des images recherchées dans des arrangements triés aussi rapidement que possible. Il a été examiné si les préférences de tri des participants permettent également une recherche plus rapide. De plus, nous avons étudié dans quelle mesure le temps de recherche peut être prédit en utilisant la qualité du tri.
Méthodes de tri étudiées et mesures de qualité
Dans nos expériences, nous avons utilisé diverses méthodes pour générer des arrangements triés. En plus des cartes auto-organisatrices (SOM), nous avons utilisé des cartes auto-sortantes (SSM), IsoMatch et une projection t-SNE discrète . Nous avons comparé ces méthodes avec nos propres approches Linear Assignment Sorting (LAS) et Fast Linear Assignment Sorting(FLAS). De plus amples détails sur les algorithmes utilisés pour chaque méthode peuvent être trouvés dans notre publication susmentionnée. Dans la mesure du possible, nous avons généré plusieurs arrangements en utilisant différents réglages de paramètres pour chaque méthode. Pour avoir des exemples de mauvaise qualité de tri à des fins de comparaison, certains arrangements mal triés ont également été générés (désignés comme "faible qualité"). Des arrangements aléatoires n'ont pas été utilisés car ils auraient conduit à des interruptions d'expérience, car trouver les images aurait été trop difficile.
Il existe des mesures pour évaluer les arrangements 2D, mais aucune étude ne montre dans quelle mesure ils reflètent la qualité perçue par les humains. Ces mesures de qualité comparent les distances des vecteurs caractéristiques en haute dimensionnalité avec les distances résultantes des images sur la grille 2D. En règle générale, la corrélation croisée ou la fonction d'énergie normalisée est utilisée, mais les deux se comportent de la même manière, nous n'avons donc comparé que la dernière. Nous avons proposé une nouvelle mesure appelée « Distance Preservation Quality » (DPQ) pour évaluer les arrangements 2D.
Qualité de tri perçue
La figure suivante montre une capture d'écran de la première partie de l'expérience. On a montré à tous les participants 16 paires d'arrangements, et on leur a demandé de décider s'ils préféraient l'arrangement de gauche ou de droite ou s'ils les considéraient tous les deux comme équivalents.
Pour exclure l'influence potentielle d'évaluations dénuées de sens, dans chaque expérience, une paire de tris de qualité extrêmement différente a été présentée. Si un participant préférait le tri nettement moins bon dans cette paire, ses évaluations pour tous les tris étaient rejetées. Au total, 32 tris pour le jeu de couleurs et 23 tris pour chacun des trois jeux d'images ont été examinés. Correspondant à la Bundesliga allemande de football, où il y a 18 équipes et 18∙17 = 306 matchs au total dans une saison, ce qui correspond à 153 matchs différents, dans cette expérience, il y avait 496 paires possibles pour le jeu de couleurs et 253 paires possibles pour chaque des trois ensembles d'images.
Une approche similaire au football a été utilisée pour évaluer toutes les comparaisons, où un match peut se terminer par une victoire, une défaite ou une égalité. Dans la comparaison de deux tris, le tri préféré a reçu un point. Si les deux tris ont été évalués comme égaux, les deux ont reçu un demi-point. Contrairement au football, où il y a deux matchs entre deux équipes par saison, chaque paire de tri a été évaluée au moins 35 fois par des participants différents. À partir de ces évaluations, le score moyen pour chaque tri dans un appariement a été déterminé. Ces deux scores, qui s'additionnent à 1, décrivent le ratio dans lequel un tri a été mieux noté que l'autre. Pour la comparaison globale de tous les tris, leurs scores reçus de toutes les comparaisons de paires ont été additionnés.
Une mesure de qualité qui évalue la qualité du tri doit correspondre étroitement à l'évaluation de la qualité des utilisateurs. Les figures suivantes montrent la corrélation de la note moyenne des utilisateurs des tris (User Score) par rapport aux deux mesures de qualité étudiées. Ici, E'1 représente la "fonction d'énergie normalisée" couramment utilisée et DPQ représente la "qualité de préservation de la distance" que nous proposons. Les couleurs des symboles représentent les différentes méthodes de tri.
Les deux figures montrent que notre nouvelle mesure DPQ a une corrélation plus élevée avec les évaluations des utilisateurs, ce qui signifie qu'elle est mieux adaptée pour prédire la qualité de tri perçue par les humains.
Temps de recherche
Dans la deuxième partie de l'expérience, les utilisateurs ont vu divers arrangements triés, dans chacun desquels quatre images aléatoires devaient être trouvées. Une fois qu'une image était trouvée, la suivante était immédiatement affichée. Les tris utilisés étaient les mêmes que dans la première partie de l'expérience.
Bien sûr, la difficulté de trouver des images dépend fortement des images recherchées, car certaines images sont plus visibles que d'autres. De plus, les participants diffèrent dans leurs capacités de recherche. Avec seulement quelques essais, ces deux aspects pourraient considérablement fausser les résultats. Cependant, un total de plus de 28 000 de ces tâches de recherche ont été effectuées. Cela signifie que pour chaque tri, plus de 400 recherches ont été effectuées pour quatre images chacune. Ce nombre élevé a compensé à la fois la difficulté variable des tâches de recherche et les capacités inégales des participants.
Les figures suivantes montrent la répartition des temps de recherche pour les 23 tris différents pour l'ensemble des panneaux de signalisation et des images Internet (Web Images). Les valeurs médianes des temps de recherche pour les différents tris sont représentées par des marqueurs de couleur. Encore une fois, cela montre la corrélation (négative) plus forte des temps de recherche avec notre mesure DPQ par rapport à la fonction d'énergie normalisée.
En comparant les tris qui permettent une recherche rapide avec ceux qui ont été bien notés, un fort accord a également été observé. Cependant, pour une recherche rapide, il était plus important que toutes les images similaires soient disposées très près les unes des autres, même si l'arrangement global du tri était en conséquence légèrement moins bon. La figure suivante sur la gauche montre le tri qui a été classé le plus élevé pour l'ensemble d'images Web, et sur la droite, le tri où les images ont été trouvées le plus rapidement. À gauche, les transitions sont plus fluides, tandis qu'à droite, toutes les images associées sont proches les unes des autres, ce qui entraîne des transitions difficiles.
Comparaison des méthodes de tri
La dernière étape consistait à mieux comprendre les performances des différentes méthodes de tri. Étant donné que le temps d'exécution dépend fortement du matériel, les temps indiqués ne servent que de valeurs de référence. Étant donné que la qualité de préservation de la distance a une forte corrélation avec les préférences de l'utilisateur, elle a été utilisée pour comparer la qualité de tri des algorithmes en fonction du temps de calcul requis.
La figure suivante montre la qualité de tri obtenue par rapport au temps de calcul requis pour les méthodes étudiées tout en faisant varier les paramètres de la méthode. Pour les jeux de données plus petits comme les 256 images d'ustensiles de cuisine, notre méthode FLAS offre le meilleur compromis entre qualité et temps de calcul. LAS et t-SNE peuvent fournir des qualités légèrement supérieures mais sont 10 à 100 fois plus lents. Pour les 1024 couleurs RVB aléatoires, nos méthodes LAS et FLAS ont atteint les meilleures qualités de tri.
Une autre enquête consistait à examiner comment la qualité et le temps de calcul se comportent pour des ensembles d'images de tailles différentes. Les réglages de paramètres marqués d'un ⦿ dans la figure précédente ont été choisis à cet effet. Alors que SOM, SSM, LAS et FLAS peuvent générer un meilleur tri pour plus d'images, le tri pour t-SNE et IsoMatch s'est aggravé.
Résultats de l'expérience
Dans l'ensemble, nous avons été très satisfaits des résultats de l'expérience, car les questions posées précédemment pouvaient trouver une réponse claire. Il a été démontré que les humains peuvent trouver des images beaucoup plus rapidement dans des arrangements triés. Lors de l'analyse du tri d'images que les gens trouvent agréable et utile, il a été constaté qu'une forte similarité locale des images voisines est plus importante que le maintien global des relations de similarité de toutes les images. De plus, notre proposition d'une nouvelle évaluation de la qualité du tri d'images était nettement meilleure que les méthodes précédentes pour refléter la qualité perçue par les humains.
Il est devenu clair que nos méthodes de tri proposées LAS et FLAS peuvent produire un tri de haute qualité et FLAS est également très efficace. De plus, nos méthodes offrent une variété d'options pour influencer le tri, comme le positionnement fixe de certaines images ou la possibilité d'utiliser des mises en page autres que rectangulaires. La méthode FLAS (associée à un graphe d'images) est si rapide qu'il devient possible d'explorer visuellement des millions d'images. Navigu.net est un exemple d'un tel outil d'exploration d'images visuelles.
Pour plus d'informations sur nos recherches, visitez www.visual-computing.com .