O experimento de classificação de imagens
Maximizando a eficiência de visualização de imagens: como a classificação visual pode ajudar
TLDR: Em janeiro de 2022, nós - o Visual Computing Group da HTW Berlin - conduzimos um experimento para avaliar a classificação de imagens. Foi demonstrado que as imagens em arranjos ordenados são encontradas muito mais rapidamente. Nossa nova medida para avaliar a classificação de imagens provou ser significativamente melhor do que aquelas normalmente usadas para descrever a qualidade de classificação percebida por humanos. Além disso, nossos métodos de classificação propostos foram capazes de gerar classificação de imagens de alta qualidade com muito mais eficiência em comparação com outros métodos.
Mais de 2.000 participantes participaram de nosso experimento e gostaríamos de agradecê-los novamente aqui. O artigo publicado (https://onlinelibrary.wiley.com/doi/epdf/10.1111/cgf.14718) sobre os resultados do experimento pode ser de difícil compreensão para não especialistas. Portanto, tentaremos resumir a motivação, a implementação e os resultados do experimento de uma forma compreensível aqui.
As pessoas têm dificuldade em reconhecer muitas imagens ao mesmo tempo
Embora os humanos possam perceber e entender rapidamente imagens complexas, eles têm dificuldade em reconhecer muitas imagens ao mesmo tempo. Esse problema surge ao pesquisar imagens em arquivos de fotos ou produtos em sites de comércio eletrônico. Nesses casos, a busca costuma ser muito difícil quando o número de imagens relevantes é muito grande. Como apenas 10 a 20 imagens podem ser percebidas de uma só vez em uma tela, muitas vezes é necessário percorrer listas não estruturadas para encontrar a imagem ou o produto desejado.
Os humanos podem perceber as imagens mais facilmente quando elas são exibidas em uma ordem classificada. A imagem acima apresenta 256 utensílios de cozinha IKEA, do lado esquerdo por ordem aleatória e do lado direito ordenados por semelhança. Ao procurar uma imagem específica, no caso não classificado, a única opção é “digitalizar” as imagens linha por linha. No arranjo classificado, a região apropriada pode ser identificada rapidamente e a pesquisa pode ser focada nessa área.
Objetivos do Experimento
O objetivo do experimento realizado foi determinar até que ponto as pessoas são capazes de perceber mais imagens de uma só vez por meio de classificação adequada de imagens e como isso pode reduzir o tempo necessário para encontrar as imagens. Especificamente, foram abordadas as seguintes questões:
- Que tipos de classificação de imagens as pessoas consideram agradáveis e úteis?
- Como a qualidade de uma classificação visual, percebida pelas pessoas, pode ser medida objetivamente?
- Quais métodos são mais adequados para criar arranjos classificados de forma eficiente que correspondam às preferências das pessoas?
Antes de apresentar as respostas obtidas no experimento para as perguntas acima, gostaríamos de explicar o princípio da ordenação usando um exemplo simples. Se os números 6, 5, 2, 8 e 3 devem ser classificados de acordo com seu tamanho, isso significa que temos que organizar os números de forma que cada número seja maior que o anterior.
Em geral, existem 1∙2∙3 ∙ … ∙ n = n! (leia “n fatorial”) maneiras de organizar n objetos. No caso dos nossos cinco números, já haveria 120 arranjos possíveis, dos quais apenas dois estão ordenados (crescente ou decrescente). Para conjuntos maiores de números, existem algoritmos eficientes para determinar a classificação (o arranjo ideal).
Como classificar imagens?
Quando se trata de classificar imagens, não está claro como uma boa classificação realmente se parece ou como determiná-la. Em comparação com os números de classificação, existem duas diferenças principais: Em primeiro lugar, a aparência e o conteúdo das imagens não são descritos por números individuais, mas sim pelos chamados vetores de recursos. Isso significa que cada imagem é representada por um vetor em um espaço de alta dimensão, com vetores de imagens semelhantes geralmente localizados próximos uns dos outros. Em segundo lugar, as imagens classificadas geralmente são organizadas em uma grade 2D, o que significa que existem vizinhos nas direções horizontal e vertical. O número de arranjos possíveis novamente cresce fatorialmente com o número de imagens. Para um arranjo de 100 imagens em uma grade 10×10, já são 100! = 9,3∙10¹⁵⁷ possibilidades (um número com 158 dígitos) para organizá-los. Dado um número tão grande, é até impossível para os computadores mais rápidos experimentar todas as variantes. Mesmo que fosse possível comparar todos os arranjos, não ficaria claro qual é o melhor classificado.
Para ilustrar o princípio de classificação de imagens, a classificação bidimensional de cores pode servir de exemplo. As cores são descritas por seus componentes vermelho, verde e azul e podem, portanto, ser representadas como vetores 3D. Para classificar as cores bidimensionalmente, esses vetores 3D devem receber uma posição em uma grade 2D. A figura a seguir mostra um possível arranjo classificado de 9 ∙ 9 ∙ 9 (= 729) cores RGB em uma grade 2D com 27 ∙ 27 (= 729) posições.
A diferença entre a classificação visual das imagens em comparação com o exemplo de cor mencionado acima é apenas que as dimensões dos vetores de recursos das imagens são muito maiores. Menos de 100 dimensões são suficientes para descrever a aparência visual de uma imagem, enquanto milhares de dimensões podem ser necessárias para descrever o conteúdo da imagem. O processo de classificação então tenta posicionar imagens semelhantes próximas umas das outras. Se você quiser saber como os algoritmos de classificação de imagens realmente funcionam, você pode ler sobre isso em nosso artigo.
Conjuntos de imagens usadas
Antes de realizar o experimento, realizamos testes com vários conjuntos de imagens de diferentes tamanhos. Descobriu-se que, com muitas imagens, algumas delas eram muito difíceis de encontrar, independentemente de sua classificação. Isso certamente teria levado ao desligamento de muitos participantes durante as tarefas de busca no experimento. Por outro lado, com conjuntos muito pequenos, a ordenação das imagens teve pouca influência no tempo de busca, pois as imagens desejadas geralmente eram reconhecidas e encontradas imediatamente.
No experimento, quatro conjuntos diferentes foram usados. O primeiro consistia em 1024 cores RGB geradas aleatoriamente e era usado apenas para determinar a qualidade percebida de diferentes métodos de classificação. Para três outros conjuntos de imagens, o tempo para encontrar as imagens desejadas também foi registrado. Esses três conjuntos foram escolhidos de forma que, por um lado, representassem diferentes cenários de busca e, por outro lado, ainda houvesse uma diferença significativa na velocidade de busca entre arranjos ordenados e aleatórios. O primeiro conjunto consistia em 169 sinais de trânsito, pois eles poderiam ser representados em quadros gerais. O segundo conjunto continha 256 imagens de utensílios de cozinha da IKEA, como normalmente são apresentados em sites de comércio eletrônico. O último conjunto foi composto por 400 imagens para 70 termos de pesquisa não relacionados que foram rastreados na Internet. Este conjunto pode representar fotos pessoais.
Implementação do experimento
O experimento consistia em duas partes. Na primeira parte, as preferências dos participantes foram registradas pedindo-lhes que visualizassem pares de arranjos de imagens classificadas e decidissem qual dos dois arranjos eles preferiam. Os arranjos preferidos foram aqueles que “têm uma estrutura mais clara, fornecem uma visão geral melhor e facilitam a localização das imagens pesquisadas”. Na segunda parte do experimento, os participantes foram solicitados a encontrar as imagens pesquisadas em arranjos classificados o mais rápido possível. Foi examinado se as preferências de ordenação dos participantes também permitem uma busca mais rápida. Além disso, investigamos quão bem o tempo de busca pode ser previsto usando a qualidade da ordenação.
Métodos de classificação investigados e medidas de qualidade
Em nossos experimentos, usamos vários métodos para gerar arranjos ordenados. Além dos mapas de auto-organização (SOM), usamos mapas de auto-ordenação (SSM), IsoMatch e uma projeção t-SNE discreta . Comparamos esses métodos com nossas próprias abordagens Classificação de atribuição linear (LAS) e Classificação de atribuição linear rápida(FLAS). Maiores detalhes sobre os algoritmos utilizados para cada método podem ser encontrados em nossa publicação supracitada. Sempre que possível, geramos vários arranjos usando diferentes configurações de parâmetros para cada método. Para ter exemplos de baixa qualidade de classificação para comparação, alguns arranjos mal classificados também foram gerados (designados como “baixo Qual.”). Arranjos aleatórios não foram usados, pois levariam a interrupções do experimento, pois encontrar as imagens teria sido muito difícil.
Existem medidas para avaliar arranjos 2D, mas não há estudos mostrando o quão bem eles refletem a qualidade percebida pelos humanos. Essas medidas de qualidade comparam as distâncias dos vetores de recursos em alta dimensionalidade com as distâncias resultantes das imagens na grade 2D. Normalmente, a correlação cruzada ou a função de energia normalizada é usada, mas ambas se comportam de maneira semelhante, então comparamos apenas a última. Propusemos uma nova medida chamada “ Qualidade de Preservação de Distância ” (DPQ) para avaliar arranjos 2D.
Qualidade de classificação percebida
A próxima figura mostra uma captura de tela da primeira parte do experimento. Todos os participantes viram 16 pares de arranjos e foram solicitados a decidir se preferiam o arranjo esquerdo ou direito ou consideravam os dois equivalentes.
Para excluir a influência potencial de avaliações sem sentido, em cada experimento um par de classificações de qualidade extremamente diferentes foi apresentado. Se um participante preferisse a classificação significativamente pior neste par, suas avaliações para todas as classificações eram descartadas. No total, foram examinadas 32 classificações para o conjunto de cores e 23 classificações para cada um dos três conjuntos de imagens. Correspondente à Bundesliga de futebol alemã, onde há 18 times e 18∙17 = 306 jogos no total em uma temporada, o que corresponde a 153 confrontos diferentes, neste experimento foram 496 pares possíveis para o conjunto de cores e 253 pares possíveis para cada dos três conjuntos de imagens.
Uma abordagem semelhante ao futebol foi usada para avaliar todas as comparações, onde uma partida pode terminar com uma vitória, uma derrota ou um empate. Na comparação de duas ordenações, a ordenação preferida recebeu um ponto. Se ambas as classificações fossem avaliadas como iguais, ambas recebiam meio ponto. Ao contrário do futebol, onde há dois jogos entre dois times por temporada, cada dupla de classificação foi avaliada pelo menos 35 vezes por diferentes participantes. A partir dessas avaliações, foi determinada a pontuação média para cada ordenação em um pareamento. Essas duas pontuações, que somam 1, descrevem a proporção em que uma classificação foi avaliada melhor que a outra. Para a comparação geral de todas as classificações, as pontuações recebidas de todas as comparações de pares foram somadas.
Uma medida de qualidade que avalia a qualidade de classificação deve corresponder de perto à avaliação de qualidade dos usuários. As figuras a seguir mostram a correlação da avaliação média do usuário das classificações (User Score) em comparação com as duas medidas de qualidade investigadas. Aqui, E'1 representa a “função de energia normalizada” comumente usada, e DPQ representa a “Qualidade de preservação de distância” proposta por nós. As cores dos símbolos representam os diferentes métodos de classificação.
As duas figuras mostram que nossa nova medida DPQ tem uma correlação mais alta com as avaliações do usuário, o que significa que é mais adequada para prever a qualidade de classificação percebida por humanos.
Tempos de pesquisa
Na segunda parte do experimento, foram mostrados aos usuários vários arranjos classificados, em cada um dos quais quatro imagens aleatórias deveriam ser encontradas. Uma vez que uma imagem foi encontrada, a próxima foi imediatamente exibida. As classificações usadas foram as mesmas da primeira parte do experimento.
Obviamente, a dificuldade de encontrar imagens depende muito das imagens procuradas, pois algumas imagens são mais perceptíveis do que outras. Além disso, os participantes diferem em suas habilidades de pesquisa. Com apenas algumas tentativas, esses dois aspectos podem distorcer significativamente os resultados. No entanto, um total de mais de 28.000 dessas tarefas de pesquisa foram realizadas. Isso significa que, para cada classificação, foram realizadas mais de 400 pesquisas para quatro imagens cada. Esse número alto compensou tanto a dificuldade variável das tarefas de busca quanto as habilidades desiguais dos participantes.
As figuras a seguir mostram a distribuição dos tempos de busca para as 23 ordenações diferentes para o conjunto de sinais de trânsito e imagens da Internet (Web Images). Os valores medianos dos tempos de busca para as diferentes ordenações são mostrados como marcadores coloridos. Novamente, isso mostra a correlação mais forte (negativa) dos tempos de busca com nossa medida DPQ em comparação com a função de energia normalizada.
Ao comparar as ordenações que permitem a busca rápida com aquelas que foram avaliadas com alta, também foi observada uma forte concordância. No entanto, para uma pesquisa rápida, era mais importante que todas as imagens semelhantes fossem organizadas muito próximas umas das outras, mesmo que a disposição global da classificação fosse classificada como um pouco pior como resultado. A próxima figura à esquerda mostra a classificação que teve a classificação mais alta para o conjunto de Imagens da Web e, à direita, a classificação em que as imagens foram encontradas mais rapidamente. À esquerda, as transições são mais suaves, enquanto à direita, todas as imagens relacionadas estão próximas, resultando em algumas transições difíceis.
Comparação de métodos de classificação
O passo final foi obter uma melhor compreensão do desempenho de diferentes métodos de classificação. Como o tempo de execução depende fortemente do hardware, os tempos fornecidos servem apenas como valores de referência. Uma vez que a Qualidade de Preservação de Distância tem uma alta correlação com as preferências do usuário, ela foi usada para comparar a qualidade de ordenação dos algoritmos em função do tempo de computação necessário.
A próxima figura mostra a qualidade de ordenação alcançada versus o tempo de computação necessário para os métodos investigados ao variar os parâmetros do método. Para conjuntos de dados menores, como as 256 imagens de utensílios de cozinha, nosso método FLAS oferece o melhor compromisso entre qualidade e tempo de computação. LAS e t-SNE podem fornecer qualidades ligeiramente superiores, mas são 10 a 100 vezes mais lentas. Para as 1024 cores RGB aleatórias, nossos métodos LAS e FLAS alcançaram as mais altas qualidades de classificação.
Outra investigação foi examinar como a qualidade e o tempo de computação se comportam para conjuntos de imagens de tamanhos diferentes. As configurações de parâmetros marcadas com ⦿ na figura anterior foram escolhidas para esse fim. Enquanto SOM, SSM, LAS e FLAS podem gerar melhor classificação para mais imagens, a classificação para t-SNE e IsoMatch ficou pior.
Resultados do Experimento
No geral, ficamos muito satisfeitos com os resultados do experimento, pois as questões colocadas anteriormente puderam ser respondidas com clareza. Foi demonstrado que os humanos podem encontrar imagens significativamente mais rápido em arranjos classificados. Ao analisar a classificação de imagens que as pessoas acham agradável e útil, descobriu-se que a alta similaridade local de imagens vizinhas é mais importante do que manter globalmente as relações de similaridade de todas as imagens. Além disso, nossa proposta para uma nova avaliação da qualidade da classificação de imagens foi significativamente melhor do que os métodos anteriores em refletir a qualidade percebida pelos humanos.
Ficou claro que nossos métodos de classificação propostos LAS e FLAS podem produzir classificação de alta qualidade e o FLAS também é muito eficiente. Além disso, nossos métodos oferecem uma variedade de opções para influenciar a classificação, como o posicionamento fixo de determinadas imagens ou a capacidade de usar layouts diferentes dos retangulares. O método FLAS (juntamente com um gráfico de imagem) é tão rápido que torna possível explorar visualmente milhões de imagens. Navigu.net é um exemplo de ferramenta de exploração de imagem visual.
Para obter mais informações sobre nossa pesquisa, visite www.visual-computing.com .