Quando uma imagem vale mais que palavras

Dec 10 2022

Como o Airbnb usa atributos visuais para aprimorar a experiência do hóspede e do anfitrião Por Yuanpei Cao, Bill Ulammandakh, Hao Wang e Tony Hwang Introdução No Airbnb, nossos anfitriões compartilham anúncios exclusivos em todo o mundo. Existem centenas de milhões de fotos de anúncios no Airbnb.

Como o Airbnb usa atributos visuais para aprimorar a experiência do Hóspede e do Anfitrião

Por Yuanpei Cao , Bill Ulammandakh , Hao Wang e Tony Hwang

Introdução

No Airbnb, nossos anfitriões compartilham anúncios exclusivos em todo o mundo. Existem centenas de milhões de fotos de anúncios no Airbnb. As fotos da lista contêm informações cruciais sobre estilo e estética de design que são difíceis de transmitir em palavras ou em uma lista fixa de comodidades. Assim, várias equipes do Airbnb agora estão aproveitando a visão computacional para extrair e incorporar intangíveis de nossos ricos dados visuais para ajudar os hóspedes a encontrar facilmente os anúncios que atendem às suas preferências.

Em postagens de blog anteriores intituladas WIDeText: A Multimodal Deep Learning Framework , Categorizing Listing Photos at Airbnb and Amenity Detection and Beyond — New Frontiers of Computer Vision at Airbnb , exploramos como utilizamos a visão computacional para categorização de quartos e detecção de amenidades para mapear fotos de anúncios para uma taxonomia de conceitos discretos. Esta postagem vai além de categorias discretas sobre como o Airbnb aproveita a estética e a incorporação de imagens para otimizar várias superfícies de produtos, incluindo conteúdo de anúncio, apresentação de listagem e recomendações de listagem.

estética da imagem

Fotos atraentes são tão vitais quanto preço, comentários e descrição durante a jornada de busca de um hóspede no Airbnb. Para quantificar a “atratividade” das fotos, desenvolvemos um pipeline de avaliação de estética de imagem baseado em aprendizado profundo. O modelo subjacente é uma rede neural convolucional profunda ( CNN ) treinada em distribuições de classificação estética de imagens rotuladas por humanos. Cada foto foi avaliada em uma escala de 1 a 5 por centenas de fotógrafos com base em suas medições estéticas pessoais (quanto maior a classificação, melhor a estética). Ao contrário das tarefas de classificação tradicionais que classificam a foto em categorias de baixa, média e alta qualidade, o modelo foi construído com base na Earth Mover's Distance ( EMD ) como a função de perda para prever as distribuições de classificação dos fotógrafos.

Figura 1. O modelo que prevê a distribuição da estética da imagem é baseado em CNN e treinado com a função de perda EMD. Suponha que o rótulo de verdade básica de uma foto seja: 10% dos usuários dão notas 1 e 2, respectivamente, 20% dão notas 3 e 30% dão notas 4 e 5, respectivamente. A previsão correspondente é [0,1, 0,1, 0,2, 0,3, 0,3]

A classificação média prevista está altamente correlacionada com a resolução da imagem e a probabilidade de reserva do anúncio, bem como a distribuição de fotos do anúncio do Airbnb de alto nível. Os limites de classificação são definidos com base em casos de uso, como recomendação de foto de anúncio em mídia social e sugestão de ordem de foto no processo de integração do anúncio.

Figura 2. Exemplos de fotos de anúncios do Airbnb com pontuações estéticas superiores ao percentil 90%

Melhoria na qualidade dos anúncios com base na estética da imagem

O Airbnb usa a publicidade nas mídias sociais para atrair novos clientes e inspirar nossa comunidade. A plataforma de mídia social escolhe quais anúncios serão exibidos com base em milhões de fotos de listas fornecidas pelo Airbnb.

Figura 3. Anúncios do Airbnb exibidos no Facebook

Como uma foto visualmente atraente do Airbnb pode efetivamente atrair usuários para a plataforma e aumentar consideravelmente a taxa de cliques (CTR) do anúncio, utilizamos a pontuação estética da imagem e a categorização do quarto para selecionar as fotos Airbnb mais atraentes da sala de estar, quarto, cozinha , e vista externa. O critério para listar fotos de “boa qualidade” foi definido com base no 50º percentil superior da pontuação estética e ajustado com base em uma avaliação estética manual interna de 1 mil fotos de capa de lista selecionadas aleatoriamente. Realizamos testes A/B para esse caso de uso e descobrimos que os candidatos a anúncios com uma pontuação estética mais alta geraram uma CTR e uma taxa de reserva substancialmente mais altas.

Figura 4. Anúncios criativos do Airbnb pré-selecionados por meio de estética de imagem e filtros de tipo de quarto

Classificação automatizada de fotos com base no design da casa e no tipo de quarto

Ao publicar um novo anúncio no Airbnb, os anfitriões carregam várias fotos. A organização ideal dessas fotos para destacar uma casa pode ser demorada e desafiadora. Um anfitrião também pode estar incerto sobre o arranjo ideal para suas imagens porque o trabalho exige fazer concessões entre a atratividade das fotos, a diversidade das fotos e a relevância do conteúdo para os convidados. Mais especificamente, as cinco primeiras fotos são as mais importantes para o sucesso do anúncio, pois são as vistas com mais frequência e cruciais para formar a impressão inicial do hóspede. Assim, desenvolvemos um algoritmo automatizado de classificação de fotos que seleciona e ordena as cinco primeiras fotos de uma casa, aproveitando dois sinais visuais: avaliação do projeto da casa e categorização dos cômodos.

A avaliação do projeto residencial estima o quão bem uma casa é projetada do ponto de vista do design de interiores e da arquitetura. O modelo de avaliação de projeto residencial baseado na CNN é treinado em dados de qualificação Airbnb Plus e Luxe que avaliam o apelo estético do projeto residencial de cada foto. Airbnb Plus e Luxoas listagens passaram por rigorosos critérios de avaliação de projeto residencial e, portanto, os dados de seu processo de qualificação são adequados para serem usados como rótulos de treinamento para um modelo de avaliação de projeto residencial. As fotos são então classificadas em diferentes tipos de cômodos, como sala, quarto, banheiro, etc., por meio do modelo de categorização de cômodos. Por fim, um algoritmo faz compensações entre a atratividade do design fotográfico da casa, a relevância da foto e a diversidade da foto para maximizar a probabilidade de reserva de uma casa. Abaixo está um exemplo de como uma nova ordem de fotos é sugerida. O recurso de classificação automática de fotos foi lançado no produto de integração de listagens do Host em 2021, levando a aumentos significativos na criação de novas listagens e no sucesso de reservas.

Ordenação original

Ordenação sugerida automaticamente

Figura 5. O exemplo da ordem da foto original (superior) carregada pelo Airbnb Host e ordem sugerida automaticamente (inferior) calculada pelo algoritmo proposto

Semelhança de imagem

Além da estética, as fotos também capturam a aparência geral e o conteúdo. Para representar essas informações com eficiência, codificamos e compactamos fotos em incorporações de imagens usando modelos de visão computacional. Incorporações de imagens são representações vetoriais compactas de imagens que representam recursos visuais. Essas incorporações podem ser comparadas entre si com uma métrica de distância que representa a similaridade naquele espaço de recursos.

Figura 6. Embeddings de imagem podem ser comparados por métricas de distância como similaridade de cosseno para representar sua similaridade no espaço latente codificado

Os recursos aprendidos pelo codificador são diretamente influenciados pela distribuição dos dados da imagem de treinamento e pelos objetivos do treinamento. Nossos dados rotulados de tipo de quarto e classificação de comodidades nos permitem treinar modelos nessa distribuição de dados para produzir incorporações semanticamente significativas para listar casos de uso de similaridade de fotos. No entanto, à medida que a quantidade e a diversidade de imagens no Airbnb aumentam, torna-se cada vez mais insustentável confiar apenas em dados rotulados manualmente e em técnicas de treinamento supervisionadas. Consequentemente, estamos atualmente explorando o treinamento contrastivo auto-supervisionado para melhorar nossos modelos de incorporação de imagens. Esta forma de treinamento não requer rótulos de imagem; em vez disso, ele inicializa o aprendizado contrastivo com pares positivos e negativos gerados sinteticamente.

Figura 7. A introdução de transformações de imagem aleatórias para criar sinteticamente pares positivos e negativos ajuda a refinar nossos codificadores de imagem sem rotulagem adicional.

Pesquisa de incorporação escalável

Muitas vezes, é impraticável calcular a similaridade de incorporação de pares exaustiva, mesmo dentro de subconjuntos focados de milhões de itens. Para oferecer suporte a casos de uso de pesquisa em tempo real, como detecção de fotos (próximas) duplicadas e pesquisa de similaridade visual, realizamos uma pesquisa aproximada de vizinho mais próximo ( ANN ). Essa funcionalidade é amplamente habilitada por um algoritmo de construção e pré-processamento de índice de incorporação eficiente chamado Hierarchical Navigable Small World ( HNSW). O HNSW constrói uma estrutura de gráfico de proximidade hierárquica que restringe bastante o espaço de pesquisa no momento da consulta. Escalamos isso horizontalmente com o AWS OpenSearch, onde cada nó contém seus próprios gráficos de incorporação HNSW e índices baseados em Lucene que são hidratados periodicamente e podem ser consultados em paralelo. Para adicionar pesquisa ANN de incorporação em tempo real, implementamos os seguintes padrões de design de pesquisa e hidratação de índice habilitados pelas plataformas internas existentes do Airbnb.

Para hidratar um índice de incorporação periodicamente, todas as incorporações relevantes calculadas pelo Bighead , a plataforma de aprendizado de máquina de ponta a ponta do Airbnb, são agregadas e mantidas em uma tabela Hive. Os modelos de codificador que produzem as incorporações são implantados para inferência online e processamento em lote offline. Em seguida, a atualização de incorporação incremental é sincronizada com o índice de incorporação no AWS OpenSearch por meio do Airflow, nosso serviço de orquestração de pipeline de dados.

Figura 8. Caminho de dados de hidratação do índice

Para executar a pesquisa de imagens, um serviço de cliente primeiro verificará se a incorporação da imagem existe no cache de índice do OpenSearch para evitar a recomputação desnecessária de incorporações. Se a incorporação já estiver lá, o cluster OpenSearch pode retornar resultados aproximados do vizinho mais próximo para o cliente sem processamento adicional. Se houver falta de cache, Bighead é chamado para calcular a incorporação da imagem, seguido por uma solicitação para consultar o cluster OpenSearch em busca de vizinhos mais próximos aproximados.

Figura 9. Pesquisa de similaridade de imagem para uma imagem inédita

Seguindo essa estrutura de pesquisa de incorporação, estamos dimensionando a pesquisa visual em tempo real nos fluxos de produção atuais e nos próximos lançamentos.

Expansão das categorias do Airbnb

As categorias do Airbnb ajudam nossos hóspedes a descobrir escapadelas únicas. Alguns exemplos são “Vistas incríveis”, “Casas históricas” e “Espaços criativos”. Essas categorias nem sempre compartilham comodidades comuns ou atributos discretos, pois geralmente representam um conceito inspirador. Estamos explorando a expansão automática da categoria identificando listagens semelhantes com base em suas fotos, que capturam a estética do design.

Figura 10. Listagem de fotos da categoria “Espaços criativos”

Recomendações de anúncios semelhantes na assistência para remarcar

No lançamento de verão de 2022, o Airbnb introduziu a assistência de remarcação para oferecer aos hóspedes uma experiência tranquila dos embaixadores do Community Support quando um Anfitrião cancela em cima da hora. Com o objetivo de recomendar listagens comparáveis ao longo do processo de remarcação, um modelo de incorporação de listagem e reserva de duas torres classifica as listagens de candidatos, atualizadas diariamente. Como trabalho futuro, podemos considerar aumentar a representação da listagem com incorporações de imagens e permitir a pesquisa em tempo real.

Figura 11. O exemplo de uma página inicial que recomenda listagens semelhantes para hóspedes e embaixadores de suporte da comunidade na assistência de remarcação.

Conclusão

As fotos contêm sinais estéticos e relacionados ao estilo que são difíceis de expressar em palavras ou mapear para atributos discretos. O Airbnb está aproveitando cada vez mais esses atributos visuais para ajudar nossos anfitriões a destacar o caráter único de seus anúncios e para ajudar nossos hóspedes a descobrir anúncios que correspondam às suas preferências.

Interessado em trabalhar no Airbnb? Confira nossas vagas em aberto .

Reconhecimentos

Obrigado a Teng Wang, Regina Wu, Nan Li, Do-kyum Kim, Tiantian Zhang, Xiaohan Zeng, Mia Zhao, Wayne Zhang, Elaine Liu, Floria Wan, David Staub, Tong Jiang, Cheng Wan, Guillaume Guy, Wei Luo, Hanchen Su, Fan Wu, Pei Xiong, Aaron Yin, Jie Tang, Lifan Yang, Lu Zhang, Mihajlo Grbovic, Alejandro Virrueta, Brennan Polley, Jing Xia, Fanchen Kong, William Zhao, Caroline Leung, Meng Yu, Shijing Yao, Reid Andersen, Xianjun Zhang, Yuqi Zheng, Dapeng Li e Juchuan Ma pelas colaborações de produtos. Agradeço também a Jenny Chen, Surashree Kulkarni e Lauren Mackevich pela edição.

Agradecemos a Ari Balogh, Tina Su, Andy Yasutake, Joy Zhang, Kelvin Xiong, Raj Rajagopal e o apoio da liderança de Zhong Ren na criação de produtos de visão computacional no Airbnb.