PNL - Recuperação de Informações

A recuperação de informação (IR) pode ser definida como um programa de software que lida com a organização, armazenamento, recuperação e avaliação de informações de repositórios de documentos, particularmente informações textuais. O sistema ajuda os usuários a encontrar as informações de que precisam, mas não retorna explicitamente as respostas das perguntas. Informa a existência e localização dos documentos que podem conter as informações necessárias. Os documentos que atendem aos requisitos do usuário são chamados de documentos relevantes. Um sistema de IR perfeito recuperará apenas documentos relevantes.

Com a ajuda do diagrama a seguir, podemos entender o processo de recuperação de informação (IR) -

Fica claro pelo diagrama acima que um usuário que precisa de informações terá que formular uma solicitação na forma de consulta em linguagem natural. Em seguida, o sistema de RI responderá recuperando a saída relevante, na forma de documentos, sobre as informações necessárias.

Problema Clássico em Sistema de Recuperação de Informação (IR)

O principal objetivo da pesquisa em RI é desenvolver um modelo de recuperação de informações de repositórios de documentos. Aqui, vamos discutir um problema clássico, chamadoad-hoc retrieval problem, relacionado ao sistema IR.

Na recuperação ad-hoc, o usuário deve inserir uma consulta em linguagem natural que descreva as informações necessárias. Em seguida, o sistema de RI retornará os documentos necessários relacionados às informações desejadas. Por exemplo, suponha que estejamos pesquisando algo na Internet e isso forneça algumas páginas exatas que são relevantes de acordo com nossos requisitos, mas pode haver algumas páginas não relevantes também. Isso se deve ao problema de recuperação ad-hoc.

Aspectos da recuperação ad-hoc

A seguir estão alguns aspectos da recuperação ad-hoc que são abordados na pesquisa de RI -

  • Como os usuários, com a ajuda de feedback de relevância, podem melhorar a formulação original de uma consulta?

  • Como implementar a fusão de banco de dados, ou seja, como resultados de bancos de dados de texto diferentes podem ser integrados em um conjunto de resultados?

  • Como lidar com dados parcialmente corrompidos? Quais modelos são adequados para o mesmo?

Modelo de recuperação de informação (IR)

Matematicamente, os modelos são usados ​​em diversas áreas científicas com o objetivo de compreender alguns fenômenos do mundo real. Um modelo de recuperação de informações prevê e explica o que um usuário encontrará em relevância para a consulta fornecida. O modelo IR é basicamente um padrão que define os aspectos acima mencionados do procedimento de recuperação e consiste no seguinte -

  • Um modelo para documentos.

  • Um modelo para consultas.

  • Uma função de correspondência que compara consultas a documentos.

Matematicamente, um modelo de recuperação consiste em -

D - Representação para documentos.

R - Representação para consultas.

F - A estrutura de modelagem para D, Q junto com a relação entre eles.

R (q,di)- Uma função de similaridade que ordena os documentos em relação à consulta. Também é chamado de classificação.

Tipos de modelo de recuperação de informação (IR)

Um modelo de modelo de informação (IR) pode ser classificado nos três modelos a seguir -

Modelo Clássico de IR

É o modelo IR mais simples e fácil de implementar. Este modelo é baseado em conhecimentos matemáticos facilmente reconhecidos e compreendidos. Booleano, Vetor e Probabilístico são os três modelos clássicos de IR.

Modelo de IR não clássico

É completamente oposto ao modelo IV clássico. Esses tipos de modelos IR são baseados em princípios diferentes de similaridade, probabilidade e operações booleanas. O modelo lógico da informação, o modelo da teoria da situação e os modelos de interação são exemplos do modelo IR não clássico.

Modelo IR Alternativo

É o aprimoramento do modelo de infravermelho clássico fazendo uso de algumas técnicas específicas de alguns outros campos. O modelo de cluster, o modelo fuzzy e os modelos de indexação semântica latente (LSI) são exemplos de modelos de IR alternativos.

Características de design de sistemas de recuperação de informação (IR)

Vamos agora aprender sobre os recursos de design dos sistemas IR -

Índice Invertido

A estrutura de dados primária da maioria dos sistemas IR está na forma de índice invertido. Podemos definir um índice invertido como uma estrutura de dados que lista, para cada palavra, todos os documentos que o contêm e a frequência das ocorrências no documento. Torna mais fácil pesquisar por 'resultados' de uma palavra de consulta.

Pare a eliminação de palavras

Palavras irrelevantes são aquelas palavras de alta frequência consideradas improváveis ​​de serem úteis para pesquisa. Eles têm menos pesos semânticos. Todos esses tipos de palavras estão em uma lista chamada lista de parada. Por exemplo, os artigos “um”, “uma”, “o” e preposições como “em”, “de”, “para”, “em” etc. são exemplos de palavras irrelevantes. O tamanho do índice invertido pode ser reduzido significativamente pela lista de parada. De acordo com a lei de Zipf, uma lista de parada que cobre algumas dezenas de palavras reduz o tamanho do índice invertido quase pela metade. Por outro lado, às vezes a eliminação da palavra de parada pode causar a eliminação do termo que é útil para a pesquisa. Por exemplo, se eliminarmos o alfabeto “A” da “Vitamina A”, ele não terá significado.

Stemming

Stemming, a forma simplificada de análise morfológica, é o processo heurístico de extrair a forma básica das palavras cortando as pontas das palavras. Por exemplo, as palavras rindo, rindo, rindo seriam derivadas da palavra raiz rir.

Em nossas seções subsequentes, discutiremos sobre alguns modelos de IR importantes e úteis.

O modelo booleano

É o modelo de recuperação de informação (IR) mais antigo. O modelo é baseado na teoria dos conjuntos e na álgebra booleana, onde os documentos são conjuntos de termos e as consultas são expressões booleanas sobre termos. O modelo booleano pode ser definido como -

  • D- Um conjunto de palavras, ou seja, os termos de indexação presentes em um documento. Aqui, cada termo está presente (1) ou ausente (0).

  • Q - Uma expressão booleana, onde os termos são os termos do índice e os operadores são produtos lógicos - E, soma lógica - OU e diferença lógica - NÃO

  • F - Álgebra booleana sobre conjuntos de termos, bem como sobre conjuntos de documentos

    Se falarmos sobre o feedback de relevância, então, no modelo Boolean IR, a previsão de relevância pode ser definida da seguinte forma -

  • R - Um documento é considerado relevante para a expressão de consulta se e somente se satisfizer a expressão de consulta como -

((˅) ˄ ˄ ˜ ℎ)

Podemos explicar esse modelo por um termo de consulta como uma definição inequívoca de um conjunto de documentos.

Por exemplo, o termo de consulta “economic” define o conjunto de documentos indexados com o termo “economic”.

Agora, qual seria o resultado após combinar os termos com o operador booleano AND? Ele definirá um conjunto de documentos menor ou igual aos conjuntos de documentos de qualquer um dos termos individuais. Por exemplo, a consulta com termos“social” e “economic”irá produzir o conjunto de documentos indexados com ambos os termos. Em outras palavras, conjunto de documentos com a interseção de ambos os conjuntos.

Agora, qual seria o resultado após combinar os termos com o operador booleano OR? Ele definirá um conjunto de documentos que é maior ou igual aos conjuntos de documentos de qualquer um dos termos individuais. Por exemplo, a consulta com termos“social” ou “economic” irá produzir o conjunto de documentos de documentos indexados com o termo “social” ou “economic”. Em outras palavras, conjunto de documentos com a união de ambos os conjuntos.

Vantagens do modo booleano

As vantagens do modelo booleano são as seguintes -

  • O modelo mais simples, baseado em conjuntos.

  • Fácil de entender e implementar.

  • Ele apenas recupera correspondências exatas

  • Dá ao usuário uma sensação de controle sobre o sistema.

Desvantagens do modelo booleano

As desvantagens do modelo booleano são as seguintes -

  • A função de similaridade do modelo é booleana. Portanto, não haveria correspondências parciais. Isso pode ser irritante para os usuários.

  • Nesse modelo, o uso do operador booleano tem muito mais influência do que uma palavra crítica.

  • A linguagem de consulta é expressiva, mas também é complicada.

  • Sem classificação para documentos recuperados.

Modelo de Espaço Vetorial

Devido às desvantagens acima do modelo booleano, Gerard Salton e seus colegas sugeriram um modelo, que é baseado no critério de similaridade de Luhn. O critério de similaridade formulado por Luhn afirma: “quanto mais duas representações concordarem em determinados elementos e sua distribuição, maior será a probabilidade de representarem informações semelhantes”.

Considere os seguintes pontos importantes para entender mais sobre o Modelo de Espaço Vetorial -

  • As representações de índice (documentos) e as consultas são consideradas como vetores embutidos em um espaço euclidiano de alta dimensão.

  • A medida de similaridade de um vetor de documento com um vetor de consulta é geralmente o cosseno do ângulo entre eles.

Fórmula de medida de similaridade de cosseno

O cosseno é um produto escalar normalizado, que pode ser calculado com a ajuda da seguinte fórmula -

$$ Score \ lgroup \ vec {d} \ vec {q} \ rgroup = \ frac {\ sum_ {k = 1} ^ m d_ {k} \ :. q_ {k}} {\ sqrt {\ sum_ {k = 1} ^ m \ lgrupo d_ {k} \ rgrupo ^ 2} \:. \ Sqrt {\ sum_ {k = 1} ^ m} m \ lgrupo q_ {k} \ rgrupo ^ 2} $$

$$ Pontuação \ lgrupo \ vec {d} \ vec {q} \ rgrupo = 1 \: quando \: d = q $$

$$ Pontuação \ lgrupo \ vec {d} \ vec {q} \ rgrupo = 0 \: quando \: d \: e \: q \: compartilhar \: não \: itens $$

Representação do Espaço Vetorial com Consulta e Documento

A consulta e os documentos são representados por um espaço vetorial bidimensional. Os termos sãocar e insurance. Há uma consulta e três documentos no espaço vetorial.

O documento com melhor classificação em resposta aos termos carro e seguro será o documento d2 porque o ângulo entre q e d2é o menor. A razão por trás disso é que ambos os conceitos de carro e seguro são salientes em d 2 e, portanto, têm pesos elevados. Por outro lado,d1 e d3 também mencione ambos os termos, mas em cada caso, um deles não é um termo centralmente importante no documento.

Ponderação de termos

Ponderação de termos significa os pesos nos termos no espaço vetorial. Quanto maior o peso do termo, maior será o impacto do termo no cosseno. Mais pesos devem ser atribuídos aos termos mais importantes no modelo. Agora, a questão que surge aqui é como podemos modelar isso.

Uma maneira de fazer isso é contar as palavras em um documento como seu peso de termo. No entanto, você acha que seria um método eficaz?

Outro método, que é mais eficaz, é usar term frequency (tfij), document frequency (dfi) e collection frequency (cfi).

Frequência do termo (tf ij )

Pode ser definido como o número de ocorrências de wi dentro dj. A informação que é capturada pela frequência do termo é o quão saliente uma palavra é dentro de um determinado documento ou em outras palavras, podemos dizer que quanto maior a frequência do termo, mais aquela palavra é uma boa descrição do conteúdo daquele documento.

Frequência do documento (df i )

Pode ser definido como o número total de documentos na colecção em que w i ocorre. É um indicador de informatividade. Palavras com foco semântico ocorrerão várias vezes no documento, ao contrário das palavras sem foco semântico.

Frequência de coleta (cf i )

Pode ser definido como o número total de ocorrências de wi na coleção.

Matematicamente, $ df_ {i} \ leq cf_ {i} \: e \: \ sum_ {j} tf_ {ij} = cf_ {i} $

Formas de ponderação de frequência de documentos

Vamos agora aprender sobre as diferentes formas de ponderação de frequência de documentos. Os formulários são descritos abaixo -

Fator de frequência do termo

Isso também é classificado como o fator de frequência do termo, o que significa que se um termo t aparece frequentemente em um documento, em seguida, uma consulta contendo tdeve recuperar esse documento. Podemos combinar palavrasterm frequency (tfij) e document frequency (dfi) em um único peso da seguinte forma -

$$ weight \ left (i, j \ right) = \ begin {cases} (1 + log (tf_ {ij})) log \ frac {N} {df_ {i}} \: if \: tf_ {i, j} \: \ geq1 \\ 0 \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \ : \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: if \: tf_ {i, j} \: = 0 \ end {casos } $$

Aqui, N é o número total de documentos.

Frequência inversa do documento (idf)

Esta é outra forma de ponderação de frequência de documento e geralmente chamada de ponderação idf ou ponderação de frequência inversa de documento. O ponto importante da ponderação idf é que a escassez do termo na coleção é uma medida de sua importância e a importância é inversamente proporcional à frequência de ocorrência.

Matematicamente,

$$ idf_ {t} = log \ left (1+ \ frac {N} {n_ {t}} \ right) $$

$$ idf_ {t} = log \ left (\ frac {N-n_ {t}} {n_ {t}} \ right) $$

Aqui,

N = documentos na coleção

n t = documentos contendo o termo t

Melhoria de consulta do usuário

O objetivo principal de qualquer sistema de recuperação de informações deve ser a precisão - produzir documentos relevantes de acordo com a necessidade do usuário. No entanto, a questão que surge aqui é como podemos melhorar a saída melhorando o estilo de formação de consulta do usuário. Certamente, a saída de qualquer sistema IR depende da consulta do usuário e uma consulta bem formatada produzirá resultados mais precisos. O usuário pode melhorar sua consulta com a ajuda derelevance feedback, um aspecto importante de qualquer modelo de IR.

Feedback de Relevância

O feedback de relevância obtém a saída que é inicialmente retornada da consulta fornecida. Essa saída inicial pode ser usada para reunir informações do usuário e saber se essa saída é relevante para realizar uma nova consulta ou não. Os feedbacks podem ser classificados como segue -

Feedback explícito

Pode ser definido como o feedback obtido dos avaliadores de relevância. Esses avaliadores também indicarão a relevância de um documento recuperado da consulta. Para melhorar o desempenho de recuperação da consulta, as informações de feedback de relevância precisam ser interpoladas com a consulta original.

Os avaliadores ou outros usuários do sistema podem indicar a relevância explicitamente usando os seguintes sistemas de relevância -

  • Binary relevance system - Este sistema de feedback de relevância indica que um documento é relevante (1) ou irrelevante (0) para uma determinada consulta.

  • Graded relevance system- O sistema de feedback de relevância graduada indica a relevância de um documento, para uma determinada consulta, com base na avaliação por meio de números, letras ou descrições. A descrição pode ser “não relevante”, “pouco relevante”, “muito relevante” ou “relevante”.

Feedback implícito

É o feedback que é inferido do comportamento do usuário. O comportamento inclui a duração de tempo que o usuário gastou visualizando um documento, qual documento está selecionado para visualização e qual não está, navegação na página e ações de rolagem, etc. Um dos melhores exemplos de feedback implícito édwell time, que é uma medida de quanto tempo um usuário gasta visualizando a página vinculada em um resultado de pesquisa.

Pseudo Feedback

Também é chamado de feedback cego. Ele fornece um método para análise local automática. A parte manual do feedback de relevância é automatizada com a ajuda de feedback de Pseudo relevância para que o usuário obtenha um desempenho de recuperação aprimorado sem uma interação estendida. A principal vantagem deste sistema de feedback é que ele não requer avaliadores como no sistema de feedback de relevância explícito.

Considere as seguintes etapas para implementar este feedback -

  • Step 1- Em primeiro lugar, o resultado retornado pela consulta inicial deve ser considerado como resultado relevante. O intervalo de resultados relevantes deve estar entre os 10-50 primeiros resultados.

  • Step 2 - Agora, selecione os 20-30 termos principais dos documentos usando, por exemplo, frequência de termo (tf) - peso de frequência de documento inverso (idf).

  • Step 3- Adicione esses termos à consulta e corresponda aos documentos retornados. Em seguida, devolva os documentos mais relevantes.