NLP - wyszukiwanie informacji

Wyszukiwanie informacji (IR) można zdefiniować jako oprogramowanie, które zajmuje się organizacją, przechowywaniem, odzyskiwaniem i oceną informacji z repozytoriów dokumentów, w szczególności informacji tekstowych. System pomaga użytkownikom w znalezieniu potrzebnych informacji, ale nie zwraca wprost odpowiedzi na pytania. Informuje o istnieniu i lokalizacji dokumentów, które mogą zawierać wymagane informacje. Dokumenty spełniające wymagania użytkownika nazywane są odpowiednimi dokumentami. Idealny system IR będzie pobierał tylko istotne dokumenty.

Za pomocą poniższego diagramu możemy zrozumieć proces wyszukiwania informacji (IR) -

Z powyższego diagramu jasno wynika, że ​​użytkownik potrzebujący informacji będzie musiał sformułować zapytanie w formie zapytania w języku naturalnym. Wówczas system IR odpowie, pobierając odpowiednie dane wyjściowe w postaci dokumentów o wymaganych informacjach.

Klasyczny problem w systemie wyszukiwania informacji (IR)

Głównym celem badań IR jest opracowanie modelu wyszukiwania informacji z repozytoriów dokumentów. Tutaj omówimy klasyczny problem o nazwiead-hoc retrieval problemzwiązane z systemem IR.

W przypadku wyszukiwania ad-hoc użytkownik musi wprowadzić zapytanie w języku naturalnym, które opisuje wymagane informacje. Wtedy system IR zwróci wymagane dokumenty związane z żądanymi informacjami. Na przykład, przypuśćmy, że szukamy czegoś w Internecie i podaje to dokładne strony, które są odpowiednie zgodnie z naszymi wymaganiami, ale mogą też istnieć strony nieistotne. Wynika to z problemu z pobieraniem ad hoc.

Aspekty pobierania ad hoc

Poniżej przedstawiono niektóre aspekty pobierania ad hoc, które są uwzględniane w badaniach IR -

  • W jaki sposób użytkownicy z pomocą informacji zwrotnych na temat trafności mogą ulepszyć oryginalne sformułowanie zapytania?

  • Jak zaimplementować scalanie baz danych, czyli jak można połączyć wyniki z różnych tekstowych baz danych w jeden zestaw wyników?

  • Jak radzić sobie z częściowo uszkodzonymi danymi? Które modele są odpowiednie dla tego samego?

Model wyszukiwania informacji (IR)

Z matematycznego punktu widzenia modele są używane w wielu dziedzinach naukowych, których celem jest zrozumienie pewnych zjawisk w świecie rzeczywistym. Model wyszukiwania informacji przewiduje i wyjaśnia, co użytkownik znajdzie w związku z danym zapytaniem. Model IR to w zasadzie wzorzec, który definiuje wyżej wymienione aspekty procedury wyszukiwania i składa się z:

  • Wzór na dokumenty.

  • Model zapytań.

  • Funkcja dopasowująca, która porównuje zapytania z dokumentami.

Matematycznie model wyszukiwania składa się z -

D - Reprezentacja za dokumenty.

R - Reprezentacja w przypadku zapytań.

F - Ramy modelowania dla D, Q wraz z relacjami między nimi.

R (q,di)- Funkcja podobieństwa porządkująca dokumenty w odniesieniu do zapytania. Nazywa się to również rankingiem.

Typy modelu wyszukiwania informacji (IR)

Model informacyjny (IR) można podzielić na następujące trzy modele -

Klasyczny model IR

Jest to najprostszy i łatwy do wdrożenia model IR. Model ten oparty jest na wiedzy matematycznej, która była łatwo rozpoznawalna i zrozumiała. Boolean, Vector i Probabilistic to trzy klasyczne modele IR.

Nieklasyczny model IR

Jest to zupełnie odwrotne do klasycznego modelu IR. Tego rodzaju modele IR opierają się na zasadach innych niż podobieństwo, prawdopodobieństwo, operacje boolowskie. Model logiki informacyjnej, model teorii sytuacji i modele interakcji są przykładami nieklasycznego modelu IR.

Alternatywny model IR

Jest to udoskonalenie klasycznego modelu IR z wykorzystaniem pewnych specyficznych technik z innych dziedzin. Model klastra, model rozmyty i modele utajonego indeksowania semantycznego (LSI) są przykładami alternatywnego modelu IR.

Cechy konstrukcyjne systemów wyszukiwania informacji (IR)

Poznajmy teraz cechy konstrukcyjne systemów IR -

Odwrócony indeks

Podstawowa struktura danych większości systemów IR ma postać odwróconego indeksu. Możemy zdefiniować odwrócony indeks jako strukturę danych, która dla każdego słowa wyszczególnia wszystkie dokumenty, które go zawierają, oraz częstotliwość występowania w dokumencie. Ułatwia wyszukiwanie „trafień” wyszukiwanego słowa.

Zatrzymaj eliminację słów

Słowa pomijane to słowa o wysokiej częstotliwości, które są uważane za mało przydatne do wyszukiwania. Mają mniejsze wagi semantyczne. Wszystkie tego rodzaju słowa znajdują się na liście zwanej listą stop. Na przykład przedimki „a”, „an”, „the” i przyimki, takie jak „in”, „of”, „for”, „at” itp. Są przykładami słów pomijanych. Rozmiar odwróconego indeksu można znacznie zmniejszyć dzięki liście stop. Zgodnie z prawem Zipfa, lista stop zawierająca kilkadziesiąt słów zmniejsza rozmiar odwróconego indeksu o prawie połowę. Z drugiej strony, czasami wyeliminowanie słowa pomijanego może spowodować wyeliminowanie terminu przydatnego przy wyszukiwaniu. Na przykład, jeśli wyeliminujemy alfabet „A” z „witaminy A”, nie będzie to miało żadnego znaczenia.

Przybitka

Stemming, uproszczona forma analizy morfologicznej, to heurystyczny proces wyodrębniania podstawowej formy słów poprzez odcinanie końcówek słów. Na przykład słowa „śmiech”, „śmiech”, „śmiech” byłyby powiązane z rdzeniem słowa „śmiech”.

W kolejnych sekcjach omówimy kilka ważnych i przydatnych modeli IR.

Model boolowski

Jest to najstarszy model wyszukiwania informacji (IR). Model oparty jest na teorii mnogości i algebrze Boole'a, gdzie dokumenty to zbiory terminów, a zapytania są wyrażeniami boolowskimi na terminach. Model boolowski można zdefiniować jako -

  • D- Zbiór słów, tj. Terminy indeksowania obecne w dokumencie. Tutaj każdy termin jest obecny (1) lub nieobecny (0).

  • Q - Wyrażenie logiczne, gdzie terminy są terminami indeksu, a operatory są iloczynami logicznymi - AND, suma logiczna - OR i różnica logiczna - NOT

  • F - Algebra Boole'a nad zbiorami terminów oraz zbiorami dokumentów

    Jeśli mówimy o sprzężeniu zwrotnym dotyczącym istotności, to w modelu Boolean IR przewidywanie trafności można zdefiniować w następujący sposób -

  • R - Przewiduje się, że dokument ma znaczenie dla wyrażenia zapytania wtedy i tylko wtedy, gdy spełnia wyrażenie zapytania jako -

((˅) ˄ ˄ ˜ ℎ)

Możemy wyjaśnić ten model terminem zapytania jako jednoznaczną definicją zbioru dokumentów.

Na przykład termin zapytania “economic” definiuje zbiór dokumentów indeksowanych terminem “economic”.

Jaki byłby wynik po połączeniu terminów z operatorem logicznym AND? Definiuje zestaw dokumentów, który jest mniejszy lub równy zestawom dokumentów któregokolwiek z pojedynczych terminów. Na przykład zapytanie z warunkami“social” i “economic”wygeneruje zestaw dokumentów zindeksowanych z oboma terminami. Innymi słowy, zbiór dokumentów zawiera przecięcie obu zbiorów.

Jaki byłby wynik po połączeniu terminów z operatorem logicznym OR? Definiuje zestaw dokumentów, który jest większy lub równy zestawom dokumentów któregokolwiek z pojedynczych terminów. Na przykład zapytanie z warunkami“social” lub “economic” utworzy zestaw dokumentów indeksowanych za pomocą tego terminu “social” lub “economic”. Innymi słowy, zestaw dokumentów z połączeniem obu zestawów.

Zalety trybu boolowskiego

Zalety modelu boolowskiego są następujące -

  • Najprostszy model oparty na zestawach.

  • Łatwe do zrozumienia i wdrożenia.

  • Pobiera tylko dokładne dopasowania

  • Daje użytkownikowi poczucie kontroli nad systemem.

Wady modelu boolowskiego

Wady modelu boolowskiego są następujące -

  • Funkcja podobieństwa modelu jest logiczna. W związku z tym nie byłoby częściowych dopasowań. Może to być denerwujące dla użytkowników.

  • W tym modelu użycie operatora boolowskiego ma znacznie większy wpływ niż słowo krytyczne.

  • Język zapytań jest wyrazisty, ale jest też skomplikowany.

  • Brak rankingu dla pobranych dokumentów.

Model przestrzeni wektorowej

Ze względu na powyższe wady modelu boolowskiego, Gerard Salton i jego koledzy zaproponowali model oparty na kryterium podobieństwa Luhna. Kryterium podobieństwa sformułowane przez Luhna stwierdza, że ​​„im więcej dwóch reprezentacji zgadza się w danych elementach i ich rozkładzie, tym większe byłoby prawdopodobieństwo, że przedstawiają one podobne informacje”.

Rozważ następujące ważne punkty, aby lepiej zrozumieć model przestrzeni wektorowej -

  • Reprezentacje indeksu (dokumenty) i zapytania są traktowane jako wektory osadzone w wielowymiarowej przestrzeni euklidesowej.

  • Miarą podobieństwa wektora dokumentu do wektora zapytania jest zwykle cosinus kąta między nimi.

Formuła miary podobieństwa cosinusa

Cosinus to znormalizowany iloczyn skalarny, który można obliczyć za pomocą następującego wzoru -

$$Score \lgroup \vec{d} \vec{q} \rgroup= \frac{\sum_{k=1}^m d_{k}\:.q_{k}}{\sqrt{\sum_{k=1}^m\lgroup d_{k}\rgroup^2}\:.\sqrt{\sum_{k=1}^m}m\lgroup q_{k}\rgroup^2 }$$

$$Score \lgroup \vec{d} \vec{q}\rgroup =1\:when\:d =q $$

$$Score \lgroup \vec{d} \vec{q}\rgroup =0\:when\:d\:and\:q\:share\:no\:items$$

Reprezentacja przestrzeni wektorowej z zapytaniem i dokumentem

Zapytanie i dokumenty są reprezentowane przez dwuwymiarową przestrzeń wektorową. Warunki sącar i insurance. W przestrzeni wektorowej jest jedno zapytanie i trzy dokumenty.

Dokumentem najwyżej sklasyfikowanym w odpowiedzi na warunki samochód i ubezpieczenie będzie dokument d2 ponieważ kąt między q i d2jest najmniejszy. Powodem tego jest fakt, że zarówno koncepcje samochodu, jak i ubezpieczenia są istotne w d 2, a zatem mają dużą wagę. Z drugiej strony,d1 i d3 należy również wymienić oba terminy, ale w każdym przypadku jeden z nich nie jest w dokumencie terminem o znaczeniu centralnym.

Ważenie terminu

Ważenie terminów oznacza wagi terminów w przestrzeni wektorowej. Im większa waga tego terminu, tym większy byłby wpływ tego terminu na cosinus. Większą wagę należy przypisać do ważniejszych terminów w modelu. Teraz pojawia się pytanie, jak możemy to modelować.

Jednym ze sposobów jest policzenie słów w dokumencie jako jego wagi terminowej. Jednak myślisz, że byłaby to skuteczna metoda?

Inną metodą, która jest bardziej skuteczna, jest użycie term frequency (tfij), document frequency (dfi) i collection frequency (cfi).

Termin Częstotliwość (tf ij )

Można go zdefiniować jako liczbę wystąpień wi w dj. Informacje, które są przechwytywane przez częstotliwość terminów, to to, jak istotne jest słowo w danym dokumencie lub innymi słowy możemy powiedzieć, że im wyższa częstotliwość terminu, tym bardziej słowo to jest dobrym opisem treści tego dokumentu.

Częstotliwość dokumentów (df i )

To może być zdefiniowany jako całkowita liczba dokumentów w kolekcji, w których w I występuje. Jest wskaźnikiem informatywności. Wyrazy skupione semantycznie będą pojawiać się w dokumencie kilka razy, w przeciwieństwie do słów nieokreślonych semantycznie.

Częstotliwość zbierania (cf i )

Można go zdefiniować jako całkowitą liczbę wystąpień wi w kolekcji.

Matematycznie, $df_{i}\leq cf_{i}\:and\:\sum_{j}tf_{ij} = cf_{i}$

Formy ważenia częstotliwości dokumentów

Przyjrzyjmy się teraz różnym formom ważenia częstotliwości dokumentów. Formularze opisano poniżej -

Współczynnik częstotliwości terminu

Jest to również klasyfikowane jako współczynnik częstotliwości terminu, co oznacza, że ​​jeśli termin t pojawia się często w dokumencie, a następnie zapytanie zawierające tpowinien pobrać ten dokument. Możemy łączyć słowaterm frequency (tfij) i document frequency (dfi) w jedną wagę w następujący sposób -

$$weight \left ( i,j \right ) =\begin{cases}(1+log(tf_{ij}))log\frac{N}{df_{i}}\:if\:tf_{i,j}\:\geq1\\0 \:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\: if\:tf_{i,j}\:=0\end{cases}$$

Tutaj N to całkowita liczba dokumentów.

Odwrotna częstotliwość dokumentów (idf)

Jest to inna forma ważenia częstotliwości dokumentów i często nazywana ważeniem idf lub odwrotnym ważeniem częstotliwości dokumentów. Ważnym punktem ważenia idf jest to, że rzadkość tego terminu w zbiorze jest miarą jego ważności, a znaczenie jest odwrotnie proporcjonalne do częstotliwości występowania.

Matematycznie,

$$idf_{t} = log\left(1+\frac{N}{n_{t}}\right)$$

$$idf_{t} = log\left(\frac{N-n_{t}}{n_{t}}\right)$$

Tutaj,

N = dokumenty w kolekcji

n t = dokumenty zawierające termin t

Ulepszenie zapytań użytkownika

Podstawowym celem każdego systemu wyszukiwania informacji musi być dokładność - tworzenie odpowiednich dokumentów zgodnie z wymaganiami użytkownika. Jednak pojawia się tutaj pytanie, w jaki sposób możemy poprawić wyniki, ulepszając styl tworzenia zapytań użytkownika. Z pewnością wynik każdego systemu IR zależy od zapytania użytkownika, a dobrze sformatowane zapytanie da dokładniejsze wyniki. Użytkownik może poprawić swoje zapytanie za pomocąrelevance feedback, ważny aspekt każdego modelu IR.

Informacje zwrotne dotyczące trafności

Informacja zwrotna dotycząca istotności pobiera dane wyjściowe, które są początkowo zwracane z danego zapytania. Te początkowe dane wyjściowe można wykorzystać do zebrania informacji o użytkowniku i ustalenia, czy dane wyjściowe są odpowiednie do wykonania nowego zapytania, czy nie. Informacje zwrotne można sklasyfikować w następujący sposób -

Wyraźna opinia

Można ją zdefiniować jako informację zwrotną uzyskaną od odpowiednich osób oceniających. Osoby oceniające wskażą również przydatność dokumentu pobranego z zapytania. Aby poprawić wydajność wyszukiwania zapytań, informacje zwrotne dotyczące trafności muszą być interpolowane z pierwotnym zapytaniem.

Osoby oceniające lub inni użytkownicy systemu mogą wyraźnie wskazać znaczenie, korzystając z następujących systemów znaczenia:

  • Binary relevance system - Ten system informacji zwrotnej na temat istotności wskazuje, że dokument jest istotny (1) lub nieistotny (0) dla danego zapytania.

  • Graded relevance system- System informacji zwrotnej o ocenianej trafności wskazuje przydatność dokumentu dla danego zapytania na podstawie oceny za pomocą liczb, liter lub opisów. Opis może brzmieć „nie dotyczy”, „dość istotne”, „bardzo istotne” lub „istotne”.

Niejawna informacja zwrotna

To informacje zwrotne są wywnioskowane z zachowania użytkowników. To zachowanie obejmuje czas spędzony przez użytkownika na przeglądaniu dokumentu, który dokument jest wybrany do przeglądania, a który nie, przeglądanie stron i przewijanie itp. Jednym z najlepszych przykładów niejawnej informacji zwrotnej jestdwell time, który jest miarą czasu spędzanego przez użytkownika na przeglądaniu strony, do której prowadzi link w wynikach wyszukiwania.

Pseudo feedback

Nazywa się to również Blind feedback. Zapewnia metodę automatycznej analizy lokalnej. Ręczna część informacji zwrotnych na temat trafności jest zautomatyzowana za pomocą informacji zwrotnych o pseudo trafności, dzięki czemu użytkownik uzyskuje lepszą wydajność wyszukiwania bez dłuższej interakcji. Główną zaletą tego systemu informacji zwrotnej jest to, że nie wymaga on osób oceniających, jak w przypadku systemu informacji zwrotnej o wyraźnej istotności.

Rozważ następujące kroki, aby wdrożyć tę opinię -

  • Step 1- Po pierwsze, wynik zwrócony przez wstępne zapytanie musi być traktowany jako odpowiedni wynik. Zakres odpowiednich wyników musi znajdować się w 10–50 najlepszych wynikach.

  • Step 2 - Teraz wybierz 20–30 najważniejszych terminów z dokumentów, używając na przykład terminu częstotliwość (tf) - odwrotna częstotliwość dokumentu (idf) waga.

  • Step 3- Dodaj te terminy do zapytania i dopasuj zwrócone dokumenty. Następnie zwróć najważniejsze dokumenty.