NLP - Information Retrieval

Information Retrieval (IR) kann als ein Softwareprogramm definiert werden, das sich mit der Organisation, Speicherung, dem Abruf und der Auswertung von Informationen aus Dokumentenspeichern, insbesondere Textinformationen, befasst. Das System unterstützt Benutzer beim Auffinden der benötigten Informationen, gibt jedoch die Antworten auf die Fragen nicht explizit zurück. Es informiert über das Vorhandensein und den Ort von Dokumenten, die aus den erforderlichen Informationen bestehen können. Die Dokumente, die die Anforderungen des Benutzers erfüllen, werden als relevante Dokumente bezeichnet. Ein perfektes IR-System ruft nur relevante Dokumente ab.

Mit Hilfe des folgenden Diagramms können wir den Prozess des Information Retrieval (IR) verstehen -

Aus dem obigen Diagramm geht hervor, dass ein Benutzer, der Informationen benötigt, eine Anfrage in Form einer Abfrage in natürlicher Sprache formulieren muss. Anschließend antwortet das IR-System, indem es die relevante Ausgabe in Form von Dokumenten zu den erforderlichen Informationen abruft.

Klassisches Problem im Information Retrieval (IR) System

Das Hauptziel der IR-Forschung ist die Entwicklung eines Modells zum Abrufen von Informationen aus den Repositories von Dokumenten. Hier diskutieren wir ein klassisches Problem namensad-hoc retrieval problem, bezogen auf das IR-System.

Beim Ad-hoc-Abruf muss der Benutzer eine Abfrage in natürlicher Sprache eingeben, die die erforderlichen Informationen beschreibt. Anschließend gibt das IR-System die erforderlichen Dokumente zu den gewünschten Informationen zurück. Angenommen, wir suchen etwas im Internet und es werden einige genaue Seiten angezeigt, die gemäß unserer Anforderung relevant sind, es können jedoch auch einige nicht relevante Seiten vorhanden sein. Dies ist auf das Ad-hoc-Abrufproblem zurückzuführen.

Aspekte des Ad-hoc-Abrufs

Im Folgenden sind einige Aspekte des Ad-hoc-Abrufs aufgeführt, die in der IR-Forschung behandelt werden:

  • Wie können Benutzer mithilfe von Relevanz-Feedback die ursprüngliche Formulierung einer Abfrage verbessern?

  • Wie implementiere ich das Zusammenführen von Datenbanken, dh wie können Ergebnisse aus verschiedenen Textdatenbanken zu einer Ergebnismenge zusammengeführt werden?

  • Wie gehe ich mit teilweise beschädigten Daten um? Welche Modelle eignen sich dafür?

IR-Modell (Information Retrieval)

Mathematisch werden Modelle in vielen wissenschaftlichen Bereichen verwendet, um ein Phänomen in der realen Welt zu verstehen. Ein Modell zum Abrufen von Informationen sagt voraus und erklärt, was ein Benutzer für die gegebene Abfrage relevant findet. Das IR-Modell ist im Grunde ein Muster, das die oben genannten Aspekte des Abrufverfahrens definiert und aus Folgendem besteht:

  • Ein Modell für Dokumente.

  • Ein Modell für Abfragen.

  • Eine Übereinstimmungsfunktion, die Abfragen mit Dokumenten vergleicht.

Mathematisch besteht ein Abrufmodell aus -

D - Vertretung für Dokumente.

R - Darstellung für Anfragen.

F - Das Modellierungsgerüst für D, Q zusammen mit der Beziehung zwischen ihnen.

R (q,di)- Eine Ähnlichkeitsfunktion, die die Dokumente in Bezug auf die Abfrage ordnet. Es wird auch als Ranking bezeichnet.

Arten des Information Retrieval (IR) -Modells

Ein Informationsmodell (IR) kann in die folgenden drei Modelle eingeteilt werden:

Klassisches IR-Modell

Es ist das einfachste und am einfachsten zu implementierende IR-Modell. Dieses Modell basiert auf mathematischen Kenntnissen, die ebenfalls leicht zu erkennen und zu verstehen waren. Boolean, Vector und Probabilistic sind die drei klassischen IR-Modelle.

Nicht klassisches IR-Modell

Es ist völlig entgegengesetzt zum klassischen IR-Modell. Solche IR-Modelle basieren auf anderen Prinzipien als Ähnlichkeit, Wahrscheinlichkeit und Booleschen Operationen. Informationslogikmodell, Situationstheoretisches Modell und Interaktionsmodelle sind Beispiele für nicht klassisches IR-Modell.

Alternatives IR-Modell

Es ist die Verbesserung des klassischen IR-Modells unter Verwendung einiger spezifischer Techniken aus einigen anderen Bereichen. Cluster-Modell, Fuzzy-Modell und LSI-Modelle (Latent Semantic Indexing) sind Beispiele für alternative IR-Modelle.

Konstruktionsmerkmale von Information Retrieval (IR) -Systemen

Lassen Sie uns nun die Konstruktionsmerkmale von IR-Systemen kennenlernen -

Invertierter Index

Die primäre Datenstruktur der meisten IR-Systeme besteht aus einem invertierten Index. Wir können einen invertierten Index als Datenstruktur definieren, die für jedes Wort alle Dokumente auflistet, die ihn enthalten, und die Häufigkeit der Vorkommen im Dokument. Es macht es einfach, nach "Treffern" eines Abfrageworts zu suchen.

Stoppen Sie die Worteliminierung

Stoppwörter sind solche Hochfrequenzwörter, die für die Suche als unwahrscheinlich erachtet werden. Sie haben weniger semantische Gewichte. Alle diese Arten von Wörtern befinden sich in einer Liste, die als Stoppliste bezeichnet wird. Beispielsweise sind Artikel „a“, „an“, „the“ und Präpositionen wie „in“, „of“, „for“, „at“ usw. Beispiele für Stoppwörter. Die Größe des invertierten Index kann durch die Stoppliste erheblich reduziert werden. Gemäß dem Zipf-Gesetz reduziert eine Stoppliste mit einigen Dutzend Wörtern die Größe des invertierten Index um fast die Hälfte. Andererseits kann die Eliminierung von Stoppwörtern manchmal zur Eliminierung des Begriffs führen, der für die Suche nützlich ist. Wenn wir beispielsweise das Alphabet „A“ aus „Vitamin A“ streichen, hat dies keine Bedeutung.

Stemming

Stemming, die vereinfachte Form der morphologischen Analyse, ist der heuristische Prozess des Extrahierens der Grundform von Wörtern durch Abhacken der Wortenden. Zum Beispiel würden die Wörter Lachen, Lachen, Lachen auf das Wurzelwort Lachen zurückgeführt.

In unseren folgenden Abschnitten werden wir einige wichtige und nützliche IR-Modelle diskutieren.

Das Boolesche Modell

Es ist das älteste Information Retrieval (IR) -Modell. Das Modell basiert auf der Mengenlehre und der Booleschen Algebra, wobei Dokumente Mengen von Begriffen und Abfragen Boolesche Ausdrücke von Begriffen sind. Das Boolesche Modell kann definiert werden als -

  • D- Eine Reihe von Wörtern, dh die in einem Dokument enthaltenen Indexbegriffe. Hier ist jeder Term entweder vorhanden (1) oder nicht vorhanden (0).

  • Q - Ein boolescher Ausdruck, bei dem Begriffe die Indexbegriffe und Operatoren logische Produkte sind - UND, logische Summe - ODER und logische Differenz - NICHT

  • F - Boolesche Algebra über Sätze von Begriffen sowie über Sätze von Dokumenten

    Wenn wir über das Relevanz-Feedback sprechen, kann die Relevanz-Vorhersage im Booleschen IR-Modell wie folgt definiert werden:

  • R - Ein Dokument wird genau dann als relevant für den Abfrageausdruck vorhergesagt, wenn es den Abfrageausdruck erfüllt als -

((˅) ˄ ˄ ˜ ˜)

Wir können dieses Modell durch einen Abfragebegriff als eindeutige Definition einer Reihe von Dokumenten erklären.

Zum Beispiel der Abfragebegriff “economic” Definiert die Gruppe von Dokumenten, die mit dem Begriff indiziert sind “economic”.

Was wäre nun das Ergebnis nach der Kombination von Begriffen mit Boolean AND Operator? Es wird ein Dokumentensatz definiert, der kleiner oder gleich den Dokumentensätzen eines der einzelnen Begriffe ist. Zum Beispiel die Abfrage mit Begriffen“social” und “economic”erstellt den Dokumentensatz von Dokumenten, die mit beiden Begriffen indiziert sind. Mit anderen Worten, Dokumentensatz mit dem Schnittpunkt beider Sätze.

Was wäre nun das Ergebnis nach der Kombination von Begriffen mit dem Booleschen ODER-Operator? Es wird ein Dokumentensatz definiert, der größer oder gleich den Dokumentensätzen eines der einzelnen Begriffe ist. Zum Beispiel die Abfrage mit Begriffen“social” oder “economic” erstellt den Dokumentensatz von Dokumenten, die entweder mit dem Begriff indiziert sind “social” oder “economic”. Mit anderen Worten, Dokumentensatz mit der Vereinigung beider Sätze.

Vorteile des Booleschen Modus

Die Vorteile des Booleschen Modells sind folgende:

  • Das einfachste Modell, das auf Mengen basiert.

  • Einfach zu verstehen und umzusetzen.

  • Es werden nur genaue Übereinstimmungen abgerufen

  • Es gibt dem Benutzer ein Gefühl der Kontrolle über das System.

Nachteile des Booleschen Modells

Die Nachteile des Booleschen Modells sind wie folgt:

  • Die Ähnlichkeitsfunktion des Modells ist Boolesch. Daher würde es keine Teilübereinstimmungen geben. Dies kann für die Benutzer ärgerlich sein.

  • In diesem Modell hat die Verwendung des Booleschen Operators viel mehr Einfluss als ein kritisches Wort.

  • Die Abfragesprache ist ausdrucksstark, aber auch kompliziert.

  • Kein Ranking für abgerufene Dokumente.

Vektorraummodell

Aufgrund der oben genannten Nachteile des Booleschen Modells schlugen Gerard Salton und seine Kollegen ein Modell vor, das auf Luhns Ähnlichkeitskriterium basiert. Das von Luhn formulierte Ähnlichkeitskriterium besagt: "Je mehr zwei Darstellungen in bestimmten Elementen und ihrer Verteilung vereinbart wurden, desto höher wäre die Wahrscheinlichkeit, dass sie ähnliche Informationen darstellen."

Berücksichtigen Sie die folgenden wichtigen Punkte, um mehr über das Vektorraummodell zu erfahren:

  • Die Indexdarstellungen (Dokumente) und die Abfragen werden als Vektoren betrachtet, die in einen hochdimensionalen euklidischen Raum eingebettet sind.

  • Das Ähnlichkeitsmaß eines Dokumentvektors mit einem Abfragevektor ist normalerweise der Kosinus des Winkels zwischen ihnen.

Kosinus-Ähnlichkeitsmaßformel

Cosinus ist ein normalisiertes Punktprodukt, das mit Hilfe der folgenden Formel berechnet werden kann:

$$ Score \ lgroup \ vec {d} \ vec {q} \ rgroup = \ frac {\ sum_ {k = 1} ^ m d_ {k} \ :. q_ {k}} {\ sqrt {\ sum_ {k = 1} ^ m \ lgroup d_ {k} \ rgroup ^ 2} \ :. \ Sqrt {\ sum_ {k = 1} ^ m} m \ lgroup q_ {k} \ rgroup ^ 2} $$

$$ Score \ lgroup \ vec {d} \ vec {q} \ rgroup = 1 \: wenn \: d = q $$

$$ Score \ lgroup \ vec {d} \ vec {q} \ rgroup = 0 \: when \: d \: und \: q \: share \: no \: items $$

Vektorraumdarstellung mit Abfrage und Dokument

Die Abfrage und die Dokumente werden durch einen zweidimensionalen Vektorraum dargestellt. Die Bedingungen sindcar und insurance. Es gibt eine Abfrage und drei Dokumente im Vektorraum.

Das Dokument mit dem höchsten Rang als Antwort auf die Bedingungen Auto und Versicherung ist das Dokument d2 weil der Winkel zwischen q und d2ist der kleinste. Der Grund dafür ist, dass sowohl die Konzepte Auto als auch Versicherung in d 2 hervorstechen und daher die hohen Gewichte haben. Auf der anderen Seite,d1 und d3 Erwähnen Sie auch beide Begriffe, aber in jedem Fall ist einer von ihnen kein zentral wichtiger Begriff im Dokument.

Termgewichtung

Termgewichtung bedeutet die Gewichtung der Terme im Vektorraum. Je höher das Gewicht des Begriffs ist, desto größer wäre die Auswirkung des Begriffs auf den Kosinus. Den wichtigeren Begriffen im Modell sollten mehr Gewichte zugewiesen werden. Hier stellt sich nun die Frage, wie wir dies modellieren können.

Eine Möglichkeit, dies zu tun, besteht darin, die Wörter in einem Dokument als Begriffsgewicht zu zählen. Glauben Sie jedoch, dass dies eine effektive Methode wäre?

Eine andere Methode, die effektiver ist, ist die Verwendung term frequency (tfij), document frequency (dfi) und collection frequency (cfi).

Laufzeit (tf ij )

Es kann als die Anzahl der Vorkommen von definiert werden wi im dj. Die Information, die durch die Termhäufigkeit erfasst wird, ist, wie hervorstechend ein Wort innerhalb des gegebenen Dokuments ist, oder mit anderen Worten, je höher die Termhäufigkeit ist, desto besser beschreibt dieses Wort den Inhalt dieses Dokuments.

Dokumentenhäufigkeit (df i )

Es kann definiert werden als die Gesamtzahl der Dokumente in der Sammlung, in der w i vorkommt. Es ist ein Indikator für Informativität. Semantisch fokussierte Wörter kommen im Dokument im Gegensatz zu semantisch nicht fokussierten Wörtern mehrmals vor.

Sammelhäufigkeit (vgl. I )

Es kann definiert werden als die Gesamtzahl der Vorkommen von wi in der Sammlung.

Mathematisch gesehen ist $ df_ {i} \ leq cf_ {i} \: und \: \ sum_ {j} tf_ {ij} = cf_ {i} $

Formen der Dokumentenfrequenzgewichtung

Lassen Sie uns nun die verschiedenen Formen der Gewichtung von Dokumentenhäufigkeiten kennenlernen. Die Formulare werden unten beschrieben -

Laufzeitfrequenzfaktor

Dies wird auch als Begriff Frequenzfaktor klassifiziert, was bedeutet, dass wenn ein Begriff t erscheint oft in einem Dokument dann eine Abfrage mit tsollte dieses Dokument abrufen. Wir können Wörter kombinierenterm frequency (tfij) und document frequency (dfi) in ein einzelnes Gewicht wie folgt -

$$ weight \ left (i, j \ right) = \ begin {case} (1 + log (tf_ {ij})) log \ frac {N} {df_ {i}} \: if \: tf_ {i, j} \: \ geq1 \\ 0 \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \ : \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: if \: tf_ {i, j} \: = 0 \ end {Fällen } $$

Hier ist N die Gesamtzahl der Dokumente.

Inverse Dokumentfrequenz (idf)

Dies ist eine andere Form der Dokumenthäufigkeitsgewichtung, die häufig als IDF-Gewichtung oder inverse Dokumenthäufigkeitsgewichtung bezeichnet wird. Der wichtige Punkt der IDF-Gewichtung ist, dass die Knappheit des Begriffs in der gesamten Sammlung ein Maß für seine Bedeutung ist und die Bedeutung umgekehrt proportional zur Häufigkeit des Auftretens ist.

Mathematisch,

$$ idf_ {t} = log \ left (1+ \ frac {N} {n_ {t}} \ right) $$

$$ idf_ {t} = log \ left (\ frac {N-n_ {t}} {n_ {t}} \ right) $$

Hier,

N = Dokumente in der Sammlung

n t = Dokumente mit dem Begriff t

Verbesserung der Benutzerabfrage

Das Hauptziel eines Informationsabrufsystems muss die Genauigkeit sein - relevante Dokumente gemäß den Anforderungen des Benutzers zu erstellen. Hier stellt sich jedoch die Frage, wie wir die Ausgabe verbessern können, indem wir den Abfragestil des Benutzers verbessern. Sicherlich hängt die Ausgabe eines IR-Systems von der Abfrage des Benutzers ab, und eine gut formatierte Abfrage führt zu genaueren Ergebnissen. Der Benutzer kann seine Abfrage mit Hilfe von verbessernrelevance feedback, ein wichtiger Aspekt jedes IR-Modells.

Relevanz Feedback

Das Relevanz-Feedback übernimmt die Ausgabe, die ursprünglich von der angegebenen Abfrage zurückgegeben wurde. Diese anfängliche Ausgabe kann verwendet werden, um Benutzerinformationen zu sammeln und um festzustellen, ob diese Ausgabe für die Durchführung einer neuen Abfrage relevant ist oder nicht. Die Rückmeldungen können wie folgt klassifiziert werden:

Explizites Feedback

Es kann als das Feedback definiert werden, das von den relevanten Bewertern erhalten wird. Diese Prüfer geben auch die Relevanz eines aus der Abfrage abgerufenen Dokuments an. Um die Leistung beim Abrufen von Abfragen zu verbessern, müssen die Relevanz-Feedback-Informationen mit der ursprünglichen Abfrage interpoliert werden.

Assessoren oder andere Benutzer des Systems können die Relevanz explizit angeben, indem sie die folgenden Relevanzsysteme verwenden:

  • Binary relevance system - Dieses Relevanz-Feedback-System zeigt an, dass ein Dokument für eine bestimmte Abfrage entweder relevant (1) oder irrelevant (0) ist.

  • Graded relevance system- Das Bewertungssystem für die Bewertung der Relevanz gibt die Relevanz eines Dokuments für eine bestimmte Abfrage auf der Grundlage der Bewertung anhand von Zahlen, Buchstaben oder Beschreibungen an. Die Beschreibung kann wie "nicht relevant", "etwas relevant", "sehr relevant" oder "relevant" sein.

Implizites Feedback

Es ist das Feedback, das aus dem Benutzerverhalten abgeleitet wird. Das Verhalten umfasst die Zeitdauer, die der Benutzer für das Anzeigen eines Dokuments aufgewendet hat, welches Dokument zum Anzeigen ausgewählt ist und welches nicht, Aktionen zum Durchsuchen und Scrollen von Seiten usw. Eines der besten Beispiele für implizites Feedback istdwell timeDies ist ein Maß dafür, wie viel Zeit ein Benutzer damit verbringt, die in einem Suchergebnis verknüpfte Seite anzuzeigen.

Pseudo-Feedback

Es wird auch als blindes Feedback bezeichnet. Es bietet eine Methode zur automatischen lokalen Analyse. Der manuelle Teil des Relevanz-Feedbacks wird mithilfe des Pseudo-Relevanz-Feedbacks automatisiert, sodass der Benutzer eine verbesserte Abrufleistung ohne erweiterte Interaktion erhält. Der Hauptvorteil dieses Feedback-Systems besteht darin, dass keine Bewerter wie im expliziten Relevanz-Feedback-System erforderlich sind.

Beachten Sie die folgenden Schritte, um dieses Feedback zu implementieren:

  • Step 1- Zunächst muss das von der ersten Abfrage zurückgegebene Ergebnis als relevantes Ergebnis verwendet werden. Der Bereich der relevanten Ergebnisse muss in den Top 10-50 Ergebnissen liegen.

  • Step 2 - Wählen Sie nun die besten 20 bis 30 Begriffe aus den Dokumenten aus, indem Sie beispielsweise die Häufigkeit der Termhäufigkeit (tf) und die Häufigkeit der inversen Dokumenthäufigkeit (idf) verwenden.

  • Step 3- Fügen Sie diese Begriffe zur Abfrage hinzu und stimmen Sie mit den zurückgegebenen Dokumenten überein. Senden Sie dann die relevantesten Dokumente zurück.