Gensim - Erstellen eines LSI- und HDP-Themenmodells
Dieses Kapitel befasst sich mit der Erstellung des Themenmodells Latent Semantic Indexing (LSI) und Hierarchical Dirichlet Process (HDP) in Bezug auf Gensim.
Das Thema Modellierungsalgorithmen, das erstmals in Gensim mit Latent Dirichlet Allocation (LDA) implementiert wurde, ist Latent Semantic Indexing (LSI). Es wird auch genanntLatent Semantic Analysis (LSA). Es wurde 1988 von Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landaur, Karen Lochbaum und Lynn Streeter patentiert.
In diesem Abschnitt werden wir unser LSI-Modell einrichten. Dies kann auf die gleiche Weise wie beim Einrichten des LDA-Modells erfolgen. Wir müssen das LSI-Modell aus importierengensim.models.
Rolle von LSI
Tatsächlich ist LSI eine NLP-Technik, insbesondere in der Verteilungssemantik. Es analysiert die Beziehung zwischen einer Reihe von Dokumenten und den Begriffen, die diese Dokumente enthalten. Wenn wir über seine Funktionsweise sprechen, erstellt es eine Matrix, die aus einem großen Textstück die Anzahl der Wörter pro Dokument enthält.
Nach der Erstellung verwendet das LSI-Modell eine mathematische Technik, die als Singular Value Decomposition (SVD) bezeichnet wird, um die Anzahl der Zeilen zu verringern. Neben der Reduzierung der Anzahl der Zeilen bleibt auch die Ähnlichkeitsstruktur zwischen den Spalten erhalten.
In der Matrix repräsentieren die Zeilen eindeutige Wörter und die Spalten jedes Dokument. Es funktioniert basierend auf einer Verteilungshypothese, dh es wird angenommen, dass die Wörter, deren Bedeutung nahe beieinander liegt, in derselben Art von Text vorkommen.
Implementierung mit Gensim
Hier werden wir LSI (Latent Semantic Indexing) verwenden, um die natürlich diskutierten Themen aus dem Datensatz zu extrahieren.
Datensatz wird geladen
Der Datensatz, den wir verwenden werden, ist der Datensatz von ’20 Newsgroups’mit Tausenden von Nachrichtenartikeln aus verschiedenen Abschnitten eines Nachrichtenberichts. Es ist verfügbar unterSklearnDatensätze. Wir können einfach mit Hilfe des folgenden Python-Skripts herunterladen -
Wir brauchen Stoppwörter von NLTK und ein englisches Modell von Scapy. Beide können wie folgt heruntergeladen werden:
import nltk;'stopwords')
nlp = spacy.load('en_core_web_md', disable=['parser', 'ner'])
Notwendige Pakete importieren
Um ein LSI-Modell zu erstellen, müssen wir das folgende erforderliche Paket importieren:
import re
import numpy as np
import pandas as pd
from pprint import pprint
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel
import spacy
import matplotlib.pyplot as plt
Stoppwörter vorbereiten
Jetzt müssen wir die Stoppwörter importieren und verwenden -
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
stop_words.extend(['from', 'subject', 're', 'edu', 'use'])
Bereinigen Sie den Text
Nun, mit Hilfe von Gensim simple_preprocess()Wir müssen jeden Satz in eine Liste von Wörtern umwandeln. Wir sollten auch die Interpunktionen und unnötigen Zeichen entfernen. Zu diesem Zweck erstellen wir eine Funktion mit dem Namensent_to_words() - -
def sent_to_words(sentences):
for sentence in sentences:
yield(gensim.utils.simple_preprocess(str(sentence), deacc=True))
data_words = list(sent_to_words(data))
Erstellen von Bigram- und Trigram-Modellen
Wie wir wissen, sind Bigramme zwei Wörter, die im Dokument häufig zusammen vorkommen, und Trigramm sind drei Wörter, die im Dokument häufig zusammen vorkommen. Mit Hilfe von Gensims Phrasenmodell können wir dies tun -
bigram = gensim.models.Phrases(data_words, min_count=5, threshold=100)
trigram = gensim.models.Phrases(bigram[data_words], threshold=100)
bigram_mod = gensim.models.phrases.Phraser(bigram)
trigram_mod = gensim.models.phrases.Phraser(trigram)
Stoppwörter herausfiltern
Als nächstes müssen wir die Stoppwörter herausfiltern. Daneben werden wir auch Funktionen zur Herstellung von Bigrams, Trigrammen und zur Lemmatisierung erstellen -
def remove_stopwords(texts):
return [[word for word in simple_preprocess(str(doc))
if word not in stop_words] for doc in texts]
def make_bigrams(texts):
return [bigram_mod[doc] for doc in texts]
def make_trigrams(texts):
return [trigram_mod[bigram_mod[doc]] for doc in texts]
def lemmatization(texts, allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV']):
texts_out = []
for sent in texts:
doc = nlp(" ".join(sent))
texts_out.append([token.lemma_ for token in doc if token.pos_ in allowed_postags])
return texts_out
Erstellen von Wörterbuch und Korpus für das Themenmodell
Wir müssen jetzt das Wörterbuch und den Korpus erstellen. Wir haben es auch in den vorherigen Beispielen gemacht -
id2word = corpora.Dictionary(data_lemmatized)
texts = data_lemmatized
corpus = [id2word.doc2bow(text) for text in texts]
Erstellen eines LSI-Themenmodells
Wir haben bereits alles implementiert, was zum Trainieren des LSI-Modells erforderlich ist. Jetzt ist es an der Zeit, das LSI-Themenmodell zu erstellen. Für unser Implementierungsbeispiel kann dies mithilfe der folgenden Codezeile erfolgen:
lsi_model = gensim.models.lsimodel.LsiModel(
corpus=corpus, id2word=id2word, num_topics=20,chunksize=100
Sehen wir uns das vollständige Implementierungsbeispiel zum Erstellen eines LDA-Themenmodells an.
Wir können jetzt das oben erstellte LSI-Modell verwenden, um die Themen abzurufen.
Anzeigen von Themen im LSI-Modell
Das LSI-Modell (lsi_model)Wir haben oben erstellt, um die Themen aus den Dokumenten anzuzeigen. Dies kann mit Hilfe des folgenden Skripts erfolgen:
doc_lsi = lsi_model[corpus]
'1.000*"ax" + 0.001*"_" + 0.000*"tm" + 0.000*"part" + 0.000*"pne" + '
'0.000*"biz" + 0.000*"mbs" + 0.000*"end" + 0.000*"fax" + 0.000*"mb"'),
'0.239*"say" + 0.222*"file" + 0.189*"go" + 0.171*"know" + 0.169*"people" + '
'0.147*"make" + 0.140*"use" + 0.135*"also" + 0.133*"see" + 0.123*"think"')
Hierarchischer Dirichlet-Prozess (HPD)
Themenmodelle wie LDA und LSI helfen bei der Zusammenfassung und Organisation großer Textarchive, die nicht von Hand analysiert werden können. Neben LDA und LSI ist HDP (Hierarchical Dirichlet Process) ein weiteres leistungsstarkes Themenmodell in Gensim. Grundsätzlich handelt es sich um ein Modell mit gemischter Mitgliedschaft für die unbeaufsichtigte Analyse gruppierter Daten. Im Gegensatz zu LDA (dem endlichen Gegenstück) leitet HDP die Anzahl der Themen aus den Daten ab.
Implementierung mit Gensim
Für die Implementierung von HDP in Gensim müssen wir Korpus und Wörterbuch trainieren (wie in den obigen Beispielen bei der Implementierung von LDA- und LSI-Themenmodellen). HDP-Themenmodell, das wir aus gensim.models.HdpModel importieren können. Auch hier werden wir das HDP-Themenmodell für 20Newsgroup-Daten implementieren und die Schritte sind ebenfalls gleich.
Für unseren Korpus und unser Wörterbuch (erstellt in den obigen Beispielen für das LSI- und LDA-Modell) können wir HdpModel wie folgt importieren:
Hdp_model = gensim.models.hdpmodel.HdpModel(corpus=corpus, id2word=id2word)
Anzeigen von Themen im LSI-Modell
Das HDP-Modell (Hdp_model)kann verwendet werden, um die Themen aus den Dokumenten anzuzeigen. Dies kann mit Hilfe des folgenden Skripts erfolgen:
'0.009*line + 0.009*write + 0.006*say + 0.006*article + 0.006*know + '
'0.006*people + 0.005*make + 0.005*go + 0.005*think + 0.005*be'),
'0.016*line + 0.011*write + 0.008*article + 0.008*organization + 0.006*know '
'+ 0.006*host + 0.006*be + 0.005*get + 0.005*use + 0.005*say'),
'0.810*ax + 0.001*_ + 0.000*tm + 0.000*part + 0.000*mb + 0.000*pne + '
'0.000*biz + 0.000*end + 0.000*wwiz + 0.000*fax'),
'0.015*line + 0.008*write + 0.007*organization + 0.006*host + 0.006*know + '
'0.006*article + 0.005*use + 0.005*thank + 0.004*get + 0.004*problem'),
'0.004*line + 0.003*write + 0.002*believe + 0.002*think + 0.002*article + '
'0.002*belief + 0.002*say + 0.002*see + 0.002*look + 0.002*organization'),
'0.005*line + 0.003*write + 0.003*organization + 0.002*article + 0.002*time '
'+ 0.002*host + 0.002*get + 0.002*look + 0.002*say + 0.001*number'),
'0.003*line + 0.002*say + 0.002*write + 0.002*go + 0.002*gun + 0.002*get + '
'0.002*organization + 0.002*bill + 0.002*article + 0.002*state'),
'0.003*line + 0.002*write + 0.002*article + 0.002*organization + 0.001*none '
'+ 0.001*know + 0.001*say + 0.001*people + 0.001*host + 0.001*new'),
'0.004*line + 0.002*write + 0.002*get + 0.002*team + 0.002*organization + '
'0.002*go + 0.002*think + 0.002*know + 0.002*article + 0.001*well'),
'0.004*line + 0.002*organization + 0.002*write + 0.001*be + 0.001*host + '
'0.001*article + 0.001*thank + 0.001*use + 0.001*work + 0.001*run'),
'0.002*line + 0.001*game + 0.001*write + 0.001*get + 0.001*know + '
'0.001*thing + 0.001*think + 0.001*article + 0.001*help + 0.001*turn'),
'0.002*line + 0.001*write + 0.001*game + 0.001*organization + 0.001*say + '
'0.001*host + 0.001*give + 0.001*run + 0.001*article + 0.001*get'),
'0.002*line + 0.001*write + 0.001*know + 0.001*time + 0.001*article + '
'0.001*get + 0.001*think + 0.001*organization + 0.001*scope + 0.001*make'),
'0.002*line + 0.002*write + 0.001*article + 0.001*organization + 0.001*make '
'+ 0.001*know + 0.001*see + 0.001*get + 0.001*host + 0.001*really'),
'0.002*write + 0.002*line + 0.002*know + 0.001*think + 0.001*say + '
'0.001*article + 0.001*argument + 0.001*even + 0.001*card + 0.001*be'),
'0.001*article + 0.001*line + 0.001*make + 0.001*write + 0.001*know + '
'0.001*say + 0.001*exist + 0.001*get + 0.001*purpose + 0.001*organization'),
'0.002*line + 0.001*write + 0.001*article + 0.001*insurance + 0.001*go + '
'0.001*be + 0.001*host + 0.001*say + 0.001*organization + 0.001*part'),
'0.001*line + 0.001*get + 0.001*hit + 0.001*go + 0.001*write + 0.001*say + '
'0.001*know + 0.001*drug + 0.001*see + 0.001*need'),
'0.002*option + 0.001*line + 0.001*flight + 0.001*power + 0.001*software + '
'0.001*write + 0.001*add + 0.001*people + 0.001*organization + 0.001*module'),
'0.001*shuttle + 0.001*line + 0.001*roll + 0.001*attitude + 0.001*maneuver + '
'0.001*mission + 0.001*also + 0.001*orbit + 0.001*produce + 0.001*frequency')