Gensim - Einführung
Dieses Kapitel hilft Ihnen dabei, die Geschichte und Funktionen von Gensim sowie seine Verwendung und Vorteile zu verstehen.
Was ist Gensim?
Gensim = “Generate Similar”ist eine beliebte Open-Source-Bibliothek für die Verarbeitung natürlicher Sprache (NLP), die für die unbeaufsichtigte Themenmodellierung verwendet wird. Es verwendet akademische Spitzenmodelle und modernes statistisches maschinelles Lernen, um verschiedene komplexe Aufgaben auszuführen, wie z.
- Erstellen von Dokument- oder Wortvektoren
- Corpora
- Themenidentifikation durchführen
- Dokumentvergleich durchführen (semantisch ähnliche Dokumente abrufen)
- Analyse von Klartextdokumenten auf semantische Struktur
Neben der Ausführung der oben genannten komplexen Aufgaben wurde Gensim, das in Python und Cython implementiert ist, für die Verarbeitung großer Textsammlungen mithilfe von Daten-Streaming sowie inkrementellen Online-Algorithmen entwickelt. Dies unterscheidet es von den Softwarepaketen für maschinelles Lernen, die nur auf die In-Memory-Verarbeitung abzielen.
Geschichte
2008 startete Gensim als Sammlung verschiedener Python-Skripte für die tschechische digitale Mathematik. Dort diente es dazu, eine kurze Liste der Artikel zu erstellen, die einem bestimmten Artikel am ähnlichsten sind. Im Jahr 2009 veröffentlichte RARE Technologies Ltd. seine erste Version. Dann, später im Juli 2019, haben wir die stabile Version (3.8.0) erhalten.
Verschiedene Funktionen
Im Folgenden sind einige der von Gensim angebotenen Funktionen und Fähigkeiten aufgeführt:
Skalierbarkeit
Gensim kann mithilfe seiner inkrementellen Online-Trainingsalgorithmen problemlos große und webbasierte Korpora verarbeiten. Es ist von Natur aus skalierbar, da nicht der gesamte Eingabekorpus gleichzeitig vollständig im Arbeitsspeicher (RAM) gespeichert werden muss. Mit anderen Worten, alle seine Algorithmen sind in Bezug auf die Korpusgröße speicherunabhängig.
Robust
Gensim ist von Natur aus robust und wird seit über 4 Jahren von verschiedenen Personen und Organisationen in verschiedenen Systemen eingesetzt. Wir können problemlos unseren eigenen Eingabekorpus oder Datenstrom anschließen. Es ist auch sehr einfach, mit anderen Vektorraumalgorithmen zu erweitern.
Plattformunabhängig
Wie wir wissen, ist Python eine sehr vielseitige Sprache, da Python Gensim auf allen Plattformen (wie Windows, Mac OS, Linux) ausgeführt wird, die Python und Numpy unterstützen.
Effiziente Multicore-Implementierungen
Um die Verarbeitung und das Abrufen auf Maschinenclustern zu beschleunigen, bietet Gensim effiziente Multicore-Implementierungen verschiedener gängiger Algorithmen wie Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP).
Open Source und reichlich Community-Unterstützung
Gensim ist unter der von OSI genehmigten GNU LGPL-Lizenz lizenziert, mit der es sowohl für den persönlichen als auch für den kommerziellen Gebrauch kostenlos verwendet werden kann. Alle in Gensim vorgenommenen Änderungen sind wiederum Open-Source-Änderungen und werden auch von der Community reichlich unterstützt.
Verwendung von Gensim
Gensim wurde in über tausend kommerziellen und akademischen Anwendungen verwendet und zitiert. Es wird auch von verschiedenen Forschungsarbeiten und Abschlussarbeiten zitiert. Es enthält gestreamte parallelisierte Implementierungen der folgenden -
fastText
fastText verwendet ein neuronales Netzwerk für die Worteinbettung und ist eine Bibliothek zum Erlernen der Worteinbettung und der Textklassifizierung. Es wird vom FAIR-Labor (FAIR) von Facebook erstellt. Dieses Modell ermöglicht es uns grundsätzlich, einen überwachten oder unbeaufsichtigten Algorithmus zum Erhalten von Vektordarstellungen für Wörter zu erstellen.
Word2vec
Word2vec, das zur Erzeugung der Worteinbettung verwendet wird, ist eine Gruppe von flachen und zweischichtigen neuronalen Netzwerkmodellen. Die Modelle sind grundsätzlich darauf trainiert, sprachliche Wortkontexte zu rekonstruieren.
LSA (Latent Semantic Analysis)
Es ist eine Technik in NLP (Natural Language Processing), mit der wir die Beziehungen zwischen einer Reihe von Dokumenten und ihren enthaltenen Begriffen analysieren können. Dazu werden eine Reihe von Konzepten erstellt, die sich auf die Dokumente und Begriffe beziehen.
LDA (Latent Dirichlet Allocation)
Es ist eine Technik in NLP, mit der Beobachtungssätze von unbeobachteten Gruppen erklärt werden können. Diese unbeobachteten Gruppen erklären, warum einige Teile der Daten ähnlich sind. Das ist der Grund, es ist ein generatives statistisches Modell.
tf-idf (Begriff Frequenz-inverse Dokumentfrequenz)
tf-idf, eine numerische Statistik beim Abrufen von Informationen, gibt an, wie wichtig ein Wort für ein Dokument in einem Korpus ist. Es wird häufig von Suchmaschinen verwendet, um die Relevanz eines Dokuments bei einer Benutzerabfrage zu bewerten und zu bewerten. Es kann auch zur Filterung von Stoppwörtern bei der Zusammenfassung und Klassifizierung von Texten verwendet werden.
Alle werden in den nächsten Abschnitten ausführlich erläutert.
Vorteile
Gensim ist ein NLP-Paket, das Themenmodellierung durchführt. Die wichtigen Vorteile von Gensim sind folgende:
Wir können die Möglichkeiten der Themenmodellierung und Worteinbettung in andere Pakete wie erhalten ‘scikit-learn’ und ‘R’Die von Gensim bereitgestellten Möglichkeiten zum Erstellen von Themenmodellen und zum Einbetten von Wörtern sind jedoch beispiellos. Es bietet auch bequemere Möglichkeiten für die Textverarbeitung.
Ein weiterer wichtiger Vorteil von Gensim ist, dass wir damit große Textdateien verarbeiten können, auch ohne die gesamte Datei in den Speicher zu laden.
Gensim erfordert keine kostspieligen Anmerkungen oder manuellen Kennzeichnungen von Dokumenten, da unbeaufsichtigte Modelle verwendet werden.