Python - Textverarbeitung Einführung

Die Textverarbeitung hat eine direkte Anwendung auf die Verarbeitung natürlicher Sprache, auch als NLP bekannt. NLP zielt darauf ab, die von Menschen gesprochenen oder geschriebenen Sprachen zu verarbeiten, wenn sie miteinander kommunizieren. Dies unterscheidet sich von der Kommunikation zwischen einem Computer und einem Menschen, bei der die Kommunikation mit einem von einem Menschen geschriebenen Computerprogramm oder einer Geste eines Menschen wie einem Mausklick an einer bestimmten Position erfolgt. NLP versucht, die vom Menschen gesprochene natürliche Sprache zu verstehen und zu klassifizieren, analysiert sie bei Bedarf auch und reagiert darauf. Python verfügt über eine Vielzahl von Bibliotheken, die auf die Anforderungen von NLP zugeschnitten sind. Das Natural Language Tool Kit (NLTK) ist eine Suite solcher Bibliotheken, die die für NLP erforderlichen Funktionen bereitstellt.

Im Folgenden finden Sie einige Anwendungen, die NLP und indirekt Python NLTK verwenden.

Zusammenfassung

Oft müssen wir die Zusammenfassung eines Nachrichtenartikels, einer Filmhandlung oder einer großen Geschichte erhalten. Sie sind alle in menschlicher Sprache verfasst und ohne NLP müssen wir uns auf die Interpretation und Präsentation einer solchen Zusammenfassung durch einen anderen Menschen verlassen. Mithilfe von NLP können wir jedoch Programme zur Verwendung von NLTK schreiben und den Langtext mit verschiedenen Parametern zusammenfassen, z. B. wie viel Prozent des Textes in der endgültigen Ausgabe enthalten sein sollen, wobei die positiven und negativen Wörter für die Zusammenfassung ausgewählt werden usw. Die Online-Newsfeeds basieren darauf über solche Zusammenfassungstechniken, um neue Erkenntnisse zu präsentieren.

Sprachbasierte Tools

Die sprachbasierten Tools wie Äpfel Siri oder Amazon Alexa verlassen sich auf NLP, um die verrückte Interaktion mit Menschen zu verstehen. Sie haben einen großen Trainingsdatensatz aus Wörtern, Sätzen und Grammatik, um die Frage oder den Befehl eines Menschen zu interpretieren und zu verarbeiten. Obwohl es sich um Sprache handelt, wird sie indirekt auch in Text übersetzt, und die resultierende Textform der Stimme wird durch das NLP-System geleitet, um ein Ergebnis zu erzielen.

Informationsextraktion

Web-Scrapping ist ein häufiges Beispiel für das Extrahieren von Daten aus den Webseiten mithilfe von Python-Code. Hier ist es möglicherweise nicht streng NLP-basiert, aber es beinhaltet eine Textverarbeitung. Wenn wir beispielsweise nur die auf einer HTML-Seite vorhandenen Überschriften extrahieren müssen, suchen wir in der Seitenstruktur nach dem h1-Tag und finden eine Möglichkeit, den Text nur zwischen diesen Tags zu extrahieren. Dies erfordert ein Textverarbeitungsprogramm von Python.

Spam-Filterung

Der Spam in E-Mails kann identifiziert und beseitigt werden, indem der Text in der Betreffzeile sowie im Inhalt der Nachricht analysiert wird. Da die Spam-E-Mails normalerweise in großen Mengen an viele Empfänger gesendet werden, können sie angepasst und markiert werden, um sie als Spam zu kennzeichnen. Auch hier müssen die NLTK-Bibliotheken verwendet werden.

Sprachübersetzung

Die computergestützte Sprachübersetzung basiert stark auf NLP. Da auf der Online-Plattform immer mehr Sprachen verwendet werden, muss die Übersetzung von einer menschlichen Sprache in eine andere automatisiert werden. Dies beinhaltet die Programmierung, um das Vokabular, die Grammatik und die Kontextkennzeichnung der an der Übersetzung beteiligten Sprachen zu handhaben. Auch hier wird NLTK verwendet, um solche Anforderungen zu erfüllen.

Stimmungsanalyse

Um die allgemeine Reaktion auf die Leistung eines Films herauszufinden, müssen wir möglicherweise Tausende von Feedback-Posts des Publikums lesen. Aber auch das kann automatisiert werden, indem die Klassifizierung von positivem und negativem Feedback durch Wort- und Satzanalyse verwendet wird. Und dann die Häufigkeit positiver und negativer Bewertungen messen, um die allgemeine Stimmung des Publikums zu ermitteln. Dies erfordert offensichtlich die Analyse der vom Publikum geschriebenen menschlichen Sprache, und NLTK wird hier häufig zur Verarbeitung des Textes verwendet.