Python - Tokenisierung

In Python bezieht sich Tokenisierung im Wesentlichen auf das Aufteilen eines größeren Textkörpers in kleinere Zeilen, Wörter oder sogar das Erstellen von Wörtern für eine nicht englische Sprache. Die verschiedenen Tokenisierungsfunktionen sind im nltk-Modul selbst integriert und können wie unten gezeigt in Programmen verwendet werden.

Line Tokenization

Im folgenden Beispiel teilen wir einen bestimmten Text mithilfe der Funktion sent_tokenize in verschiedene Zeilen.

import nltk
sentence_data = "The First sentence is about Python. The Second: about Django. You can learn Python,Django and Data Ananlysis here. "
nltk_tokens = nltk.sent_tokenize(sentence_data)
print (nltk_tokens)

Wenn wir das obige Programm ausführen, erhalten wir die folgende Ausgabe:

['The First sentence is about Python.', 'The Second: about Django.', 'You can learn Python,Django and Data Ananlysis here.']

Nicht-englische Tokenisierung

Im folgenden Beispiel tokenisieren wir den deutschen Text.

import nltk
german_tokenizer = nltk.data.load('tokenizers/punkt/german.pickle')
german_tokens=german_tokenizer.tokenize('Wie geht es Ihnen?  Gut, danke.')
print(german_tokens)

Wenn wir das obige Programm ausführen, erhalten wir die folgende Ausgabe:

['Wie geht es Ihnen?', 'Gut, danke.']

Wort Tokenzitaion

Wir tokenisieren die Wörter mit der Funktion word_tokenize, die als Teil von nltk verfügbar ist.

import nltk
word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms"
nltk_tokens = nltk.word_tokenize(word_data)
print (nltk_tokens)

Wenn wir das obige Programm ausführen, erhalten wir die folgende Ausgabe -

['It', 'originated', 'from', 'the', 'idea', 'that', 'there', 'are', 'readers', 
'who', 'prefer', 'learning', 'new', 'skills', 'from', 'the',
'comforts', 'of', 'their', 'drawing', 'rooms']