Python - Tokenisasi

Dalam Python, tokenisasi pada dasarnya mengacu pada pemisahan tubuh teks yang lebih besar menjadi baris yang lebih kecil, kata-kata atau bahkan membuat kata-kata untuk bahasa non-Inggris. Berbagai fungsi tokenisasi ada di dalam modul nltk itu sendiri dan dapat digunakan dalam program seperti yang ditunjukkan di bawah ini.

Tokenisasi Baris

Pada contoh di bawah ini kami membagi teks yang diberikan menjadi beberapa baris dengan menggunakan fungsi sent_tokenize.

import nltk
sentence_data = "The First sentence is about Python. The Second: about Django. You can learn Python,Django and Data Ananlysis here. "
nltk_tokens = nltk.sent_tokenize(sentence_data)
print (nltk_tokens)

Ketika kami menjalankan program di atas, kami mendapatkan output berikut -

['The First sentence is about Python.', 'The Second: about Django.', 'You can learn Python,Django and Data Ananlysis here.']

Tokenisasi Non-Inggris

Dalam contoh di bawah ini kami membuat token teks Jerman.

import nltk
german_tokenizer = nltk.data.load('tokenizers/punkt/german.pickle')
german_tokens=german_tokenizer.tokenize('Wie geht es Ihnen?  Gut, danke.')
print(german_tokens)

Ketika kami menjalankan program di atas, kami mendapatkan output berikut -

['Wie geht es Ihnen?', 'Gut, danke.']

Kata Tokenzitaion

Kami membuat token kata-kata menggunakan fungsi word_tokenize yang tersedia sebagai bagian dari nltk.

import nltk
word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms"
nltk_tokens = nltk.word_tokenize(word_data)
print (nltk_tokens)

Ketika kami menjalankan program di atas, kami mendapatkan output berikut -

['It', 'originated', 'from', 'the', 'idea', 'that', 'there', 'are', 'readers', 
'who', 'prefer', 'learning', 'new', 'skills', 'from', 'the',
'comforts', 'of', 'their', 'drawing', 'rooms']