Python - Köklendirme ve Lemmatizasyon

Doğal Dil İşleme alanlarında, iki veya daha fazla kelimenin ortak bir köke sahip olduğu durumlarla karşılaşıyoruz. Örneğin, üç kelime - kabul edildi, katılıyorum ve kabul edilebilir aynı kök kelimeye sahiptir. Bu kelimelerden herhangi birini içeren bir arama, onları kök kelime olan aynı kelime olarak ele almalıdır. Bu nedenle, tüm kelimeleri kök kelimelerine bağlamak zorunlu hale gelir. NLTK kitaplığı, bu bağlamayı yapmak ve kök sözcüğü gösteren çıktıyı vermek için yöntemler içerir.

Aşağıdaki program kök belirleme için Porter Stemming Algoritmasını kullanır.

import nltk
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()

word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms"
# First Word tokenization
nltk_tokens = nltk.word_tokenize(word_data)
#Next find the roots of the word
for w in nltk_tokens:
       print "Actual: %s  Stem: %s"  % (w,porter_stemmer.stem(w))

Yukarıdaki kodu çalıştırdığımızda aşağıdaki sonucu verir.

Actual: It  Stem: It
Actual: originated  Stem: origin
Actual: from  Stem: from
Actual: the  Stem: the
Actual: idea  Stem: idea
Actual: that  Stem: that
Actual: there  Stem: there
Actual: are  Stem: are
Actual: readers  Stem: reader
Actual: who  Stem: who
Actual: prefer  Stem: prefer
Actual: learning  Stem: learn
Actual: new  Stem: new
Actual: skills  Stem: skill
Actual: from  Stem: from
Actual: the  Stem: the
Actual: comforts  Stem: comfort
Actual: of  Stem: of
Actual: their  Stem: their
Actual: drawing  Stem: draw
Actual: rooms  Stem: room

Lemmatizasyon, türetme ile benzerdir, ancak kelimelere bağlam kazandırır.Bu nedenle, benzer anlama sahip kelimeleri bir kelimeye bağlayarak bir adım daha ileri gider. Örneğin, bir paragrafta arabalar, trenler ve otomobil gibi kelimeler varsa, o zaman hepsini otomobile bağlar. Aşağıdaki programda, lemmatizasyon için WordNet sözlük veritabanını kullanıyoruz.

import nltk
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()

word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms"
nltk_tokens = nltk.word_tokenize(word_data)
for w in nltk_tokens:
       print "Actual: %s  Lemma: %s"  % (w,wordnet_lemmatizer.lemmatize(w))

Yukarıdaki kodu çalıştırdığımızda aşağıdaki sonucu verir.

Actual: It  Lemma: It
Actual: originated  Lemma: originated
Actual: from  Lemma: from
Actual: the  Lemma: the
Actual: idea  Lemma: idea
Actual: that  Lemma: that
Actual: there  Lemma: there
Actual: are  Lemma: are
Actual: readers  Lemma: reader
Actual: who  Lemma: who
Actual: prefer  Lemma: prefer
Actual: learning  Lemma: learning
Actual: new  Lemma: new
Actual: skills  Lemma: skill
Actual: from  Lemma: from
Actual: the  Lemma: the
Actual: comforts  Lemma: comfort
Actual: of  Lemma: of
Actual: their  Lemma: their
Actual: drawing  Lemma: drawing
Actual: rooms  Lemma: room