Doğal Dil İşleme - Python

Bu bölümde, Python kullanarak dil işlemeyi öğreneceğiz.

Aşağıdaki özellikler Python'u diğer dillerden farklı kılar -

  • Python is interpreted - Yorumlayıcı Python'u çalışma zamanında işlediği için çalıştırmadan önce Python programımızı derlememize gerek yoktur.

  • Interactive - Python programlarımızı yazmak için yorumlayıcıyla doğrudan etkileşim kurabiliriz.

  • Object-oriented - Python, doğası gereği nesne odaklıdır ve bu dili program yazmayı kolaylaştırır, çünkü bu programlama tekniğinin yardımıyla, nesneleri nesnelerin içinde kapsüller.

  • Beginner can easily learn - Python ayrıca başlangıç ​​dili olarak da adlandırılır çünkü anlaşılması çok kolaydır ve çok çeşitli uygulamaların geliştirilmesini destekler.

Önkoşullar

Python 3'ün piyasaya sürülen en son sürümü Python 3.7.1'dir, Windows, Mac OS ve Linux işletim sisteminin çoğu çeşidi için mevcuttur.

  • Windows için, Python'u indirmek ve yüklemek için www.python.org/downloads/windows/ bağlantısına gidebiliriz .

  • MAC OS için www.python.org/downloads/mac-osx/ bağlantısını kullanabiliriz .

  • Linux durumunda, farklı Linux türleri, yeni paketlerin yüklenmesi için farklı paket yöneticileri kullanır.

    • Örneğin, Ubuntu Linux'a Python 3 kurmak için, terminalden aşağıdaki komutu kullanabiliriz -

$sudo apt-get install python3-minimal

Python programlama hakkında daha fazla çalışmak için Python 3 temel öğreticisini okuyun - Python 3

NLTK ile Başlarken

İngilizce metin analizi yapmak için Python kütüphanesi NLTK (Natural Language Toolkit) kullanacağız. Natural language toolkit (NLTK), özellikle İngilizce gibi doğal dil metninde bulunan konuşma bölümlerini tanımlamak ve etiketlemek için tasarlanmış bir Python kitaplıkları koleksiyonudur.

NLTK kurulumu

NLTK kullanmaya başlamadan önce onu kurmamız gerekiyor. Aşağıdaki komutun yardımıyla Python ortamımıza kurabiliriz -

pip install nltk

Anaconda kullanıyorsak, aşağıdaki komut kullanılarak NLTK için bir Conda paketi oluşturulabilir -

conda install -c anaconda nltk

NLTK'nın Verilerini İndirme

NLTK'yi kurduktan sonra, bir diğer önemli görev, önceden ayarlanmış metin havuzlarını indirmektir, böylece kolayca kullanılabilir. Ancak bundan önce NLTK'yi diğer herhangi bir Python modülünü içe aktardığımız şekilde içe aktarmamız gerekir. Aşağıdaki komut, NLTK'yi içe aktarmamıza yardımcı olacaktır -

import nltk

Şimdi, aşağıdaki komutun yardımıyla NLTK verilerini indirin -

nltk.download()

Mevcut tüm NLTK paketlerini kurmak biraz zaman alacaktır.

Diğer Gerekli Paketler

Gibi diğer bazı Python paketleri gensim ve patternNLTK kullanarak doğal dil işleme uygulamaları oluşturmanın yanı sıra metin analizi için de çok gereklidir. paketler aşağıda gösterildiği gibi kurulabilir -

Gensim

gensim, birçok uygulama için kullanılabilen sağlam bir anlamsal modelleme kitaplığıdır. Aşağıdaki komutu takip ederek kurabiliriz -

pip install gensim

Desen

Yapmak için kullanılabilir gensimpaket düzgün çalışıyor. Aşağıdaki komut, kalıbı kurmaya yardımcı olur -

pip install pattern

Tokenizasyon

Simgeleştirme, verilen metnin simge adı verilen daha küçük birimlere bölünmesi işlemi olarak tanımlanabilir. Kelimeler, sayılar veya noktalama işaretleri simge olabilir. Kelime segmentasyonu olarak da adlandırılabilir.

Misal

Input - Yatak ve sandalye mobilya çeşitleridir.

NLTK tarafından sağlanan farklı tokenleştirme paketlerimiz var. Bu paketleri ihtiyaçlarımıza göre kullanabiliriz. Paketler ve kurulum detayları aşağıdaki gibidir -

sent_tokenize paketi

Bu paket, giriş metnini cümlelere bölmek için kullanılabilir. Aşağıdaki komutu kullanarak içe aktarabiliriz -

from nltk.tokenize import sent_tokenize

word_tokenize paketi

Bu paket, giriş metnini kelimelere bölmek için kullanılabilir. Aşağıdaki komutu kullanarak içe aktarabiliriz -

from nltk.tokenize import word_tokenize

WordPunctTokenizer paketi

Bu paket, giriş metnini kelimelere ve noktalama işaretlerine bölmek için kullanılabilir. Aşağıdaki komutu kullanarak içe aktarabiliriz -

from nltk.tokenize import WordPuncttokenizer

Stemming

Dilbilgisel nedenlerden dolayı, dil birçok çeşitlilik içerir. Dilin, İngilizcenin yanı sıra diğer dillerin de farklı biçimlere sahip olması anlamındaki varyasyonlar. Örneğin, gibi kelimelerdemocracy, democratic, ve democratization. Makine öğrenimi projeleri için, makinelerin yukarıdaki gibi bu farklı kelimelerin aynı temel forma sahip olduğunu anlaması çok önemlidir. Bu yüzden metni incelerken kelimelerin temel formlarını çıkarmak çok faydalıdır.

Kök oluşturma, kelimelerin uçlarını keserek temel biçimlerini çıkarmaya yardımcı olan sezgisel bir süreçtir.

NLTK modülü tarafından sağlanan farklı kök tespiti paketleri aşağıdaki gibidir -

PorterStemmer paketi

Porter'ın algoritması, bu kök bulma paketi tarafından kelimelerin temel biçimini çıkarmak için kullanılır. Aşağıdaki komutun yardımıyla bu paketi içe aktarabiliriz -

from nltk.stem.porter import PorterStemmer

Örneğin, ‘write’ kelimenin çıktısı olurdu ‘writing’ bu saplayıcıya girdi olarak verilir.

LancasterStemmer paketi

Lancaster'ın algoritması, bu kök bulma paketi tarafından kelimelerin temel biçimini çıkarmak için kullanılır. Aşağıdaki komutun yardımıyla bu paketi içe aktarabiliriz -

from nltk.stem.lancaster import LancasterStemmer

Örneğin, ‘writ’ kelimenin çıktısı olurdu ‘writing’ bu saplayıcıya girdi olarak verilir.

SnowballStemmer paketi

Snowball'un algoritması, bu kök bulma paketi tarafından kelimelerin temel biçimini çıkarmak için kullanılır. Aşağıdaki komutun yardımıyla bu paketi içe aktarabiliriz -

from nltk.stem.snowball import SnowballStemmer

Örneğin, ‘write’ kelimenin çıktısı olurdu ‘writing’ bu saplayıcıya girdi olarak verilir.

Lemmatizasyon

Normalde kelime hazinesi ve morfolojik analiz kullanarak çekim sonlarını kaldırmayı amaçlayan kelimelerin temel biçimini çıkarmanın başka bir yoludur. Sözcüklendirmeden sonra herhangi bir kelimenin temel biçimine lemma denir.

NLTK modülü, lemmatizasyon için aşağıdaki paketi sağlar -

WordNetLemmatizer paketi

Bu paket, bir isim veya fiil olarak kullanılmasına bağlı olarak kelimenin temel biçimini çıkaracaktır. Bu paketi içe aktarmak için aşağıdaki komut kullanılabilir -

from nltk.stem import WordNetLemmatizer

POS Etiketlerini Sayma - Yığınlama

Konuşma bölümlerinin (POS) ve kısa cümlelerin tanımlanması, öbekleme yardımı ile yapılabilir. Doğal dil işlemede önemli süreçlerden biridir. Jeton oluşturma işleminin bilincinde olduğumuz için, yığınlama aslında bu jetonların etiketlenmesini yapmaktır. Yani cümlenin yapısını chunking süreci yardımıyla elde edebileceğimizi söyleyebiliriz.

Misal

Aşağıdaki örnekte, NLTK Python modülünü kullanarak cümledeki isim cümle parçalarını bulacak bir öbekleme kategorisi olan İsim-Tümce öbekleme uygulayacağız.

İsim-kelime öbeği oluşturmak için aşağıdaki adımları göz önünde bulundurun -

Step 1: Chunk grammar definition

Bu adımda, yığın oluşturma için grameri tanımlamamız gerekiyor. Uymamız gereken kurallardan oluşacaktır.

Step 2: Chunk parser creation

Sonra, bir yığın ayrıştırıcı oluşturmamız gerekiyor. Dilbilgisini ayrıştırır ve çıktıyı verir.

Step 3: The Output

Bu adımda çıktıyı ağaç formatında alacağız.

NLP Komut Dosyasını Çalıştırma

NLTK paketini içe aktararak başlayın -

import nltk

Şimdi cümleyi tanımlamamız gerekiyor.

Buraya,

  • DT belirleyicidir

  • VBP fiildir

  • JJ sıfattır

  • IN edattır

  • NN isim

sentence = [("a", "DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
   ("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]

Daha sonra dilbilgisi düzenli ifade şeklinde verilmelidir.

grammar = "NP:{<DT>?<JJ>*<NN>}"

Şimdi, dilbilgisini ayrıştırmak için bir ayrıştırıcı tanımlamamız gerekiyor.

parser_chunking = nltk.RegexpParser(grammar)

Şimdi, ayrıştırıcı cümleyi şu şekilde ayrıştıracak -

parser_chunking.parse(sentence)

Ardından, çıktı aşağıdaki gibi değişkende olacaktır: -

Output = parser_chunking.parse(sentence)

Şimdi, aşağıdaki kod çıktınızı ağaç şeklinde çizmenize yardımcı olacaktır.

output.draw()