NLP - Kelime Seviyesi Analizi

Bu bölümde, Doğal Dil İşlemede dünya düzeyindeki analizi anlayacağız.

Düzenli ifadeler

Normal ifade (RE), metin arama dizelerini belirlemek için kullanılan bir dildir. RE, bir modelde tutulan özel bir sözdizimini kullanarak diğer dizeleri veya dizgi kümelerini eşleştirmemize veya bulmamıza yardımcı olur. Normal ifadeler, UNIX ve MS WORD'deki metinleri aynı şekilde aramak için kullanılır. Bir dizi RE özelliğini kullanan çeşitli arama motorlarımız var.

Normal İfadelerin Özellikleri

Aşağıda RE'nin önemli özelliklerinden bazıları verilmiştir -

  • Amerikalı Matematikçi Stephen Cole Kleene Normal İfade dilini resmileştirdi.

  • RE, basit dizge sınıflarını, bir dizi simge belirtmek için kullanılabilen özel bir dilde bir formüldür. Başka bir deyişle, RE'nin bir dizi dizgiyi karakterize etmek için cebirsel bir gösterim olduğunu söyleyebiliriz.

  • Normal ifade iki şey gerektirir; biri aramak istediğimiz kalıptır, diğeri ise aramamız gereken metin külliyatıdır.

Matematiksel olarak, Normal Bir İfade aşağıdaki gibi tanımlanabilir -

  • ε , dilin boş bir dizeye sahip olduğunu gösteren Normal bir İfadedir.

  • φ boş bir dil olduğunu belirten Normal bir İfadedir.

  • Eğer X ve Y Normal İfadelerdir, o zaman

    • X, Y

    • X.Y(Concatenation of XY)

    • X+Y (Union of X and Y)

    • X*, Y* (Kleen Closure of X and Y)

aynı zamanda normal ifadelerdir.

  • Bir dizge yukarıdaki kurallardan türetilmişse, bu da normal bir ifade olacaktır.

Normal İfade Örnekleri

Aşağıdaki tabloda birkaç Normal İfade örneği gösterilmektedir -

Düzenli ifadeler Normal Set
(0 + 10 *) {0, 1, 10, 100, 1000, 10000,…}
(0 * 10 *) {1, 01, 10, 010, 0010,…}
(0 + ε) (1 + ε) {ε, 0, 1, 01}
(a + b) * Herhangi bir uzunluktaki a ve b dizelerinden oluşan ve boş dizgeyi de içeren dizelerden (ör. {Ε, a, b, aa, ab, bb, ba, aaa …….})
(a + b) * abb A ve b dizelerinin abb dizesiyle biten dizeleri olacaktır yani {abb, aabb, babb, aaabb, ababb, ………… ..}
(11) * Boş bir dize de içeren 1'lerden oluşan çift sayıdan (ör. {Ε, 11, 1111, 111111, ……….}) Oluşur.
(aa) * (bb) * b Çift sayıda a ve ardından tek sayıda b'den oluşan dizelerden oluşur, yani {b, aab, aabbb, aabbbbb, aaaab, aaaabbb, ………… ..}
(aa + ab + ba + bb) * Bu, aa, ab, ba ve bb dizelerinin herhangi bir kombinasyonunun (null yani {aa, ab, ba, bb, aaab, aaba, ………… dahil) birleştirilmesiyle elde edilebilen, eşit uzunlukta a ve b dizeleri olacaktır. .}

Normal Setler ve Özellikleri

Normal ifadenin değerini temsil eden ve belirli özellikleri içeren küme olarak tanımlanabilir.

Düzenli kümelerin özellikleri

  • İki normal kümenin birleşimini yaparsak, ortaya çıkan küme de düzenleyici olur.

  • İki normal kümenin kesişimini yaparsak, ortaya çıkan küme de düzenli olur.

  • Normal kümelerin tamamlamasını yaparsak, ortaya çıkan küme de normal olur.

  • İki normal kümenin farkını yaparsak, ortaya çıkan küme de normal olur.

  • Normal setlerin tersine çevrilmesini yaparsak, ortaya çıkan set de normal olur.

  • Normal setlerin kapanışını alırsak, ortaya çıkan set de normal olacaktır.

  • İki normal kümeyi birleştirirsek, ortaya çıkan küme de normal olur.

Sonlu Durum Otomatı

"Kendi kendine hareket eden" anlamına gelen Yunanca "αὐτόματα" kelimesinden türetilen otomata terimi, önceden belirlenmiş bir işlem dizisini otomatik olarak izleyen soyut bir kendinden tahrikli hesaplama cihazı olarak tanımlanabilen çoğul otomattır.

Sonlu sayıda duruma sahip bir otomat, Sonlu Otomat (FA) veya Sonlu Durum otomatı (FSA) olarak adlandırılır.

Matematiksel olarak, bir otomat 5-tuple (Q, Σ, δ, q0, F) ile temsil edilebilir, burada -

  • Q, sonlu bir durum kümesidir.

  • Σ, otomatın alfabesi adı verilen sonlu bir semboller kümesidir.

  • δ geçiş işlevidir

  • q0, herhangi bir girişin işlendiği ilk durumdur (q0 ∈ Q).

  • F, Q'nun (F ⊆ Q) nihai durum / durumları kümesidir.

Sonlu Otomata, Normal Dilbilgisi ve Normal İfadeler arasındaki ilişki

Aşağıdaki noktalar bize sonlu otomatlar, normal gramerler ve normal ifadeler arasındaki ilişki hakkında net bir fikir verecektir -

  • Sonlu durum otomatının hesaplama işinin teorik temeli olduğunu bildiğimiz gibi ve düzenli ifadeler onları tanımlamanın bir yoludur.

  • Herhangi bir düzenli ifadenin FSA olarak uygulanabileceğini ve herhangi bir FSA'nın bir düzenli ifade ile tanımlanabileceğini söyleyebiliriz.

  • Öte yandan, düzenli ifade, normal dil adı verilen bir tür dili karakterize etmenin bir yoludur. Dolayısıyla normal dilin hem ÖSO hem de düzenli ifade yardımı ile tarif edilebileceğini söyleyebiliriz.

  • Düzenli dilbilgisi, düzenli dilbilgisi, düzenli dil bilgisi, normal dili karakterize etmenin başka bir yoludur.

Aşağıdaki şema, sonlu otomatların, düzenli ifadelerin ve düzenli gramerlerin normal dilleri tanımlamanın eşdeğer yolları olduğunu göstermektedir.

Sonlu Durum Otomasyonu (FSA) Türleri

Sonlu durum otomasyonu iki türdendir. Türlerin ne olduğunu görelim.

Deterministik Sonlu otomasyon (DFA)

Her girdi sembolü için makinenin hareket edeceği durumu belirleyebildiğimiz sonlu otomasyon türü olarak tanımlanabilir. Sonlu sayıda duruma sahiptir, bu nedenle makineye Belirleyici Sonlu Otomat (DFA) adı verilir.

Matematiksel olarak, bir DFA, bir 5 tuple (Q, Σ, δ, q0, F) ile temsil edilebilir, burada -

  • Q, sonlu bir durum kümesidir.

  • Σ, otomatın alfabesi adı verilen sonlu bir semboller kümesidir.

  • δ, δ: Q × Σ → Q olduğu yerde geçiş fonksiyonudur.

  • q0, herhangi bir girişin işlendiği ilk durumdur (q0 ∈ Q).

  • F, Q'nun (F ⊆ Q) nihai durum / durumları kümesidir.

Grafik olarak, bir DFA, durum diyagramları olarak adlandırılan diyagraflarla temsil edilebilir, burada -

  • Eyaletler tarafından temsil edilmektedir vertices.

  • Geçişler etiketli olarak gösterilir arcs.

  • Başlangıç ​​durumu bir ile temsil edilir empty incoming arc.

  • Son durum şu şekilde temsil edilir: double circle.

DFA Örneği

DFA'nın

  • Q = {a, b, c},

  • Σ = {0, 1},

  • q 0 = {a},

  • F = {c},

  • Geçiş işlevi δ aşağıdaki tabloda gösterilmiştir -

Şu anki durum Giriş 0 için Sonraki Durum Giriş 1 için Sonraki Durum
Bir a B
B b Bir
C c C

Bu DFA'nın grafik temsili aşağıdaki gibi olacaktır -

Belirleyici olmayan Sonlu Otomasyon (NDFA)

Her girdi sembolü için makinenin hareket edeceği durumu belirleyemediğimiz, yani makinenin durumların herhangi bir kombinasyonuna hareket edebileceği sonlu otomasyon türü olarak tanımlanabilir. Sonlu sayıda durumu vardır, bu nedenle makineye Belirsiz Olmayan Sonlu Otomasyon (NDFA) adı verilir.

Matematiksel olarak, NDFA bir 5-tuple (Q, Σ, δ, q0, F) ile temsil edilebilir, burada -

  • Q, sonlu bir durum kümesidir.

  • Σ, otomatın alfabesi adı verilen sonlu bir semboller kümesidir.

  • δ: -: Q × Σ → 2 Q olduğu yerde geçiş fonksiyonudur .

  • q0: -herhangi bir girişin işlendiği ilk durumdur (q0 ∈ Q).

  • F: -Q'nun (F ⊆ Q) son durum / durumları dizisidir.

Grafik olarak (DFA ile aynı), bir NDFA, durum diyagramları olarak adlandırılan diyagraflarla temsil edilebilir, burada -

  • Eyaletler tarafından temsil edilmektedir vertices.

  • Geçişler etiketli olarak gösterilir arcs.

  • Başlangıç ​​durumu bir ile temsil edilir empty incoming arc.

  • Son durum çift ile temsil edilir circle.

NDFA Örneği

Bir NDFA'nın

  • Q = {a, b, c},

  • Σ = {0, 1},

  • q 0 = {a},

  • F = {c},

  • Geçiş işlevi δ aşağıdaki tabloda gösterilmiştir -

Şu anki durum Giriş 0 için Sonraki Durum Giriş 1 için Sonraki Durum
Bir a, b B
B C AC
C M.Ö C

Bu NDFA'nın grafik temsili aşağıdaki gibi olacaktır -

Morfolojik Ayrıştırma

Morfolojik ayrıştırma terimi, morfemlerin ayrıştırılmasıyla ilgilidir. Morfolojik ayrıştırmayı, bir kelimenin, onun için bir tür dilsel yapı üreten morfem adı verilen daha küçük anlamlı birimlere ayrıldığını fark etme sorunu olarak tanımlayabiliriz. Örneğin, tilki kelimesini tilki ve -es olarak ikiye ayırabiliriz . Tilki kelimesinin , biri tilki , diğeri -es olmak üzere iki biçimden oluştuğunu görebiliriz .

Diğer bir anlamda, morfolojinin şu konuların incelenmesi olduğunu söyleyebiliriz -

  • Kelimelerin oluşumu.

  • Kelimelerin kökeni.

  • Kelimelerin dilbilgisel biçimleri.

  • Kelimelerin oluşumunda önek ve son eklerin kullanılması.

  • Bir dilin konuşma bölümlerinin (PoS) nasıl oluştuğu.

Biçim Türleri

En küçük anlam taşıyan birimler olan morfemler iki türe ayrılabilir -

  • Stems

  • Kelime sırası

Kaynaklanıyor

Bir kelimenin temel anlamlı birimidir. Ayrıca kelimenin kökü olduğunu da söyleyebiliriz. Örneğin tilki kelimesinde kök tilkidir.

  • Affixes- Adından da anlaşılacağı gibi, kelimelere bazı ek anlamlar ve dilbilgisi işlevleri eklerler. Örneğin tilki kelimesinde ek - es.

Ayrıca ekler aşağıdaki dört türe ayrılabilir:

    • Prefixes- Adından da anlaşılacağı gibi, ön ekler kökten önce gelir. Örneğin, unbuckle kelimesinde un önektir.

    • Suffixes- Adından da anlaşılacağı gibi, son ekler kökü takip eder. Örneğin, kediler kelimesinde -s sonekidir.

    • Infixes- Adından da anlaşılacağı gibi, infix'ler gövdenin içine yerleştirilir. Örneğin, cupful kelimesi, infix olarak -s kullanılarak cupful olarak çoğullaştırılabilir.

    • Circumfixes- Saptan önce gelirler ve takip ederler. İngilizcede çok daha az sınır örneği vardır. Çok yaygın bir örnek, 'A-ing' dir ve -A 'nın öncüsü ve gövdenin ardından -ing kullanılır.

Kelime sırası

Kelimelerin sırasına morfolojik ayrıştırma ile karar verilecektir. Şimdi bir morfolojik ayrıştırıcı oluşturmak için gereksinimleri görelim -

Sözlük

Bir morfolojik ayrıştırıcı oluşturmak için ilk gereksinim, bunlar hakkında temel bilgilerle birlikte gövdelerin ve eklerin listesini içeren sözlüktür. Örneğin, kökün İsim kökü mü yoksa Fiil kökü mü olduğu vb. Gibi bilgiler.

Morfotaktik

Temelde morfem sıralaması modelidir. Diğer bir anlamda, hangi biçimbirim sınıflarının bir sözcük içindeki diğer biçimbirim sınıflarını takip edebileceğini açıklayan model. Örneğin, morfotaktik gerçek, İngilizce çoğul morfemin her zaman ondan önce değil, ismi takip etmesidir.

Ortografik kurallar

Bu yazım kuralları, bir kelimede meydana gelen değişiklikleri modellemek için kullanılır. Örneğin, şehir + s = şehirler değil şehirler gibi bir kelimede y'yi ie'ye dönüştürme kuralı.