Doğal Dil İşleme - Sözdizimsel Analiz

Sözdizimsel analiz veya ayrıştırma veya sözdizimi analizi, NLP'nin üçüncü aşamasıdır. Bu aşamanın amacı tam anlam çıkarmaktır ya da metinden sözlük anlamı söyleyebilirsiniz. Sözdizimi analizi, resmi dilbilgisi kurallarına kıyasla metnin anlamlı olup olmadığını kontrol eder. Örneğin, "sıcak dondurma" gibi bir cümle, anlambilimsel analizci tarafından reddedilecektir.

Bu anlamda, sözdizimsel analiz veya ayrıştırma, biçimsel dilbilgisi kurallarına uygun olarak doğal dildeki sembol dizilerini analiz etme süreci olarak tanımlanabilir. Kelimenin kökeni‘parsing’ Latince kelimeden ‘pars’ bunun anlamı ‘part’.

Ayrıştırıcı Kavramı

Ayrıştırma görevini gerçekleştirmek için kullanılır. Girdi verilerini (metin) almak ve biçimsel dilbilgisine göre doğru sözdizimini kontrol ettikten sonra girdinin yapısal temsilini vermek için tasarlanmış yazılım bileşeni olarak tanımlanabilir. Ayrıca, genellikle ayrıştırma ağacı veya soyut sözdizimi ağacı veya diğer hiyerarşik yapı biçiminde bir veri yapısı oluşturur.

Ayrıştırmanın ana rolleri şunları içerir:

  • Herhangi bir sözdizimi hatasını bildirmek için.

  • Programın geri kalanının işlenmesine devam edilebilmesi için yaygın olarak ortaya çıkan hatayı düzeltmek için.

  • Ayrıştırma ağacı oluşturmak için.

  • Sembol tablosu oluşturmak için.

  • Ara gösterimler (IR) üretmek için.

Ayrıştırma Türleri

Türetme, ayrıştırmayı aşağıdaki iki türe ayırır -

  • Yukarıdan aşağıya Ayrıştırma

  • Aşağıdan Yukarıya Ayrıştırma

Yukarıdan aşağıya Ayrıştırma

Bu tür ayrıştırmada ayrıştırıcı, ayrıştırma ağacını başlangıç ​​sembolünden oluşturmaya başlar ve ardından başlangıç ​​sembolünü girdiye dönüştürmeye çalışır. Yukarıdan aşağıya ayrıştırmanın en yaygın biçimi, girdiyi işlemek için yinelemeli yordamı kullanır. Özyinelemeli iniş ayrıştırmanın ana dezavantajı geriye dönük izlemedir.

Aşağıdan Yukarıya Ayrıştırma

Bu tür ayrıştırmada, ayrıştırıcı girdi sembolüyle başlar ve ayrıştırıcı ağacını başlangıç ​​sembolüne kadar oluşturmaya çalışır.

Türetme Kavramı

Girdi dizesini elde etmek için bir dizi üretim kuralına ihtiyacımız var. Derivasyon, bir dizi üretim kuralıdır. Ayrıştırma sırasında, üretim kuralının hangi terminal olmayan ile değiştirileceğine karar vermekle birlikte değiştirilecek olan terminal olmayana karar vermemiz gerekir.

Türetme Türleri

Bu bölümde, hangi terminal olmayanın üretim kuralıyla değiştirileceğine karar vermek için kullanılabilecek iki tür türetme hakkında bilgi edineceğiz -

En soldaki Türetme

En soldaki türetmede, bir girdinin duygusal formu taranır ve soldan sağa değiştirilir. Bu durumda duygusal forma sol cümle formu denir.

En Sağdaki Derivasyon

En soldaki türetmede, bir girdinin duygusal formu taranır ve sağdan sola doğru değiştirilir. Bu durumda cümle formuna doğru cümle formu denir.

Ayrıştırma Ağacı Kavramı

Bir türetmenin grafiksel tasviri olarak tanımlanabilir. Türetmenin başlangıç ​​sembolü, ayrıştırma ağacının kökü görevi görür. Her ayrıştırma ağacında, yaprak düğümler terminallerdir ve iç düğümler terminal değildir. Ayrıştırma ağacının bir özelliği, sıralı geçişin orijinal girdi dizgesini üretmesidir.

Dilbilgisi Kavramı

Dilbilgisi, iyi biçimlendirilmiş programların sözdizimsel yapısını tanımlamak için çok gerekli ve önemlidir. Edebi anlamda, doğal dillerde konuşma için sözdizimsel kuralları belirtirler. Dilbilim, İngilizce, Hintçe vb. Gibi doğal dillerin başlangıcından beri gramerleri tanımlamaya çalıştı.

Biçimsel diller teorisi, Bilgisayar Bilimi alanlarında, özellikle programlama dillerinde ve veri yapısında da uygulanabilir. Örneğin, 'C' dilinde, kesin dilbilgisi kuralları, işlevlerin listelerden ve ifadelerden nasıl yapıldığını belirtir.

Matematiksel bir gramer modeli verildi Noam Chomsky 1956'da bilgisayar dilleri yazmak için etkilidir.

Matematiksel olarak, bir gramer G resmi olarak 4'lü bir demet (N, T, S, P) olarak yazılabilir, burada -

  • N veya VN = terminal olmayan semboller kümesi, yani değişkenler.

  • T veya = terminal sembolleri seti.

  • S = Başla sembolü nerede S ∈ N

  • PTerminaller ve Terminal Olmayanlar için Üretim kurallarını belirtir. Α → β biçimindedir, burada α ve β V N ∪ ∑ üzerindeki dizelerdir ve α'nın en az bir sembolü V N'ye aittir.

Cümle Yapısı veya Seçim Dilbilgisi

Noam Chomsky tarafından tanıtılan kelime öbeği yapısı grameri, seçim bölgesi ilişkisine dayanmaktadır. Bu yüzden aynı zamanda seçim bölgesi grameri olarak da adlandırılır. Bağımlılık dilbilgisine zıttır.

Misal

Bir seçim bölgesi dilbilgisi örneği vermeden önce, seçim bölgesi dilbilgisi ve seçim bölgesi ilişkisi hakkındaki temel noktaları bilmemiz gerekir.

  • İlgili tüm çerçeveler, cümle yapısını seçim bölgesi ilişkisi açısından görür.

  • Seçim bölgesi ilişkisi, Latince ve Yunanca dilbilgisinin özne-yüklem bölümünden türetilmiştir.

  • Temel cümle yapısı şu terimlerle anlaşılır: noun phrase NP ve verb phrase VP.

Cümleyi yazabiliriz “This tree is illustrating the constituency relation” aşağıdaki gibi -

Bağımlılık Dilbilgisi

Seçmen dilbilgisine zıttır ve bağımlılık ilişkisine dayanır. Lucien Tesniere tarafından tanıtıldı. Bağımlılık dilbilgisi (DG), öbek düğümlerinden yoksun olduğu için seçim bölgesi dilbilgisine zıttır.

Misal

Bağımlılık dilbilgisine bir örnek vermeden önce Bağımlılık dilbilgisi ve Bağımlılık ilişkisi hakkındaki temel noktaları bilmemiz gerekir.

  • DG'de dil birimleri, yani kelimeler birbirine yönlendirilmiş bağlantılar ile bağlanır.

  • Fiil, cümle yapısının merkezi haline gelir.

  • Diğer tüm sözdizimsel birimler fiile yönlendirilmiş bağlantı açısından bağlıdır. Bu sözdizimsel birimlere denirdependencies.

Cümleyi yazabiliriz “This tree is illustrating the dependency relation” aşağıdaki gibi;

Seçmen dilbilgisini kullanan ayrıştırma ağacına seçim bölgesi tabanlı ayrıştırma ağacı denir; ve bağımlılık grameri kullanan ayrıştırma ağaçlarına bağımlılık temelli ayrıştırma ağacı denir.

Bağlamdan Bağımsız Dilbilgisi

CFG olarak da adlandırılan bağlamdan bağımsız dilbilgisi, dilleri açıklamak için bir gösterim ve Düzenli dilbilgisinin bir üst kümesidir. Aşağıdaki şemada görülebilir -

CFG'nin tanımı

CFG, aşağıdaki dört bileşene sahip sınırlı dilbilgisi kurallarından oluşur:

Terminal Olmayanlar Seti

V ile gösterilir. Terminal olmayanlar, dilbilgisi tarafından üretilen dilin tanımlanmasına daha da yardımcı olan dizge kümelerini gösteren sözdizimsel değişkenlerdir.

Terminal Seti

Ayrıca belirteç olarak adlandırılır ve Σ ile tanımlanır. Dizeler, terminallerin temel sembolleriyle oluşturulur.

Üretim Seti

P ile gösterilir. Set, terminallerin ve terminal olmayanların nasıl birleştirilebileceğini tanımlar. Her üretim (P), terminal olmayanlardan, bir oktan ve terminallerden (terminal sırası) oluşur. Terminal olmayanlara üretimin sol tarafı, terminallere ise üretimin sağ tarafı denir.

Başlatma Sembolü

Üretim, başlangıç ​​sembolünden başlar. S sembolü ile gösterilir. Terminal olmayan sembol her zaman başlangıç ​​sembolü olarak gösterilir.