Przetwarzanie języka naturalnego - analiza syntaktyczna

Analiza składniowa lub analiza składniowa lub analiza składni to trzecia faza NLP. Celem tej fazy jest wyciągnięcie dokładnego znaczenia lub możesz powiedzieć znaczenie słownikowe z tekstu. Analiza składniowa sprawdza tekst pod kątem sensowności w porównaniu z regułami gramatyki formalnej. Na przykład zdanie „gorące lody” zostanie odrzucone przez analizator semantyczny.

W tym sensie analizę składniową lub parsowanie można zdefiniować jako proces analizy ciągów symboli w języku naturalnym zgodnie z regułami gramatyki formalnej. Pochodzenie słowa‘parsing’ pochodzi od łacińskiego słowa ‘pars’ co znaczy ‘part’.

Pojęcie parsera

Służy do realizacji zadania parsowania. Można go zdefiniować jako komponent oprogramowania przeznaczony do pobierania danych wejściowych (tekstu) i zapewniania strukturalnej reprezentacji danych wejściowych po sprawdzeniu poprawności składni zgodnie z gramatyką formalną. Tworzy również strukturę danych ogólnie w postaci drzewa parsowania lub abstrakcyjnego drzewa składniowego lub innej struktury hierarchicznej.

Główne role parsowania obejmują -

  • Aby zgłosić błąd składni.

  • Aby naprawić często występujący błąd, aby można było kontynuować przetwarzanie pozostałej części programu.

  • Aby utworzyć drzewo analizy.

  • Aby utworzyć tablicę symboli.

  • Tworzenie reprezentacji pośrednich (IR).

Typy analizowania

Wyprowadzenie dzieli analizę na następujące dwa typy -

  • Analiza odgórna

  • Analiza oddolna

Analiza odgórna

W tego rodzaju analizowaniu parser zaczyna konstruować drzewo parsowania z symbolu startu, a następnie próbuje przekształcić symbol początkowy na wejście. Najpowszechniejsza forma analizy zstępującej wykorzystuje procedurę rekurencyjną do przetwarzania danych wejściowych. Główną wadą rekurencyjnego analizowania zstępowania jest wycofywanie się.

Analiza oddolna

W tego rodzaju analizowaniu parser zaczyna od symbolu wejściowego i próbuje skonstruować drzewo parsera aż do symbolu początkowego.

Pojęcie wyprowadzenia

Aby uzyskać ciąg wejściowy, potrzebujemy sekwencji reguł produkcji. Wyprowadzenie to zbiór reguł produkcji. Podczas parsowania musimy zdecydować, który nieterminal ma zostać zastąpiony wraz z ustaleniem reguły produkcji, za pomocą której zostanie wymieniony nieterminal.

Rodzaje derywacji

W tej sekcji dowiemy się o dwóch typach wyprowadzeń, których można użyć do podjęcia decyzji, która nieterminalna ma zostać zastąpiona regułą produkcji -

Wyprowadzenie skrajnie lewe

W wyprowadzeniu najbardziej na lewo zdaniowa forma wejścia jest skanowana i zastępowana od lewej do prawej. Formularz zdaniowy w tym przypadku nazywany jest formą zdaniową lewostronną.

Wyprowadzenie najbardziej po prawej

W wyprowadzeniu położonym najbardziej po lewej stronie zdaniowa forma wejścia jest skanowana i zastępowana od prawej do lewej. Formularz zdaniowy w tym przypadku nazywany jest formą zdaniową na prawo.

Koncepcja drzewa analizy

Można go zdefiniować jako graficzne przedstawienie wyprowadzenia. Symbol początku wyprowadzenia służy jako korzeń drzewa parsowania. W każdym drzewie analizy węzły-liście są terminalami, a węzły wewnętrzne nie są terminalami. Właściwość drzewa parsowania polega na tym, że przeglądanie w kolejności da oryginalny ciąg wejściowy.

Pojęcie gramatyki

Gramatyka jest bardzo istotna i ważna do opisania struktury syntaktycznej dobrze sformułowanych programów. W sensie literackim oznaczają reguły składniowe konwersacji w językach naturalnych. Językoznawstwo próbowało zdefiniować gramatyki od czasu powstania języków naturalnych, takich jak angielski, hindi itp.

Teoria języków formalnych ma również zastosowanie w informatyce, głównie w językach programowania i strukturze danych. Na przykład w języku „C” dokładne reguły gramatyczne określają sposób tworzenia funkcji z list i instrukcji.

Matematyczny model gramatyki podał Noam Chomsky w 1956 roku, co jest skuteczne w pisaniu języków komputerowych.

Matematycznie gramatykę G można formalnie zapisać jako 4-krotkę (N, T, S, P), gdzie -

  • N lub VN = zbiór symboli nieterminalowych, tj. zmiennych.

  • T lub = zestaw symboli terminala.

  • S = Symbol początku, gdzie S ∈ N

  • Poznacza zasady produkcji dla terminali, jak również nieterminali. Ma postać α → β, gdzie α i β są łańcuchami na V N ∪ ∑, a co najmniej jeden symbol α należy do V N

Struktura wyrażeń lub gramatyka okręgu

Gramatyka struktury fraz, wprowadzona przez Noama Chomsky'ego, opiera się na relacji okręgów wyborczych. Dlatego nazywana jest również gramatyką okręgową. Jest to przeciwieństwo gramatyki zależności.

Przykład

Zanim podamy przykład gramatyki dla okręgów wyborczych, musimy poznać podstawowe zagadnienia dotyczące gramatyki dla okręgów wyborczych i relacji między nimi.

  • Wszystkie powiązane ramy postrzegają strukturę zdań w kategoriach relacji elektoratu.

  • Relacja okręgów wyborczych wywodzi się z podziału podmiot-predykat w gramatyce łacińskiej i greckiej.

  • Podstawową strukturę klauzuli należy rozumieć w kategoriach noun phrase NP i verb phrase VP.

Możemy napisać zdanie “This tree is illustrating the constituency relation” w następujący sposób -

Gramatyka zależności

Jest przeciwieństwem gramatyki okręgowej i opiera się na relacji zależności. Wprowadził go Lucien Tesniere. Gramatyka zależności (DG) jest przeciwieństwem gramatyki okręgowej, ponieważ brakuje w niej węzłów frazowych.

Przykład

Zanim podamy przykład gramatyki zależności, musimy poznać podstawowe punkty dotyczące gramatyki zależności i relacji zależności.

  • W DG jednostki językowe, tj. Słowa, są połączone ze sobą za pomocą ukierunkowanych linków.

  • Czasownik staje się środkiem struktury klauzuli.

  • Wszystkie inne jednostki syntaktyczne są połączone z czasownikiem pod względem powiązania skierowanego. Te jednostki syntaktyczne nazywane sądependencies.

Możemy napisać zdanie “This tree is illustrating the dependency relation” następująco;

Drzewo analizy używające gramatyki okręgów jest nazywane drzewem analizy opartym na okręgach; a drzewa analizy wykorzystujące gramatykę zależności są nazywane drzewem analizy opartym na zależnościach.

Gramatyka bez kontekstu

Gramatyka bezkontekstowa, zwana również CFG, to notacja opisująca języki i nadzbiór gramatyki regularnej. Można to zobaczyć na poniższym schemacie -

Definicja CFG

CFG składa się z skończonego zestawu reguł gramatycznych z następującymi czterema elementami -

Zestaw nie-terminali

Jest oznaczony przez V. Nieterminale są zmiennymi składniowymi, które oznaczają zestawy ciągów, które dodatkowo pomagają zdefiniować język, generowany przez gramatykę.

Zestaw zacisków

Jest również nazywany tokenami i definiowany przez Σ. Ciągi są tworzone z podstawowymi symbolami terminali.

Zestaw produkcji

Jest oznaczony przez P. Zbiór określa, w jaki sposób można łączyć terminale i nieterminale. Każda produkcja (P) składa się z nieterminali, strzałki i terminali (sekwencji terminali). Nieterminale nazywane są lewą stroną produkcji, a terminale prawą stroną produkcji.

Symbol początkowy

Produkcja zaczyna się od symbolu startu. Jest oznaczony symbolem S. Symbol nieterminalny jest zawsze oznaczony jako symbol początkowy.