Przetwarzanie języka naturalnego - wprowadzenie
Język to metoda komunikacji, za pomocą której możemy mówić, czytać i pisać. Na przykład myślimy, że podejmujemy decyzje, plany i nie tylko w języku naturalnym; dokładnie słowami. Jednak głównym pytaniem, które staje przed nami w erze sztucznej inteligencji, jest to, czy możemy komunikować się w podobny sposób z komputerami. Innymi słowy, czy istoty ludzkie mogą komunikować się z komputerami w ich naturalnym języku? Tworzenie aplikacji NLP jest dla nas wyzwaniem, ponieważ komputery potrzebują ustrukturyzowanych danych, ale ludzka mowa jest nieustrukturyzowana i często ma niejednoznaczny charakter.
W tym sensie możemy powiedzieć, że przetwarzanie języka naturalnego (NLP) jest podobszarem informatyki, zwłaszcza sztucznej inteligencji (AI), która zajmuje się umożliwieniem komputerom zrozumienia i przetwarzania ludzkiego języka. Z technicznego punktu widzenia głównym zadaniem NLP byłoby zaprogramowanie komputerów do analizy i przetwarzania ogromnych ilości danych w języku naturalnym.
Historia NLP
Podzieliliśmy historię NLP na cztery fazy. Fazy mają różne obawy i style.
Faza pierwsza (faza tłumaczenia maszynowego) - od późnych lat czterdziestych do późnych sześćdziesiątych XX wieku
Prace wykonane na tym etapie koncentrowały się głównie na tłumaczeniu maszynowym (MT). Ta faza była okresem entuzjazmu i optymizmu.
Zobaczmy teraz wszystko, co miała w sobie pierwsza faza -
Badania nad NLP rozpoczęły się na początku lat pięćdziesiątych XX wieku po dochodzeniu Bootha i Richensa i memorandum Weavera w sprawie tłumaczenia maszynowego w 1949 roku.
Rok 1954 był rokiem, w którym w ramach eksperymentu Georgetown-IBM zademonstrowano ograniczony eksperyment dotyczący automatycznego tłumaczenia z języka rosyjskiego na angielski.
W tym samym roku rozpoczęła się publikacja czasopisma MT (Machine Translation).
Pierwsza międzynarodowa konferencja poświęcona tłumaczeniu maszynowemu (MT) odbyła się w 1952 r., A druga w 1956 r.
W 1961 roku prace przedstawione na Międzynarodowej Konferencji Teddington poświęconej tłumaczeniu maszynowemu języków i analizie języków stosowanych były szczytem tej fazy.
Druga faza (faza wpływu AI) - od późnych lat 60. do późnych 70
Na tym etapie praca była głównie związana z wiedzą o świecie i jej rolą w konstruowaniu i manipulowaniu reprezentacjami znaczeń. Dlatego ta faza jest również nazywana fazą o smaku AI.
Faza miała w sobie następujące -
Na początku 1961 r. Rozpoczęto prace nad problemami adresowania i konstruowania bazy danych lub wiedzy. Na tę pracę wpłynęła sztuczna inteligencja.
W tym samym roku opracowano również system odpowiadania na pytania BASEBALL. Dane wejściowe do tego systemu były ograniczone, a przetwarzanie języka było proste.
Bardzo zaawansowany system został opisany w Minsky (1968). System ten, w porównaniu z systemem odpowiadania na pytania BASEBALL, został rozpoznany i uwzględniony w konieczności wnioskowania na podstawie wiedzy w zakresie interpretacji i reagowania na wprowadzane dane językowe.
Faza trzecia (faza gramatyczno-logiczna) - od późnych lat siedemdziesiątych do końca lat osiemdziesiątych XX wieku
Faza ta może być opisana jako faza gramatyczno-logiczna. Ze względu na niepowodzenie praktycznego budowania systemu w ostatniej fazie badacze przeszli w kierunku wykorzystania logiki do reprezentacji wiedzy i wnioskowania w sztucznej inteligencji.
Trzecia faza miała w sobie:
Podejście gramatyczno-logiczne pod koniec dekady pomogło nam w stworzeniu potężnych procesorów zdań ogólnego przeznaczenia, takich jak rdzeń języka SRI i teoria reprezentacji dyskursu, które oferowały sposób radzenia sobie z bardziej rozbudowanym dyskursem.
W tej fazie otrzymaliśmy praktyczne zasoby i narzędzia, takie jak parsery, np. Alvey Natural Language Tools, a także bardziej operacyjne i komercyjne systemy, np. Do zapytań do baz danych.
Prace nad leksykonem w latach 80. również wskazywały na podejście gramatyczno-logiczne.
Faza czwarta (leksykalna i korpusowa) - lata 90
Możemy to opisać jako fazę leksykalną i korpusową. Faza miała leksykalizowane podejście do gramatyki, które pojawiło się pod koniec lat 80. i miało coraz większy wpływ. W tej dekadzie nastąpiła rewolucja w przetwarzaniu języka naturalnego wraz z wprowadzeniem algorytmów uczenia maszynowego do przetwarzania języka.
Studium języków ludzkich
Język jest kluczowym składnikiem życia ludzkiego, a także najbardziej podstawowym aspektem naszego zachowania. Możemy tego doświadczyć głównie w dwóch formach - pisemnej i ustnej. W formie pisemnej to sposób na przekazywanie naszej wiedzy z pokolenia na pokolenie. W formie mówionej jest podstawowym środkiem komunikacji między ludźmi w ich codziennym zachowaniu. Język jest studiowany w różnych dyscyplinach naukowych. Każda dyscyplina ma własny zestaw problemów i zestaw rozwiązań, które mają je rozwiązać.
Aby to zrozumieć, rozważ poniższą tabelę -
Dyscyplina | Problemy | Przybory |
---|---|---|
Lingwiści |
Jak można tworzyć frazy i zdania za pomocą słów? Co ogranicza możliwe znaczenie zdania? |
Intuicje dotyczące uformowania i znaczenia. Matematyczny model konstrukcji. Na przykład semantyka teorii modeli, formalna teoria języka. |
Psycholingwiści |
Jak ludzie mogą rozpoznać strukturę zdań? Jak można zidentyfikować znaczenie słów? Kiedy następuje zrozumienie? |
Techniki eksperymentalne głównie do pomiaru wydajności istot ludzkich. Analiza statystyczna obserwacji. |
Filozofowie |
Jak słowa i zdania nabierają znaczenia? W jaki sposób obiekty są identyfikowane za pomocą słów? Czym jest znaczenie? |
Argumentacja w języku naturalnym za pomocą intuicji. Modele matematyczne, takie jak logika i teoria modeli. |
Lingwiści komputerowi |
Jak możemy zidentyfikować strukturę zdania Jak można modelować wiedzę i rozumowanie? Jak możemy używać języka do wykonywania określonych zadań? |
Algorytmy Struktury danych Formalne modele reprezentacji i rozumowania. Techniki AI, takie jak metody wyszukiwania i reprezentacji. |
Niejednoznaczność i niepewność w języku
Niejednoznaczność, powszechnie stosowana w przetwarzaniu języka naturalnego, może być określana jako zdolność bycia rozumianym na więcej niż jeden sposób. Mówiąc prościej, można powiedzieć, że niejednoznaczność to zdolność do bycia rozumianym na więcej niż jeden sposób. Język naturalny jest bardzo niejednoznaczny. NLP ma następujące rodzaje niejednoznaczności -
Niejednoznaczność leksykalna
Niejednoznaczność pojedynczego słowa nazywana jest niejednoznacznością leksykalną. Na przykład traktowanie słowasilver jako rzeczownik, przymiotnik lub czasownik.
Niejednoznaczność składniowa
Ten rodzaj niejednoznaczności pojawia się, gdy zdanie jest analizowane na różne sposoby. Na przykład zdanie „Mężczyzna widział dziewczynę przez teleskop”. Nie jest jednoznaczne, czy mężczyzna widział dziewczynę niosącą teleskop, czy też widział ją przez swój teleskop.
Niejednoznaczność semantyczna
Ten rodzaj dwuznaczności pojawia się, gdy znaczenie samych słów może zostać źle zinterpretowane. Innymi słowy, niejednoznaczność semantyczna ma miejsce, gdy zdanie zawiera niejednoznaczne słowo lub frazę. Na przykład zdanie „Samochód uderzył w słup, gdy się poruszał” ma niejednoznaczność semantyczną, ponieważ interpretacje mogą brzmieć: „Samochód w ruchu uderzył w słup” i „Samochód uderzył w słup podczas poruszania się słupa”.
Niejednoznaczność anaforyczna
Ten rodzaj dwuznaczności wynika z użycia bytów anafory w dyskursie. Na przykład koń wbiegł na wzgórze. Było bardzo stromo. Szybko się zmęczył. Tutaj anaforyczne odniesienie do „tego” w dwóch sytuacjach powoduje niejednoznaczność.
Pragmatyczna dwuznaczność
Taka dwuznaczność dotyczy sytuacji, w której kontekst frazy daje jej wielorakie interpretacje. W prostych słowach możemy powiedzieć, że pragmatyczna dwuznaczność pojawia się, gdy stwierdzenie nie jest konkretne. Na przykład zdanie „Ja też cię lubię” może mieć wiele interpretacji, tak jak lubię cię (tak jak ty lubisz mnie), lubię cię (tak jak ktoś inny dozuje).
Fazy NLP
Poniższy diagram przedstawia fazy lub kroki logiczne w przetwarzaniu języka naturalnego -
Przetwarzanie morfologiczne
To pierwsza faza NLP. Celem tej fazy jest podzielenie fragmentów danych wejściowych języka na zestawy znaczników odpowiadających akapitom, zdaniom i słowom. Na przykład słowo takie jak“uneasy” można podzielić na dwa żetony podsłów, jak “un-easy”.
Analiza składni
To druga faza NLP. Cel tej fazy jest dwojaki: sprawdzenie, czy zdanie jest dobrze sformułowane, czy nie, i rozbicie go na strukturę, która pokazuje związki syntaktyczne między różnymi słowami. Na przykład zdanie jak“The school goes to the boy” zostanie odrzucony przez analizator składni lub parser.
Analiza semantyczna
To trzecia faza NLP. Celem tej fazy jest wyciągnięcie dokładnego znaczenia lub możesz powiedzieć znaczenie słownikowe z tekstu. Tekst jest sprawdzany pod kątem znaczenia. Na przykład analizator semantyczny odrzuciłby zdanie takie jak „Gorące lody”.
Analiza pragmatyczna
To czwarta faza NLP. Analiza pragmatyczna po prostu dopasowuje rzeczywiste obiekty / zdarzenia, które istnieją w danym kontekście, do odniesień do obiektów uzyskanych w ostatniej fazie (analiza semantyczna). Na przykład zdanie „Połóż banana w koszyku na półce” może mieć dwie interpretacje semantyczne i analizator pragmatyczny wybierze jedną z tych dwóch możliwości.