Elaborazione del linguaggio naturale - Introduzione
La lingua è un metodo di comunicazione con l'aiuto del quale possiamo parlare, leggere e scrivere. Ad esempio, pensiamo, prendiamo decisioni, piani e altro nel linguaggio naturale; precisamente, a parole. Tuttavia, la grande domanda che ci troviamo di fronte in questa era dell'IA è che possiamo comunicare in modo simile con i computer. In altre parole, gli esseri umani possono comunicare con i computer nel loro linguaggio naturale? È una sfida per noi sviluppare applicazioni NLP perché i computer hanno bisogno di dati strutturati, ma il linguaggio umano è non strutturato e spesso di natura ambigua.
In questo senso, possiamo dire che il Natural Language Processing (NLP) è il sottocampo dell'Informatica, in particolare l'Intelligenza Artificiale (AI) che si occupa di consentire ai computer di comprendere ed elaborare il linguaggio umano. Tecnicamente, il compito principale della PNL sarebbe programmare i computer per analizzare ed elaborare enormi quantità di dati in linguaggio naturale.
Storia della PNL
Abbiamo diviso la storia della PNL in quattro fasi. Le fasi hanno interessi e stili distintivi.
Prima fase (fase di traduzione automatica): dalla fine degli anni '40 alla fine degli anni '60
Il lavoro svolto in questa fase si è concentrato principalmente sulla traduzione automatica (MT). Questa fase è stata un periodo di entusiasmo e ottimismo.
Vediamo ora tutto ciò che la prima fase aveva in esso -
La ricerca sulla PNL è iniziata all'inizio degli anni '50 dopo le indagini di Booth & Richens e il memorandum di Weaver sulla traduzione automatica nel 1949.
Il 1954 fu l'anno in cui un esperimento limitato sulla traduzione automatica dal russo all'inglese dimostrò nell'esperimento Georgetown-IBM.
Nello stesso anno è iniziata la pubblicazione della rivista MT (Machine Translation).
La prima conferenza internazionale sulla traduzione automatica (MT) si è tenuta nel 1952 e la seconda nel 1956.
Nel 1961, il lavoro presentato alla Teddington International Conference on Machine Translation of Languages and Applied Language Analysis fu il punto culminante di questa fase.
Seconda fase (fase influenzata dall'IA): dalla fine degli anni '60 alla fine degli anni '70
In questa fase, il lavoro svolto è stato principalmente correlato alla conoscenza del mondo e al suo ruolo nella costruzione e manipolazione delle rappresentazioni di significato. Ecco perché questa fase è anche chiamata fase aromatizzata all'IA.
La fase conteneva, quanto segue:
All'inizio del 1961, iniziò il lavoro sui problemi di affrontare e costruire dati o basi di conoscenza. Questo lavoro è stato influenzato dall'intelligenza artificiale.
Nello stesso anno è stato sviluppato anche un sistema di risposta alle domande BASEBALL. L'input a questo sistema era limitato e l'elaborazione del linguaggio coinvolta era semplice.
Un sistema molto avanzato è stato descritto in Minsky (1968). Questo sistema, rispetto al sistema di risposta alle domande BASEBALL, è stato riconosciuto e fornito per la necessità di inferenza sulla base di conoscenza nell'interpretazione e nella risposta all'input linguistico.
Terza fase (fase grammatico-logica): dalla fine degli anni '70 alla fine degli anni '80
Questa fase può essere descritta come la fase grammatico-logica. A causa del fallimento della costruzione pratica del sistema nell'ultima fase, i ricercatori sono passati all'uso della logica per la rappresentazione della conoscenza e il ragionamento nell'IA.
La terza fase ha avuto quanto segue:
L'approccio grammatico-logico, verso la fine del decennio, ci ha aiutato con potenti elaboratori di frasi generici come il Core Language Engine e la Teoria di rappresentazione del discorso di SRI, che hanno offerto un mezzo per affrontare un discorso più esteso.
In questa fase abbiamo ottenuto alcune risorse e strumenti pratici come parser, ad esempio Alvey Natural Language Tools insieme a sistemi più operativi e commerciali, ad esempio per query su database.
Anche il lavoro sul lessico negli anni '80 puntava nella direzione dell'approccio grammatico-logico.
Quarta fase (Lexical & Corpus Phase) - Gli anni '90
Possiamo descriverla come una fase lessicale e corpus. La fase aveva un approccio lessicale alla grammatica che apparve alla fine degli anni '80 e divenne un'influenza crescente. C'è stata una rivoluzione nell'elaborazione del linguaggio naturale in questo decennio con l'introduzione di algoritmi di apprendimento automatico per l'elaborazione del linguaggio.
Studio delle lingue umane
La lingua è una componente cruciale per la vita umana e anche l'aspetto più fondamentale del nostro comportamento. Possiamo sperimentarlo principalmente in due forme: scritta e parlata. Nella forma scritta, è un modo per trasmettere la nostra conoscenza da una generazione all'altra. Nella forma parlata, è il mezzo principale per cui gli esseri umani si coordinano tra loro nel loro comportamento quotidiano. La lingua è studiata in varie discipline accademiche. Ogni disciplina viene fornita con la propria serie di problemi e una serie di soluzioni per affrontarli.
Considera la seguente tabella per capirlo:
Disciplina | I problemi | Utensili |
---|---|---|
Linguisti |
Come si possono formare frasi e frasi con le parole? Cosa limita il possibile significato di una frase? |
Intuizioni sulla buona formazione e sul significato. Modello matematico di struttura. Ad esempio, semantica teorica dei modelli, teoria del linguaggio formale. |
Psicolinguisti |
Come gli esseri umani possono identificare la struttura delle frasi? Come si identifica il significato delle parole? Quando avviene la comprensione? |
Tecniche sperimentali principalmente per misurare le prestazioni degli esseri umani. Analisi statistica delle osservazioni. |
Filosofi |
In che modo le parole e le frasi acquisiscono il significato? Come vengono identificati gli oggetti dalle parole? Che significa? |
Argomentazione in linguaggio naturale usando l'intuizione. Modelli matematici come logica e teoria dei modelli. |
Linguisti computazionali |
Come possiamo identificare la struttura di una frase Come modellare la conoscenza e il ragionamento? Come possiamo usare il linguaggio per svolgere compiti specifici? |
Algoritmi Strutture dati Modelli formali di rappresentazione e ragionamento. Tecniche di intelligenza artificiale come metodi di ricerca e rappresentazione. |
Ambiguità e incertezza nel linguaggio
L'ambiguità, generalmente utilizzata nell'elaborazione del linguaggio naturale, può essere definita come la capacità di essere compresi in più di un modo. In termini semplici, possiamo dire che l'ambiguità è la capacità di essere compresi in più di un modo. Il linguaggio naturale è molto ambiguo. La PNL ha i seguenti tipi di ambiguità:
Ambiguità lessicale
L'ambiguità di una singola parola è chiamata ambiguità lessicale. Ad esempio, trattare la parolasilver come un sostantivo, un aggettivo o un verbo.
Ambiguità sintattica
Questo tipo di ambiguità si verifica quando una frase viene analizzata in modi diversi. Ad esempio, la frase "L'uomo ha visto la ragazza con il telescopio". È ambiguo se l'uomo ha visto la ragazza che portava un telescopio o l'ha vista attraverso il suo telescopio.
Ambiguità semantica
Questo tipo di ambiguità si verifica quando il significato delle parole stesse può essere interpretato male. In altre parole, l'ambiguità semantica si verifica quando una frase contiene una parola o una frase ambigua. Ad esempio, la frase “L'auto ha colpito il palo mentre era in movimento” sta avendo un'ambiguità semantica perché le interpretazioni possono essere “L'auto, mentre si muove, colpisce il palo” e “L'auto ha colpito il palo mentre il palo era in movimento”.
Ambiguità anaforica
Questo tipo di ambiguità sorge a causa dell'uso di entità anafora nel discorso. Ad esempio, il cavallo è corso su per la collina. Era molto ripido. Si è presto stancato. Qui, il riferimento anaforico di "esso" in due situazioni causa ambiguità.
Ambiguità pragmatica
Questo tipo di ambiguità si riferisce alla situazione in cui il contesto di una frase le fornisce molteplici interpretazioni. In parole semplici, possiamo dire che l'ambiguità pragmatica sorge quando l'affermazione non è specifica. Ad esempio, la frase "mi piaci anche tu" può avere più interpretazioni come mi piaci (proprio come piaccio a te), mi piaci (proprio come la dose di qualcun altro).
Fasi della PNL
Il diagramma seguente mostra le fasi o i passaggi logici nell'elaborazione del linguaggio naturale:
Elaborazione morfologica
È la prima fase della PNL. Lo scopo di questa fase è quello di suddividere blocchi di input linguistici in set di token corrispondenti a paragrafi, frasi e parole. Ad esempio, una parola come“uneasy” può essere suddiviso in due sotto-parole come “un-easy”.
Analisi della sintassi
È la seconda fase della PNL. Lo scopo di questa fase è duplice: verificare che una frase sia ben formata o meno e scomporla in una struttura che mostri le relazioni sintattiche tra le diverse parole. Ad esempio, la frase come“The school goes to the boy” verrebbe rifiutato dall'analizzatore di sintassi o dal parser.
Analisi semantica
È la terza fase della PNL. Lo scopo di questa fase è trarre il significato esatto, oppure puoi dire il significato del dizionario dal testo. Viene verificata la significatività del testo. Ad esempio, l'analizzatore semantico rifiuterà una frase come "Gelato caldo".
Analisi pragmatica
È la quarta fase della PNL. L'analisi pragmatica si adatta semplicemente agli oggetti / eventi reali, che esistono in un dato contesto con riferimenti agli oggetti ottenuti durante l'ultima fase (analisi semantica). Ad esempio, la frase "Metti la banana nel cestino sullo scaffale" può avere due interpretazioni semantiche e l'analizzatore pragmatico sceglierà tra queste due possibilità.