Обработка естественного языка - синтаксический анализ
Синтаксический анализ, синтаксический анализ или синтаксический анализ - это третья фаза НЛП. Цель этого этапа - определить точное значение, или вы можете сказать значение словаря из текста. Анализ синтаксиса проверяет текст на осмысленность по сравнению с правилами формальной грамматики. Например, предложение «горячее мороженое» будет отклонено семантическим анализатором.
В этом смысле синтаксический анализ или синтаксический анализ можно определить как процесс анализа строк символов на естественном языке в соответствии с правилами формальной грамматики. Происхождение слова‘parsing’ от латинского слова ‘pars’ что значит ‘part’.
Концепция парсера
Он используется для реализации задачи парсинга. Его можно определить как программный компонент, предназначенный для приема входных данных (текста) и предоставления структурного представления входных данных после проверки правильности синтаксиса в соответствии с формальной грамматикой. Он также строит структуру данных, как правило, в виде дерева синтаксического анализа или абстрактного синтаксического дерева или другой иерархической структуры.
Основные роли синтаксического анализа включают в себя -
Чтобы сообщить о любой синтаксической ошибке.
Чтобы исправить часто возникающую ошибку, чтобы можно было продолжить обработку оставшейся части программы.
Чтобы создать дерево разбора.
Создать таблицу символов.
Создавать промежуточные представления (IR).
Типы парсинга
Вывод делит синтаксический анализ на следующие два типа:
Анализ сверху вниз
Анализ снизу вверх
Анализ сверху вниз
В этом виде синтаксического анализа синтаксический анализатор начинает построение дерева синтаксического анализа с начального символа, а затем пытается преобразовать начальный символ во входной. Наиболее распространенная форма синтаксического анализа сверху вниз использует рекурсивную процедуру для обработки ввода. Основным недостатком синтаксического анализа рекурсивного спуска является возврат с возвратом.
Анализ снизу вверх
В этом виде синтаксического анализа синтаксический анализатор начинает с входного символа и пытается построить дерево синтаксического анализатора до начального символа.
Понятие деривации
Чтобы получить входную строку, нам нужна последовательность производственных правил. Деривация - это набор производственных правил. Во время синтаксического анализа нам нужно определить нетерминал, который нужно заменить, а также определить производственное правило, с помощью которого будет заменен нетерминал.
Типы деривации
В этом разделе мы узнаем о двух типах производных, которые можно использовать, чтобы решить, какой нетерминал следует заменить производственным правилом:
Крайний левый вывод
В крайнем левом выводе текстовая форма ввода сканируется и заменяется слева направо. Предложительная форма в этом случае называется левой-сентенциальной формой.
Самая правая производная
В самом левом выводе текстовая форма ввода сканируется и заменяется справа налево. Предложенная форма в этом случае называется правой-сентенциальной формой.
Концепция дерева синтаксического анализа
Его можно определить как графическое изображение производной. Начальный символ вывода служит корнем дерева синтаксического анализа. В каждом дереве синтаксического анализа листовые узлы являются терминалами, а внутренние узлы - нетерминалами. Свойство дерева синтаксического анализа состоит в том, что обход по порядку дает исходную входную строку.
Понятие грамматики
Грамматика очень важна и важна для описания синтаксической структуры правильно сформированных программ. В литературном смысле они обозначают синтаксические правила разговора на естественных языках. Лингвистика пыталась дать определение грамматики с момента появления естественных языков, таких как английский, хинди и т. Д.
Теория формальных языков также применима в области компьютерных наук, в основном, в языках программирования и структуре данных. Например, в языке «C» точные правила грамматики определяют, как функции создаются из списков и операторов.
Математическая модель грамматики была дана Noam Chomsky в 1956 году, что эффективно для написания компьютерных языков.
Математически грамматика G может быть формально записана как 4-кортеж (N, T, S, P), где -
N или же VN = набор нетерминальных символов, т. е. переменных.
T или же ∑ = набор терминальных символов.
S = Начальный символ, где S ∈ N
Pобозначает Правила производства для терминалов, а также для нетерминалов. Он имеет вид α → β, где α и β - строки на V N ∪ ∑ и по крайней мере один символ α принадлежит V N
Структура фразы или грамматика аудитории
Грамматика фразовой структуры, введенная Ноамом Хомски, основана на отношении избирательного округа. Вот почему это также называется грамматикой избирательного округа. Это противоположно грамматике зависимостей.
пример
Перед тем, как привести пример грамматики избирательного округа, нам необходимо знать основные моменты, касающиеся грамматики избирательного округа и отношения избирательного округа.
Все связанные структуры рассматривают структуру предложения с точки зрения отношения избирательного округа.
Отношение избирательного округа происходит от деления подлежащего на предикат латыни, а также греческой грамматики.
Основная структура предложения понимается с точки зрения noun phrase NP и verb phrase VP.
Мы можем написать предложение “This tree is illustrating the constituency relation” следующим образом -
Грамматика зависимостей
Он противоположен грамматике избирательного округа и основан на отношениях зависимости. Его представил Люсьен Тесньер. Грамматика зависимостей (DG) противоположна грамматике округа, потому что в ней отсутствуют фразовые узлы.
пример
Прежде чем приводить пример грамматики зависимостей, нам нужно знать основные моменты, касающиеся грамматики зависимостей и отношения зависимостей.
В DG языковые единицы, т. Е. Слова, связаны друг с другом направленными связями.
Глагол становится центром конструкции предложения.
Все остальные синтаксические единицы связаны с глаголом посредством направленной ссылки. Эти синтаксические единицы называютсяdependencies.
Мы можем написать предложение “This tree is illustrating the dependency relation” следующим образом;
Дерево синтаксического анализа, использующее грамматику избирательного округа, называется деревом синтаксического анализа на основе избирательного округа; а дерево синтаксического анализа, использующее грамматику зависимостей, называется деревом синтаксического анализа на основе зависимостей.
Контекстная грамматика
Контекстно-свободная грамматика, также называемая CFG, представляет собой обозначение для описания языков и надмножество регулярной грамматики. Это можно увидеть на следующей диаграмме -
Определение CFG
CFG состоит из конечного набора грамматических правил со следующими четырьмя компонентами:
Набор нетерминалов
Он обозначается буквой V. Нетерминалы - это синтаксические переменные, которые обозначают наборы строк, которые дополнительно помогают определять язык, сгенерированный грамматикой.
Набор клемм
Он также называется токенами и определяется Σ. Строки образуются из основных символов терминалов.
Набор постановок
Обозначается буквой P. Набор определяет, как можно комбинировать терминалы и нетерминалы. Каждое производство (P) состоит из нетерминалов, стрелки и терминалов (последовательность терминалов). Нетерминалы называются левой стороной производства, а терминалы - правой стороной производства.
Начальный символ
Производство начинается с начального символа. Он обозначается символом S. Нетерминальный символ всегда обозначается как начальный символ.