자연어 처리-구문 분석
구문 분석 또는 구문 분석 또는 구문 분석은 NLP의 세 번째 단계입니다. 이 단계의 목적은 정확한 의미를 도출하거나 텍스트에서 사전 적 의미를 말할 수 있습니다. 구문 분석은 정규 문법 규칙과 비교하여 텍스트의 의미를 확인합니다. 예를 들어 "hot ice-cream"과 같은 문장은 의미 분석기에 의해 거부됩니다.
이러한 의미에서 구문 분석 또는 구문 분석은 형식 문법의 규칙에 따라 자연어의 기호 문자열을 분석하는 과정으로 정의 될 수 있습니다. 단어의 기원‘parsing’ 라틴어 ‘pars’ 즉 ‘part’.
파서의 개념
파싱 작업을 구현하는 데 사용됩니다. 이는 입력 데이터 (텍스트)를 가져와 형식 문법에 따라 올바른 구문을 확인한 후 입력의 구조적 표현을 제공하도록 설계된 소프트웨어 구성 요소로 정의 할 수 있습니다. 또한 일반적으로 구문 분석 트리 또는 추상 구문 트리 또는 기타 계층 구조의 형태로 데이터 구조를 구축합니다.
구문 분석의 주요 역할은 다음과 같습니다.
구문 오류를보고합니다.
일반적으로 발생하는 오류에서 복구하여 나머지 프로그램의 처리를 계속할 수 있습니다.
구문 분석 트리를 생성합니다.
기호 테이블을 생성합니다.
중간 표현 (IR)을 생성합니다.
구문 분석 유형
파생은 구문 분석을 다음 두 가지 유형으로 나눕니다.
하향식 구문 분석
상향식 파싱
하향식 구문 분석
이러한 종류의 구문 분석에서 구문 분석기는 시작 기호에서 구문 분석 트리 구성을 시작한 다음 시작 기호를 입력으로 변환하려고 시도합니다. 가장 일반적인 형태의 하향식 구문 분석은 재귀 절차를 사용하여 입력을 처리합니다. 재귀 하강 구문 분석의 주요 단점은 역 추적입니다.
상향식 파싱
이러한 종류의 구문 분석에서 구문 분석기는 입력 기호로 시작하여 시작 기호까지 구문 분석기 트리를 구성하려고합니다.
파생의 개념
입력 문자열을 얻으려면 일련의 생산 규칙이 필요합니다. 파생은 일련의 생산 규칙입니다. 구문 분석 중에 비 터미널이 대체 될 생산 규칙을 결정하는 것과 함께 대체 될 비 터미널을 결정해야합니다.
파생 유형
이 섹션에서는 생산 규칙으로 대체 할 비 터미널을 결정하는 데 사용할 수있는 두 가지 유형의 파생에 대해 알아 봅니다.
가장 왼쪽 파생
가장 왼쪽의 파생에서 입력의 감각적 형식이 스캔되고 왼쪽에서 오른쪽으로 대체됩니다. 이 경우의 감성 양식을 왼쪽 문장 양식이라고합니다.
가장 오른쪽 파생
가장 왼쪽에있는 파생에서 입력의 감각적 형식이 스캔되고 오른쪽에서 왼쪽으로 바뀝니다. 이 경우 감각 양식을 오른쪽 문장 양식이라고합니다.
파스 트리의 개념
파생의 그래픽 묘사로 정의 할 수 있습니다. 파생 시작 기호는 구문 분석 트리의 루트 역할을합니다. 모든 구문 분석 트리에서 리프 노드는 터미널이고 내부 노드는 비 터미널입니다. 구문 분석 트리의 속성은 순회 순회가 원래 입력 문자열을 생성한다는 것입니다.
문법의 개념
문법은 잘 구성된 프로그램의 구문 구조를 설명하는 데 매우 필수적이며 중요합니다. 문학적 의미에서 그들은 자연어 대화에 대한 구문 규칙을 나타냅니다. 언어학은 영어, 힌디어 등과 같은 자연어가 시작된 이래로 문법을 정의하려고 시도했습니다.
형식 언어 이론은 주로 프로그래밍 언어와 데이터 구조의 컴퓨터 과학 분야에도 적용 할 수 있습니다. 예를 들어, 'C'언어에서 정확한 문법 규칙은 목록과 문에서 함수를 만드는 방법을 나타냅니다.
문법의 수학적 모델은 다음과 같습니다. Noam Chomsky 1956 년 컴퓨터 언어 작성에 효과적입니다.
수학적으로 문법 G는 공식적으로 4- 튜플 (N, T, S, P)로 작성 될 수 있습니다.
N 또는 VN = 비단 말 기호 집합, 즉 변수.
T 또는 ∑ = 터미널 기호 세트.
S = S ∈ N 인 시작 기호
P터미널 및 비 터미널에 대한 생산 규칙을 나타냅니다. α → β 형식을 가지며, 여기서 α와 β는 V N ∪ ∑의 문자열 이고 α의 적어도 하나의 기호는 V N에 속합니다.
구문 구조 또는 구성 문법
Noam Chomsky가 도입 한 구문 구조 문법은 구성 관계를 기반으로합니다. 그렇기 때문에 선거구 문법이라고도합니다. 종속성 문법과 반대입니다.
예
선거구 문법의 예를 들기 전에 선거구 문법과 선거구 관계에 대한 기본적인 사항을 알아야합니다.
모든 관련 프레임 워크는 구성 관계의 관점에서 문장 구조를 봅니다.
선거구 관계는 그리스어 문법뿐만 아니라 라틴어의 주어-술어 구분에서 파생됩니다.
기본 조항 구조는 다음과 같이 이해됩니다. noun phrase NP 과 verb phrase VP.
우리는 문장을 쓸 수 있습니다 “This tree is illustrating the constituency relation” 다음과 같이-
종속성 문법
선거구 문법과 반대이며 의존 관계를 기반으로합니다. 그것은 Lucien Tesniere에 의해 소개되었습니다. 종속성 문법 (DG)은 구문 노드가 없기 때문에 구성 문법과 반대입니다.
예
Dependency 문법의 예를 들기 전에 Dependency 문법과 Dependency 관계에 대한 기본적인 사항을 알아야합니다.
DG에서 언어 단위, 즉 단어는 방향 링크로 서로 연결됩니다.
동사는 절 구조의 중심이됩니다.
다른 모든 구문 단위는 방향 링크 측면에서 동사에 연결됩니다. 이러한 구문 단위는dependencies.
우리는 문장을 쓸 수 있습니다 “This tree is illustrating the dependency relation” 다음과 같이;
Constituency 문법을 사용하는 구문 분석 트리를 구성 기반 구문 분석 트리라고합니다. 종속성 문법을 사용하는 구문 분석 트리를 종속성 기반 구문 분석 트리라고합니다.
문맥 자유 문법
CFG라고도하는 문맥 자유 문법은 언어를 설명하는 표기법이며 정규 문법의 상위 집합입니다. 다음 다이어그램에서 볼 수 있습니다.
CFG의 정의
CFG는 다음과 같은 네 가지 구성 요소가있는 유한 한 문법 규칙 집합으로 구성됩니다.
비 단말기 세트
V로 표시됩니다. 비 터미널은 문자열 세트를 나타내는 구문 변수로, 문법에 의해 생성 된 언어를 정의하는 데 도움이됩니다.
터미널 세트
토큰이라고도하며 Σ에 의해 정의됩니다. 문자열은 터미널의 기본 기호로 구성됩니다.
프로덕션 세트
P로 표시됩니다.이 세트는 터미널과 비 터미널을 결합하는 방법을 정의합니다. 모든 프로덕션 (P)은 비 터미널, 화살표 및 터미널 (터미널 시퀀스)로 구성됩니다. 비 터미널은 프로덕션의 왼쪽이라고하고 터미널은 프로덕션의 오른쪽이라고합니다.
시작 기호
생산은 시작 기호에서 시작됩니다. 기호 S로 표시됩니다. 비단 자 기호는 항상 시작 기호로 지정됩니다.