Natural Language Toolkit-파싱
NLP에서의 구문 분석 및 관련성
라틴어에서 유래 한 '파싱'이라는 단어 ‘pars’ (즉 ‘part’)는 텍스트에서 정확한 의미 또는 사전 적 의미를 그리는 데 사용됩니다. 구문 분석 또는 구문 분석이라고도합니다. 형식 문법의 규칙을 비교하여 구문 분석은 텍스트의 의미를 확인합니다. 예를 들어 "Give me hot ice-cream"과 같은 문장은 파서 또는 구문 분석기에서 거부됩니다.
이러한 의미에서 우리는 다음과 같이 구문 분석 또는 구문 분석 또는 구문 분석을 정의 할 수 있습니다.
형식 문법의 규칙에 따라 자연어로 기호의 문자열을 분석하는 과정으로 정의 할 수있다.
우리는 다음 사항을 통해 NLP에서 구문 분석의 관련성을 이해할 수 있습니다.
구문 분석기는 구문 오류를보고하는 데 사용됩니다.
일반적으로 발생하는 오류를 복구하여 나머지 프로그램의 처리를 계속할 수 있습니다.
파서 트리는 파서의 도움으로 생성됩니다.
Parser는 NLP에서 중요한 역할을하는 심볼 테이블을 생성하는 데 사용됩니다.
파서는 IR (intermediate representations)을 생성하는데도 사용됩니다.
깊은 대 얕은 파싱
딥 파싱 | 얕은 파싱 |
---|---|
심층 분석에서 검색 전략은 문장에 완전한 구문 구조를 제공합니다. | 주어진 작업에서 구문 정보의 제한된 부분을 구문 분석하는 작업입니다. |
복잡한 NLP 애플리케이션에 적합합니다. | 덜 복잡한 NLP 애플리케이션에 사용할 수 있습니다. |
대화 시스템과 요약은 심층 분석이 사용되는 NLP 응용 프로그램의 예입니다. | 정보 추출 및 텍스트 마이닝은 딥 파싱이 사용되는 NLP 애플리케이션의 예입니다. |
전체 구문 분석이라고도합니다. | 청킹이라고도합니다. |
다양한 유형의 파서
논의한 바와 같이 파서는 기본적으로 문법에 대한 절차 적 해석입니다. 다양한 나무의 공간을 검색하여 주어진 문장에 맞는 최적의 나무를 찾습니다. 아래에서 사용 가능한 파서 중 일부를 살펴 보겠습니다.
재귀 하강 파서
재귀 하강 구문 분석은 가장 간단한 구문 분석 형식 중 하나입니다. 다음은 재귀 하강 파서에 대한 몇 가지 중요한 사항입니다.
하향식 프로세스를 따릅니다.
입력 스트림의 구문이 올바른지 확인하려고 시도합니다.
입력 문장을 왼쪽에서 오른쪽으로 읽습니다.
재귀 하강 파서에 필요한 작업 중 하나는 입력 스트림에서 문자를 읽고이를 문법의 터미널과 일치시키는 것입니다.
시프트-리 듀스 파서
다음은 shift-reduce 파서에 대한 몇 가지 중요한 사항입니다.
간단한 상향식 프로세스를 따릅니다.
문법 생산의 오른쪽에 해당하는 일련의 단어와 구를 찾아서 생산의 왼쪽으로 대체합니다.
위의 단어 시퀀스 찾기 시도는 전체 문장이 줄어들 때까지 계속됩니다.
즉, shift-reduce 구문 분석기는 입력 기호로 시작하여 시작 기호까지 구문 분석기 트리를 구성하려고합니다.
차트 파서
다음은 차트 파서에 대한 몇 가지 중요한 사항입니다-
자연어 문법을 포함하여 모호한 문법에 주로 유용하거나 적합합니다.
구문 분석 문제에 동적 프로그래밍을 적용합니다.
동적 프로그래밍으로 인해 부분 가설 결과는 '차트'라는 구조에 저장됩니다.
'차트'도 재사용 할 수 있습니다.
정규식 파서
Regexp 구문 분석은 가장 많이 사용되는 구문 분석 기술 중 하나입니다. 다음은 Regexp 파서에 대한 몇 가지 중요한 사항입니다-
이름에서 알 수 있듯이 POS 태그가 붙은 문자열 위에 문법 형식으로 정의 된 정규식을 사용합니다.
기본적으로 이러한 정규식을 사용하여 입력 문장을 구문 분석하고 이로부터 구문 분석 트리를 생성합니다.
예
다음은 Regexp 파서의 작동 예입니다-
import nltk
sentence = [
("a", "DT"),
("clever", "JJ"),
("fox","NN"),
("was","VBP"),
("jumping","VBP"),
("over","IN"),
("the","DT"),
("wall","NN")
]
grammar = "NP:{<DT>?<JJ>*<NN>}"
Reg_parser = nltk.RegexpParser(grammar)
Reg_parser.parse(sentence)
Output = Reg_parser.parse(sentence)
Output.draw()
산출
종속성 구문 분석
DP (Dependency Parsing)는 현대적인 구문 분석 메커니즘으로, 주요 개념은 각 언어 단위, 즉 단어가 직접 링크로 서로 관련된다는 것입니다. 이러한 직접 링크는 실제로‘dependencies’언어학. 예를 들어 다음 다이어그램은 문장에 대한 종속성 문법을 보여줍니다.“John can hit the ball”.
NLTK 패키지
NLTK로 의존성 파싱을하는 두 가지 방법이 있습니다.
확률 적, 투영 적 종속성 파서
이것이 NLTK로 의존성 파싱을 할 수있는 첫 번째 방법입니다. 그러나이 파서는 제한된 훈련 데이터 세트로 훈련하는 데 제한이 있습니다.
스탠포드 파서
이것은 NLTK로 의존성 파싱을 할 수있는 또 다른 방법입니다. Stanford 파서는 최첨단 종속성 파서입니다. NLTK에는 주위에 래퍼가 있습니다. 이를 사용하려면 다음 두 가지를 다운로드해야합니다.
스탠포드 CoreNLP 파서 .
원하는 언어에 대한 언어 모델 . 예를 들어 영어 모델입니다.
예
모델을 다운로드하면 다음과 같이 NLTK를 통해 사용할 수 있습니다.
from nltk.parse.stanford import StanfordDependencyParser
path_jar = 'path_to/stanford-parser-full-2014-08-27/stanford-parser.jar'
path_models_jar = 'path_to/stanford-parser-full-2014-08-27/stanford-parser-3.4.1-models.jar'
dep_parser = StanfordDependencyParser(
path_to_jar = path_jar, path_to_models_jar = path_models_jar
)
result = dep_parser.raw_parse('I shot an elephant in my sleep')
depndency = result.next()
list(dependency.triples())
산출
[
((u'shot', u'VBD'), u'nsubj', (u'I', u'PRP')),
((u'shot', u'VBD'), u'dobj', (u'elephant', u'NN')),
((u'elephant', u'NN'), u'det', (u'an', u'DT')),
((u'shot', u'VBD'), u'prep', (u'in', u'IN')),
((u'in', u'IN'), u'pobj', (u'sleep', u'NN')),
((u'sleep', u'NN'), u'poss', (u'my', u'PRP$'))
]