NLP-단어 감지 명확성

우리는 단어가 문장에서 사용되는 맥락에 따라 다른 의미를 가지고 있음을 이해합니다. 인간의 언어에 대해 이야기하면 많은 단어가 발생 상황에 따라 여러 가지 방법으로 해석 될 수 있기 때문에 너무 모호합니다.

자연어 처리 (NLP)에서 단어 감각 명확화는 특정 문맥에서 단어의 사용에 의해 활성화되는 단어의 의미를 결정하는 능력으로 정의 될 수 있습니다. 어휘 모호성, 구문 또는 의미는 모든 NLP 시스템이 직면하는 첫 번째 문제 중 하나입니다. 높은 수준의 정확성을 가진 품사 (POS) 태거는 Word의 구문 모호성을 해결할 수 있습니다. 반면 의미 모호성을 해결하는 문제를 WSD (단어 감각 명확성)라고합니다. 의미 모호성을 해결하는 것은 구문 모호성을 해결하는 것보다 어렵습니다.

예를 들어, 단어에 대해 존재하는 뚜렷한 의미의 두 가지 예를 고려하십시오. “bass”

  • 저음이 들립니다.

  • 그는 구운베이스를 먹는 것을 좋아합니다.

단어의 발생 bass뚜렷한 의미를 나타냅니다. 첫 번째 문장에서는frequency 두 번째로 fish. 따라서 WSD에 의해 명확 해지면 위의 문장에 대한 올바른 의미를 다음과 같이 할당 할 수 있습니다.

  • 저음 / 주파수 소리가 들립니다.

  • 그는 구운 농어 / 생선을 좋아합니다.

WSD 평가

WSD 평가에는 다음 두 가지 입력이 필요합니다.

사전

WSD 평가를위한 첫 번째 입력은 사전입니다. 이것은 명확하게 할 감각을 지정하는 데 사용됩니다.

코퍼스 테스트

WSD에 필요한 또 다른 입력은 대상 또는 올바른 감각이있는 높은 주석이 달린 테스트 코퍼스입니다. 테스트 말뭉치는 두 가지 유형이 될 수 있습니다. & minsu;

  • Lexical sample − 이런 종류의 말뭉치는 작은 단어 샘플을 명확하게하는 데 필요한 시스템에서 사용됩니다.

  • All-words − 이러한 종류의 말뭉치는 시스템에서 사용되며 실행중인 텍스트의 모든 단어를 명확하게합니다.

Word Sense Disambiguation (WSD)에 대한 접근 방식 및 방법

WSD에 대한 접근 방식과 방법은 단어 명확성에 사용되는 지식의 출처에 따라 분류됩니다.

이제 WSD에 대한 네 가지 기존 방법을 살펴 보겠습니다.

사전 기반 또는 지식 기반 방법

이름에서 알 수 있듯이 명확성을 위해 이러한 방법은 주로 사전, 보물 및 어휘 지식 기반에 의존합니다. 명확성을 위해 말뭉치 증거를 사용하지 않습니다. Lesk 방법은 Michael Lesk가 1986 년에 도입 한 중요한 사전 기반 방법입니다. Lesk 알고리즘의 기반이되는 Lesk 정의는 다음과 같습니다.“measure overlap between sense definitions for all words in context”. 그러나 2000 년 Kilgarriff와 Rosensweig는 단순화 된 Lesk 정의를 다음과 같이 제시했습니다.“measure overlap between sense definitions of word and current context”, 이는 한 번에 한 단어에 대한 올바른 의미를 식별하는 것을 의미합니다. 여기서 현재 컨텍스트는 주변 문장이나 단락의 단어 집합입니다.

감독 된 방법

명확성을 위해 기계 학습 방법은 학습에 의미 주석 말뭉치를 사용합니다. 이러한 방법은 문맥이 의미를 명확하게하기 위해 자체적으로 충분한 증거를 제공 할 수 있다고 가정합니다. 이러한 방법에서 지식과 추론이라는 단어는 불필요한 것으로 간주됩니다. 문맥은 단어의 "특징"집합으로 표현됩니다. 주변 단어에 대한 정보도 포함됩니다. 지원 벡터 머신 및 메모리 기반 학습은 WSD에 대한 가장 성공적인지도 학습 접근 방식입니다. 이러한 방법은 상당한 양의 수동 감지 태그 말뭉치를 사용하므로 생성하는 데 비용이 많이 듭니다.

반 감독 방법

훈련 말뭉치의 부족으로 인해 대부분의 단어 감각 명확화 알고리즘은 준지도 학습 방법을 사용합니다. 준지도 방법은 레이블이있는 데이터와 레이블이없는 데이터를 모두 사용하기 때문입니다. 이러한 방법에는 주석이 달린 매우 적은 양의 텍스트와 많은 양의 주석이없는 일반 텍스트가 필요합니다. 준지도 방법에서 사용하는 기술은 시드 데이터에서 부트 스트랩하는 것입니다.

감독되지 않는 방법

이러한 방법은 유사한 맥락에서 유사한 감각이 발생한다고 가정합니다. 그렇기 때문에 문맥의 유사성 측정을 사용하여 단어 발생을 클러스터링하여 텍스트에서 감각을 유도 할 수 있습니다. 이 작업을 단어 감각 유도 또는 차별이라고합니다. 비지도 방법은 수작업에 의존하지 않기 때문에 지식 습득 병목 현상을 극복 할 수있는 큰 잠재력을 가지고 있습니다.

Word Sense Disambiguation (WSD)의 응용

단어 감각 명확화 (WSD)는 언어 기술의 거의 모든 응용 프로그램에 적용됩니다.

이제 WSD의 범위를 살펴 보겠습니다.

기계 번역

기계 번역 또는 MT는 WSD의 가장 명백한 응용 프로그램입니다. MT에서는 서로 다른 감각으로 번역 된 단어에 대한 Lexical 선택이 WSD에 의해 수행됩니다. MT의 감각은 대상 언어의 단어로 표현됩니다. 대부분의 기계 번역 시스템은 명시적인 WSD 모듈을 사용하지 않습니다.

정보 검색 (IR)

정보 검색 (IR)은 문서 저장소, 특히 텍스트 정보에서 정보의 조직, 저장, 검색 및 평가를 처리하는 소프트웨어 프로그램으로 정의 될 수 있습니다. 이 시스템은 기본적으로 사용자가 필요한 정보를 찾는 데 도움을 주지만 질문에 대한 답변을 명시 적으로 반환하지는 않습니다. WSD는 IR 시스템에 제공되는 쿼리의 모호성을 해결하는 데 사용됩니다. MT와 마찬가지로 현재의 IR 시스템은 WSD 모듈을 명시 적으로 사용하지 않으며 사용자가 쿼리에 충분한 컨텍스트를 입력하여 관련 문서 만 검색한다는 개념에 의존합니다.

텍스트 마이닝 및 정보 추출 (IE)

대부분의 응용 프로그램에서 WSD는 텍스트를 정확하게 분석하는 데 필요합니다. 예를 들어, WSD는 지능적인 수집 시스템이 올바른 단어를 표시하는 데 도움이됩니다. 예를 들어 의료용 지능형 시스템은 '의료용 약물'이 아닌 '불법 약물'을 표시해야 할 수 있습니다.

사전 편집

현대 사전은 말뭉치 기반이기 때문에 WSD와 사전은 루프에서 함께 작동 할 수 있습니다. 사전 식을 통해 WSD는 대략적인 경험적 감각 그룹과 통계적으로 의미있는 감각의 맥락 적 지표를 제공합니다.

Word Sense Disambiguation (WSD)의 어려움

다음은 단어 감각 명확화 (WSD)가 직면 한 몇 가지 어려움입니다.

사전의 차이점

WSD의 주요 문제는 서로 다른 감각이 매우 밀접하게 관련 될 수 있기 때문에 단어의 의미를 결정하는 것입니다. 다른 사전과 시소러스조차도 단어를 감각으로 구분할 수 있습니다.

다양한 애플리케이션을위한 다양한 알고리즘

WSD의 또 다른 문제는 애플리케이션마다 완전히 다른 알고리즘이 필요할 수 있다는 것입니다. 예를 들어, 기계 번역에서는 대상 단어 선택의 형태를 취합니다. 그리고 정보 검색에서 감지 인벤토리가 필요하지 않습니다.

판사 간 차이

WSD의 또 다른 문제는 WSD 시스템이 일반적으로 작업에 대한 결과를 인간의 작업과 비교하여 테스트한다는 것입니다. 이를 판사 간 분산 문제라고합니다.

단어 감각의 불연속성

WSD의 또 다른 어려움은 단어를 개별 하위 의미로 쉽게 나눌 수 없다는 것입니다.