품사 (PoS) 태그 지정
태깅은 토큰에 대한 설명의 자동 할당으로 정의 될 수있는 일종의 분류입니다. 여기서 설명자는 태그라고하며 품사, 의미 정보 등 중 하나를 나타낼 수 있습니다.
이제 Part-of-Speech (PoS) 태깅에 대해 이야기하면 품사 중 하나를 주어진 단어에 할당하는 프로세스로 정의 할 수 있습니다. 일반적으로 POS 태깅이라고합니다. 간단히 말해서 POS 태깅은 문장의 각 단어에 적절한 품사로 레이블을 지정하는 작업이라고 말할 수 있습니다. 우리는 이미 품사에 명사, 동사, 부사, 형용사, 대명사, 접속사 및 그 하위 범주가 포함된다는 것을 알고 있습니다.
대부분의 POS 태깅은 Rule Base POS 태깅, Stochastic POS 태깅 및 변환 기반 태깅에 속합니다.
규칙 기반 POS 태깅
가장 오래된 태깅 기술 중 하나는 규칙 기반 POS 태깅입니다. 규칙 기반 태거는 각 단어에 태그를 지정할 수있는 태그를 얻기 위해 사전 또는 어휘를 사용합니다. 단어에 가능한 태그가 두 개 이상있는 경우 규칙 기반 태거는 손으로 작성한 규칙을 사용하여 올바른 태그를 식별합니다. 단어의 선행 및 다음 단어와 함께 단어의 언어 적 특징을 분석하여 규칙 기반 태깅에서 명확성을 수행 할 수도 있습니다. 예를 들어, 단어의 선행 단어가 기사 인 경우 단어는 명사 여야합니다.
이름에서 알 수 있듯이 규칙 기반 POS 태깅의 이러한 모든 정보는 규칙 형식으로 코딩됩니다. 이러한 규칙은 다음 중 하나 일 수 있습니다.
컨텍스트 패턴 규칙
또는 정규 표현식이 유한 상태 자동 장치로 컴파일되어 어휘 모호한 문장 표현과 교차합니다.
또한 2 단계 아키텍처로 규칙 기반 POS 태깅을 이해할 수 있습니다.
First stage − 첫 번째 단계에서는 사전을 사용하여 각 단어에 잠재적 품사 목록을 할당합니다.
Second stage − 두 번째 단계에서는 손으로 쓴 모호성 해제 규칙의 큰 목록을 사용하여 목록을 각 단어에 대한 단일 품사로 정렬합니다.
규칙 기반 POS 태깅의 속성
규칙 기반 POS 태거는 다음과 같은 속성을 가지고 있습니다.
이러한 태거는 지식 기반 태거입니다.
규칙 기반 POS 태깅의 규칙은 수동으로 작성됩니다.
정보는 규칙의 형태로 코딩됩니다.
약 1000 개 정도의 제한된 수의 규칙이 있습니다.
평활화 및 언어 모델링은 규칙 기반 태거에서 명시 적으로 정의됩니다.
확률 적 POS 태깅
태깅의 또 다른 기술은 Stochastic POS 태깅입니다. 이제 여기서 제기되는 질문은 어떤 모델이 확률적일 수 있는지입니다. 빈도 또는 확률 (통계)을 포함하는 모델을 확률 적이라고 할 수 있습니다. 품사 태깅 문제에 대한 다양한 접근 방식을 확률 적 태 거라고 할 수 있습니다.
가장 간단한 확률 적 태거는 POS 태깅에 다음 접근 방식을 적용합니다.
단어 빈도 접근법
이 접근 방식에서 확률 적 태거는 단어가 특정 태그와 함께 발생할 확률을 기반으로 단어를 명확하게합니다. 또한 학습 세트의 단어와 함께 가장 자주 접하는 태그는 해당 단어의 모호한 인스턴스에 할당 된 태그라고 말할 수 있습니다. 이 접근 방식의 주요 문제는 허용되지 않는 태그 시퀀스가 생성 될 수 있다는 것입니다.
태그 시퀀스 확률
이것은 확률 적 태깅의 또 다른 접근 방식으로, 태거는 주어진 태그 시퀀스가 발생할 확률을 계산합니다. n-gram 접근법이라고도합니다. 주어진 단어에 대한 최상의 태그가 이전 n 개의 태그와 함께 발생할 확률에 의해 결정되기 때문에 그렇게 호출됩니다.
확률 적 POST 태깅의 속성
확률 적 POS 태거는 다음과 같은 속성을 가지고 있습니다.
이 POS 태깅은 태그 발생 확률을 기반으로합니다.
훈련 코퍼스가 필요합니다.
말뭉치에 존재하지 않는 단어에 대한 확률은 없습니다.
다른 테스트 코퍼스 (훈련 코퍼스 제외)를 사용합니다.
훈련 말뭉치에서 단어와 관련된 가장 빈번한 태그를 선택하기 때문에 가장 간단한 POS 태깅입니다.
변환 기반 태깅
변환 기반 태깅을 Brill 태깅이라고도합니다. 주어진 텍스트에 대한 POS의 자동 태그 지정을위한 규칙 기반 알고리즘 인 변환 기반 학습 (TBL)의 인스턴스입니다. TBL은 우리가 읽을 수있는 형태로 언어 지식을 가질 수있게하여 변환 규칙을 사용하여 한 상태를 다른 상태로 변환합니다.
규칙 기반과 확률 적이라는 이전에 설명 된 태거에서 영감을 얻었습니다. 규칙 기반과 변환 태거 사이의 유사성을 발견하면 규칙 기반과 마찬가지로 어떤 태그를 어떤 단어에 할당해야하는지 지정하는 규칙을 기반으로합니다. 반면에 확률론과 변환 태거의 유사성을 보면 확률론과 같이 데이터에서 자동으로 규칙을 유도하는 머신 러닝 기법입니다.
변환 기반 학습 (TBL) 작업
변환 기반 태거의 작동 및 개념을 이해하려면 변환 기반 학습의 작동을 이해해야합니다. TBL의 작동을 이해하려면 다음 단계를 고려하십시오.
Start with the solution − TBL은 일반적으로 문제에 대한 해결책으로 시작하여 주기적으로 작동합니다.
Most beneficial transformation chosen − 각주기에서 TBL은 가장 유익한 변환을 선택합니다.
Apply to the problem − 마지막 단계에서 선택한 변환이 문제에 적용됩니다.
알고리즘은 2 단계에서 선택한 변환이 더 많은 값을 추가하지 않거나 더 이상 선택할 변환이 없을 때 중지됩니다. 이러한 종류의 학습은 분류 작업에 가장 적합합니다.
변환 기반 학습 (TBL)의 장점
TBL의 장점은 다음과 같습니다.
간단한 규칙의 작은 집합을 배우고 이러한 규칙은 태그 지정에 충분합니다.
학습 된 규칙이 이해하기 쉽기 때문에 개발과 디버깅이 TBL에서 매우 쉽습니다.
TBL에는 기계 학습 및 사람이 생성 한 규칙의 인터레이스가 있기 때문에 태깅의 복잡성이 줄어 듭니다.
변환 기반 태거는 Markov 모델 태거보다 훨씬 빠릅니다.
변환 기반 학습 (TBL)의 단점
TBL의 단점은 다음과 같습니다.
변환 기반 학습 (TBL)은 태그 확률을 제공하지 않습니다.
TBL에서 훈련 시간은 특히 큰 말뭉치에서 매우 깁니다.
HMM (Hidden Markov Model) POS 태깅
HMM POS 태깅에 대해 자세히 알아보기 전에 HMM (Hidden Markov Model)의 개념을 이해해야합니다.
은닉 마르코프 모델
HMM 모델은 기본 확률 프로세스가 숨겨져있는 이중 내장 확률 모델로 정의 될 수 있습니다. 이 숨겨진 확률 적 과정은 일련의 관찰을 생성하는 또 다른 확률 적 과정을 통해서만 관찰 할 수 있습니다.
예
예를 들어, 일련의 숨겨진 동전 던지기 실험이 수행되고 우리는 앞면과 뒷면으로 구성된 관찰 순서 만 볼 수 있습니다. 프로세스의 실제 세부 사항 (사용 된 코인 수, 선택한 순서)은 우리에게 숨겨져 있습니다. 이 머리와 꼬리의 시퀀스를 관찰함으로써 우리는 시퀀스를 설명하기 위해 여러 개의 HMM을 만들 수 있습니다. 다음은이 문제에 대한 은닉 마르코프 모델의 한 형태입니다.
우리는 HMM에 두 개의 상태가 있고 각 상태가 서로 다른 바이어스 된 코인의 선택에 해당한다고 가정했습니다. 다음 행렬은 상태 전이 확률을 제공합니다-
$$ A = \ begin {bmatrix} a11 및 a12 \\ a21 및 a22 \ end {bmatrix} $$
여기,
aij = i에서 j로 한 상태에서 다른 상태로 전이 할 확률.
a11 + a12= 1 및 a 21 + a 22 = 1
P1 = 첫 번째 동전의 앞면 확률, 즉 첫 번째 동전의 편향.
P2 = 두 번째 동전의 앞면 확률, 즉 두 번째 동전의 편향.
코인이 3 개 이상이라고 가정하여 HMM 모델을 생성 할 수도 있습니다.
이렇게하면 HMM을 다음 요소로 특성화 할 수 있습니다.
N, 모델의 상태 수 (위의 예에서 N = 2, 두 상태 만).
M, 위의 예에서 각 상태로 나타날 수있는 고유 한 관측치의 수 M = 2, 즉 H 또는 T).
A, 상태 전이 확률 분포-위의 예에서 행렬 A.
P, 각 상태에서 관찰 가능한 심볼의 확률 분포 (이 예에서는 P1 및 P2).
I, 초기 상태 분포.
POS 태깅에 HMM 사용
POS 태깅 프로세스는 주어진 단어 시퀀스를 생성했을 가능성이 가장 높은 태그 시퀀스를 찾는 프로세스입니다. HMM (Hidden Markov Model)을 사용하여이 POS 프로세스를 모델링 할 수 있습니다.tags 입니다 hidden states 그 생산 observable output, 즉, words.
수학적으로 POS 태깅에서 우리는 항상 최대화하는 태그 시퀀스 (C)를 찾는 데 관심이 있습니다.
P (C|W)
어디,
C = C 1 , C 2 , C 3 ... CT
승 = 승 1 , 승 2 , 승 3 , 승 T
코인의 다른 측면에서는 이러한 종류의 시퀀스를 합리적으로 추정하기 위해 많은 통계 데이터가 필요합니다. 그러나 문제를 단순화하기 위해 몇 가지 가정과 함께 몇 가지 수학적 변환을 적용 할 수 있습니다.
POS 태깅을 위해 HMM을 사용하는 것은 베이지안 간섭의 특별한 경우입니다. 따라서 위에서 언급 한 조건부 확률이 다음과 같다는 Bayes의 규칙을 사용하여 문제를 다시 시작합니다.
(PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT)) / PROB (W1,..., WT)
위의 값을 최대화하는 시퀀스 C를 찾는 데 관심이 있기 때문에 이러한 모든 경우에 분모를 제거 할 수 있습니다. 이것은 우리의 대답에 영향을 미치지 않습니다. 이제 우리의 문제는 최대화되는 시퀀스 C를 찾는 것으로 축소됩니다.
PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT) (1)
위의 표현에서 문제를 줄인 후에도 많은 양의 데이터가 필요합니다. 우리는 문제를 극복하기 위해 위의 표현에서 두 가지 확률에 대해 합리적인 독립 가정을 할 수 있습니다.
첫 번째 가정
태그의 확률은 이전 태그 (bigram 모델) 또는 이전 두 태그 (trigram 모델) 또는 이전 n 태그 (n-gram 모델)에 따라 달라지며 수학적으로 다음과 같이 설명 할 수 있습니다.
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-n+1…Ci-1) (n-gram model)
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-1) (bigram model)
문장의 시작은 각 태그에 대한 초기 확률을 가정하여 설명 할 수 있습니다.
PROB (C1|C0) = PROB initial (C1)
두 번째 가정
위의 방정식 (1)에서 두 번째 확률은 다음과 같이 수학적으로 설명 할 수있는 이전 또는 후속 범주의 단어와 독립적 인 범주에 단어가 나타난다 고 가정하여 근사화 할 수 있습니다.
PROB (W1,..., WT | C1,..., CT) = Πi=1..T PROB (Wi|Ci)
이제 위의 두 가지 가정을 바탕으로 우리의 목표는 다음을 최대화하는 시퀀스 C를 찾는 것으로 축소됩니다.
Πi=1...T PROB(Ci|Ci-1) * PROB(Wi|Ci)
이제 여기서 제기되는 질문은 문제를 위의 형식으로 변환하는 것이 정말 도움이되었다는 것입니다. 대답은-그렇습니다. 태그가 붙은 큰 말뭉치가 있으면 위 공식의 두 확률은 다음과 같이 계산할 수 있습니다.
PROB (Ci=VERB|Ci-1=NOUN) = (# of instances where Verb follows Noun) / (# of instances where Noun appears) (2)
PROB (Wi|Ci) = (# of instances where Wi appears in Ci) /(# of instances where Ci appears) (3)