Gensim-문서 및 코퍼스

여기서는 문서와 말뭉치에 중점을 둔 Gensim의 핵심 개념에 대해 배웁니다.

Gensim의 핵심 개념

다음은 Gensim을 이해하고 사용하는 데 필요한 핵심 개념과 용어입니다.

  • Document − Z 일부 텍스트를 의미합니다.

  • Corpus − 문서 모음을 의미합니다.

  • Vector − 문서의 수학적 표현을 벡터라고합니다.

  • Model − 한 표현에서 다른 표현으로 벡터를 변환하는 데 사용되는 알고리즘을 나타냅니다.

문서 란?

논의한 바와 같이 일부 텍스트를 참조합니다. 자세히 살펴보면 다음과 같이 알려진 텍스트 시퀀스 유형의 객체입니다.‘str’ 예를 들어 Gensim에서 문서는 다음과 같이 될 수 있습니다.

  • 140 자 짧은 트윗
  • 단일 단락, 즉 기사 또는 연구 논문 초록
  • 뉴스 기사
  • Book
  • Novel
  • Theses

텍스트 시퀀스

텍스트 시퀀스 유형은 일반적으로 다음과 같이 알려져 있습니다. ‘str’ 파이썬 3에서 우리가 알고 있듯이 파이썬에서 텍스트 데이터는 문자열 또는 더 구체적으로 ‘str’사물. 문자열은 기본적으로 유니 코드 코드 포인트의 변경 불가능한 시퀀스이며 다음과 같은 방법으로 작성할 수 있습니다.

  • Single quotes − 예 : ‘Hi! How are you?’. 또한 큰 따옴표를 포함 할 수 있습니다. 예를 들면‘Hi! “How” are you?’

  • Double quotes − 예 : "Hi! How are you?". 작은 따옴표도 포함 할 수 있습니다. 예를 들면"Hi! 'How' are you?"

  • Triple quotes − 다음과 같이 세 개의 작은 따옴표를 가질 수 있습니다. '''Hi! How are you?'''. 또는 다음과 같은 세 개의 큰 따옴표,"""Hi! 'How' are you?"""

모든 공백은 문자열 리터럴에 포함됩니다.

다음은 Gensim 문서의 예입니다-

Document = “Tutorialspoint.com is the biggest online tutorials library and it’s all free also”

코퍼스는 무엇입니까?

말뭉치는 자연스러운 의사 소통 환경에서 생성 된 크고 구조화 된 기계 판독 가능 텍스트 세트로 정의 될 수 있습니다. Gensim에서는 문서 객체 모음을 말뭉치라고합니다. 말뭉치의 복수는corpora.

Gensim에서 코퍼스의 역할

Gensim의 코퍼스는 다음 두 가지 역할을합니다.

모델 훈련을위한 입력으로 사용

Gensim에서 말뭉치가 수행하는 첫 번째이자 중요한 역할은 모델 훈련을위한 입력입니다. 모델의 내부 매개 변수를 초기화하기 위해 학습 중에 모델은 학습 코퍼스에서 몇 가지 공통 주제와 주제를 찾습니다. 위에서 논의한 바와 같이 Gensim은 감독되지 않은 모델에 초점을 맞추므로 어떤 종류의 인간 개입도 필요하지 않습니다.

주제 추출기로 사용

모델이 학습되면 새 문서에서 주제를 추출하는 데 사용할 수 있습니다. 여기에서 새 문서는 교육 단계에서 사용되지 않는 문서입니다.

코퍼스에는 특정인의 모든 트윗, 신문의 모든 기사 목록 또는 특정 주제에 대한 모든 연구 논문 등이 포함될 수 있습니다.

코퍼스 수집

다음은 5 개의 문서를 포함하는 작은 말뭉치의 예입니다. 여기에서 모든 문서는 단일 문장으로 구성된 문자열입니다.

t_corpus = [
   "A survey of user opinion of computer system response time",
   "Relation of user perceived response time to error measurement",
   "The generation of random binary unordered trees",
   "The intersection graph of paths in trees",
   "Graph minors IV Widths of trees and well quasi ordering",
]

코퍼스 수집 전처리

말뭉치를 수집 한 후에는 말뭉치를 단순하게 유지하기 위해 몇 가지 전처리 단계를 수행해야합니다. 'the'와 같이 일반적으로 사용되는 영어 단어를 간단히 제거 할 수 있습니다. 말뭉치에서 한 번만 나오는 단어를 제거 할 수도 있습니다.

예를 들어, 다음 Python 스크립트는 각 문서를 소문자로 나누고 공백으로 나누고 불용어를 필터링하는 데 사용됩니다.

import pprint
t_corpus = [
   "A survey of user opinion of computer system response time", 
   "Relation of user perceived response time to error measurement", 
   "The generation of random binary unordered trees", 
   "The intersection graph of paths in trees", 
   "Graph minors IV Widths of trees and well quasi ordering",
]
stoplist = set('for a of the and to in'.split(' '))
processed_corpus = [[word for word in document.lower().split() if word not in stoplist]
   for document in t_corpus]
	
pprint.pprint(processed_corpus)
]

산출

[['survey', 'user', 'opinion', 'computer', 'system', 'response', 'time'],
['relation', 'user', 'perceived', 'response', 'time', 'error', 'measurement'],
['generation', 'random', 'binary', 'unordered', 'trees'],
['intersection', 'graph', 'paths', 'trees'],
['graph', 'minors', 'iv', 'widths', 'trees', 'well', 'quasi', 'ordering']]

효과적인 전처리

Gensim은 또한 말뭉치의보다 효과적인 전처리 기능을 제공합니다. 이러한 종류의 전처리에서는 문서를 소문자 토큰 목록으로 변환 할 수 있습니다. 너무 짧거나 너무 긴 토큰도 무시할 수 있습니다. 이러한 기능은gensim.utils.simple_preprocess(doc, deacc=False, min_len=2, max_len=15).

gensim.utils.simple_preprocess() fucntion

Gensim은 문서를 소문자 토큰 목록으로 변환하고 너무 짧거나 너무 긴 토큰을 무시하는이 기능을 제공합니다. 다음과 같은 매개 변수가 있습니다.

doc (str)

전처리를 적용해야하는 입력 문서를 의미합니다.

deacc (bool, 선택 사항)

이 매개 변수는 토큰에서 악센트 표시를 제거하는 데 사용됩니다. 그것은 사용합니다deaccent() 이것을하기 위해.

min_len (int, 선택 사항)

이 매개 변수의 도움으로 토큰의 최소 길이를 설정할 수 있습니다. 정의 된 길이보다 짧은 토큰은 폐기됩니다.

max_len (int, 선택 사항)

이 매개 변수의 도움으로 토큰의 최대 길이를 설정할 수 있습니다. 정의 된 길이보다 긴 토큰은 폐기됩니다.

이 함수의 출력은 입력 문서에서 추출 된 토큰입니다.