Gensim-사전 만들기
벡터와 모델에 대해 논의한 지난 장에서 사전에 대한 아이디어를 얻었습니다. 여기서 우리는Dictionary 개체를 좀 더 자세히 설명합니다.
사전이란 무엇입니까?
사전의 개념에 깊이 들어가기 전에 몇 가지 간단한 NLP 개념을 이해합시다.
Token − 토큰은 '단어'를 의미합니다.
Document − 문서는 문장 또는 단락을 의미합니다.
Corpus − 문서 모음을 단어 모음 (BoW)이라고합니다.
모든 문서에서 말뭉치는 항상 각 단어의 토큰 ID와 문서의 빈도 수를 포함합니다.
Gensim의 사전 개념으로 이동하겠습니다. 텍스트 문서 작업을 위해 Gensim은 단어, 즉 토큰을 고유 ID로 변환해야합니다. 이를 달성하기 위해 우리에게Dictionary object, 각 단어를 고유 한 정수 ID에 매핑합니다. 입력 텍스트를 단어 목록으로 변환 한 다음corpora.Dictionary() 목적.
사전 필요
이제 딕셔너리 객체가 실제로 필요한 것은 무엇이며 어디에서 사용할 수 있는지에 대한 질문이 생깁니다. Gensim에서 사전 객체는 주제 모델링 및 기타 모델에 대한 입력으로 추가로 사용되는 단어 모음 (BoW) 코퍼스를 만드는 데 사용됩니다.
텍스트 입력 형식
입력 텍스트에는 세 가지 형식이 있습니다. Gensim에 제공 할 수 있습니다.
Python의 기본 목록 객체 (로 알려진 str 파이썬 3)
단일 텍스트 파일로 (작거나 큰 파일 일 수 있음)
여러 텍스트 파일
Gensim을 사용하여 사전 생성
논의 된 바와 같이 Gensim에서 사전에는 고유 한 정수 ID에 대한 모든 단어 (일명 토큰)의 매핑이 포함되어 있습니다. 하나 이상의 텍스트 파일 (여러 줄의 텍스트를 포함하는 텍스트 파일)에서 문장 목록에서 사전을 만들 수 있습니다. 자, 먼저 문장 목록을 사용하여 사전을 만들어 보겠습니다.
문장 목록에서
다음 예에서는 문장 목록에서 사전을 만듭니다. 문장 목록이 있거나 여러 문장을 말할 수있는 경우 모든 문장을 단어 목록으로 변환해야하며 이해력은이를 수행하는 매우 일반적인 방법 중 하나입니다.
구현 예
먼저 다음과 같이 필요하고 필요한 패키지를 가져옵니다.
import gensim
from gensim import corpora
from pprint import pprint
다음으로, 문장 / 문서 목록에서 이해 목록을 만들어 사전을 만드는 데 사용합니다.
doc = [
"CNTK formerly known as Computational Network Toolkit",
"is a free easy-to-use open-source commercial-grade toolkit",
"that enable us to train deep learning algorithms to learn like the human brain."
]
다음으로 문장을 단어로 분할해야합니다. 이를 토큰 화라고합니다.
text_tokens = [[text for text in doc.split()] for doc in doc]
이제 다음 스크립트의 도움으로 사전을 만들 수 있습니다.
dict_LoS = corpora.Dictionary(text_tokens)
이제 딕셔너리에있는 토큰의 수와 같은 더 많은 정보를 얻자-
print(dict_LoS)
산출
Dictionary(27 unique tokens: ['CNTK', 'Computational', 'Network', 'Toolkit', 'as']...)
다음과 같이 고유 한 정수 매핑에 대한 단어를 볼 수도 있습니다.
print(dict_LoS.token2id)
산출
{
'CNTK': 0, 'Computational': 1, 'Network': 2, 'Toolkit': 3, 'as': 4,
'formerly': 5, 'known': 6, 'a': 7, 'commercial-grade': 8, 'easy-to-use': 9,
'free': 10, 'is': 11, 'open-source': 12, 'toolkit': 13, 'algorithms': 14,
'brain.': 15, 'deep': 16, 'enable': 17, 'human': 18, 'learn': 19, 'learning': 20,
'like': 21, 'that': 22, 'the': 23, 'to': 24, 'train': 25, 'us': 26
}
완전한 구현 예
import gensim
from gensim import corpora
from pprint import pprint
doc = [
"CNTK formerly known as Computational Network Toolkit",
"is a free easy-to-use open-source commercial-grade toolkit",
"that enable us to train deep learning algorithms to learn like the human brain."
]
text_tokens = [[text for text in doc.split()] for doc in doc]
dict_LoS = corpora.Dictionary(text_tokens)
print(dict_LoS.token2id)
단일 텍스트 파일에서
다음 예에서는 단일 텍스트 파일에서 사전을 생성합니다. 비슷한 방식으로 하나 이상의 텍스트 파일 (예 : 파일 디렉토리)에서 사전을 만들 수도 있습니다.
이를 위해 이전 예제에서 사용 된 문서를 텍스트 파일에 저장했습니다. doc.txt. Gensim은 파일을 한 줄씩 읽고 다음을 사용하여 한 번에 한 줄씩 처리합니다.simple_preprocess. 이런 식으로 전체 파일을 한 번에 메모리에로드 할 필요가 없습니다.
구현 예
먼저 다음과 같이 필요하고 필요한 패키지를 가져옵니다.
import gensim
from gensim import corpora
from pprint import pprint
from gensim.utils import simple_preprocess
from smart_open import smart_open
import os
다음 코드 줄은 doc.txt라는 단일 텍스트 파일을 사용하여 gensim 사전을 만듭니다.
dict_STF = corpora.Dictionary(
simple_preprocess(line, deacc =True) for line in open(‘doc.txt’, encoding=’utf-8’)
)
이제 딕셔너리에있는 토큰의 수와 같은 더 많은 정보를 얻자-
print(dict_STF)
산출
Dictionary(27 unique tokens: ['CNTK', 'Computational', 'Network', 'Toolkit', 'as']...)
다음과 같이 고유 한 정수 매핑에 대한 단어를 볼 수도 있습니다.
print(dict_STF.token2id)
산출
{
'CNTK': 0, 'Computational': 1, 'Network': 2, 'Toolkit': 3, 'as': 4,
'formerly': 5, 'known': 6, 'a': 7, 'commercial-grade': 8, 'easy-to-use': 9,
'free': 10, 'is': 11, 'open-source': 12, 'toolkit': 13, 'algorithms': 14,
'brain.': 15, 'deep': 16, 'enable': 17, 'human': 18, 'learn': 19,
'learning': 20, 'like': 21, 'that': 22, 'the': 23, 'to': 24, 'train': 25, 'us': 26
}
완전한 구현 예
import gensim
from gensim import corpora
from pprint import pprint
from gensim.utils import simple_preprocess
from smart_open import smart_open
import os
dict_STF = corpora.Dictionary(
simple_preprocess(line, deacc =True) for line in open(‘doc.txt’, encoding=’utf-8’)
)
dict_STF = corpora.Dictionary(text_tokens)
print(dict_STF.token2id)
여러 텍스트 파일에서
이제 여러 파일, 즉 동일한 디렉토리에 저장된 둘 이상의 텍스트 파일에서 사전을 만들어 보겠습니다. 이 예에서는 세 개의 다른 텍스트 파일을 만들었습니다.first.txt, second.txt 과 third.txt텍스트 파일 (doc.txt)의 세 줄을 포함하며 이전 예제에서 사용했습니다. 이 세 개의 텍스트 파일은 모두ABC.
구현 예
이를 구현하려면 디렉터리 (ABC)의 세 텍스트 파일 (First, Second, Third.txt)을 모두 반복하고 처리 된 단어 토큰 목록을 생성 할 수있는 메서드로 클래스를 정의해야합니다.
명명 된 클래스를 정의합시다. Read_files __라는 메서드가 있습니다.iteration__ () 다음과 같이-
class Read_files(object):
def __init__(self, directoryname):
elf.directoryname = directoryname
def __iter__(self):
for fname in os.listdir(self.directoryname):
for line in open(os.path.join(self.directoryname, fname), encoding='latin'):
yield simple_preprocess(line)
다음으로 다음과 같이 디렉토리 경로를 제공해야합니다.
path = "ABC"
#provide the path as per your computer system where you saved the directory.
다음 단계는 이전 예제에서했던 것과 유사합니다. 다음 코드 줄은 세 개의 텍스트 파일이있는 디렉토리를 사용하여 Gensim 디렉토리를 만듭니다.
dict_MUL = corpora.Dictionary(Read_files(path))
산출
Dictionary(27 unique tokens: ['CNTK', 'Computational', 'Network', 'Toolkit', 'as']...)
이제 다음과 같이 고유 한 정수 매핑에 대한 단어도 볼 수 있습니다.
print(dict_MUL.token2id)
산출
{
'CNTK': 0, 'Computational': 1, 'Network': 2, 'Toolkit': 3, 'as': 4,
'formerly': 5, 'known': 6, 'a': 7, 'commercial-grade': 8, 'easy-to-use': 9,
'free': 10, 'is': 11, 'open-source': 12, 'toolkit': 13, 'algorithms': 14,
'brain.': 15, 'deep': 16, 'enable': 17, 'human': 18, 'learn': 19,
'learning': 20, 'like': 21, 'that': 22, 'the': 23, 'to': 24, 'train': 25, 'us': 26
}
Gensim 사전 저장 및로드
Gensim은 자체 네이티브 지원 save() 사전을 디스크에 저장하는 방법 및 load() 디스크에서 사전을 다시로드하는 방법입니다.
예를 들어, 다음 스크립트를 사용하여 사전을 저장할 수 있습니다.
Gensim.corpora.dictionary.save(filename)
#provide the path where you want to save the dictionary.
마찬가지로 load () 메서드를 사용하여 저장된 사전을로드 할 수 있습니다. 다음 스크립트는 이것을 할 수 있습니다-
Gensim.corpora.dictionary.load(filename)
#provide the path where you have saved the dictionary.