Gensim-소개
이 장은 Gensim의 사용 및 장점과 함께 Gensim의 역사와 기능을 이해하는 데 도움이 될 것입니다.
Gensim은 무엇입니까?
Gensim = “Generate Similar”비지도 주제 모델링에 사용되는 인기있는 오픈 소스 자연어 처리 (NLP) 라이브러리입니다. 그것은 다음과 같은 다양한 복잡한 작업을 수행하기 위해 최고의 학술 모델과 현대 통계 기계 학습을 사용합니다.
- 문서 또는 단어 벡터 작성
- Corpora
- 주제 식별 수행
- 문서 비교 수행 (의미 상 유사한 문서 검색)
- 의미 구조에 대한 일반 텍스트 문서 분석
위의 복잡한 작업을 수행하는 것 외에도 Python 및 Cython으로 구현 된 Gensim은 데이터 스트리밍 및 증분 온라인 알고리즘을 사용하여 대규모 텍스트 컬렉션을 처리하도록 설계되었습니다. 따라서 메모리 내 처리만을 대상으로하는 기계 학습 소프트웨어 패키지와 다릅니다.
역사
2008 년 Gensim은 체코 디지털 수학을위한 다양한 Python 스크립트 모음으로 시작했습니다. 거기에서 특정 기사와 가장 유사한 기사의 짧은 목록을 생성하는 역할을했습니다. 그러나 2009 년에 RARE Technologies Ltd.는 최초 릴리스를 출시했습니다. 그런 다음 2019 년 7 월 말에 안정적인 릴리스 (3.8.0)를 얻었습니다.
다양한 기능
다음은 Gensim이 제공하는 기능 중 일부입니다-
확장 성
Gensim은 증분 온라인 교육 알고리즘을 사용하여 대규모 웹 규모 말뭉치를 쉽게 처리 할 수 있습니다. 전체 입력 코퍼스가 한 번에 RAM (Random Access Memory)에 완전히 상주 할 필요가 없기 때문에 본질적으로 확장 가능합니다. 즉, 모든 알고리즘은 말뭉치 크기와 관련하여 메모리에 독립적입니다.
건장한
Gensim은 본질적으로 견고하며 다양한 사람과 조직에서 4 년 이상 다양한 시스템에서 사용되었습니다. 우리는 우리 자신의 입력 말뭉치 또는 데이터 스트림을 쉽게 연결할 수 있습니다. 다른 벡터 공간 알고리즘으로 확장하는 것도 매우 쉽습니다.
플랫폼 불가지론
Python은 순수 Python이므로 Gensim은 Python 및 Numpy를 지원하는 모든 플랫폼 (예 : Windows, Mac OS, Linux)에서 실행되므로 매우 다양한 언어입니다.
효율적인 멀티 코어 구현
머신 클러스터에서 처리 및 검색 속도를 높이기 위해 Gensim은 다음과 같은 다양한 인기 알고리즘의 효율적인 멀티 코어 구현을 제공합니다. Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP).
오픈 소스 및 풍부한 커뮤니티 지원
Gensim은 OSI 승인 GNU LGPL 라이선스에 따라 라이선스가 부여되어 개인용 및 상업용으로 모두 무료로 사용할 수 있습니다. Gensim에서 만든 모든 수정은 차례로 오픈 소스이며 풍부한 커뮤니티 지원도 제공합니다.
Gensim의 용도
Gensim은 수천 개가 넘는 상업 및 학술 응용 프로그램에서 사용되고 인용되었습니다. 다양한 연구 논문과 학생 논문에서도 인용됩니다. 그것은 다음의 스트리밍 병렬 구현을 포함합니다-
fastText
fastText는 단어 임베딩에 신경망을 사용하며, 단어 임베딩 및 텍스트 분류 학습을위한 라이브러리입니다. 페이스 북의 AI Research (FAIR) 연구소에서 만든 것입니다. 기본적으로이 모델을 사용하면 단어에 대한 벡터 표현을 얻기위한 감독 또는 비지도 알고리즘을 만들 수 있습니다.
Word2vec
워드 임베딩을 생성하는 데 사용되는 Word2vec은 얕은 2 층 신경망 모델 그룹입니다. 모델은 기본적으로 단어의 언어 적 맥락을 재구성하도록 훈련되었습니다.
LSA (잠재 의미 분석)
문서 세트와 포함 된 용어 간의 관계를 분석 할 수있는 NLP (Natural Language Processing)의 기술입니다. 문서 및 용어와 관련된 일련의 개념을 생성하여 수행됩니다.
LDA (잠재 디리클레 할당)
관찰되지 않은 그룹이 일련의 관찰을 설명 할 수있는 NLP의 기술입니다. 이 관찰되지 않은 그룹은 데이터의 일부가 유사한 이유를 설명합니다. 그 이유는 생성 적 통계 모델입니다.
tf-idf (용어 빈도-역 문서 빈도)
정보 검색의 숫자 통계 인 tf-idf는 말뭉치의 문서에서 단어가 얼마나 중요한지를 반영합니다. 검색 엔진에서 사용자 쿼리에 따라 문서의 관련성을 평가하고 순위를 매기는 데 자주 사용됩니다. 텍스트 요약 및 분류에서 불용어 필터링에도 사용할 수 있습니다.
이들 모두는 다음 섹션에서 자세히 설명합니다.
장점
Gensim은 토픽 모델링을 수행하는 NLP 패키지입니다. Gensim의 중요한 장점은 다음과 같습니다.
주제 모델링 및 단어 임베딩 기능을 다음과 같은 다른 패키지에 사용할 수 있습니다. ‘scikit-learn’ 과 ‘R’,하지만 Gensim이 토픽 모델 및 단어 임베딩을 구축하기 위해 제공하는 기능은 비교할 수 없습니다. 또한 텍스트 처리를위한보다 편리한 기능을 제공합니다.
Gensim의 또 다른 가장 중요한 장점은 전체 파일을 메모리에로드하지 않고도 대용량 텍스트 파일을 처리 할 수 있다는 것입니다.
Gensim은 감독되지 않은 모델을 사용하기 때문에 값 비싼 주석이나 문서에 손으로 태그를 지정할 필요가 없습니다.