OpenNLP-개요

NLP는 웹 페이지 및 텍스트 문서와 같은 자연어 소스에서 의미 있고 유용한 정보를 추출하는 데 사용되는 도구 세트입니다.

Open NLP 란 무엇입니까?

Apache OpenNLP자연어 텍스트를 처리하는 데 사용되는 오픈 소스 Java 라이브러리입니다. 이 라이브러리를 사용하여 효율적인 텍스트 처리 서비스를 구축 할 수 있습니다.

OpenNLP는 토큰 화, 문장 분할, 품사 태깅, 명명 된 엔티티 추출, 청킹, 구문 분석, 공동 참조 해결 등과 같은 서비스를 제공합니다.

OpenNLP의 특징

다음은 OpenNLP의 주목할만한 기능입니다-

  • Named Entity Recognition (NER) − Open NLP는 쿼리를 처리하는 동안에도 위치, 사람 및 사물의 이름을 추출 할 수있는 NER를 지원합니다.

  • Summarize − 사용 summarize 기능을 사용하면 NLP에서 단락, 기사, 문서 또는 컬렉션을 요약 할 수 있습니다.

  • Searching − OpenNLP에서는 주어진 단어가 변경되거나 철자가 틀린 경우에도 주어진 텍스트에서 주어진 검색 문자열 또는 동의어를 식별 할 수 있습니다.

  • Tagging (POS) − NLP의 태깅은 추가 분석을 위해 텍스트를 다양한 문법 요소로 나누는 데 사용됩니다.

  • Translation − NLP에서 Translation은 한 언어를 다른 언어로 번역하는 데 도움이됩니다.

  • Information grouping − NLP의이 옵션은 품사처럼 문서 내용의 텍스트 정보를 그룹화합니다.

  • Natural Language Generation − 데이터베이스에서 정보를 생성하고 기상 분석이나 의료 보고서와 같은 정보 보고서를 자동화하는 데 사용됩니다.

  • Feedback Analysis − 이름에서 알 수 있듯이 NLP는 제품에 대한 사람들의 다양한 피드백을 수집하여 제품이 얼마나 성공적인지 분석합니다.

  • Speech recognition − 사람의 음성을 분석하는 것은 어렵지만 NLP에는이 요구 사항에 대한 몇 가지 기본 기능이 있습니다.

NLP API 열기

Apache OpenNLP 라이브러리는 문장 감지, 토큰 화, 이름 찾기, 품사 태그 지정, 문장 청크, 구문 분석, 공동 참조 해결 및 문서 분류와 같은 다양한 자연어 처리 작업을 수행하기위한 클래스 및 인터페이스를 제공합니다.

이러한 작업 외에도 이러한 작업에 대해 자체 모델을 교육하고 평가할 수도 있습니다.

OpenNLP CLI

라이브러리 외에도 OpenNLP는 모델을 교육하고 평가할 수있는 CLI (명령 줄 인터페이스)도 제공합니다. 이 튜토리얼의 마지막 장에서이 주제에 대해 자세히 설명합니다.

개방형 NLP 모델

다양한 NLP 작업을 수행하기 위해 OpenNLP는 미리 정의 된 모델 집합을 제공합니다. 이 세트에는 다양한 언어 용 모델이 포함되어 있습니다.

모델 다운로드

아래 단계에 따라 OpenNLP에서 제공하는 사전 정의 된 모델을 다운로드 할 수 있습니다.

Step 1 − 다음 링크를 클릭하여 OpenNLP 모델의 색인 페이지를 엽니 다 − http://opennlp.sourceforge.net/models-1.5/.

Step 2− 해당 링크를 방문하면 다양한 언어의 구성 요소 목록과 다운로드 링크가 표시됩니다. 여기에서 OpenNLP에서 제공하는 사전 정의 된 모든 모델 목록을 얻을 수 있습니다.

이 모든 모델을 폴더에 다운로드하십시오. C:/OpenNLP_models/>, 해당 링크를 클릭합니다. 이러한 모든 모델은 언어에 따라 다르며이를 사용하는 동안 모델 언어가 입력 텍스트의 언어와 일치하는지 확인해야합니다.

OpenNLP의 역사

  • 2010 년 OpenNLP는 Apache 인큐베이션에 뛰어 들었습니다.

  • 2011 년에 Apache OpenNLP 1.5.2 Incubating이 출시되었으며 같은 해 최상위 Apache 프로젝트로 졸업했습니다.

  • 2015 년에 OpenNLP는 1.6.0이 출시되었습니다.