OpenNLP-퀵 가이드

NLP는 웹 페이지 및 텍스트 문서와 같은 자연어 소스에서 의미 있고 유용한 정보를 추출하는 데 사용되는 도구 세트입니다.

Open NLP 란 무엇입니까?

Apache OpenNLP자연어 텍스트를 처리하는 데 사용되는 오픈 소스 Java 라이브러리입니다. 이 라이브러리를 사용하여 효율적인 텍스트 처리 서비스를 구축 할 수 있습니다.

OpenNLP는 토큰 화, 문장 분할, 품사 태깅, 명명 된 엔티티 추출, 청킹, 구문 분석, 공동 참조 해결 등과 같은 서비스를 제공합니다.

OpenNLP의 특징

다음은 OpenNLP의 주목할만한 기능입니다-

  • Named Entity Recognition (NER) − Open NLP는 쿼리를 처리하는 동안에도 위치, 사람 및 사물의 이름을 추출 할 수있는 NER를 지원합니다.

  • Summarize − 사용 summarize 기능을 사용하면 NLP에서 단락, 기사, 문서 또는 컬렉션을 요약 할 수 있습니다.

  • Searching − OpenNLP에서는 주어진 단어가 변경되거나 철자가 틀린 경우에도 주어진 텍스트에서 주어진 검색 문자열 또는 동의어를 식별 할 수 있습니다.

  • Tagging (POS) − NLP의 태깅은 추가 분석을 위해 텍스트를 다양한 문법 요소로 나누는 데 사용됩니다.

  • Translation − NLP에서 Translation은 한 언어를 다른 언어로 번역하는 데 도움이됩니다.

  • Information grouping − NLP의이 옵션은 품사처럼 문서 내용의 텍스트 정보를 그룹화합니다.

  • Natural Language Generation − 데이터베이스에서 정보를 생성하고 기상 분석이나 의료 보고서와 같은 정보 보고서를 자동화하는 데 사용됩니다.

  • Feedback Analysis − 이름에서 알 수 있듯이 NLP는 제품에 대한 사람들의 다양한 피드백을 수집하여 제품이 얼마나 성공적인지 분석합니다.

  • Speech recognition − 사람의 음성을 분석하는 것은 어렵지만 NLP에는이 요구 사항에 대한 몇 가지 기본 기능이 있습니다.

NLP API 열기

Apache OpenNLP 라이브러리는 문장 감지, 토큰 화, 이름 찾기, 품사 태그 지정, 문장 청킹, 구문 분석, 공동 참조 해결 및 문서 분류와 같은 자연어 처리의 다양한 작업을 수행하기위한 클래스 및 인터페이스를 제공합니다.

이러한 작업 외에도 이러한 작업에 대해 자체 모델을 교육하고 평가할 수도 있습니다.

OpenNLP CLI

라이브러리 외에도 OpenNLP는 모델을 교육하고 평가할 수있는 CLI (명령 줄 인터페이스)도 제공합니다. 이 튜토리얼의 마지막 장에서이 주제에 대해 자세히 설명합니다.

개방형 NLP 모델

다양한 NLP 작업을 수행하기 위해 OpenNLP는 사전 정의 된 모델 세트를 제공합니다. 이 세트에는 다양한 언어 용 모델이 포함되어 있습니다.

모델 다운로드

아래 단계에 따라 OpenNLP에서 제공하는 사전 정의 된 모델을 다운로드 할 수 있습니다.

Step 1 − 다음 링크를 클릭하여 OpenNLP 모델의 색인 페이지를 엽니 다 − http://opennlp.sourceforge.net/models-1.5/.

Step 2− 해당 링크를 방문하면 다양한 언어의 구성 요소 목록과 다운로드 링크가 표시됩니다. 여기에서 OpenNLP에서 제공하는 사전 정의 된 모든 모델 목록을 얻을 수 있습니다.

이 모든 모델을 폴더에 다운로드하십시오. C:/OpenNLP_models/>, 해당 링크를 클릭합니다. 이러한 모든 모델은 언어에 따라 다르며이를 사용하는 동안 모델 언어가 입력 텍스트의 언어와 일치하는지 확인해야합니다.

OpenNLP의 역사

  • 2010 년 OpenNLP는 Apache 인큐베이션에 뛰어 들었습니다.

  • 2011 년에 Apache OpenNLP 1.5.2 Incubating이 출시되었으며 같은 해 최상위 Apache 프로젝트로 졸업했습니다.

  • 2015 년에 OpenNLP는 1.6.0이 출시되었습니다.

이 장에서는 시스템에서 OpenNLP 환경을 설정하는 방법에 대해 설명합니다. 설치 과정부터 시작하겠습니다.

OpenNLP 설치

다음은 다운로드 단계입니다. Apache OpenNLP library 시스템에서.

Step 1 − 홈페이지 열기 Apache OpenNLP 다음 링크를 클릭하여- https://opennlp.apache.org/.

Step 2 − 이제 Downloads링크. 클릭하면 Apache Software Foundation Distribution 디렉토리로 리디렉션되는 다양한 미러를 찾을 수있는 페이지로 이동합니다.

Step 3−이 페이지에서 다양한 Apache 배포판을 다운로드 할 수있는 링크를 찾을 수 있습니다. 그것들을 찾아보고 OpenNLP 배포를 찾아 클릭하십시오.

Step 4 − 클릭하면 아래와 같이 OpenNLP 배포의 색인을 볼 수있는 디렉토리로 리디렉션됩니다.

사용 가능한 배포판에서 최신 버전을 클릭하십시오.

Step 5− 각 배포판은 OpenNLP 라이브러리의 소스 및 바이너리 파일을 다양한 형식으로 제공합니다. 소스 및 바이너리 파일을 다운로드하고,apache-opennlp-1.6.0-bin.zipapache-opennlp1.6.0-src.zip (Windows의 경우).

클래스 경로 설정

OpenNLP 라이브러리를 다운로드 한 후 해당 경로를 bin예배 규칙서. 시스템의 E 드라이브에 OpenNLP 라이브러리를 다운로드했다고 가정합니다.

이제 아래에 주어진 단계를 따르십시오-

Step 1 − '내 컴퓨터'를 마우스 오른쪽 버튼으로 클릭하고 '속성'을 선택합니다.

Step 2 − 'Advanced'탭에서 'Environment Variables'버튼을 클릭하십시오.

Step 3 − 선택 path 변수를 클릭하고 Edit 다음 스크린 샷과 같이 버튼을 클릭합니다.

Step 4 − 환경 변수 편집 창에서 New 버튼을 누르고 OpenNLP 디렉토리 경로를 추가하십시오. E:\apache-opennlp-1.6.0\bin 그리고 OK 다음 스크린 샷과 같이 버튼을 클릭합니다.

Eclipse 설치

OpenNLP 라이브러리에 대한 Eclipse 환경을 설정할 수 있습니다. Build path JAR 파일에 추가하거나 pom.xml.

JAR 파일에 대한 빌드 경로 설정

Eclipse에 OpenNLP를 설치하려면 아래 단계를 따르십시오.

Step 1 − 시스템에 Eclipse 환경이 설치되어 있는지 확인하십시오.

Step 2− Eclipse를 엽니 다. 파일 → 새로 만들기 → 새 프로젝트 열기를 클릭합니다.

Step 3 − 당신은 얻을 것입니다 New Project마법사. 이 마법사에서 Java 프로젝트를 선택하고Next 단추.

Step 4 − 다음으로, New Java Project wizard. 여기에서 새 프로젝트를 생성하고Next 버튼을 누릅니다.

Step 5 − 새 프로젝트를 생성 한 후 마우스 오른쪽 버튼으로 클릭하고 Build Path 클릭 Configure Build Path.

Step 6 − 다음으로, Java Build Path마법사. 여기에서Add External JARs 버튼을 누릅니다.

Step 7 − jar 파일 선택 opennlp-tools-1.6.0.jaropennlp-uima-1.6.0.jar 에 위치한 lib 폴더 apache-opennlp-1.6.0 folder.

클릭시 Open 위 화면에서 버튼을 누르면 선택한 파일이 라이브러리에 추가됩니다.

클릭시 OK, 필요한 JAR 파일을 현재 프로젝트에 성공적으로 추가하고 아래와 같이 참조 라이브러리를 확장하여 추가 된 라이브러리를 확인할 수 있습니다.

pom.xml 사용

프로젝트를 Maven 프로젝트로 변환하고 다음 코드를 해당 프로젝트에 추가합니다. pom.xml.

<project xmlns="http://maven.apache.org/POM/4.0.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
http://maven.apache.org/xsd/maven-4.0.0.xsd"> 
   <modelVersion>4.0.0</modelVersion> 
   <groupId>myproject</groupId> 
   <artifactId>myproject</artifactId> 
   <version>0.0.1-SNAPSHOT</version> 
   <build> 
      <sourceDirectory>src</sourceDirectory> 
      <plugins> 
         <plugin> 
            <artifactId>maven-compiler-plugin</artifactId> 
            <version>3.5.1</version> 
            <configuration> 
               <source>1.8</source> 
               <target>1.8</target> 
            </configuration> 
         </plugin> 
      </plugins> 
   </build> 
   <dependencies>  
      <dependency> 
         <groupId>org.apache.opennlp</groupId> 
         <artifactId>opennlp-tools</artifactId> 
         <version>1.6.0</version> 
     </dependency> 
     <dependency> 
         <groupId>org.apache.opennlp</groupId> 
         <artifactId>opennlp-uima</artifactId> 
         <version>1.6.0</version> 
      </dependency>      
  </dependencies>  
</project>

이 장에서는이 튜토리얼의 다음 장에서 사용할 클래스와 메서드에 대해 설명합니다.

문장 감지

SentenceModel 클래스

이 클래스는 주어진 원시 텍스트에서 문장을 감지하는 데 사용되는 사전 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.sentdetect.

이 클래스의 생성자는 InputStream 문장 검출기 모델 파일 (en-sent.bin)의 객체.

SentenceDetectorME 클래스

이 클래스는 패키지에 속합니다. opennlp.tools.sentdetect원시 텍스트를 문장으로 분할하는 방법이 포함되어 있습니다. 이 클래스는 최대 엔트로피 모델을 사용하여 문자열의 문장 끝 문자를 평가하여 문장의 끝을 의미하는지 확인합니다.

다음은이 수업의 중요한 방법입니다.

S. 아니 방법 및 설명
1

sentDetect()

이 방법은 전달 된 원시 텍스트에서 문장을 감지하는 데 사용됩니다. String 변수를 매개 변수로 받아들이고 주어진 원시 텍스트의 문장을 보유하는 String 배열을 반환합니다.

2

sentPosDetect()

이 방법은 주어진 텍스트에서 문장의 위치를 ​​감지하는 데 사용됩니다. 이 메서드는 문장을 나타내는 문자열 변수를 받아들이고 유형의 객체 배열을 반환합니다.Span.

명명 된 클래스 Spanopennlp.tools.util 패키지는 집합의 시작 및 끝 정수를 저장하는 데 사용됩니다.

getSentenceProbabilities()

이 메서드는 최근 호출과 관련된 확률을 반환합니다. sentDetect() 방법.

토큰 화

TokenizerModel 클래스

이 클래스는 주어진 문장을 토큰 화하는 데 사용되는 미리 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.tokenizer.

이 클래스의 생성자는 InputStream 토크 나이저 모델 파일 (entoken.bin)의 개체.

클래스

토큰 화를 수행하기 위해 OpenNLP 라이브러리는 세 가지 주요 클래스를 제공합니다. 세 클래스 모두Tokenizer.

S. 아니 클래스 및 설명
1

SimpleTokenizer

이 클래스는 문자 클래스를 사용하여 주어진 원시 텍스트를 토큰 화합니다.

2

WhitespaceTokenizer

이 클래스는 공백을 사용하여 주어진 텍스트를 토큰 화합니다.

TokenizerME

이 클래스는 원시 텍스트를 별도의 토큰으로 변환합니다. 최대 엔트로피를 사용하여 결정을 내립니다.

이러한 클래스에는 다음 메서드가 포함됩니다.

S. 아니 방법 및 설명
1

tokenize()

이 메서드는 원시 텍스트를 토큰 화하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로 받아들이고 문자열 (토큰) 배열을 반환합니다.

2

sentPosDetect()

이 메서드는 토큰의 위치 또는 범위를 가져 오는 데 사용됩니다. 문자열 형식의 문장 (또는) 원시 텍스트를 받아들이고 해당 유형의 객체 배열을 반환합니다.Span.

위의 두 가지 방법 외에도 TokenizerME 수업에는 getTokenProbabilities() 방법.

S. 아니 방법 및 설명
1

getTokenProbabilities()

이 메서드는 가장 최근의 호출과 관련된 확률을 가져 오는 데 사용됩니다. tokenizePos() 방법.

NameEntityRecognition

TokenNameFinderModel 클래스

이 클래스는 주어진 문장에서 명명 된 엔티티를 찾는 데 사용되는 사전 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.namefind.

이 클래스의 생성자는 InputStream 이름 찾기 모델 파일 (enner-person.bin)의 개체입니다.

NameFinderME 클래스

클래스는 패키지에 속합니다. opennlp.tools.namefindNER 작업을 수행하는 방법이 포함되어 있습니다. 이 클래스는 최대 엔트로피 모델을 사용하여 주어진 원시 텍스트에서 명명 된 엔티티를 찾습니다.

S. 아니 방법 및 설명
1

find()

이 방법은 원시 텍스트에서 이름을 감지하는 데 사용됩니다. 원시 텍스트를 매개 변수로 나타내는 String 변수를 받아들이고 Span 유형의 객체 배열을 반환합니다.

2

probs()

이 메서드는 마지막 디코딩 된 시퀀스의 확률을 가져 오는 데 사용됩니다.

품사 찾기

POSModel 클래스

이 클래스는 주어진 문장의 품사에 태그를 지정하는 데 사용되는 미리 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.postag.

이 클래스의 생성자는 InputStream pos-tagger 모델 파일 (enpos-maxent.bin)의 개체입니다.

POSTaggerME 클래스

이 클래스는 패키지에 속합니다. opennlp.tools.postag주어진 원시 텍스트의 품사를 예측하는 데 사용됩니다. 최대 엔트로피를 사용하여 결정을 내립니다.

S. 아니 방법 및 설명
1

tag()

이 방법은 토큰 POS 태그의 문장을 할당하는 데 사용됩니다. 이 메서드는 토큰 배열 (String)을 매개 변수로 받아들이고 태그 (배열)를 반환합니다.

2

getSentenceProbabilities()

이 방법은 최근 태그 된 문장의 각 태그에 대한 확률을 얻는 데 사용됩니다.

문장 파싱

ParserModel 클래스

이 클래스는 주어진 문장을 구문 분석하는 데 사용되는 미리 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.parser.

이 클래스의 생성자는 InputStream 파서 모델 파일 (en-parserchunking.bin)의 개체입니다.

파서 팩토리 클래스

이 클래스는 패키지에 속합니다. opennlp.tools.parser 파서를 만드는 데 사용됩니다.

S. 아니 방법 및 설명
1

create()

이것은 정적 메서드이며 파서 개체를 만드는 데 사용됩니다. 이 메서드는 파서 모델 파일의 Filestream 개체를 받아들입니다.

ParserTool 클래스

이 클래스는 opennlp.tools.cmdline.parser 패키지 및 콘텐츠를 구문 분석하는 데 사용됩니다.

S. 아니 방법 및 설명
1

parseLine()

이 방법은 ParserTool클래스는 OpenNLP에서 원시 텍스트를 구문 분석하는 데 사용됩니다. 이 방법은-

  • 구문 분석 할 텍스트를 나타내는 String 변수입니다.
  • 파서 개체.
  • 수행 할 구문 분석 수를 나타내는 정수입니다.

청킹

ChunkerModel 클래스

이 클래스는 문장을 더 작은 덩어리로 나누는 데 사용되는 미리 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.chunker.

이 클래스의 생성자는 InputStream 의 개체 chunker 모델 파일 (enchunker.bin).

ChunkerME 클래스

이 클래스는 다음과 같은 패키지에 속합니다. opennlp.tools.chunker 주어진 문장을 더 작은 덩어리로 나누는 데 사용됩니다.

S. 아니 방법 및 설명
1

chunk()

이 방법은 주어진 문장을 더 작은 덩어리로 나누는 데 사용됩니다. 문장의 토큰을 받고P기예 O에프 S매개 변수로 peech 태그.

2

probs()

이 메서드는 마지막으로 디코딩 된 시퀀스의 확률을 반환합니다.

자연어를 처리하는 동안 문장의 시작과 끝을 결정하는 것은 해결해야 할 문제 중 하나입니다. 이 프로세스는Sentence Boundary Disambiguation (SBD) 또는 단순히 문장 분리.

주어진 텍스트에서 문장을 감지하는 데 사용하는 기술은 텍스트의 언어에 따라 다릅니다.

Java를 사용한 문장 감지

정규 표현식 및 간단한 규칙 세트를 사용하여 Java에서 주어진 텍스트의 문장을 감지 할 수 있습니다.

예를 들어 마침표, 물음표 또는 느낌표가 주어진 텍스트에서 문장을 끝낸다 고 가정하면 다음을 사용하여 문장을 분할 할 수 있습니다. split() 의 방법 String수업. 여기에서 정규식을 문자열 형식으로 전달해야합니다.

다음은 Java 정규식을 사용하여 주어진 텍스트의 문장을 결정하는 프로그램입니다. (split method). 이 프로그램을 이름의 파일에 저장하십시오.SentenceDetection_RE.java.

public class SentenceDetection_RE {  
   public static void main(String args[]){ 
     
      String sentence = " Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
     
      String simple = "[.?!]";      
      String[] splitString = (sentence.split(simple));     
      for (String string : splitString)   
         System.out.println(string);      
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac SentenceDetection_RE.java 
java SentenceDetection_RE

실행시 위의 프로그램은 다음 메시지를 표시하는 PDF 문서를 생성합니다.

Hi 
How are you 
Welcome to Tutorialspoint 
We provide free tutorials on various technologies

OpenNLP를 사용한 문장 감지

문장을 감지하기 위해 OpenNLP는 미리 정의 된 모델 인 en-sent.bin. 이 사전 정의 된 모델은 주어진 원시 텍스트에서 문장을 감지하도록 훈련되었습니다.

그만큼 opennlp.tools.sentdetect 패키지에는 문장 감지 작업을 수행하는 데 사용되는 클래스와 인터페이스가 포함되어 있습니다.

OpenNLP 라이브러리를 사용하여 문장을 감지하려면 다음을 수행해야합니다.

  • 로드 en-sent.bin 모델을 사용하여 SentenceModel 수업

  • 인스턴스화 SentenceDetectorME 수업.

  • 사용하여 문장을 감지 sentDetect() 이 클래스의 메서드.

다음은 주어진 원시 텍스트에서 문장을 감지하는 프로그램을 작성하기 위해 따라야 할 단계입니다.

1 단계 : 모델로드

문장 감지 모델은 다음과 같은 클래스로 표시됩니다. SentenceModel, 패키지에 속하는 opennlp.tools.sentdetect.

문장 감지 모델을로드하려면-

  • 만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).

  • 인스턴스화 SentenceModel 수업과 통과 InputStream 다음 코드 블록에 표시된대로 생성자에 대한 매개 변수로 모델의 (객체)-

//Loading sentence detector model 
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/ensent.bin"); 
SentenceModel model = new SentenceModel(inputStream);

2 단계 : SentenceDetectorME 클래스 인스턴스화

그만큼 SentenceDetectorME 패키지 클래스 opennlp.tools.sentdetect원시 텍스트를 문장으로 분할하는 방법이 포함되어 있습니다. 이 클래스는 최대 엔트로피 모델을 사용하여 문자열의 문장 끝 문자를 평가하여 문장의 끝을 나타내는 지 확인합니다.

이 클래스를 인스턴스화하고 아래와 같이 이전 단계에서 만든 모델 개체를 전달합니다.

//Instantiating the SentenceDetectorME class 
SentenceDetectorME detector = new SentenceDetectorME(model);

3 단계 : 문장 감지

그만큼 sentDetect() 의 방법 SentenceDetectorME클래스는 전달 된 원시 텍스트에서 문장을 감지하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로받습니다.

이 메서드에 문장의 문자열 형식을 전달하여이 메서드를 호출합니다.

//Detecting the sentence 
String sentences[] = detector.sentDetect(sentence);

Example

다음은 주어진 원시 텍스트에서 문장을 감지하는 프로그램입니다. 이 프로그램을 이름이 지정된 파일에 저장하십시오.SentenceDetectionME.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.sentdetect.SentenceDetectorME; 
import opennlp.tools.sentdetect.SentenceModel;  

public class SentenceDetectionME { 
  
   public static void main(String args[]) throws Exception { 
   
      String sentence = "Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
       
      //Loading sentence detector model 
      InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin"); 
      SentenceModel model = new SentenceModel(inputStream); 
       
      //Instantiating the SentenceDetectorME class 
      SentenceDetectorME detector = new SentenceDetectorME(model);  
    
      //Detecting the sentence
      String sentences[] = detector.sentDetect(sentence); 
    
      //Printing the sentences 
      for(String sent : sentences)        
         System.out.println(sent);  
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac SentenceDetectorME.java 
java SentenceDetectorME

위 프로그램은 실행시 주어진 문자열을 읽고 그 안의 문장을 감지하고 다음과 같은 출력을 표시합니다.

Hi. How are you? 
Welcome to Tutorialspoint. 
We provide free tutorials on various technologies

문장의 위치 감지

또한 다음의 sentPosDetect () 메서드를 사용하여 문장의 위치를 ​​감지 할 수 있습니다. SentenceDetectorME class.

다음은 주어진 원시 텍스트에서 문장의 위치를 ​​감지하는 프로그램을 작성하기 위해 따라야 할 단계입니다.

1 단계 : 모델로드

문장 감지 모델은 다음과 같은 클래스로 표시됩니다. SentenceModel, 패키지에 속하는 opennlp.tools.sentdetect.

문장 감지 모델을로드하려면-

  • 만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).

  • 인스턴스화 SentenceModel 수업과 통과 InputStream 다음 코드 블록과 같이 생성자에 대한 매개 변수로 모델의 (객체).

//Loading sentence detector model 
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin"); 
SentenceModel model = new SentenceModel(inputStream);

2 단계 : SentenceDetectorME 클래스 인스턴스화

그만큼 SentenceDetectorME 패키지 클래스 opennlp.tools.sentdetect원시 텍스트를 문장으로 분할하는 방법이 포함되어 있습니다. 이 클래스는 최대 엔트로피 모델을 사용하여 문자열의 문장 끝 문자를 평가하여 문장의 끝을 나타내는 지 확인합니다.

이 클래스를 인스턴스화하고 이전 단계에서 만든 모델 개체를 전달합니다.

//Instantiating the SentenceDetectorME class 
SentenceDetectorME detector = new SentenceDetectorME(model);

3 단계 : 문장의 위치 감지

그만큼 sentPosDetect() 의 방법 SentenceDetectorME클래스는 전달 된 원시 텍스트에서 문장의 위치를 ​​감지하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로받습니다.

이 메소드에 대한 매개 변수로 문장의 문자열 형식을 전달하여이 메소드를 호출하십시오.

//Detecting the position of the sentences in the paragraph  
Span[] spans = detector.sentPosDetect(sentence);

4 단계 : 문장의 범위 인쇄

그만큼 sentPosDetect() 의 방법 SentenceDetectorME 클래스는 유형의 객체 배열을 반환합니다. Span. Span이라는 클래스는opennlp.tools.util 패키지는 집합의 시작 및 끝 정수를 저장하는 데 사용됩니다.

반환 된 스팬을 저장할 수 있습니다. sentPosDetect() 다음 코드 블록과 같이 Span 배열에 메서드를 추가하고 인쇄합니다.

//Printing the sentences and their spans of a sentence 
for (Span span : spans)         
System.out.println(paragraph.substring(span);

Example

다음은 주어진 원시 텍스트에서 문장을 감지하는 프로그램입니다. 이 프로그램을 이름이 지정된 파일에 저장하십시오.SentenceDetectionME.java.

import java.io.FileInputStream; 
import java.io.InputStream; 
  
import opennlp.tools.sentdetect.SentenceDetectorME; 
import opennlp.tools.sentdetect.SentenceModel; 
import opennlp.tools.util.Span;

public class SentencePosDetection { 
  
   public static void main(String args[]) throws Exception { 
   
      String paragraph = "Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
       
      //Loading sentence detector model 
      InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin"); 
      SentenceModel model = new SentenceModel(inputStream); 
       
      //Instantiating the SentenceDetectorME class 
      SentenceDetectorME detector = new SentenceDetectorME(model);  
       
      //Detecting the position of the sentences in the raw text 
      Span spans[] = detector.sentPosDetect(paragraph); 
       
      //Printing the spans of the sentences in the paragraph 
      for (Span span : spans)         
         System.out.println(span);  
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac SentencePosDetection.java 
java SentencePosDetection

위 프로그램은 실행시 주어진 문자열을 읽고 그 안의 문장을 감지하고 다음과 같은 출력을 표시합니다.

[0..16) 
[17..43) 
[44..93)

직위와 함께 문장

그만큼 substring() String 클래스의 메서드는 begin 그리고 end offsets각 문자열을 반환합니다. 다음 코드 블록과 같이이 방법을 사용하여 문장과 해당 범위 (위치)를 함께 인쇄 할 수 있습니다.

for (Span span : spans)         
   System.out.println(sen.substring(span.getStart(), span.getEnd())+" "+ span);

다음은 주어진 원시 텍스트에서 문장을 감지하여 위치와 함께 표시하는 프로그램입니다. 이 프로그램을 이름으로 파일에 저장SentencesAndPosDetection.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.sentdetect.SentenceDetectorME; 
import opennlp.tools.sentdetect.SentenceModel; 
import opennlp.tools.util.Span; 
   
public class SentencesAndPosDetection { 
  
   public static void main(String args[]) throws Exception { 
     
      String sen = "Hi. How are you? Welcome to Tutorialspoint." 
         + " We provide free tutorials on various technologies"; 
      //Loading a sentence model 
      InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin"); 
      SentenceModel model = new SentenceModel(inputStream); 
       
      //Instantiating the SentenceDetectorME class 
      SentenceDetectorME detector = new SentenceDetectorME(model);  
       
      //Detecting the position of the sentences in the paragraph  
      Span[] spans = detector.sentPosDetect(sen);  
      
      //Printing the sentences and their spans of a paragraph 
      for (Span span : spans)         
         System.out.println(sen.substring(span.getStart(), span.getEnd())+" "+ span);  
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac SentencesAndPosDetection.java 
java SentencesAndPosDetection

실행시 위 프로그램은 주어진 문자열을 읽고 그 위치와 함께 문장을 감지하고 다음과 같은 출력을 표시합니다.

Hi. How are you? [0..16) 
Welcome to Tutorialspoint. [17..43)  
We provide free tutorials on various technologies [44..93)

문장 확률 감지

그만큼 getSentenceProbabilities() 의 방법 SentenceDetectorME 클래스는 최근 sentDetect () 메서드 호출과 관련된 확률을 반환합니다.

//Getting the probabilities of the last decoded sequence       
double[] probs = detector.getSentenceProbabilities();

다음은 sentDetect () 메서드에 대한 호출과 관련된 확률을 인쇄하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.SentenceDetectionMEProbs.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.sentdetect.SentenceDetectorME; 
import opennlp.tools.sentdetect.SentenceModel;  

public class SentenceDetectionMEProbs { 
  
   public static void main(String args[]) throws Exception { 
   
      String sentence = "Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
       
      //Loading sentence detector model 
      InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin");
      SentenceModel model = new SentenceModel(inputStream); 
       
      //Instantiating the SentenceDetectorME class
      SentenceDetectorME detector = new SentenceDetectorME(model);  
      
      //Detecting the sentence 
      String sentences[] = detector.sentDetect(sentence); 
    
      //Printing the sentences 
      for(String sent : sentences)        
         System.out.println(sent);   
         
      //Getting the probabilities of the last decoded sequence       
      double[] probs = detector.getSentenceProbabilities(); 
       
      System.out.println("  "); 
       
      for(int i = 0; i<probs.length; i++) 
         System.out.println(probs[i]); 
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac SentenceDetectionMEProbs.java 
java SentenceDetectionMEProbs

실행시 위의 프로그램은 주어진 문자열을 읽고 문장을 감지하여 인쇄합니다. 또한 아래와 같이 sentDetect () 메서드에 대한 가장 최근 호출과 관련된 확률도 반환합니다.

Hi. How are you? 
Welcome to Tutorialspoint. 
We provide free tutorials on various technologies 
   
0.9240246995179983 
0.9957680129995953 
1.0

주어진 문장을 작은 부분 (토큰)으로 자르는 과정은 다음과 같이 알려져 있습니다. tokenization. 일반적으로 주어진 원시 텍스트는 구분 기호 집합 (주로 공백)을 기반으로 토큰 화됩니다.

토큰 화는 맞춤법 검사, 검색 처리, 품사 식별, 문장 감지, 문서 문서 분류 등과 같은 작업에 사용됩니다.

OpenNLP를 사용한 토큰 화

그만큼 opennlp.tools.tokenize 패키지에는 토큰 화를 수행하는 데 사용되는 클래스와 인터페이스가 포함되어 있습니다.

주어진 문장을 더 간단한 조각으로 토큰 화하기 위해 OpenNLP 라이브러리는 세 가지 다른 클래스를 제공합니다.

  • SimpleTokenizer −이 클래스는 문자 클래스를 사용하여 주어진 원시 텍스트를 토큰 화합니다.

  • WhitespaceTokenizer −이 클래스는 주어진 텍스트를 토큰 화하기 위해 공백을 사용합니다.

  • TokenizerME−이 클래스는 원시 텍스트를 별도의 토큰으로 변환합니다. 최대 엔트로피를 사용하여 결정을 내립니다.

SimpleTokenizer

다음을 사용하여 문장을 토큰 화하려면 SimpleTokenizer 수업, 당신은-

  • 각 클래스의 개체를 만듭니다.

  • 다음을 사용하여 문장을 토큰 화하십시오. tokenize() 방법.

  • 토큰을 인쇄하십시오.

다음은 주어진 원시 텍스트를 토큰 화하는 프로그램을 작성하기 위해 따라야 할 단계입니다.

Step 1 − 각 클래스 인스턴스화

두 클래스 모두 인스턴스화하는 데 사용할 수있는 생성자가 없습니다. 따라서 정적 변수를 사용하여 이러한 클래스의 객체를 생성해야합니다.INSTANCE.

SimpleTokenizer tokenizer = SimpleTokenizer.INSTANCE;

Step 2 − 문장 토큰 화

이 두 클래스 모두 tokenize(). 이 메서드는 문자열 형식의 원시 텍스트를받습니다. 호출시 주어진 문자열을 토큰 화하고 문자열 (토큰) 배열을 반환합니다.

다음을 사용하여 문장을 토큰 화하십시오. tokenizer() 방법은 아래와 같습니다.

//Tokenizing the given sentence 
 String tokens[] = tokenizer.tokenize(sentence);

Step 3 − 토큰 인쇄

문장을 토큰 화 한 후 다음을 사용하여 토큰을 인쇄 할 수 있습니다. for loop, 아래 그림과 같이.

//Printing the tokens 
for(String token : tokens)       
   System.out.println(token);

Example

다음은 SimpleTokenizer 클래스를 사용하여 주어진 문장을 토큰 화하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.SimpleTokenizerExample.java.

import opennlp.tools.tokenize.SimpleTokenizer;  
public class SimpleTokenizerExample { 
   public static void main(String args[]){ 
     
      String sentence = "Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
    
      //Instantiating SimpleTokenizer class 
      SimpleTokenizer simpleTokenizer = SimpleTokenizer.INSTANCE;  
       
      //Tokenizing the given sentence 
      String tokens[] = simpleTokenizer.tokenize(sentence);  
       
      //Printing the tokens 
      for(String token : tokens) {         
         System.out.println(token);  
      }       
   }  
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac SimpleTokenizerExample.java 
java SimpleTokenizerExample

실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 토큰 화하고 다음 출력을 표시합니다.

Hi 
. 
How 
are 
you 
? 
Welcome 
to 
Tutorialspoint 
. 
We 
provide 
free 
tutorials 
on 
various 
technologies

WhitespaceTokenizer

다음을 사용하여 문장을 토큰 화하려면 WhitespaceTokenizer 수업, 당신은-

  • 각 클래스의 개체를 만듭니다.

  • 다음을 사용하여 문장을 토큰 화하십시오. tokenize() 방법.

  • 토큰을 인쇄하십시오.

다음은 주어진 원시 텍스트를 토큰 화하는 프로그램을 작성하기 위해 따라야 할 단계입니다.

Step 1 − 각 클래스 인스턴스화

두 클래스 모두 인스턴스화하는 데 사용할 수있는 생성자가 없습니다. 따라서 정적 변수를 사용하여 이러한 클래스의 객체를 생성해야합니다.INSTANCE.

WhitespaceTokenizer tokenizer = WhitespaceTokenizer.INSTANCE;

Step 2 − 문장 토큰 화

이 두 클래스 모두 tokenize(). 이 메서드는 문자열 형식의 원시 텍스트를받습니다. 호출시 주어진 문자열을 토큰 화하고 문자열 (토큰) 배열을 반환합니다.

다음을 사용하여 문장을 토큰 화하십시오. tokenizer() 방법은 아래와 같습니다.

//Tokenizing the given sentence 
 String tokens[] = tokenizer.tokenize(sentence);

Step 3 − 토큰 인쇄

문장을 토큰 화 한 후 다음을 사용하여 토큰을 인쇄 할 수 있습니다. for loop, 아래 그림과 같이.

//Printing the tokens 
for(String token : tokens)       
   System.out.println(token);

Example

다음은 주어진 문장을 토큰 화하는 프로그램입니다. WhitespaceTokenizer수업. 이 프로그램을 이름의 파일에 저장하십시오.WhitespaceTokenizerExample.java.

import opennlp.tools.tokenize.WhitespaceTokenizer;  

public class WhitespaceTokenizerExample {  
   
   public static void main(String args[]){ 
     
      String sentence = "Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
    
      //Instantiating whitespaceTokenizer class 
       WhitespaceTokenizer whitespaceTokenizer = WhitespaceTokenizer.INSTANCE;  
       
      //Tokenizing the given paragraph 
      String tokens[] = whitespaceTokenizer.tokenize(sentence);  
       
      //Printing the tokens 
      for(String token : tokens)     
         System.out.println(token);        
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac WhitespaceTokenizerExample.java 
java WhitespaceTokenizerExample

실행시 위 프로그램은 주어진 문자열 (원시 텍스트)을 읽고이를 토큰 화하고 다음 출력을 표시합니다.

Hi. 
How 
are 
you? 
Welcome 
to 
Tutorialspoint. 
We 
provide 
free 
tutorials 
on 
various 
technologies

TokenizerME 클래스

OpenNLP는 또한 사전 정의 된 모델 인 de-token.bin이라는 파일을 사용하여 문장을 토큰 화합니다. 주어진 원시 텍스트의 문장을 토큰 화하도록 훈련되었습니다.

그만큼 TokenizerME 의 클래스 opennlp.tools.tokenizer패키지는이 모델을로드하는 데 사용되며 OpenNLP 라이브러리를 사용하여 주어진 원시 텍스트를 토큰 화합니다. 그렇게하려면 다음을 수행해야합니다.

  • 로드 en-token.bin 모델을 사용하여 TokenizerModel 수업.

  • 인스턴스화 TokenizerME 수업.

  • 다음을 사용하여 문장을 토큰 화하십시오. tokenize() 이 클래스의 메서드.

다음은 주어진 원시 텍스트에서 문장을 토큰 화하는 프로그램을 작성하기 위해 따라야 할 단계입니다. TokenizerME 수업.

Step 1 − 모델로드

토큰 화 모델은 다음과 같은 클래스로 표현됩니다. TokenizerModel, 패키지에 속하는 opennlp.tools.tokenize.

토크 나이저 모델을로드하려면-

  • 만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).

  • 인스턴스화 TokenizerModel 수업과 통과 InputStream 다음 코드 블록과 같이 생성자에 대한 매개 변수로 모델의 (객체).

//Loading the Tokenizer model 
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin"); 
TokenizerModel tokenModel = new TokenizerModel(inputStream);

Step 2 − TokenizerME 클래스 인스턴스화

그만큼 TokenizerME 패키지 클래스 opennlp.tools.tokenize원시 텍스트를 작은 부분 (토큰)으로 자르는 방법이 포함되어 있습니다. 최대 엔트로피를 사용하여 결정을 내립니다.

이 클래스를 인스턴스화하고 아래와 같이 이전 단계에서 만든 모델 개체를 전달합니다.

//Instantiating the TokenizerME class 
TokenizerME tokenizer = new TokenizerME(tokenModel);

Step 3 − 문장 토큰 화

그만큼 tokenize() 의 방법 TokenizerME클래스는 전달 된 원시 텍스트를 토큰 화하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로 받아들이고 문자열 (토큰) 배열을 반환합니다.

다음과 같이 문장의 문자열 형식을이 메서드에 전달하여이 메서드를 호출합니다.

//Tokenizing the given raw text 
String tokens[] = tokenizer.tokenize(paragraph);

Example

다음은 주어진 원시 텍스트를 토큰 화하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.TokenizerMEExample.java.

import java.io.FileInputStream; 
import java.io.InputStream; 
import opennlp.tools.tokenize.TokenizerME; 
import opennlp.tools.tokenize.TokenizerModel;  

public class TokenizerMEExample { 
  
   public static void main(String args[]) throws Exception{     
     
      String sentence = "Hi. How are you? Welcome to Tutorialspoint. " 
            + "We provide free tutorials on various technologies"; 
       
      //Loading the Tokenizer model 
      InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin"); 
      TokenizerModel tokenModel = new TokenizerModel(inputStream); 
       
      //Instantiating the TokenizerME class 
      TokenizerME tokenizer = new TokenizerME(tokenModel); 
       
      //Tokenizing the given raw text 
      String tokens[] = tokenizer.tokenize(sentence);       
          
      //Printing the tokens  
      for (String a : tokens) 
         System.out.println(a); 
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac TokenizerMEExample.java 
java TokenizerMEExample

실행시 위의 프로그램은 주어진 문자열을 읽고 그 안의 문장을 감지하고 다음 출력을 표시합니다.

Hi 
. 
How 
are 
you 
? 
Welcome 
to 
Tutorialspoint 
. 
We 
provide 
free 
tutorials 
on 
various 
technologie

토큰 위치 검색

우리는 또한 위치를 얻거나 spans 사용하는 토큰의 tokenizePos()방법. 이것은 패키지의 Tokenizer 인터페이스 방법입니다.opennlp.tools.tokenize. 모든 (3) Tokenizer 클래스가이 인터페이스를 구현하므로 모든 클래스에서이 메서드를 찾을 수 있습니다.

이 메서드는 문자열 형식의 문장 또는 원시 텍스트를 받아들이고 해당 유형의 개체 배열을 반환합니다. Span.

다음을 사용하여 토큰의 위치를 ​​얻을 수 있습니다. tokenizePos() 방법, 다음과 같이-

//Retrieving the tokens 
tokenizer.tokenizePos(sentence);

위치 (스팬) 인쇄

명명 된 클래스 Spanopennlp.tools.util 패키지는 집합의 시작 및 끝 정수를 저장하는 데 사용됩니다.

반환 된 스팬을 저장할 수 있습니다. tokenizePos() 다음 코드 블록과 같이 Span 배열에 메서드를 추가하고 인쇄합니다.

//Retrieving the tokens 
Span[] tokens = tokenizer.tokenizePos(sentence);
//Printing the spans of tokens 
for( Span token : tokens)        
   System.out.println(token);

토큰과 그 위치를 함께 인쇄

그만큼 substring() String 클래스의 메서드는 begin 그리고 end오프셋하고 각 문자열을 반환합니다. 다음 코드 블록에 표시된 것처럼이 메서드를 사용하여 토큰과 해당 범위 (위치)를 함께 인쇄 할 수 있습니다.

//Printing the spans of tokens 
for(Span token : tokens)  
   System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));

Example(SimpleTokenizer)

다음은 다음을 사용하여 원시 텍스트의 토큰 범위를 검색하는 프로그램입니다. SimpleTokenizer수업. 또한 위치와 함께 토큰을 인쇄합니다. 이 프로그램을 이름이 지정된 파일에 저장하십시오.SimpleTokenizerSpans.java.

import opennlp.tools.tokenize.SimpleTokenizer; 
import opennlp.tools.util.Span;  

public class SimpleTokenizerSpans {  
   public static void main(String args[]){ 
     
      String sent = "Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
    
      //Instantiating SimpleTokenizer class 
      SimpleTokenizer simpleTokenizer = SimpleTokenizer.INSTANCE;  
       
      //Retrieving the boundaries of the tokens 
      Span[] tokens = simpleTokenizer.tokenizePos(sent);  
       
      //Printing the spans of tokens 
      for( Span token : tokens)
         System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));          
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac SimpleTokenizerSpans.java 
java SimpleTokenizerSpans

실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 토큰 화하고 다음 출력을 표시합니다.

[0..2) Hi 
[2..3) . 
[4..7) How 
[8..11) are 
[12..15) you 
[15..16) ? 
[17..24) Welcome 
[25..27) to 
[28..42) Tutorialspoint 
[42..43) . 
[44..46) We 
[47..54) provide 
[55..59) free 
[60..69) tutorials 
[70..72) on 
[73..80) various 
[81..93) technologies

Example (WhitespaceTokenizer)

다음은 다음을 사용하여 원시 텍스트의 토큰 범위를 검색하는 프로그램입니다. WhitespaceTokenizer수업. 또한 위치와 함께 토큰을 인쇄합니다. 이 프로그램을 이름의 파일에 저장하십시오.WhitespaceTokenizerSpans.java.

import opennlp.tools.tokenize.WhitespaceTokenizer;
import opennlp.tools.util.Span; 
public class WhitespaceTokenizerSpans {  
   public static void main(String args[]){ 
     
      String sent = "Hi. How are you? Welcome to Tutorialspoint. " 
         + "We provide free tutorials on various technologies"; 
    
      //Instantiating SimpleTokenizer class 
      WhitespaceTokenizer whitespaceTokenizer = WhitespaceTokenizer.INSTANCE;  
       
      //Retrieving the tokens 
      Span[] tokens = whitespaceTokenizer.tokenizePos(sent);  
       
      //Printing the spans of tokens 
      for( Span token : tokens) 
         System.out.println(token +" 
            "+sent.substring(token.getStart(), token.getEnd()));        
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac WhitespaceTokenizerSpans.java 
java WhitespaceTokenizerSpans

실행시 위 프로그램은 주어진 문자열 (원시 텍스트)을 읽고이를 토큰 화하고 다음 출력을 표시합니다.

[0..3) Hi. 
[4..7) How 
[8..11) are 
[12..16) you? 
[17..24) Welcome 
[25..27) to 
[28..43) Tutorialspoint. 
[44..46) We 
[47..54) provide 
[55..59) free
[60..69) tutorials 
[70..72) on 
[73..80) various 
[81..93) technologies

Example (TokenizerME)

다음은 다음을 사용하여 원시 텍스트의 토큰 범위를 검색하는 프로그램입니다. TokenizerME수업. 또한 위치와 함께 토큰을 인쇄합니다. 이 프로그램을 이름의 파일에 저장하십시오.TokenizerMESpans.java.

import java.io.FileInputStream; 
import java.io.InputStream; 
import opennlp.tools.tokenize.TokenizerME; 
import opennlp.tools.tokenize.TokenizerModel; 
import opennlp.tools.util.Span;  

public class TokenizerMESpans { 
   public static void main(String args[]) throws Exception{     
      String sent = "Hello John how are you welcome to Tutorialspoint"; 
       
      //Loading the Tokenizer model 
      InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin"); 
      TokenizerModel tokenModel = new TokenizerModel(inputStream); 
       
      //Instantiating the TokenizerME class 
      TokenizerME tokenizer = new TokenizerME(tokenModel); 
       
      //Retrieving the positions of the tokens 
      Span tokens[] = tokenizer.tokenizePos(sent); 
       
      //Printing the spans of tokens 
      for(Span token : tokens) 
         System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));      
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac TokenizerMESpans.java 
java TokenizerMESpans

실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 토큰 화하고 다음 출력을 표시합니다.

[0..5) Hello 
[6..10) John 
[11..14) how 
[15..18) are 
[19..22) you 
[23..30) welcome 
[31..33) to 
[34..48) Tutorialspoint

토큰 화 확률

TokenizerME 클래스의 getTokenProbabilities () 메서드는 tokenizePos () 메서드에 대한 가장 최근 호출과 관련된 확률을 가져 오는 데 사용됩니다.

//Getting the probabilities of the recent calls to tokenizePos() method 
double[] probs = detector.getSentenceProbabilities();

다음은 tokenizePos () 메서드 호출과 관련된 확률을 인쇄하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.TokenizerMEProbs.java.

import java.io.FileInputStream; 
import java.io.InputStream; 
import opennlp.tools.tokenize.TokenizerME; 
import opennlp.tools.tokenize.TokenizerModel; 
import opennlp.tools.util.Span;  

public class TokenizerMEProbs { 
   
   public static void main(String args[]) throws Exception{     
      String sent = "Hello John how are you welcome to Tutorialspoint"; 
      
      //Loading the Tokenizer model 
      InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin"); 
      TokenizerModel tokenModel = new TokenizerModel(inputStream); 
      
      //Instantiating the TokenizerME class 
      TokenizerME tokenizer = new TokenizerME(tokenModel);
      
      //Retrieving the positions of the tokens 
      Span tokens[] = tokenizer.tokenizePos(sent); 
       
      //Getting the probabilities of the recent calls to tokenizePos() method 
      double[] probs = tokenizer.getTokenProbabilities(); 
       
      //Printing the spans of tokens 
      for(Span token : tokens) 
         System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));      
         System.out.println("  "); 
         for(int i = 0; i<probs.length; i++) 
            System.out.println(probs[i]);          
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac TokenizerMEProbs.java 
java TokenizerMEProbs

실행시 위의 프로그램은 주어진 문자열을 읽고 문장을 토큰 화하고 인쇄합니다. 또한 tokenizerPos () 메서드에 대한 가장 최근 호출과 관련된 확률도 반환합니다.

[0..5) Hello 
[6..10) John 
[11..14) how 
[15..18) are 
[19..22) you 
[23..30) welcome 
[31..33) to 
[34..48) Tutorialspoint 
   
1.0 
1.0 
1.0 
1.0 
1.0 
1.0 
1.0 
1.0

주어진 텍스트에서 이름, 사람, 장소 및 기타 엔티티를 찾는 프로세스를 N에메 드 Entity R인식 (NER). 이 장에서는 OpenNLP 라이브러리를 사용하여 Java 프로그램을 통해 NER를 수행하는 방법에 대해 설명합니다.

개방형 NLP를 사용한 명명 된 엔터티 인식

다양한 NER 작업을 수행하기 위해 OpenNLP는 사전 정의 된 다양한 모델 즉, en-nerdate.bn, en-ner-location.bin, en-ner-organization.bin, en-ner-person.bin 및 en-ner-time을 사용합니다. 큰 상자. 이러한 모든 파일은 주어진 원시 텍스트에서 각 엔티티를 감지하도록 훈련 된 사전 정의 된 모델입니다.

그만큼 opennlp.tools.namefind패키지에는 NER 작업을 수행하는 데 사용되는 클래스와 인터페이스가 포함되어 있습니다. OpenNLP 라이브러리를 사용하여 NER 작업을 수행하려면 다음을 수행해야합니다.

  • 다음을 사용하여 각 모델을로드합니다. TokenNameFinderModel 수업.

  • 인스턴스화 NameFinder 수업.

  • 이름을 찾아서 인쇄하십시오.

다음은 주어진 원시 텍스트에서 이름 엔티티를 감지하는 프로그램을 작성하기 위해 따라야 할 단계입니다.

1 단계 : 모델로드

문장 감지 모델은 다음과 같은 클래스로 표시됩니다. TokenNameFinderModel, 패키지에 속하는 opennlp.tools.namefind.

NER 모델을로드하려면-

  • 만들기 InputStream 모델의 개체 (FileInputStream을 인스턴스화하고 해당 NER 모델의 경로를 String 형식으로 생성자에 전달).

  • 인스턴스화 TokenNameFinderModel 수업과 통과 InputStream 다음 코드 블록과 같이 생성자에 대한 매개 변수로 모델의 (객체).

//Loading the NER-person model 
InputStream inputStreamNameFinder = new FileInputStream(".../en-nerperson.bin");       
TokenNameFinderModel model = new TokenNameFinderModel(inputStreamNameFinder);

2 단계 : NameFinderME 클래스 인스턴스화

그만큼 NameFinderME 패키지 클래스 opennlp.tools.namefindNER 작업을 수행하는 방법이 포함되어 있습니다. 이 클래스는 최대 엔트로피 모델을 사용하여 지정된 원시 텍스트에서 명명 된 엔티티를 찾습니다.

이 클래스를 인스턴스화하고 아래와 같이 이전 단계에서 생성 된 모델 객체를 전달합니다.

//Instantiating the NameFinderME class 
NameFinderME nameFinder = new NameFinderME(model);

3 단계 : 문장에서 이름 찾기

그만큼 find() 의 방법 NameFinderME클래스는 전달 된 원시 텍스트에서 이름을 감지하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로받습니다.

이 메서드에 문장의 문자열 형식을 전달하여이 메서드를 호출합니다.

//Finding the names in the sentence 
Span nameSpans[] = nameFinder.find(sentence);

4 단계 : 문장에서 이름의 범위 인쇄

그만큼 find() 의 방법 NameFinderME클래스는 Span 유형의 객체 배열을 반환합니다. Span이라는 클래스는opennlp.tools.util 패키지는 저장하는 데 사용됩니다 startend 세트의 정수.

반환 된 스팬을 저장할 수 있습니다. find() 다음 코드 블록과 같이 Span 배열에 메서드를 추가하고 인쇄합니다.

//Printing the sentences and their spans of a sentence 
for (Span span : spans)         
System.out.println(paragraph.substring(span);

NER Example

다음은 주어진 문장을 읽고 그 안에있는 사람의 이름의 범위를 인식하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.NameFinderME_Example.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.namefind.NameFinderME; 
import opennlp.tools.namefind.TokenNameFinderModel; 
import opennlp.tools.util.Span;  

public class NameFinderME_Example { 
   public static void main(String args[]) throws Exception{ 
      /Loading the NER - Person model       InputStream inputStream = new 
         FileInputStream("C:/OpenNLP_models/en-ner-person.bin"); 
      TokenNameFinderModel model = new TokenNameFinderModel(inputStream);
      
      //Instantiating the NameFinder class 
      NameFinderME nameFinder = new NameFinderME(model); 
    
      //Getting the sentence in the form of String array  
      String [] sentence = new String[]{ 
         "Mike", 
         "and", 
         "Smith", 
         "are", 
         "good", 
         "friends" 
      }; 
       
      //Finding the names in the sentence 
      Span nameSpans[] = nameFinder.find(sentence); 
       
      //Printing the spans of the names in the sentence 
      for(Span s: nameSpans) 
         System.out.println(s.toString());    
   }    
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac NameFinderME_Example.java 
java NameFinderME_Example

실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 그 안에있는 사람의 이름을 감지하고 아래에 표시된대로 위치 (스팬)를 표시합니다.

[0..1) person 
[2..3) person

위치와 함께 이름

그만큼 substring() String 클래스의 메서드는 begin 그리고 end offsets각 문자열을 반환합니다. 다음 코드 블록에 표시된 것처럼이 메서드를 사용하여 이름과 해당 범위 (위치)를 함께 인쇄 할 수 있습니다.

for(Span s: nameSpans)        
   System.out.println(s.toString()+"  "+tokens[s.getStart()]);

다음은 주어진 원시 텍스트에서 이름을 감지하고 위치와 함께 표시하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.NameFinderSentences.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.namefind.NameFinderME; 
import opennlp.tools.namefind.TokenNameFinderModel; 
import opennlp.tools.tokenize.TokenizerME; 
import opennlp.tools.tokenize.TokenizerModel; 
import opennlp.tools.util.Span;  

public class NameFinderSentences {  
   public static void main(String args[]) throws Exception{        
      
      //Loading the tokenizer model 
      InputStream inputStreamTokenizer = new 
         FileInputStream("C:/OpenNLP_models/entoken.bin");
      TokenizerModel tokenModel = new TokenizerModel(inputStreamTokenizer); 
       
      //Instantiating the TokenizerME class 
      TokenizerME tokenizer = new TokenizerME(tokenModel); 
       
      //Tokenizing the sentence in to a string array 
      String sentence = "Mike is senior programming 
      manager and Rama is a clerk both are working at 
      Tutorialspoint"; 
      String tokens[] = tokenizer.tokenize(sentence); 
       
      //Loading the NER-person model 
      InputStream inputStreamNameFinder = new 
         FileInputStream("C:/OpenNLP_models/enner-person.bin");       
      TokenNameFinderModel model = new TokenNameFinderModel(inputStreamNameFinder);
      
      //Instantiating the NameFinderME class 
      NameFinderME nameFinder = new NameFinderME(model);       
      
      //Finding the names in the sentence 
      Span nameSpans[] = nameFinder.find(tokens);        
      
      //Printing the names and their spans in a sentence 
      for(Span s: nameSpans)        
         System.out.println(s.toString()+"  "+tokens[s.getStart()]);      
   }    
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac NameFinderSentences.java 
java NameFinderSentences

실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 그 안에있는 사람의 이름을 감지하고 아래에 표시된대로 위치 (스팬)를 표시합니다.

[0..1) person  Mike

위치 이름 찾기

다양한 모델을로드하여 다양한 명명 된 엔티티를 감지 할 수 있습니다. 다음은로드하는 Java 프로그램입니다.en-ner-location.bin모델을 만들고 주어진 문장에서 위치 이름을 감지합니다. 이 프로그램을 이름의 파일에 저장하십시오.LocationFinder.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.namefind.NameFinderME; 
import opennlp.tools.namefind.TokenNameFinderModel; 
import opennlp.tools.tokenize.TokenizerME; 
import opennlp.tools.tokenize.TokenizerModel; 
import opennlp.tools.util.Span;  

public class LocationFinder { 
   public static void main(String args[]) throws Exception{
 
      InputStream inputStreamTokenizer = new 
         FileInputStream("C:/OpenNLP_models/entoken.bin"); 
      TokenizerModel tokenModel = new TokenizerModel(inputStreamTokenizer); 
       
      //String paragraph = "Mike and Smith are classmates"; 
      String paragraph = "Tutorialspoint is located in Hyderabad"; 
        
      //Instantiating the TokenizerME class 
      TokenizerME tokenizer = new TokenizerME(tokenModel); 
      String tokens[] = tokenizer.tokenize(paragraph); 
       
      //Loading the NER-location moodel 
      InputStream inputStreamNameFinder = new 
         FileInputStream("C:/OpenNLP_models/en- ner-location.bin");       
      TokenNameFinderModel model = new TokenNameFinderModel(inputStreamNameFinder); 
        
      //Instantiating the NameFinderME class 
      NameFinderME nameFinder = new NameFinderME(model);      
        
      //Finding the names of a location 
      Span nameSpans[] = nameFinder.find(tokens);        
      //Printing the spans of the locations in the sentence 
      for(Span s: nameSpans)        
         System.out.println(s.toString()+"  "+tokens[s.getStart()]); 
   }    
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac LocationFinder.java 
java LocationFinder

실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 그 안에있는 사람의 이름을 감지하고 아래에 표시된대로 위치 (스팬)를 표시합니다.

[4..5) location  Hyderabad

NameFinder 확률

그만큼 probs()의 방법 NameFinderME 클래스는 마지막 디코딩 된 시퀀스의 확률을 가져 오는 데 사용됩니다.

double[] probs = nameFinder.probs();

다음은 확률을 인쇄하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.TokenizerMEProbs.java.

import java.io.FileInputStream; 
import java.io.InputStream; 
import opennlp.tools.tokenize.TokenizerME; 
import opennlp.tools.tokenize.TokenizerModel; 
import opennlp.tools.util.Span; 
public class TokenizerMEProbs { 
   public static void main(String args[]) throws Exception{     
      String sent = "Hello John how are you welcome to Tutorialspoint"; 
       
      //Loading the Tokenizer model 
      InputStream inputStream = new 
         FileInputStream("C:/OpenNLP_models/en-token.bin"); 
      TokenizerModel tokenModel = new TokenizerModel(inputStream); 
       
      //Instantiating the TokenizerME class 
      TokenizerME tokenizer = new TokenizerME(tokenModel); 
       
      //Retrieving the positions of the tokens 
      Span tokens[] = tokenizer.tokenizePos(sent); 
       
      //Getting the probabilities of the recent calls to tokenizePos() method 
      double[] probs = tokenizer.getTokenProbabilities(); 
       
      //Printing the spans of tokens 
      for( Span token : tokens) 
         System.out.println(token +" 
            "+sent.substring(token.getStart(), token.getEnd()));      
         System.out.println("  "); 
      for(int i = 0; i<probs.length; i++) 
         System.out.println(probs[i]);          
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac TokenizerMEProbs.java 
java TokenizerMEProbs

실행시 위의 프로그램은 주어진 문자열을 읽고 문장을 토큰 화하고 인쇄합니다. 또한 아래와 같이 마지막 디코딩 된 시퀀스의 확률도 반환합니다.

[0..5) Hello 
[6..10) John 
[11..14) how 
[15..18) are 
[19..22) you 
[23..30) welcome 
[31..33) to 
[34..48) Tutorialspoint 
   
1.0 
1.0 
1.0 
1.0 
1.0 
1.0 
1.0 
1.0

OpenNLP를 사용하면 주어진 문장의 품사를 감지하여 인쇄 할 수도 있습니다. 품사의 전체 이름 대신 OpenNLP는 각 품사의 짧은 형식을 사용합니다. 다음 표는 OpenNLP에서 감지 된 다양한 음성 부분과 그 의미를 나타냅니다.

품사 품사 의미
NN 명사, 단수 또는 질량
DT 결정자
VB 동사, 기본형
VBD 동사, 과거형
VBZ 동사, 3 인칭 단수 선물
전치사 또는 종속 접속사
NNP 고유 명사, 단수
...에
JJ 형용사

품사에 태그 달기

문장의 품사에 태그를 지정하기 위해 OpenNLP는 다음과 같은 이름의 파일 인 모델을 사용합니다. en-posmaxent.bin. 이것은 주어진 원시 텍스트의 품사에 태그를 지정하도록 훈련 된 사전 정의 된 모델입니다.

그만큼 POSTaggerME 의 클래스 opennlp.tools.postag패키지는이 모델을로드하는 데 사용되며 OpenNLP 라이브러리를 사용하여 지정된 원시 텍스트의 품사에 태그를 지정합니다. 그렇게하려면 다음을 수행해야합니다.

  • 로드 en-pos-maxent.bin 모델을 사용하여 POSModel 수업.

  • 인스턴스화 POSTaggerME 수업.

  • 문장을 토큰 화하십시오.

  • 다음을 사용하여 태그 생성 tag() 방법.

  • 다음을 사용하여 토큰과 태그를 인쇄합니다. POSSample 수업.

다음은 다음을 사용하여 주어진 원시 텍스트의 음성 부분에 태그를 지정하는 프로그램을 작성하기 위해 따라야 할 단계입니다. POSTaggerME 수업.

1 단계 : 모델로드

POS 태깅 모델은 다음과 같은 클래스로 표시됩니다. POSModel, 패키지에 속하는 opennlp.tools.postag.

토크 나이저 모델을로드하려면-

  • 만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).

  • 인스턴스화 POSModel 수업과 통과 InputStream 다음 코드 블록에 표시된대로 생성자에 대한 매개 변수로 모델의 (객체)-

//Loading Parts of speech-maxent model 
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin"); 
POSModel model = new POSModel(inputStream);

2 단계 : POSTaggerME 클래스 인스턴스화

그만큼 POSTaggerME 패키지 클래스 opennlp.tools.postag주어진 원시 텍스트의 품사를 예측하는 데 사용됩니다. 최대 엔트로피를 사용하여 결정을 내립니다.

이 클래스를 인스턴스화하고 아래와 같이 이전 단계에서 생성 된 모델 객체를 전달합니다.

//Instantiating POSTaggerME class 
POSTaggerME tagger = new POSTaggerME(model);

3 단계 : 문장 토큰 화

그만큼 tokenize() 의 방법 whitespaceTokenizer클래스는 전달 된 원시 텍스트를 토큰 화하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로 받아들이고 문자열 (토큰) 배열을 반환합니다.

인스턴스화 whitespaceTokenizer 클래스와 문장의 String 형식을이 메서드에 전달하여이 메서드를 호출합니다.

//Tokenizing the sentence using WhitespaceTokenizer class  
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
String[] tokens = whitespaceTokenizer.tokenize(sentence);

4 단계 : 태그 생성

그만큼 tag() 의 방법 whitespaceTokenizer클래스는 토큰 문장에 POS 태그를 할당합니다. 이 메서드는 토큰 배열 (String)을 매개 변수로 받아들이고 태그 (배열)를 반환합니다.

호출 tag() 메소드에 이전 단계에서 생성 된 토큰을 전달합니다.

//Generating tags 
String[] tags = tagger.tag(tokens);

5 단계 : 토큰 및 태그 인쇄

그만큼 POSSample클래스는 POS 태그가 붙은 문장을 나타냅니다. 이 클래스를 인스턴스화하려면 토큰 (텍스트) 배열과 태그 배열이 필요합니다.

그만큼 toString()이 클래스의 메서드는 태그 된 문장을 반환합니다. 이전 단계에서 만든 토큰 및 태그 배열을 전달하여이 클래스를 인스턴스화하고toString() 다음 코드 블록에 표시된대로 메서드.

//Instantiating the POSSample class 
POSSample sample = new POSSample(tokens, tags); 
System.out.println(sample.toString());

Example

다음은 주어진 원시 텍스트에서 품사를 태그하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.PosTaggerExample.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.postag.POSModel; 
import opennlp.tools.postag.POSSample; 
import opennlp.tools.postag.POSTaggerME; 
import opennlp.tools.tokenize.WhitespaceTokenizer;  

public class PosTaggerExample { 
  
   public static void main(String args[]) throws Exception{ 
    
      //Loading Parts of speech-maxent model       
      InputStream inputStream = new 
         FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin"); 
      POSModel model = new POSModel(inputStream); 
       
      //Instantiating POSTaggerME class 
      POSTaggerME tagger = new POSTaggerME(model); 
       
      String sentence = "Hi welcome to Tutorialspoint"; 
       
      //Tokenizing the sentence using WhitespaceTokenizer class  
      WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
      String[] tokens = whitespaceTokenizer.tokenize(sentence); 
       
      //Generating tags 
      String[] tags = tagger.tag(tokens);
      
      //Instantiating the POSSample class 
      POSSample sample = new POSSample(tokens, tags); 
      System.out.println(sample.toString()); 
   
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac PosTaggerExample.java 
java PosTaggerExample

실행시 위의 프로그램은 주어진 텍스트를 읽고 이러한 문장의 품사를 감지하여 아래와 같이 표시합니다.

Hi_NNP welcome_JJ to_TO Tutorialspoint_VB

POS Tagger 성능

다음은 주어진 원시 텍스트의 품사에 태그를 지정하는 프로그램입니다. 또한 성능을 모니터링하고 태거의 성능을 표시합니다. 이 프로그램을 이름의 파일에 저장하십시오.PosTagger_Performance.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.cmdline.PerformanceMonitor; 
import opennlp.tools.postag.POSModel; 
import opennlp.tools.postag.POSSample; 
import opennlp.tools.postag.POSTaggerME; 
import opennlp.tools.tokenize.WhitespaceTokenizer;  

public class PosTagger_Performance { 
   public static void main(String args[]) throws Exception{ 
      //Loading Parts of speech-maxent model       
      InputStream inputStream = new 
         FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin"); 
      POSModel model = new POSModel(inputStream); 
       
      //Creating an object of WhitespaceTokenizer class  
      WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
      
      //Tokenizing the sentence 
      String sentence = "Hi welcome to Tutorialspoint"; 
      String[] tokens = whitespaceTokenizer.tokenize(sentence); 
       
      //Instantiating POSTaggerME class 
      POSTaggerME tagger = new POSTaggerME(model); 
       
      //Generating tags 
      String[] tags = tagger.tag(tokens); 
       
      //Instantiating POSSample class       
      POSSample sample = new POSSample(tokens, tags); 
      System.out.println(sample.toString()); 
       
      //Monitoring the performance of POS tagger 
      PerformanceMonitor perfMon = new PerformanceMonitor(System.err, "sent"); 
      perfMon.start(); 
      perfMon.incrementCounter(); 
      perfMon.stopAndPrintFinalResult();      
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac PosTaggerExample.java 
java PosTaggerExample

실행시 위의 프로그램은 주어진 텍스트를 읽고 이러한 문장의 품사에 태그를 지정하고 표시합니다. 또한 POS 태거의 성능을 모니터링하고 표시합니다.

Hi_NNP welcome_JJ to_TO Tutorialspoint_VB  
Average: 0.0 sent/s  
Total: 1 sent 
Runtime: 0.0s

POS 태거 확률

그만큼 probs() 의 방법 POSTaggerME 클래스는 최근 태그 된 문장의 각 태그에 대한 확률을 찾는 데 사용됩니다.

//Getting the probabilities of the recent calls to tokenizePos() method 
double[] probs = detector.getSentenceProbabilities();

다음은 마지막 태그 문장의 각 태그에 대한 확률을 표시하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.PosTaggerProbs.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.postag.POSModel; 
import opennlp.tools.postag.POSSample; 
import opennlp.tools.postag.POSTaggerME; 
import opennlp.tools.tokenize.WhitespaceTokenizer;  

public class PosTaggerProbs { 
   
   public static void main(String args[]) throws Exception{ 
      
      //Loading Parts of speech-maxent model       
      InputStream inputStream = new FileInputStream("C:/OpenNLP_mdl/en-pos-maxent.bin"); 
      POSModel model = new POSModel(inputStream); 
       
      //Creating an object of WhitespaceTokenizer class  
      WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
       
      //Tokenizing the sentence 
      String sentence = "Hi welcome to Tutorialspoint"; 
      String[] tokens = whitespaceTokenizer.tokenize(sentence); 
       
      //Instantiating POSTaggerME class 
      POSTaggerME tagger = new POSTaggerME(model); 
             
      //Generating tags 
      String[] tags = tagger.tag(tokens);       
      
      //Instantiating the POSSample class 
      POSSample sample = new POSSample(tokens, tags);  
      System.out.println(sample.toString());
      
      //Probabilities for each tag of the last tagged sentence. 
      double [] probs = tagger.probs();       
      System.out.println("  ");       
      
      //Printing the probabilities  
      for(int i = 0; i<probs.length; i++) 
         System.out.println(probs[i]); 
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac TokenizerMEProbs.java 
java TokenizerMEProbs

실행시 위 프로그램은 주어진 원시 텍스트를 읽고 그 안에있는 각 토큰의 품사에 태그를 지정하고 표시합니다. 또한 다음과 같이 주어진 문장의 각 품사에 대한 확률도 표시합니다.

Hi_NNP welcome_JJ to_TO Tutorialspoint_VB    
0.6416834779738033 
0.42983612874819177 
0.8584513635863117 
0.4394784478206072

OpenNLP API를 사용하여 주어진 문장을 구문 분석 할 수 있습니다. 이 장에서는 OpenNLP API를 사용하여 원시 텍스트를 구문 분석하는 방법에 대해 설명합니다.

OpenNLP 라이브러리를 사용하여 원시 텍스트 구문 분석

문장을 감지하기 위해 OpenNLP는 미리 정의 된 모델 인 en-parserchunking.bin. 이것은 주어진 원시 텍스트를 구문 분석하도록 훈련 된 사전 정의 된 모델입니다.

그만큼 Parser 의 클래스 opennlp.tools.Parser 패키지는 구문 분석 구성 요소를 보관하는 데 사용되며 ParserTool 의 클래스 opennlp.tools.cmdline.parser 패키지는 콘텐츠를 구문 분석하는 데 사용됩니다.

다음은 주어진 원시 텍스트를 구문 분석하는 프로그램을 작성하기 위해 따라야 할 단계입니다. ParserTool 수업.

1 단계 : 모델로드

텍스트 구문 분석을위한 모델은 다음과 같은 클래스로 표시됩니다. ParserModel, 패키지에 속하는 opennlp.tools.parser.

토크 나이저 모델을로드하려면-

  • 만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).

  • 인스턴스화 ParserModel 수업과 통과 InputStream 다음 코드 블록과 같이 생성자에 대한 매개 변수로 모델의 (객체).

//Loading parser model 
InputStream inputStream = new FileInputStream(".../en-parserchunking.bin"); 
ParserModel model = new ParserModel(inputStream);

2 단계 : Parser 클래스의 개체 만들기

그만큼 Parser 패키지 클래스 opennlp.tools.parser구문 분석 구성 요소를 보유하기위한 데이터 구조를 나타냅니다. 정적을 사용하여이 클래스의 객체를 만들 수 있습니다.create() 의 방법 ParserFactory 수업.

호출 create() 의 방법 ParserFactory 아래와 같이 이전 단계에서 생성 한 모델 객체를 전달합니다.

//Creating a parser Parser parser = ParserFactory.create(model);

3 단계 : 문장 파싱

그만큼 parseLine() 의 방법 ParserTool클래스는 OpenNLP에서 원시 텍스트를 구문 분석하는 데 사용됩니다. 이 방법은-

  • 구문 분석 할 텍스트를 나타내는 String 변수

  • 파서 객체.

  • 수행 할 구문 분석의 수를 나타내는 정수.

다음 매개 변수를 문장에 전달하여이 메소드를 호출하십시오. 이전 단계에서 생성 된 구문 분석 객체 및 수행 할 필요한 구문 분석 수를 나타내는 정수.

//Parsing the sentence 
String sentence = "Tutorialspoint is the largest tutorial library.";       
Parse topParses[] = ParserTool.parseLine(sentence, parser, 1);

Example

다음은 주어진 원시 텍스트를 구문 분석하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.ParserExample.java.

import java.io.FileInputStream; 
import java.io.InputStream;  

import opennlp.tools.cmdline.parser.ParserTool; 
import opennlp.tools.parser.Parse; 
import opennlp.tools.parser.Parser; 
import opennlp.tools.parser.ParserFactory; 
import opennlp.tools.parser.ParserModel;  

public class ParserExample { 
   
   public static void main(String args[]) throws Exception{  
      //Loading parser model 
      InputStream inputStream = new FileInputStream(".../en-parserchunking.bin"); 
      ParserModel model = new ParserModel(inputStream); 
       
      //Creating a parser 
      Parser parser = ParserFactory.create(model); 
      
      //Parsing the sentence 
      String sentence = "Tutorialspoint is the largest tutorial library.";
      Parse topParses[] = ParserTool.parseLine(sentence, parser, 1); 
    
      for (Parse p : topParses) 
         p.show();          
   } 
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac ParserExample.java 
java ParserExample

실행시 위의 프로그램은 주어진 원시 텍스트를 읽고 구문 분석하고 다음 출력을 표시합니다.

(TOP (S (NP (NN Tutorialspoint)) (VP (VBZ is) (NP (DT the) (JJS largest) (NN
   tutorial) (NN library.)))))

문장 청크는 문장을 단어 그룹 및 동사 그룹과 같은 단어의 일부로 나누거나 나누는 것을 의미합니다.

OpenNLP를 사용하여 문장 청크

문장을 감지하기 위해 OpenNLP는 en-chunker.bin. 이것은 주어진 원시 텍스트에서 문장을 청크하도록 훈련 된 미리 정의 된 모델입니다.

그만큼 opennlp.tools.chunker 패키지에는 명사구 청크와 같은 비재 귀적 구문 주석을 찾는 데 사용되는 클래스와 인터페이스가 포함되어 있습니다.

방법을 사용하여 문장을 청크 할 수 있습니다 chunk()ChunkerME수업. 이 방법은 문장의 토큰과 POS 태그를 매개 변수로 받아들입니다. 따라서 청킹 프로세스를 시작하기 전에 먼저 문장을 토큰 화하고 그 부분의 POS 태그를 생성해야합니다.

OpenNLP 라이브러리를 사용하여 문장을 청크하려면 다음을 수행해야합니다.

  • 문장을 토큰 화하십시오.

  • 그것에 대한 POS 태그를 생성하십시오.

  • 로드 en-chunker.bin 모델을 사용하여 ChunkerModel 수업

  • 인스턴스화 ChunkerME 수업.

  • 다음을 사용하여 문장을 청크하십시오. chunk() 이 클래스의 메서드.

다음은 주어진 원시 텍스트에서 문장을 청크하는 프로그램을 작성하기 위해 따라야 할 단계입니다.

1 단계 : 문장 토큰 화

다음을 사용하여 문장을 토큰 화하십시오. tokenize() 의 방법 whitespaceTokenizer 다음 코드 블록에 표시된대로 클래스.

//Tokenizing the sentence 
String sentence = "Hi welcome to Tutorialspoint";       
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
String[] tokens = whitespaceTokenizer.tokenize(sentence);

2 단계 : POS 태그 생성

다음을 사용하여 문장의 POS 태그를 생성합니다. tag() 의 방법 POSTaggerME 다음 코드 블록에 표시된대로 클래스.

//Generating the POS tags 
File file = new File("C:/OpenNLP_models/en-pos-maxent.bin");     
POSModel model = new POSModelLoader().load(file);     
//Constructing the tagger 
POSTaggerME tagger = new POSTaggerME(model);        
//Generating tags from the tokens 
String[] tags = tagger.tag(tokens);

3 단계 : 모델로드

문장 청크 모델은 다음과 같은 클래스로 표현됩니다. ChunkerModel, 패키지에 속하는 opennlp.tools.chunker.

문장 감지 모델을로드하려면-

  • 만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).

  • 인스턴스화 ChunkerModel 수업과 통과 InputStream 다음 코드 블록에 표시된대로 생성자에 대한 매개 변수로 모델의 (객체)-

//Loading the chunker model 
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-chunker.bin"); 
ChunkerModel chunkerModel = new ChunkerModel(inputStream);

4 단계 : chunkerME 클래스 인스턴스화

그만큼 chunkerME 패키지 클래스 opennlp.tools.chunker문장을 청크하는 방법을 포함합니다. 이것은 최대 엔트로피 기반 청커입니다.

이 클래스를 인스턴스화하고 이전 단계에서 만든 모델 개체를 전달합니다.

//Instantiate the ChunkerME class 
ChunkerME chunkerME = new ChunkerME(chunkerModel);

5 단계 : 문장 청크

그만큼 chunk() 의 방법 ChunkerME클래스는 전달 된 원시 텍스트의 문장을 청크하는 데 사용됩니다. 이 메소드는 토큰과 태그를 나타내는 두 개의 String 배열을 매개 변수로 허용합니다.

이전 단계에서 만든 토큰 배열과 태그 배열을 매개 변수로 전달하여이 메서드를 호출합니다.

//Generating the chunks 
String result[] = chunkerME.chunk(tokens, tags);

Example

다음은 주어진 원시 텍스트에서 문장을 청크하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.ChunkerExample.java.

import java.io.File; 
import java.io.FileInputStream; 
import java.io.IOException; 
import java.io.InputStream;  

import opennlp.tools.chunker.ChunkerME; 
import opennlp.tools.chunker.ChunkerModel; 
import opennlp.tools.cmdline.postag.POSModelLoader; 
import opennlp.tools.postag.POSModel; 
import opennlp.tools.postag.POSTaggerME; 
import opennlp.tools.tokenize.WhitespaceTokenizer;  

public class ChunkerExample{ 
   
   public static void main(String args[]) throws IOException { 
      //Tokenizing the sentence 
      String sentence = "Hi welcome to Tutorialspoint";       
      WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
      String[] tokens = whitespaceTokenizer.tokenize(sentence); 
     
      //Generating the POS tags 
      //Load the parts of speech model 
      File file = new File("C:/OpenNLP_models/en-pos-maxent.bin"); 
      POSModel model = new POSModelLoader().load(file);     
      
      //Constructing the tagger 
      POSTaggerME tagger = new POSTaggerME(model);        
      
      //Generating tags from the tokens 
      String[] tags = tagger.tag(tokens);    
    
      //Loading the chunker model 
      InputStream inputStream = new 
         FileInputStream("C:/OpenNLP_models/en-chunker.bin"); 
      ChunkerModel chunkerModel = new ChunkerModel(inputStream);  
      
      //Instantiate the ChunkerME class 
      ChunkerME chunkerME = new ChunkerME(chunkerModel);
       
      //Generating the chunks 
      String result[] = chunkerME.chunk(tokens, tags); 
  
      for (String s : result) 
         System.out.println(s);         
   }    
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac ChunkerExample.java 
java ChunkerExample

실행시 위의 프로그램은 주어진 문자열을 읽고 그 안에있는 문장을 청크하여 아래와 같이 표시합니다.

Loading POS Tagger model ... done (1.040s) 
B-NP 
I-NP 
B-VP 
I-VP

토큰의 위치 감지

또한 다음을 사용하여 청크의 위치 또는 범위를 감지 할 수 있습니다. chunkAsSpans() 의 방법 ChunkerME수업. 이 메서드는 Span 유형의 개체 배열을 반환합니다. Span이라는 클래스는opennlp.tools.util 패키지는 저장하는 데 사용됩니다 startend 세트의 정수.

반환 된 스팬을 저장할 수 있습니다. chunkAsSpans() 다음 코드 블록과 같이 Span 배열에 메서드를 추가하고 인쇄합니다.

//Generating the tagged chunk spans 
Span[] span = chunkerME.chunkAsSpans(tokens, tags); 
       
for (Span s : span) 
   System.out.println(s.toString());

Example

다음은 주어진 원시 텍스트에서 문장을 감지하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.ChunkerSpansEample.java.

import java.io.File; 
import java.io.FileInputStream; 
import java.io.IOException; 
import java.io.InputStream;  

import opennlp.tools.chunker.ChunkerME; 
import opennlp.tools.chunker.ChunkerModel; 
import opennlp.tools.cmdline.postag.POSModelLoader; 
import opennlp.tools.postag.POSModel; 
import opennlp.tools.postag.POSTaggerME; 
import opennlp.tools.tokenize.WhitespaceTokenizer; 
import opennlp.tools.util.Span;  

public class ChunkerSpansEample{ 
   
   public static void main(String args[]) throws IOException { 
      //Load the parts of speech model 
      File file = new File("C:/OpenNLP_models/en-pos-maxent.bin");     
      POSModel model = new POSModelLoader().load(file); 
       
      //Constructing the tagger 
      POSTaggerME tagger = new POSTaggerME(model); 
  
      //Tokenizing the sentence 
      String sentence = "Hi welcome to Tutorialspoint";       
      WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
      String[] tokens = whitespaceTokenizer.tokenize(sentence); 
       
      //Generating tags from the tokens 
      String[] tags = tagger.tag(tokens);       
   
      //Loading the chunker model 
      InputStream inputStream = new 
         FileInputStream("C:/OpenNLP_models/en-chunker.bin"); 
      ChunkerModel chunkerModel = new ChunkerModel(inputStream);
      ChunkerME chunkerME = new ChunkerME(chunkerModel);       
           
      //Generating the tagged chunk spans 
      Span[] span = chunkerME.chunkAsSpans(tokens, tags); 
       
      for (Span s : span) 
         System.out.println(s.toString());  
   }    
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac ChunkerSpansEample.java 
java ChunkerSpansEample

실행시 위의 프로그램은 주어진 문자열과 그 안에있는 청크의 범위를 읽고 다음 출력을 표시합니다.

Loading POS Tagger model ... done (1.059s) 
[0..2) NP 
[2..4) VP

청커 확률 탐지

그만큼 probs() 의 방법 ChunkerME 클래스는 마지막으로 디코딩 된 시퀀스의 확률을 반환합니다.

//Getting the probabilities of the last decoded sequence       
double[] probs = chunkerME.probs();

다음은 마지막 디코딩 된 시퀀스의 확률을 인쇄하는 프로그램입니다. chunker. 이 프로그램을 이름의 파일에 저장하십시오.ChunkerProbsExample.java.

import java.io.File; 
import java.io.FileInputStream; 
import java.io.IOException; 
import java.io.InputStream; 
import opennlp.tools.chunker.ChunkerME; 
import opennlp.tools.chunker.ChunkerModel; 
import opennlp.tools.cmdline.postag.POSModelLoader; 
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSTaggerME; 
import opennlp.tools.tokenize.WhitespaceTokenizer;  

public class ChunkerProbsExample{ 
   
   public static void main(String args[]) throws IOException { 
      //Load the parts of speech model 
      File file = new File("C:/OpenNLP_models/en-pos-maxent.bin");     
      POSModel model = new POSModelLoader().load(file); 
       
      //Constructing the tagger 
      POSTaggerME tagger = new POSTaggerME(model); 
  
      //Tokenizing the sentence 
      String sentence = "Hi welcome to Tutorialspoint";       
      WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE; 
      String[] tokens = whitespaceTokenizer.tokenize(sentence); 
       
      //Generating tags from the tokens 
      String[] tags = tagger.tag(tokens);       
   
      //Loading the chunker model 
      InputStream inputStream = new 
         FileInputStream("C:/OpenNLP_models/en-chunker.bin"); 
      ChunkerModel cModel = new ChunkerModel(inputStream); 
      ChunkerME chunkerME = new ChunkerME(cModel); 
       
      //Generating the chunk tags 
      chunkerME.chunk(tokens, tags); 
       
      //Getting the probabilities of the last decoded sequence       
      double[] probs = chunkerME.probs(); 
      for(int i = 0; i<probs.length; i++) 
         System.out.println(probs[i]);       
   }    
}

다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.

javac ChunkerProbsExample.java 
java ChunkerProbsExample

실행시 위의 프로그램은 주어진 문자열을 읽고 청크하고 마지막 디코딩 된 시퀀스의 확률을 인쇄합니다.

0.9592746040797778 
0.6883933131241501 
0.8830563473996004 
0.8951150529746051

OpenNLP는 명령 줄을 통해 다양한 작업을 수행 할 수있는 명령 줄 인터페이스 (CLI)를 제공합니다. 이 장에서는 OpenNLP 명령 줄 인터페이스를 사용하는 방법을 보여주는 몇 가지 예를 살펴 보겠습니다.

토큰 화

input.txt

Hi. How are you? Welcome to Tutorialspoint. We provide free tutorials on various technologies

통사론

> opennlp TokenizerME path_for_models../en-token.bin <inputfile..> outputfile..

명령

C:\> opennlp TokenizerME C:\OpenNLP_models/en-token.bin <input.txt >output.txt

산출

Loading Tokenizer model ... done (0.207s)  
Average: 214.3 sent/s 
Total: 3 sent 
Runtime: 0.014s

output.txt

Hi . How are you ? Welcome to Tutorialspoint . We provide free tutorials on various technologies

문장 감지

input.txt

Hi. How are you? Welcome to Tutorialspoint. We provide free tutorials on various technologies

통사론

> opennlp SentenceDetector path_for_models../en-token.bin <inputfile..> outputfile..

명령

C:\> opennlp SentenceDetector C:\OpenNLP_models/en-sent.bin <input.txt > output_sendet.txt

산출

Loading Sentence Detector model ... done (0.067s)  

Average: 750.0 sent/s 
Total: 3 sent 
Runtime: 0.004s

Output_sendet.txt

Hi. How are you? 
Welcome to Tutorialspoint. 
We provide free tutorials on various technologies

명명 된 엔티티 인식

input.txt

<START:person> <START:person> Mike <END> <END> is senior programming manager and 
<START:person> Rama <END> is a clerk both are working at Tutorialspoint

통사론

> opennlp TokenNameFinder path_for_models../en-token.bin <inputfile..

명령

C:\>opennlp TokenNameFinder C:\OpenNLP_models\en-ner-person.bin <input_namefinder.txt

산출

Loading Token Name Finder model ... done (0.730s) 
<START:person> <START:person> Mike <END> <END> is senior programming manager and 
<START:person> Rama <END> is a clerk both are working at Tutorialspoint  
Average: 55.6 sent/s 
Total: 1 sent 
Runtime: 0.018s

음성 태깅의 일부

Input.txt

Hi. How are you? Welcome to Tutorialspoint. We provide free tutorials on various technologies

통사론

> opennlp POSTagger path_for_models../en-token.bin <inputfile..

명령

C:\>opennlp POSTagger C:\OpenNLP_models/en-pos-maxent.bin < input.txt

산출

Loading POS Tagger model ... done (1.315s) 
Hi._NNP How_WRB are_VBP you?_JJ Welcome_NNP to_TO Tutorialspoint._NNP We_PRP 
provide_VBP free_JJ tutorials_NNS on_IN various_JJ technologies_NNS  

Average: 66.7 sent/s 
Total: 1 sent 
Runtime: 0.015s