OpenNLP-퀵 가이드
NLP는 웹 페이지 및 텍스트 문서와 같은 자연어 소스에서 의미 있고 유용한 정보를 추출하는 데 사용되는 도구 세트입니다.
Open NLP 란 무엇입니까?
Apache OpenNLP자연어 텍스트를 처리하는 데 사용되는 오픈 소스 Java 라이브러리입니다. 이 라이브러리를 사용하여 효율적인 텍스트 처리 서비스를 구축 할 수 있습니다.
OpenNLP는 토큰 화, 문장 분할, 품사 태깅, 명명 된 엔티티 추출, 청킹, 구문 분석, 공동 참조 해결 등과 같은 서비스를 제공합니다.
OpenNLP의 특징
다음은 OpenNLP의 주목할만한 기능입니다-
Named Entity Recognition (NER) − Open NLP는 쿼리를 처리하는 동안에도 위치, 사람 및 사물의 이름을 추출 할 수있는 NER를 지원합니다.
Summarize − 사용 summarize 기능을 사용하면 NLP에서 단락, 기사, 문서 또는 컬렉션을 요약 할 수 있습니다.
Searching − OpenNLP에서는 주어진 단어가 변경되거나 철자가 틀린 경우에도 주어진 텍스트에서 주어진 검색 문자열 또는 동의어를 식별 할 수 있습니다.
Tagging (POS) − NLP의 태깅은 추가 분석을 위해 텍스트를 다양한 문법 요소로 나누는 데 사용됩니다.
Translation − NLP에서 Translation은 한 언어를 다른 언어로 번역하는 데 도움이됩니다.
Information grouping − NLP의이 옵션은 품사처럼 문서 내용의 텍스트 정보를 그룹화합니다.
Natural Language Generation − 데이터베이스에서 정보를 생성하고 기상 분석이나 의료 보고서와 같은 정보 보고서를 자동화하는 데 사용됩니다.
Feedback Analysis − 이름에서 알 수 있듯이 NLP는 제품에 대한 사람들의 다양한 피드백을 수집하여 제품이 얼마나 성공적인지 분석합니다.
Speech recognition − 사람의 음성을 분석하는 것은 어렵지만 NLP에는이 요구 사항에 대한 몇 가지 기본 기능이 있습니다.
NLP API 열기
Apache OpenNLP 라이브러리는 문장 감지, 토큰 화, 이름 찾기, 품사 태그 지정, 문장 청킹, 구문 분석, 공동 참조 해결 및 문서 분류와 같은 자연어 처리의 다양한 작업을 수행하기위한 클래스 및 인터페이스를 제공합니다.
이러한 작업 외에도 이러한 작업에 대해 자체 모델을 교육하고 평가할 수도 있습니다.
OpenNLP CLI
라이브러리 외에도 OpenNLP는 모델을 교육하고 평가할 수있는 CLI (명령 줄 인터페이스)도 제공합니다. 이 튜토리얼의 마지막 장에서이 주제에 대해 자세히 설명합니다.
개방형 NLP 모델
다양한 NLP 작업을 수행하기 위해 OpenNLP는 사전 정의 된 모델 세트를 제공합니다. 이 세트에는 다양한 언어 용 모델이 포함되어 있습니다.
모델 다운로드
아래 단계에 따라 OpenNLP에서 제공하는 사전 정의 된 모델을 다운로드 할 수 있습니다.
Step 1 − 다음 링크를 클릭하여 OpenNLP 모델의 색인 페이지를 엽니 다 − http://opennlp.sourceforge.net/models-1.5/.
Step 2− 해당 링크를 방문하면 다양한 언어의 구성 요소 목록과 다운로드 링크가 표시됩니다. 여기에서 OpenNLP에서 제공하는 사전 정의 된 모든 모델 목록을 얻을 수 있습니다.
이 모든 모델을 폴더에 다운로드하십시오. C:/OpenNLP_models/>, 해당 링크를 클릭합니다. 이러한 모든 모델은 언어에 따라 다르며이를 사용하는 동안 모델 언어가 입력 텍스트의 언어와 일치하는지 확인해야합니다.
OpenNLP의 역사
2010 년 OpenNLP는 Apache 인큐베이션에 뛰어 들었습니다.
2011 년에 Apache OpenNLP 1.5.2 Incubating이 출시되었으며 같은 해 최상위 Apache 프로젝트로 졸업했습니다.
2015 년에 OpenNLP는 1.6.0이 출시되었습니다.
이 장에서는 시스템에서 OpenNLP 환경을 설정하는 방법에 대해 설명합니다. 설치 과정부터 시작하겠습니다.
OpenNLP 설치
다음은 다운로드 단계입니다. Apache OpenNLP library 시스템에서.
Step 1 − 홈페이지 열기 Apache OpenNLP 다음 링크를 클릭하여- https://opennlp.apache.org/.
Step 2 − 이제 Downloads링크. 클릭하면 Apache Software Foundation Distribution 디렉토리로 리디렉션되는 다양한 미러를 찾을 수있는 페이지로 이동합니다.
Step 3−이 페이지에서 다양한 Apache 배포판을 다운로드 할 수있는 링크를 찾을 수 있습니다. 그것들을 찾아보고 OpenNLP 배포를 찾아 클릭하십시오.
Step 4 − 클릭하면 아래와 같이 OpenNLP 배포의 색인을 볼 수있는 디렉토리로 리디렉션됩니다.
사용 가능한 배포판에서 최신 버전을 클릭하십시오.
Step 5− 각 배포판은 OpenNLP 라이브러리의 소스 및 바이너리 파일을 다양한 형식으로 제공합니다. 소스 및 바이너리 파일을 다운로드하고,apache-opennlp-1.6.0-bin.zip 과 apache-opennlp1.6.0-src.zip (Windows의 경우).
클래스 경로 설정
OpenNLP 라이브러리를 다운로드 한 후 해당 경로를 bin예배 규칙서. 시스템의 E 드라이브에 OpenNLP 라이브러리를 다운로드했다고 가정합니다.
이제 아래에 주어진 단계를 따르십시오-
Step 1 − '내 컴퓨터'를 마우스 오른쪽 버튼으로 클릭하고 '속성'을 선택합니다.
Step 2 − 'Advanced'탭에서 'Environment Variables'버튼을 클릭하십시오.
Step 3 − 선택 path 변수를 클릭하고 Edit 다음 스크린 샷과 같이 버튼을 클릭합니다.
Step 4 − 환경 변수 편집 창에서 New 버튼을 누르고 OpenNLP 디렉토리 경로를 추가하십시오. E:\apache-opennlp-1.6.0\bin 그리고 OK 다음 스크린 샷과 같이 버튼을 클릭합니다.
Eclipse 설치
OpenNLP 라이브러리에 대한 Eclipse 환경을 설정할 수 있습니다. Build path JAR 파일에 추가하거나 pom.xml.
JAR 파일에 대한 빌드 경로 설정
Eclipse에 OpenNLP를 설치하려면 아래 단계를 따르십시오.
Step 1 − 시스템에 Eclipse 환경이 설치되어 있는지 확인하십시오.
Step 2− Eclipse를 엽니 다. 파일 → 새로 만들기 → 새 프로젝트 열기를 클릭합니다.
Step 3 − 당신은 얻을 것입니다 New Project마법사. 이 마법사에서 Java 프로젝트를 선택하고Next 단추.
Step 4 − 다음으로, New Java Project wizard. 여기에서 새 프로젝트를 생성하고Next 버튼을 누릅니다.
Step 5 − 새 프로젝트를 생성 한 후 마우스 오른쪽 버튼으로 클릭하고 Build Path 클릭 Configure Build Path.
Step 6 − 다음으로, Java Build Path마법사. 여기에서Add External JARs 버튼을 누릅니다.
Step 7 − jar 파일 선택 opennlp-tools-1.6.0.jar 과 opennlp-uima-1.6.0.jar 에 위치한 lib 폴더 apache-opennlp-1.6.0 folder.
클릭시 Open 위 화면에서 버튼을 누르면 선택한 파일이 라이브러리에 추가됩니다.
클릭시 OK, 필요한 JAR 파일을 현재 프로젝트에 성공적으로 추가하고 아래와 같이 참조 라이브러리를 확장하여 추가 된 라이브러리를 확인할 수 있습니다.
pom.xml 사용
프로젝트를 Maven 프로젝트로 변환하고 다음 코드를 해당 프로젝트에 추가합니다. pom.xml.
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0
http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>myproject</groupId>
<artifactId>myproject</artifactId>
<version>0.0.1-SNAPSHOT</version>
<build>
<sourceDirectory>src</sourceDirectory>
<plugins>
<plugin>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.5.1</version>
<configuration>
<source>1.8</source>
<target>1.8</target>
</configuration>
</plugin>
</plugins>
</build>
<dependencies>
<dependency>
<groupId>org.apache.opennlp</groupId>
<artifactId>opennlp-tools</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.opennlp</groupId>
<artifactId>opennlp-uima</artifactId>
<version>1.6.0</version>
</dependency>
</dependencies>
</project>
이 장에서는이 튜토리얼의 다음 장에서 사용할 클래스와 메서드에 대해 설명합니다.
문장 감지
SentenceModel 클래스
이 클래스는 주어진 원시 텍스트에서 문장을 감지하는 데 사용되는 사전 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.sentdetect.
이 클래스의 생성자는 InputStream 문장 검출기 모델 파일 (en-sent.bin)의 객체.
SentenceDetectorME 클래스
이 클래스는 패키지에 속합니다. opennlp.tools.sentdetect원시 텍스트를 문장으로 분할하는 방법이 포함되어 있습니다. 이 클래스는 최대 엔트로피 모델을 사용하여 문자열의 문장 끝 문자를 평가하여 문장의 끝을 의미하는지 확인합니다.
다음은이 수업의 중요한 방법입니다.
S. 아니 | 방법 및 설명 |
---|---|
1 | sentDetect() 이 방법은 전달 된 원시 텍스트에서 문장을 감지하는 데 사용됩니다. String 변수를 매개 변수로 받아들이고 주어진 원시 텍스트의 문장을 보유하는 String 배열을 반환합니다. |
2 | sentPosDetect() 이 방법은 주어진 텍스트에서 문장의 위치를 감지하는 데 사용됩니다. 이 메서드는 문장을 나타내는 문자열 변수를 받아들이고 유형의 객체 배열을 반환합니다.Span. 명명 된 클래스 Span 의 opennlp.tools.util 패키지는 집합의 시작 및 끝 정수를 저장하는 데 사용됩니다. |
삼 | getSentenceProbabilities() 이 메서드는 최근 호출과 관련된 확률을 반환합니다. sentDetect() 방법. |
토큰 화
TokenizerModel 클래스
이 클래스는 주어진 문장을 토큰 화하는 데 사용되는 미리 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.tokenizer.
이 클래스의 생성자는 InputStream 토크 나이저 모델 파일 (entoken.bin)의 개체.
클래스
토큰 화를 수행하기 위해 OpenNLP 라이브러리는 세 가지 주요 클래스를 제공합니다. 세 클래스 모두Tokenizer.
S. 아니 | 클래스 및 설명 |
---|---|
1 | SimpleTokenizer 이 클래스는 문자 클래스를 사용하여 주어진 원시 텍스트를 토큰 화합니다. |
2 | WhitespaceTokenizer 이 클래스는 공백을 사용하여 주어진 텍스트를 토큰 화합니다. |
삼 | TokenizerME 이 클래스는 원시 텍스트를 별도의 토큰으로 변환합니다. 최대 엔트로피를 사용하여 결정을 내립니다. |
이러한 클래스에는 다음 메서드가 포함됩니다.
S. 아니 | 방법 및 설명 |
---|---|
1 | tokenize() 이 메서드는 원시 텍스트를 토큰 화하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로 받아들이고 문자열 (토큰) 배열을 반환합니다. |
2 | sentPosDetect() 이 메서드는 토큰의 위치 또는 범위를 가져 오는 데 사용됩니다. 문자열 형식의 문장 (또는) 원시 텍스트를 받아들이고 해당 유형의 객체 배열을 반환합니다.Span. |
위의 두 가지 방법 외에도 TokenizerME 수업에는 getTokenProbabilities() 방법.
S. 아니 | 방법 및 설명 |
---|---|
1 | getTokenProbabilities() 이 메서드는 가장 최근의 호출과 관련된 확률을 가져 오는 데 사용됩니다. tokenizePos() 방법. |
NameEntityRecognition
TokenNameFinderModel 클래스
이 클래스는 주어진 문장에서 명명 된 엔티티를 찾는 데 사용되는 사전 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.namefind.
이 클래스의 생성자는 InputStream 이름 찾기 모델 파일 (enner-person.bin)의 개체입니다.
NameFinderME 클래스
클래스는 패키지에 속합니다. opennlp.tools.namefindNER 작업을 수행하는 방법이 포함되어 있습니다. 이 클래스는 최대 엔트로피 모델을 사용하여 주어진 원시 텍스트에서 명명 된 엔티티를 찾습니다.
S. 아니 | 방법 및 설명 |
---|---|
1 | find() 이 방법은 원시 텍스트에서 이름을 감지하는 데 사용됩니다. 원시 텍스트를 매개 변수로 나타내는 String 변수를 받아들이고 Span 유형의 객체 배열을 반환합니다. |
2 | probs() 이 메서드는 마지막 디코딩 된 시퀀스의 확률을 가져 오는 데 사용됩니다. |
품사 찾기
POSModel 클래스
이 클래스는 주어진 문장의 품사에 태그를 지정하는 데 사용되는 미리 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.postag.
이 클래스의 생성자는 InputStream pos-tagger 모델 파일 (enpos-maxent.bin)의 개체입니다.
POSTaggerME 클래스
이 클래스는 패키지에 속합니다. opennlp.tools.postag주어진 원시 텍스트의 품사를 예측하는 데 사용됩니다. 최대 엔트로피를 사용하여 결정을 내립니다.
S. 아니 | 방법 및 설명 |
---|---|
1 | tag() 이 방법은 토큰 POS 태그의 문장을 할당하는 데 사용됩니다. 이 메서드는 토큰 배열 (String)을 매개 변수로 받아들이고 태그 (배열)를 반환합니다. |
2 | getSentenceProbabilities() 이 방법은 최근 태그 된 문장의 각 태그에 대한 확률을 얻는 데 사용됩니다. |
문장 파싱
ParserModel 클래스
이 클래스는 주어진 문장을 구문 분석하는 데 사용되는 미리 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.parser.
이 클래스의 생성자는 InputStream 파서 모델 파일 (en-parserchunking.bin)의 개체입니다.
파서 팩토리 클래스
이 클래스는 패키지에 속합니다. opennlp.tools.parser 파서를 만드는 데 사용됩니다.
S. 아니 | 방법 및 설명 |
---|---|
1 | create() 이것은 정적 메서드이며 파서 개체를 만드는 데 사용됩니다. 이 메서드는 파서 모델 파일의 Filestream 개체를 받아들입니다. |
ParserTool 클래스
이 클래스는 opennlp.tools.cmdline.parser 패키지 및 콘텐츠를 구문 분석하는 데 사용됩니다.
S. 아니 | 방법 및 설명 |
---|---|
1 | parseLine() 이 방법은 ParserTool클래스는 OpenNLP에서 원시 텍스트를 구문 분석하는 데 사용됩니다. 이 방법은-
|
청킹
ChunkerModel 클래스
이 클래스는 문장을 더 작은 덩어리로 나누는 데 사용되는 미리 정의 된 모델을 나타냅니다. 이 클래스는 패키지에 속합니다.opennlp.tools.chunker.
이 클래스의 생성자는 InputStream 의 개체 chunker 모델 파일 (enchunker.bin).
ChunkerME 클래스
이 클래스는 다음과 같은 패키지에 속합니다. opennlp.tools.chunker 주어진 문장을 더 작은 덩어리로 나누는 데 사용됩니다.
S. 아니 | 방법 및 설명 |
---|---|
1 | chunk() 이 방법은 주어진 문장을 더 작은 덩어리로 나누는 데 사용됩니다. 문장의 토큰을 받고P기예 O에프 S매개 변수로 peech 태그. |
2 | probs() 이 메서드는 마지막으로 디코딩 된 시퀀스의 확률을 반환합니다. |
자연어를 처리하는 동안 문장의 시작과 끝을 결정하는 것은 해결해야 할 문제 중 하나입니다. 이 프로세스는Sentence Boundary Disambiguation (SBD) 또는 단순히 문장 분리.
주어진 텍스트에서 문장을 감지하는 데 사용하는 기술은 텍스트의 언어에 따라 다릅니다.
Java를 사용한 문장 감지
정규 표현식 및 간단한 규칙 세트를 사용하여 Java에서 주어진 텍스트의 문장을 감지 할 수 있습니다.
예를 들어 마침표, 물음표 또는 느낌표가 주어진 텍스트에서 문장을 끝낸다 고 가정하면 다음을 사용하여 문장을 분할 할 수 있습니다. split() 의 방법 String수업. 여기에서 정규식을 문자열 형식으로 전달해야합니다.
다음은 Java 정규식을 사용하여 주어진 텍스트의 문장을 결정하는 프로그램입니다. (split method). 이 프로그램을 이름의 파일에 저장하십시오.SentenceDetection_RE.java.
public class SentenceDetection_RE {
public static void main(String args[]){
String sentence = " Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
String simple = "[.?!]";
String[] splitString = (sentence.split(simple));
for (String string : splitString)
System.out.println(string);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac SentenceDetection_RE.java
java SentenceDetection_RE
실행시 위의 프로그램은 다음 메시지를 표시하는 PDF 문서를 생성합니다.
Hi
How are you
Welcome to Tutorialspoint
We provide free tutorials on various technologies
OpenNLP를 사용한 문장 감지
문장을 감지하기 위해 OpenNLP는 미리 정의 된 모델 인 en-sent.bin. 이 사전 정의 된 모델은 주어진 원시 텍스트에서 문장을 감지하도록 훈련되었습니다.
그만큼 opennlp.tools.sentdetect 패키지에는 문장 감지 작업을 수행하는 데 사용되는 클래스와 인터페이스가 포함되어 있습니다.
OpenNLP 라이브러리를 사용하여 문장을 감지하려면 다음을 수행해야합니다.
로드 en-sent.bin 모델을 사용하여 SentenceModel 수업
인스턴스화 SentenceDetectorME 수업.
사용하여 문장을 감지 sentDetect() 이 클래스의 메서드.
다음은 주어진 원시 텍스트에서 문장을 감지하는 프로그램을 작성하기 위해 따라야 할 단계입니다.
1 단계 : 모델로드
문장 감지 모델은 다음과 같은 클래스로 표시됩니다. SentenceModel, 패키지에 속하는 opennlp.tools.sentdetect.
문장 감지 모델을로드하려면-
만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).
인스턴스화 SentenceModel 수업과 통과 InputStream 다음 코드 블록에 표시된대로 생성자에 대한 매개 변수로 모델의 (객체)-
//Loading sentence detector model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/ensent.bin");
SentenceModel model = new SentenceModel(inputStream);
2 단계 : SentenceDetectorME 클래스 인스턴스화
그만큼 SentenceDetectorME 패키지 클래스 opennlp.tools.sentdetect원시 텍스트를 문장으로 분할하는 방법이 포함되어 있습니다. 이 클래스는 최대 엔트로피 모델을 사용하여 문자열의 문장 끝 문자를 평가하여 문장의 끝을 나타내는 지 확인합니다.
이 클래스를 인스턴스화하고 아래와 같이 이전 단계에서 만든 모델 개체를 전달합니다.
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
3 단계 : 문장 감지
그만큼 sentDetect() 의 방법 SentenceDetectorME클래스는 전달 된 원시 텍스트에서 문장을 감지하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로받습니다.
이 메서드에 문장의 문자열 형식을 전달하여이 메서드를 호출합니다.
//Detecting the sentence
String sentences[] = detector.sentDetect(sentence);
Example
다음은 주어진 원시 텍스트에서 문장을 감지하는 프로그램입니다. 이 프로그램을 이름이 지정된 파일에 저장하십시오.SentenceDetectionME.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.sentdetect.SentenceDetectorME;
import opennlp.tools.sentdetect.SentenceModel;
public class SentenceDetectionME {
public static void main(String args[]) throws Exception {
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Loading sentence detector model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin");
SentenceModel model = new SentenceModel(inputStream);
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
//Detecting the sentence
String sentences[] = detector.sentDetect(sentence);
//Printing the sentences
for(String sent : sentences)
System.out.println(sent);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac SentenceDetectorME.java
java SentenceDetectorME
위 프로그램은 실행시 주어진 문자열을 읽고 그 안의 문장을 감지하고 다음과 같은 출력을 표시합니다.
Hi. How are you?
Welcome to Tutorialspoint.
We provide free tutorials on various technologies
문장의 위치 감지
또한 다음의 sentPosDetect () 메서드를 사용하여 문장의 위치를 감지 할 수 있습니다. SentenceDetectorME class.
다음은 주어진 원시 텍스트에서 문장의 위치를 감지하는 프로그램을 작성하기 위해 따라야 할 단계입니다.
1 단계 : 모델로드
문장 감지 모델은 다음과 같은 클래스로 표시됩니다. SentenceModel, 패키지에 속하는 opennlp.tools.sentdetect.
문장 감지 모델을로드하려면-
만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).
인스턴스화 SentenceModel 수업과 통과 InputStream 다음 코드 블록과 같이 생성자에 대한 매개 변수로 모델의 (객체).
//Loading sentence detector model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin");
SentenceModel model = new SentenceModel(inputStream);
2 단계 : SentenceDetectorME 클래스 인스턴스화
그만큼 SentenceDetectorME 패키지 클래스 opennlp.tools.sentdetect원시 텍스트를 문장으로 분할하는 방법이 포함되어 있습니다. 이 클래스는 최대 엔트로피 모델을 사용하여 문자열의 문장 끝 문자를 평가하여 문장의 끝을 나타내는 지 확인합니다.
이 클래스를 인스턴스화하고 이전 단계에서 만든 모델 개체를 전달합니다.
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
3 단계 : 문장의 위치 감지
그만큼 sentPosDetect() 의 방법 SentenceDetectorME클래스는 전달 된 원시 텍스트에서 문장의 위치를 감지하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로받습니다.
이 메소드에 대한 매개 변수로 문장의 문자열 형식을 전달하여이 메소드를 호출하십시오.
//Detecting the position of the sentences in the paragraph
Span[] spans = detector.sentPosDetect(sentence);
4 단계 : 문장의 범위 인쇄
그만큼 sentPosDetect() 의 방법 SentenceDetectorME 클래스는 유형의 객체 배열을 반환합니다. Span. Span이라는 클래스는opennlp.tools.util 패키지는 집합의 시작 및 끝 정수를 저장하는 데 사용됩니다.
반환 된 스팬을 저장할 수 있습니다. sentPosDetect() 다음 코드 블록과 같이 Span 배열에 메서드를 추가하고 인쇄합니다.
//Printing the sentences and their spans of a sentence
for (Span span : spans)
System.out.println(paragraph.substring(span);
Example
다음은 주어진 원시 텍스트에서 문장을 감지하는 프로그램입니다. 이 프로그램을 이름이 지정된 파일에 저장하십시오.SentenceDetectionME.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.sentdetect.SentenceDetectorME;
import opennlp.tools.sentdetect.SentenceModel;
import opennlp.tools.util.Span;
public class SentencePosDetection {
public static void main(String args[]) throws Exception {
String paragraph = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Loading sentence detector model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin");
SentenceModel model = new SentenceModel(inputStream);
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
//Detecting the position of the sentences in the raw text
Span spans[] = detector.sentPosDetect(paragraph);
//Printing the spans of the sentences in the paragraph
for (Span span : spans)
System.out.println(span);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac SentencePosDetection.java
java SentencePosDetection
위 프로그램은 실행시 주어진 문자열을 읽고 그 안의 문장을 감지하고 다음과 같은 출력을 표시합니다.
[0..16)
[17..43)
[44..93)
직위와 함께 문장
그만큼 substring() String 클래스의 메서드는 begin 그리고 end offsets각 문자열을 반환합니다. 다음 코드 블록과 같이이 방법을 사용하여 문장과 해당 범위 (위치)를 함께 인쇄 할 수 있습니다.
for (Span span : spans)
System.out.println(sen.substring(span.getStart(), span.getEnd())+" "+ span);
다음은 주어진 원시 텍스트에서 문장을 감지하여 위치와 함께 표시하는 프로그램입니다. 이 프로그램을 이름으로 파일에 저장SentencesAndPosDetection.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.sentdetect.SentenceDetectorME;
import opennlp.tools.sentdetect.SentenceModel;
import opennlp.tools.util.Span;
public class SentencesAndPosDetection {
public static void main(String args[]) throws Exception {
String sen = "Hi. How are you? Welcome to Tutorialspoint."
+ " We provide free tutorials on various technologies";
//Loading a sentence model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin");
SentenceModel model = new SentenceModel(inputStream);
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
//Detecting the position of the sentences in the paragraph
Span[] spans = detector.sentPosDetect(sen);
//Printing the sentences and their spans of a paragraph
for (Span span : spans)
System.out.println(sen.substring(span.getStart(), span.getEnd())+" "+ span);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac SentencesAndPosDetection.java
java SentencesAndPosDetection
실행시 위 프로그램은 주어진 문자열을 읽고 그 위치와 함께 문장을 감지하고 다음과 같은 출력을 표시합니다.
Hi. How are you? [0..16)
Welcome to Tutorialspoint. [17..43)
We provide free tutorials on various technologies [44..93)
문장 확률 감지
그만큼 getSentenceProbabilities() 의 방법 SentenceDetectorME 클래스는 최근 sentDetect () 메서드 호출과 관련된 확률을 반환합니다.
//Getting the probabilities of the last decoded sequence
double[] probs = detector.getSentenceProbabilities();
다음은 sentDetect () 메서드에 대한 호출과 관련된 확률을 인쇄하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.SentenceDetectionMEProbs.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.sentdetect.SentenceDetectorME;
import opennlp.tools.sentdetect.SentenceModel;
public class SentenceDetectionMEProbs {
public static void main(String args[]) throws Exception {
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Loading sentence detector model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-sent.bin");
SentenceModel model = new SentenceModel(inputStream);
//Instantiating the SentenceDetectorME class
SentenceDetectorME detector = new SentenceDetectorME(model);
//Detecting the sentence
String sentences[] = detector.sentDetect(sentence);
//Printing the sentences
for(String sent : sentences)
System.out.println(sent);
//Getting the probabilities of the last decoded sequence
double[] probs = detector.getSentenceProbabilities();
System.out.println(" ");
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac SentenceDetectionMEProbs.java
java SentenceDetectionMEProbs
실행시 위의 프로그램은 주어진 문자열을 읽고 문장을 감지하여 인쇄합니다. 또한 아래와 같이 sentDetect () 메서드에 대한 가장 최근 호출과 관련된 확률도 반환합니다.
Hi. How are you?
Welcome to Tutorialspoint.
We provide free tutorials on various technologies
0.9240246995179983
0.9957680129995953
1.0
주어진 문장을 작은 부분 (토큰)으로 자르는 과정은 다음과 같이 알려져 있습니다. tokenization. 일반적으로 주어진 원시 텍스트는 구분 기호 집합 (주로 공백)을 기반으로 토큰 화됩니다.
토큰 화는 맞춤법 검사, 검색 처리, 품사 식별, 문장 감지, 문서 문서 분류 등과 같은 작업에 사용됩니다.
OpenNLP를 사용한 토큰 화
그만큼 opennlp.tools.tokenize 패키지에는 토큰 화를 수행하는 데 사용되는 클래스와 인터페이스가 포함되어 있습니다.
주어진 문장을 더 간단한 조각으로 토큰 화하기 위해 OpenNLP 라이브러리는 세 가지 다른 클래스를 제공합니다.
SimpleTokenizer −이 클래스는 문자 클래스를 사용하여 주어진 원시 텍스트를 토큰 화합니다.
WhitespaceTokenizer −이 클래스는 주어진 텍스트를 토큰 화하기 위해 공백을 사용합니다.
TokenizerME−이 클래스는 원시 텍스트를 별도의 토큰으로 변환합니다. 최대 엔트로피를 사용하여 결정을 내립니다.
SimpleTokenizer
다음을 사용하여 문장을 토큰 화하려면 SimpleTokenizer 수업, 당신은-
각 클래스의 개체를 만듭니다.
다음을 사용하여 문장을 토큰 화하십시오. tokenize() 방법.
토큰을 인쇄하십시오.
다음은 주어진 원시 텍스트를 토큰 화하는 프로그램을 작성하기 위해 따라야 할 단계입니다.
Step 1 − 각 클래스 인스턴스화
두 클래스 모두 인스턴스화하는 데 사용할 수있는 생성자가 없습니다. 따라서 정적 변수를 사용하여 이러한 클래스의 객체를 생성해야합니다.INSTANCE.
SimpleTokenizer tokenizer = SimpleTokenizer.INSTANCE;
Step 2 − 문장 토큰 화
이 두 클래스 모두 tokenize(). 이 메서드는 문자열 형식의 원시 텍스트를받습니다. 호출시 주어진 문자열을 토큰 화하고 문자열 (토큰) 배열을 반환합니다.
다음을 사용하여 문장을 토큰 화하십시오. tokenizer() 방법은 아래와 같습니다.
//Tokenizing the given sentence
String tokens[] = tokenizer.tokenize(sentence);
Step 3 − 토큰 인쇄
문장을 토큰 화 한 후 다음을 사용하여 토큰을 인쇄 할 수 있습니다. for loop, 아래 그림과 같이.
//Printing the tokens
for(String token : tokens)
System.out.println(token);
Example
다음은 SimpleTokenizer 클래스를 사용하여 주어진 문장을 토큰 화하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.SimpleTokenizerExample.java.
import opennlp.tools.tokenize.SimpleTokenizer;
public class SimpleTokenizerExample {
public static void main(String args[]){
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating SimpleTokenizer class
SimpleTokenizer simpleTokenizer = SimpleTokenizer.INSTANCE;
//Tokenizing the given sentence
String tokens[] = simpleTokenizer.tokenize(sentence);
//Printing the tokens
for(String token : tokens) {
System.out.println(token);
}
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac SimpleTokenizerExample.java
java SimpleTokenizerExample
실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 토큰 화하고 다음 출력을 표시합니다.
Hi
.
How
are
you
?
Welcome
to
Tutorialspoint
.
We
provide
free
tutorials
on
various
technologies
WhitespaceTokenizer
다음을 사용하여 문장을 토큰 화하려면 WhitespaceTokenizer 수업, 당신은-
각 클래스의 개체를 만듭니다.
다음을 사용하여 문장을 토큰 화하십시오. tokenize() 방법.
토큰을 인쇄하십시오.
다음은 주어진 원시 텍스트를 토큰 화하는 프로그램을 작성하기 위해 따라야 할 단계입니다.
Step 1 − 각 클래스 인스턴스화
두 클래스 모두 인스턴스화하는 데 사용할 수있는 생성자가 없습니다. 따라서 정적 변수를 사용하여 이러한 클래스의 객체를 생성해야합니다.INSTANCE.
WhitespaceTokenizer tokenizer = WhitespaceTokenizer.INSTANCE;
Step 2 − 문장 토큰 화
이 두 클래스 모두 tokenize(). 이 메서드는 문자열 형식의 원시 텍스트를받습니다. 호출시 주어진 문자열을 토큰 화하고 문자열 (토큰) 배열을 반환합니다.
다음을 사용하여 문장을 토큰 화하십시오. tokenizer() 방법은 아래와 같습니다.
//Tokenizing the given sentence
String tokens[] = tokenizer.tokenize(sentence);
Step 3 − 토큰 인쇄
문장을 토큰 화 한 후 다음을 사용하여 토큰을 인쇄 할 수 있습니다. for loop, 아래 그림과 같이.
//Printing the tokens
for(String token : tokens)
System.out.println(token);
Example
다음은 주어진 문장을 토큰 화하는 프로그램입니다. WhitespaceTokenizer수업. 이 프로그램을 이름의 파일에 저장하십시오.WhitespaceTokenizerExample.java.
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class WhitespaceTokenizerExample {
public static void main(String args[]){
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating whitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer = WhitespaceTokenizer.INSTANCE;
//Tokenizing the given paragraph
String tokens[] = whitespaceTokenizer.tokenize(sentence);
//Printing the tokens
for(String token : tokens)
System.out.println(token);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac WhitespaceTokenizerExample.java
java WhitespaceTokenizerExample
실행시 위 프로그램은 주어진 문자열 (원시 텍스트)을 읽고이를 토큰 화하고 다음 출력을 표시합니다.
Hi.
How
are
you?
Welcome
to
Tutorialspoint.
We
provide
free
tutorials
on
various
technologies
TokenizerME 클래스
OpenNLP는 또한 사전 정의 된 모델 인 de-token.bin이라는 파일을 사용하여 문장을 토큰 화합니다. 주어진 원시 텍스트의 문장을 토큰 화하도록 훈련되었습니다.
그만큼 TokenizerME 의 클래스 opennlp.tools.tokenizer패키지는이 모델을로드하는 데 사용되며 OpenNLP 라이브러리를 사용하여 주어진 원시 텍스트를 토큰 화합니다. 그렇게하려면 다음을 수행해야합니다.
로드 en-token.bin 모델을 사용하여 TokenizerModel 수업.
인스턴스화 TokenizerME 수업.
다음을 사용하여 문장을 토큰 화하십시오. tokenize() 이 클래스의 메서드.
다음은 주어진 원시 텍스트에서 문장을 토큰 화하는 프로그램을 작성하기 위해 따라야 할 단계입니다. TokenizerME 수업.
Step 1 − 모델로드
토큰 화 모델은 다음과 같은 클래스로 표현됩니다. TokenizerModel, 패키지에 속하는 opennlp.tools.tokenize.
토크 나이저 모델을로드하려면-
만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).
인스턴스화 TokenizerModel 수업과 통과 InputStream 다음 코드 블록과 같이 생성자에 대한 매개 변수로 모델의 (객체).
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
Step 2 − TokenizerME 클래스 인스턴스화
그만큼 TokenizerME 패키지 클래스 opennlp.tools.tokenize원시 텍스트를 작은 부분 (토큰)으로 자르는 방법이 포함되어 있습니다. 최대 엔트로피를 사용하여 결정을 내립니다.
이 클래스를 인스턴스화하고 아래와 같이 이전 단계에서 만든 모델 개체를 전달합니다.
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
Step 3 − 문장 토큰 화
그만큼 tokenize() 의 방법 TokenizerME클래스는 전달 된 원시 텍스트를 토큰 화하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로 받아들이고 문자열 (토큰) 배열을 반환합니다.
다음과 같이 문장의 문자열 형식을이 메서드에 전달하여이 메서드를 호출합니다.
//Tokenizing the given raw text
String tokens[] = tokenizer.tokenize(paragraph);
Example
다음은 주어진 원시 텍스트를 토큰 화하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.TokenizerMEExample.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
public class TokenizerMEExample {
public static void main(String args[]) throws Exception{
String sentence = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Tokenizing the given raw text
String tokens[] = tokenizer.tokenize(sentence);
//Printing the tokens
for (String a : tokens)
System.out.println(a);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac TokenizerMEExample.java
java TokenizerMEExample
실행시 위의 프로그램은 주어진 문자열을 읽고 그 안의 문장을 감지하고 다음 출력을 표시합니다.
Hi
.
How
are
you
?
Welcome
to
Tutorialspoint
.
We
provide
free
tutorials
on
various
technologie
토큰 위치 검색
우리는 또한 위치를 얻거나 spans 사용하는 토큰의 tokenizePos()방법. 이것은 패키지의 Tokenizer 인터페이스 방법입니다.opennlp.tools.tokenize. 모든 (3) Tokenizer 클래스가이 인터페이스를 구현하므로 모든 클래스에서이 메서드를 찾을 수 있습니다.
이 메서드는 문자열 형식의 문장 또는 원시 텍스트를 받아들이고 해당 유형의 개체 배열을 반환합니다. Span.
다음을 사용하여 토큰의 위치를 얻을 수 있습니다. tokenizePos() 방법, 다음과 같이-
//Retrieving the tokens
tokenizer.tokenizePos(sentence);
위치 (스팬) 인쇄
명명 된 클래스 Span 의 opennlp.tools.util 패키지는 집합의 시작 및 끝 정수를 저장하는 데 사용됩니다.
반환 된 스팬을 저장할 수 있습니다. tokenizePos() 다음 코드 블록과 같이 Span 배열에 메서드를 추가하고 인쇄합니다.
//Retrieving the tokens
Span[] tokens = tokenizer.tokenizePos(sentence);
//Printing the spans of tokens
for( Span token : tokens)
System.out.println(token);
토큰과 그 위치를 함께 인쇄
그만큼 substring() String 클래스의 메서드는 begin 그리고 end오프셋하고 각 문자열을 반환합니다. 다음 코드 블록에 표시된 것처럼이 메서드를 사용하여 토큰과 해당 범위 (위치)를 함께 인쇄 할 수 있습니다.
//Printing the spans of tokens
for(Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
Example(SimpleTokenizer)
다음은 다음을 사용하여 원시 텍스트의 토큰 범위를 검색하는 프로그램입니다. SimpleTokenizer수업. 또한 위치와 함께 토큰을 인쇄합니다. 이 프로그램을 이름이 지정된 파일에 저장하십시오.SimpleTokenizerSpans.java.
import opennlp.tools.tokenize.SimpleTokenizer;
import opennlp.tools.util.Span;
public class SimpleTokenizerSpans {
public static void main(String args[]){
String sent = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating SimpleTokenizer class
SimpleTokenizer simpleTokenizer = SimpleTokenizer.INSTANCE;
//Retrieving the boundaries of the tokens
Span[] tokens = simpleTokenizer.tokenizePos(sent);
//Printing the spans of tokens
for( Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac SimpleTokenizerSpans.java
java SimpleTokenizerSpans
실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 토큰 화하고 다음 출력을 표시합니다.
[0..2) Hi
[2..3) .
[4..7) How
[8..11) are
[12..15) you
[15..16) ?
[17..24) Welcome
[25..27) to
[28..42) Tutorialspoint
[42..43) .
[44..46) We
[47..54) provide
[55..59) free
[60..69) tutorials
[70..72) on
[73..80) various
[81..93) technologies
Example (WhitespaceTokenizer)
다음은 다음을 사용하여 원시 텍스트의 토큰 범위를 검색하는 프로그램입니다. WhitespaceTokenizer수업. 또한 위치와 함께 토큰을 인쇄합니다. 이 프로그램을 이름의 파일에 저장하십시오.WhitespaceTokenizerSpans.java.
import opennlp.tools.tokenize.WhitespaceTokenizer;
import opennlp.tools.util.Span;
public class WhitespaceTokenizerSpans {
public static void main(String args[]){
String sent = "Hi. How are you? Welcome to Tutorialspoint. "
+ "We provide free tutorials on various technologies";
//Instantiating SimpleTokenizer class
WhitespaceTokenizer whitespaceTokenizer = WhitespaceTokenizer.INSTANCE;
//Retrieving the tokens
Span[] tokens = whitespaceTokenizer.tokenizePos(sent);
//Printing the spans of tokens
for( Span token : tokens)
System.out.println(token +"
"+sent.substring(token.getStart(), token.getEnd()));
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac WhitespaceTokenizerSpans.java
java WhitespaceTokenizerSpans
실행시 위 프로그램은 주어진 문자열 (원시 텍스트)을 읽고이를 토큰 화하고 다음 출력을 표시합니다.
[0..3) Hi.
[4..7) How
[8..11) are
[12..16) you?
[17..24) Welcome
[25..27) to
[28..43) Tutorialspoint.
[44..46) We
[47..54) provide
[55..59) free
[60..69) tutorials
[70..72) on
[73..80) various
[81..93) technologies
Example (TokenizerME)
다음은 다음을 사용하여 원시 텍스트의 토큰 범위를 검색하는 프로그램입니다. TokenizerME수업. 또한 위치와 함께 토큰을 인쇄합니다. 이 프로그램을 이름의 파일에 저장하십시오.TokenizerMESpans.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class TokenizerMESpans {
public static void main(String args[]) throws Exception{
String sent = "Hello John how are you welcome to Tutorialspoint";
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Retrieving the positions of the tokens
Span tokens[] = tokenizer.tokenizePos(sent);
//Printing the spans of tokens
for(Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac TokenizerMESpans.java
java TokenizerMESpans
실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 토큰 화하고 다음 출력을 표시합니다.
[0..5) Hello
[6..10) John
[11..14) how
[15..18) are
[19..22) you
[23..30) welcome
[31..33) to
[34..48) Tutorialspoint
토큰 화 확률
TokenizerME 클래스의 getTokenProbabilities () 메서드는 tokenizePos () 메서드에 대한 가장 최근 호출과 관련된 확률을 가져 오는 데 사용됩니다.
//Getting the probabilities of the recent calls to tokenizePos() method
double[] probs = detector.getSentenceProbabilities();
다음은 tokenizePos () 메서드 호출과 관련된 확률을 인쇄하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.TokenizerMEProbs.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class TokenizerMEProbs {
public static void main(String args[]) throws Exception{
String sent = "Hello John how are you welcome to Tutorialspoint";
//Loading the Tokenizer model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Retrieving the positions of the tokens
Span tokens[] = tokenizer.tokenizePos(sent);
//Getting the probabilities of the recent calls to tokenizePos() method
double[] probs = tokenizer.getTokenProbabilities();
//Printing the spans of tokens
for(Span token : tokens)
System.out.println(token +" "+sent.substring(token.getStart(), token.getEnd()));
System.out.println(" ");
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac TokenizerMEProbs.java
java TokenizerMEProbs
실행시 위의 프로그램은 주어진 문자열을 읽고 문장을 토큰 화하고 인쇄합니다. 또한 tokenizerPos () 메서드에 대한 가장 최근 호출과 관련된 확률도 반환합니다.
[0..5) Hello
[6..10) John
[11..14) how
[15..18) are
[19..22) you
[23..30) welcome
[31..33) to
[34..48) Tutorialspoint
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
주어진 텍스트에서 이름, 사람, 장소 및 기타 엔티티를 찾는 프로세스를 N에메 드 Entity R인식 (NER). 이 장에서는 OpenNLP 라이브러리를 사용하여 Java 프로그램을 통해 NER를 수행하는 방법에 대해 설명합니다.
개방형 NLP를 사용한 명명 된 엔터티 인식
다양한 NER 작업을 수행하기 위해 OpenNLP는 사전 정의 된 다양한 모델 즉, en-nerdate.bn, en-ner-location.bin, en-ner-organization.bin, en-ner-person.bin 및 en-ner-time을 사용합니다. 큰 상자. 이러한 모든 파일은 주어진 원시 텍스트에서 각 엔티티를 감지하도록 훈련 된 사전 정의 된 모델입니다.
그만큼 opennlp.tools.namefind패키지에는 NER 작업을 수행하는 데 사용되는 클래스와 인터페이스가 포함되어 있습니다. OpenNLP 라이브러리를 사용하여 NER 작업을 수행하려면 다음을 수행해야합니다.
다음을 사용하여 각 모델을로드합니다. TokenNameFinderModel 수업.
인스턴스화 NameFinder 수업.
이름을 찾아서 인쇄하십시오.
다음은 주어진 원시 텍스트에서 이름 엔티티를 감지하는 프로그램을 작성하기 위해 따라야 할 단계입니다.
1 단계 : 모델로드
문장 감지 모델은 다음과 같은 클래스로 표시됩니다. TokenNameFinderModel, 패키지에 속하는 opennlp.tools.namefind.
NER 모델을로드하려면-
만들기 InputStream 모델의 개체 (FileInputStream을 인스턴스화하고 해당 NER 모델의 경로를 String 형식으로 생성자에 전달).
인스턴스화 TokenNameFinderModel 수업과 통과 InputStream 다음 코드 블록과 같이 생성자에 대한 매개 변수로 모델의 (객체).
//Loading the NER-person model
InputStream inputStreamNameFinder = new FileInputStream(".../en-nerperson.bin");
TokenNameFinderModel model = new TokenNameFinderModel(inputStreamNameFinder);
2 단계 : NameFinderME 클래스 인스턴스화
그만큼 NameFinderME 패키지 클래스 opennlp.tools.namefindNER 작업을 수행하는 방법이 포함되어 있습니다. 이 클래스는 최대 엔트로피 모델을 사용하여 지정된 원시 텍스트에서 명명 된 엔티티를 찾습니다.
이 클래스를 인스턴스화하고 아래와 같이 이전 단계에서 생성 된 모델 객체를 전달합니다.
//Instantiating the NameFinderME class
NameFinderME nameFinder = new NameFinderME(model);
3 단계 : 문장에서 이름 찾기
그만큼 find() 의 방법 NameFinderME클래스는 전달 된 원시 텍스트에서 이름을 감지하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로받습니다.
이 메서드에 문장의 문자열 형식을 전달하여이 메서드를 호출합니다.
//Finding the names in the sentence
Span nameSpans[] = nameFinder.find(sentence);
4 단계 : 문장에서 이름의 범위 인쇄
그만큼 find() 의 방법 NameFinderME클래스는 Span 유형의 객체 배열을 반환합니다. Span이라는 클래스는opennlp.tools.util 패키지는 저장하는 데 사용됩니다 start 과 end 세트의 정수.
반환 된 스팬을 저장할 수 있습니다. find() 다음 코드 블록과 같이 Span 배열에 메서드를 추가하고 인쇄합니다.
//Printing the sentences and their spans of a sentence
for (Span span : spans)
System.out.println(paragraph.substring(span);
NER Example
다음은 주어진 문장을 읽고 그 안에있는 사람의 이름의 범위를 인식하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.NameFinderME_Example.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.namefind.NameFinderME;
import opennlp.tools.namefind.TokenNameFinderModel;
import opennlp.tools.util.Span;
public class NameFinderME_Example {
public static void main(String args[]) throws Exception{
/Loading the NER - Person model InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-ner-person.bin");
TokenNameFinderModel model = new TokenNameFinderModel(inputStream);
//Instantiating the NameFinder class
NameFinderME nameFinder = new NameFinderME(model);
//Getting the sentence in the form of String array
String [] sentence = new String[]{
"Mike",
"and",
"Smith",
"are",
"good",
"friends"
};
//Finding the names in the sentence
Span nameSpans[] = nameFinder.find(sentence);
//Printing the spans of the names in the sentence
for(Span s: nameSpans)
System.out.println(s.toString());
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac NameFinderME_Example.java
java NameFinderME_Example
실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 그 안에있는 사람의 이름을 감지하고 아래에 표시된대로 위치 (스팬)를 표시합니다.
[0..1) person
[2..3) person
위치와 함께 이름
그만큼 substring() String 클래스의 메서드는 begin 그리고 end offsets각 문자열을 반환합니다. 다음 코드 블록에 표시된 것처럼이 메서드를 사용하여 이름과 해당 범위 (위치)를 함께 인쇄 할 수 있습니다.
for(Span s: nameSpans)
System.out.println(s.toString()+" "+tokens[s.getStart()]);
다음은 주어진 원시 텍스트에서 이름을 감지하고 위치와 함께 표시하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.NameFinderSentences.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.namefind.NameFinderME;
import opennlp.tools.namefind.TokenNameFinderModel;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class NameFinderSentences {
public static void main(String args[]) throws Exception{
//Loading the tokenizer model
InputStream inputStreamTokenizer = new
FileInputStream("C:/OpenNLP_models/entoken.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStreamTokenizer);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Tokenizing the sentence in to a string array
String sentence = "Mike is senior programming
manager and Rama is a clerk both are working at
Tutorialspoint";
String tokens[] = tokenizer.tokenize(sentence);
//Loading the NER-person model
InputStream inputStreamNameFinder = new
FileInputStream("C:/OpenNLP_models/enner-person.bin");
TokenNameFinderModel model = new TokenNameFinderModel(inputStreamNameFinder);
//Instantiating the NameFinderME class
NameFinderME nameFinder = new NameFinderME(model);
//Finding the names in the sentence
Span nameSpans[] = nameFinder.find(tokens);
//Printing the names and their spans in a sentence
for(Span s: nameSpans)
System.out.println(s.toString()+" "+tokens[s.getStart()]);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac NameFinderSentences.java
java NameFinderSentences
실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 그 안에있는 사람의 이름을 감지하고 아래에 표시된대로 위치 (스팬)를 표시합니다.
[0..1) person Mike
위치 이름 찾기
다양한 모델을로드하여 다양한 명명 된 엔티티를 감지 할 수 있습니다. 다음은로드하는 Java 프로그램입니다.en-ner-location.bin모델을 만들고 주어진 문장에서 위치 이름을 감지합니다. 이 프로그램을 이름의 파일에 저장하십시오.LocationFinder.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.namefind.NameFinderME;
import opennlp.tools.namefind.TokenNameFinderModel;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class LocationFinder {
public static void main(String args[]) throws Exception{
InputStream inputStreamTokenizer = new
FileInputStream("C:/OpenNLP_models/entoken.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStreamTokenizer);
//String paragraph = "Mike and Smith are classmates";
String paragraph = "Tutorialspoint is located in Hyderabad";
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
String tokens[] = tokenizer.tokenize(paragraph);
//Loading the NER-location moodel
InputStream inputStreamNameFinder = new
FileInputStream("C:/OpenNLP_models/en- ner-location.bin");
TokenNameFinderModel model = new TokenNameFinderModel(inputStreamNameFinder);
//Instantiating the NameFinderME class
NameFinderME nameFinder = new NameFinderME(model);
//Finding the names of a location
Span nameSpans[] = nameFinder.find(tokens);
//Printing the spans of the locations in the sentence
for(Span s: nameSpans)
System.out.println(s.toString()+" "+tokens[s.getStart()]);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac LocationFinder.java
java LocationFinder
실행시 위의 프로그램은 주어진 문자열 (원시 텍스트)을 읽고 그 안에있는 사람의 이름을 감지하고 아래에 표시된대로 위치 (스팬)를 표시합니다.
[4..5) location Hyderabad
NameFinder 확률
그만큼 probs()의 방법 NameFinderME 클래스는 마지막 디코딩 된 시퀀스의 확률을 가져 오는 데 사용됩니다.
double[] probs = nameFinder.probs();
다음은 확률을 인쇄하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.TokenizerMEProbs.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
import opennlp.tools.util.Span;
public class TokenizerMEProbs {
public static void main(String args[]) throws Exception{
String sent = "Hello John how are you welcome to Tutorialspoint";
//Loading the Tokenizer model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-token.bin");
TokenizerModel tokenModel = new TokenizerModel(inputStream);
//Instantiating the TokenizerME class
TokenizerME tokenizer = new TokenizerME(tokenModel);
//Retrieving the positions of the tokens
Span tokens[] = tokenizer.tokenizePos(sent);
//Getting the probabilities of the recent calls to tokenizePos() method
double[] probs = tokenizer.getTokenProbabilities();
//Printing the spans of tokens
for( Span token : tokens)
System.out.println(token +"
"+sent.substring(token.getStart(), token.getEnd()));
System.out.println(" ");
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac TokenizerMEProbs.java
java TokenizerMEProbs
실행시 위의 프로그램은 주어진 문자열을 읽고 문장을 토큰 화하고 인쇄합니다. 또한 아래와 같이 마지막 디코딩 된 시퀀스의 확률도 반환합니다.
[0..5) Hello
[6..10) John
[11..14) how
[15..18) are
[19..22) you
[23..30) welcome
[31..33) to
[34..48) Tutorialspoint
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
OpenNLP를 사용하면 주어진 문장의 품사를 감지하여 인쇄 할 수도 있습니다. 품사의 전체 이름 대신 OpenNLP는 각 품사의 짧은 형식을 사용합니다. 다음 표는 OpenNLP에서 감지 된 다양한 음성 부분과 그 의미를 나타냅니다.
품사 | 품사 의미 |
---|---|
NN | 명사, 단수 또는 질량 |
DT | 결정자 |
VB | 동사, 기본형 |
VBD | 동사, 과거형 |
VBZ | 동사, 3 인칭 단수 선물 |
에 | 전치사 또는 종속 접속사 |
NNP | 고유 명사, 단수 |
에 | ...에 |
JJ | 형용사 |
품사에 태그 달기
문장의 품사에 태그를 지정하기 위해 OpenNLP는 다음과 같은 이름의 파일 인 모델을 사용합니다. en-posmaxent.bin. 이것은 주어진 원시 텍스트의 품사에 태그를 지정하도록 훈련 된 사전 정의 된 모델입니다.
그만큼 POSTaggerME 의 클래스 opennlp.tools.postag패키지는이 모델을로드하는 데 사용되며 OpenNLP 라이브러리를 사용하여 지정된 원시 텍스트의 품사에 태그를 지정합니다. 그렇게하려면 다음을 수행해야합니다.
로드 en-pos-maxent.bin 모델을 사용하여 POSModel 수업.
인스턴스화 POSTaggerME 수업.
문장을 토큰 화하십시오.
다음을 사용하여 태그 생성 tag() 방법.
다음을 사용하여 토큰과 태그를 인쇄합니다. POSSample 수업.
다음은 다음을 사용하여 주어진 원시 텍스트의 음성 부분에 태그를 지정하는 프로그램을 작성하기 위해 따라야 할 단계입니다. POSTaggerME 수업.
1 단계 : 모델로드
POS 태깅 모델은 다음과 같은 클래스로 표시됩니다. POSModel, 패키지에 속하는 opennlp.tools.postag.
토크 나이저 모델을로드하려면-
만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).
인스턴스화 POSModel 수업과 통과 InputStream 다음 코드 블록에 표시된대로 생성자에 대한 매개 변수로 모델의 (객체)-
//Loading Parts of speech-maxent model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
2 단계 : POSTaggerME 클래스 인스턴스화
그만큼 POSTaggerME 패키지 클래스 opennlp.tools.postag주어진 원시 텍스트의 품사를 예측하는 데 사용됩니다. 최대 엔트로피를 사용하여 결정을 내립니다.
이 클래스를 인스턴스화하고 아래와 같이 이전 단계에서 생성 된 모델 객체를 전달합니다.
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
3 단계 : 문장 토큰 화
그만큼 tokenize() 의 방법 whitespaceTokenizer클래스는 전달 된 원시 텍스트를 토큰 화하는 데 사용됩니다. 이 메서드는 문자열 변수를 매개 변수로 받아들이고 문자열 (토큰) 배열을 반환합니다.
인스턴스화 whitespaceTokenizer 클래스와 문장의 String 형식을이 메서드에 전달하여이 메서드를 호출합니다.
//Tokenizing the sentence using WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
4 단계 : 태그 생성
그만큼 tag() 의 방법 whitespaceTokenizer클래스는 토큰 문장에 POS 태그를 할당합니다. 이 메서드는 토큰 배열 (String)을 매개 변수로 받아들이고 태그 (배열)를 반환합니다.
호출 tag() 메소드에 이전 단계에서 생성 된 토큰을 전달합니다.
//Generating tags
String[] tags = tagger.tag(tokens);
5 단계 : 토큰 및 태그 인쇄
그만큼 POSSample클래스는 POS 태그가 붙은 문장을 나타냅니다. 이 클래스를 인스턴스화하려면 토큰 (텍스트) 배열과 태그 배열이 필요합니다.
그만큼 toString()이 클래스의 메서드는 태그 된 문장을 반환합니다. 이전 단계에서 만든 토큰 및 태그 배열을 전달하여이 클래스를 인스턴스화하고toString() 다음 코드 블록에 표시된대로 메서드.
//Instantiating the POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
Example
다음은 주어진 원시 텍스트에서 품사를 태그하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.PosTaggerExample.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSSample;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class PosTaggerExample {
public static void main(String args[]) throws Exception{
//Loading Parts of speech-maxent model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
String sentence = "Hi welcome to Tutorialspoint";
//Tokenizing the sentence using WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Generating tags
String[] tags = tagger.tag(tokens);
//Instantiating the POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac PosTaggerExample.java
java PosTaggerExample
실행시 위의 프로그램은 주어진 텍스트를 읽고 이러한 문장의 품사를 감지하여 아래와 같이 표시합니다.
Hi_NNP welcome_JJ to_TO Tutorialspoint_VB
POS Tagger 성능
다음은 주어진 원시 텍스트의 품사에 태그를 지정하는 프로그램입니다. 또한 성능을 모니터링하고 태거의 성능을 표시합니다. 이 프로그램을 이름의 파일에 저장하십시오.PosTagger_Performance.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.cmdline.PerformanceMonitor;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSSample;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class PosTagger_Performance {
public static void main(String args[]) throws Exception{
//Loading Parts of speech-maxent model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
//Creating an object of WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
//Generating tags
String[] tags = tagger.tag(tokens);
//Instantiating POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
//Monitoring the performance of POS tagger
PerformanceMonitor perfMon = new PerformanceMonitor(System.err, "sent");
perfMon.start();
perfMon.incrementCounter();
perfMon.stopAndPrintFinalResult();
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac PosTaggerExample.java
java PosTaggerExample
실행시 위의 프로그램은 주어진 텍스트를 읽고 이러한 문장의 품사에 태그를 지정하고 표시합니다. 또한 POS 태거의 성능을 모니터링하고 표시합니다.
Hi_NNP welcome_JJ to_TO Tutorialspoint_VB
Average: 0.0 sent/s
Total: 1 sent
Runtime: 0.0s
POS 태거 확률
그만큼 probs() 의 방법 POSTaggerME 클래스는 최근 태그 된 문장의 각 태그에 대한 확률을 찾는 데 사용됩니다.
//Getting the probabilities of the recent calls to tokenizePos() method
double[] probs = detector.getSentenceProbabilities();
다음은 마지막 태그 문장의 각 태그에 대한 확률을 표시하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.PosTaggerProbs.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSSample;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class PosTaggerProbs {
public static void main(String args[]) throws Exception{
//Loading Parts of speech-maxent model
InputStream inputStream = new FileInputStream("C:/OpenNLP_mdl/en-pos-maxent.bin");
POSModel model = new POSModel(inputStream);
//Creating an object of WhitespaceTokenizer class
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Instantiating POSTaggerME class
POSTaggerME tagger = new POSTaggerME(model);
//Generating tags
String[] tags = tagger.tag(tokens);
//Instantiating the POSSample class
POSSample sample = new POSSample(tokens, tags);
System.out.println(sample.toString());
//Probabilities for each tag of the last tagged sentence.
double [] probs = tagger.probs();
System.out.println(" ");
//Printing the probabilities
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac TokenizerMEProbs.java
java TokenizerMEProbs
실행시 위 프로그램은 주어진 원시 텍스트를 읽고 그 안에있는 각 토큰의 품사에 태그를 지정하고 표시합니다. 또한 다음과 같이 주어진 문장의 각 품사에 대한 확률도 표시합니다.
Hi_NNP welcome_JJ to_TO Tutorialspoint_VB
0.6416834779738033
0.42983612874819177
0.8584513635863117
0.4394784478206072
OpenNLP API를 사용하여 주어진 문장을 구문 분석 할 수 있습니다. 이 장에서는 OpenNLP API를 사용하여 원시 텍스트를 구문 분석하는 방법에 대해 설명합니다.
OpenNLP 라이브러리를 사용하여 원시 텍스트 구문 분석
문장을 감지하기 위해 OpenNLP는 미리 정의 된 모델 인 en-parserchunking.bin. 이것은 주어진 원시 텍스트를 구문 분석하도록 훈련 된 사전 정의 된 모델입니다.
그만큼 Parser 의 클래스 opennlp.tools.Parser 패키지는 구문 분석 구성 요소를 보관하는 데 사용되며 ParserTool 의 클래스 opennlp.tools.cmdline.parser 패키지는 콘텐츠를 구문 분석하는 데 사용됩니다.
다음은 주어진 원시 텍스트를 구문 분석하는 프로그램을 작성하기 위해 따라야 할 단계입니다. ParserTool 수업.
1 단계 : 모델로드
텍스트 구문 분석을위한 모델은 다음과 같은 클래스로 표시됩니다. ParserModel, 패키지에 속하는 opennlp.tools.parser.
토크 나이저 모델을로드하려면-
만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).
인스턴스화 ParserModel 수업과 통과 InputStream 다음 코드 블록과 같이 생성자에 대한 매개 변수로 모델의 (객체).
//Loading parser model
InputStream inputStream = new FileInputStream(".../en-parserchunking.bin");
ParserModel model = new ParserModel(inputStream);
2 단계 : Parser 클래스의 개체 만들기
그만큼 Parser 패키지 클래스 opennlp.tools.parser구문 분석 구성 요소를 보유하기위한 데이터 구조를 나타냅니다. 정적을 사용하여이 클래스의 객체를 만들 수 있습니다.create() 의 방법 ParserFactory 수업.
호출 create() 의 방법 ParserFactory 아래와 같이 이전 단계에서 생성 한 모델 객체를 전달합니다.
//Creating a parser Parser parser = ParserFactory.create(model);
3 단계 : 문장 파싱
그만큼 parseLine() 의 방법 ParserTool클래스는 OpenNLP에서 원시 텍스트를 구문 분석하는 데 사용됩니다. 이 방법은-
구문 분석 할 텍스트를 나타내는 String 변수
파서 객체.
수행 할 구문 분석의 수를 나타내는 정수.
다음 매개 변수를 문장에 전달하여이 메소드를 호출하십시오. 이전 단계에서 생성 된 구문 분석 객체 및 수행 할 필요한 구문 분석 수를 나타내는 정수.
//Parsing the sentence
String sentence = "Tutorialspoint is the largest tutorial library.";
Parse topParses[] = ParserTool.parseLine(sentence, parser, 1);
Example
다음은 주어진 원시 텍스트를 구문 분석하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.ParserExample.java.
import java.io.FileInputStream;
import java.io.InputStream;
import opennlp.tools.cmdline.parser.ParserTool;
import opennlp.tools.parser.Parse;
import opennlp.tools.parser.Parser;
import opennlp.tools.parser.ParserFactory;
import opennlp.tools.parser.ParserModel;
public class ParserExample {
public static void main(String args[]) throws Exception{
//Loading parser model
InputStream inputStream = new FileInputStream(".../en-parserchunking.bin");
ParserModel model = new ParserModel(inputStream);
//Creating a parser
Parser parser = ParserFactory.create(model);
//Parsing the sentence
String sentence = "Tutorialspoint is the largest tutorial library.";
Parse topParses[] = ParserTool.parseLine(sentence, parser, 1);
for (Parse p : topParses)
p.show();
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac ParserExample.java
java ParserExample
실행시 위의 프로그램은 주어진 원시 텍스트를 읽고 구문 분석하고 다음 출력을 표시합니다.
(TOP (S (NP (NN Tutorialspoint)) (VP (VBZ is) (NP (DT the) (JJS largest) (NN
tutorial) (NN library.)))))
문장 청크는 문장을 단어 그룹 및 동사 그룹과 같은 단어의 일부로 나누거나 나누는 것을 의미합니다.
OpenNLP를 사용하여 문장 청크
문장을 감지하기 위해 OpenNLP는 en-chunker.bin. 이것은 주어진 원시 텍스트에서 문장을 청크하도록 훈련 된 미리 정의 된 모델입니다.
그만큼 opennlp.tools.chunker 패키지에는 명사구 청크와 같은 비재 귀적 구문 주석을 찾는 데 사용되는 클래스와 인터페이스가 포함되어 있습니다.
방법을 사용하여 문장을 청크 할 수 있습니다 chunk() 의 ChunkerME수업. 이 방법은 문장의 토큰과 POS 태그를 매개 변수로 받아들입니다. 따라서 청킹 프로세스를 시작하기 전에 먼저 문장을 토큰 화하고 그 부분의 POS 태그를 생성해야합니다.
OpenNLP 라이브러리를 사용하여 문장을 청크하려면 다음을 수행해야합니다.
문장을 토큰 화하십시오.
그것에 대한 POS 태그를 생성하십시오.
로드 en-chunker.bin 모델을 사용하여 ChunkerModel 수업
인스턴스화 ChunkerME 수업.
다음을 사용하여 문장을 청크하십시오. chunk() 이 클래스의 메서드.
다음은 주어진 원시 텍스트에서 문장을 청크하는 프로그램을 작성하기 위해 따라야 할 단계입니다.
1 단계 : 문장 토큰 화
다음을 사용하여 문장을 토큰 화하십시오. tokenize() 의 방법 whitespaceTokenizer 다음 코드 블록에 표시된대로 클래스.
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
2 단계 : POS 태그 생성
다음을 사용하여 문장의 POS 태그를 생성합니다. tag() 의 방법 POSTaggerME 다음 코드 블록에 표시된대로 클래스.
//Generating the POS tags
File file = new File("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModelLoader().load(file);
//Constructing the tagger
POSTaggerME tagger = new POSTaggerME(model);
//Generating tags from the tokens
String[] tags = tagger.tag(tokens);
3 단계 : 모델로드
문장 청크 모델은 다음과 같은 클래스로 표현됩니다. ChunkerModel, 패키지에 속하는 opennlp.tools.chunker.
문장 감지 모델을로드하려면-
만들기 InputStream 모델의 객체 (FileInputStream을 인스턴스화하고 모델의 경로를 String 형식으로 생성자에 전달).
인스턴스화 ChunkerModel 수업과 통과 InputStream 다음 코드 블록에 표시된대로 생성자에 대한 매개 변수로 모델의 (객체)-
//Loading the chunker model
InputStream inputStream = new FileInputStream("C:/OpenNLP_models/en-chunker.bin");
ChunkerModel chunkerModel = new ChunkerModel(inputStream);
4 단계 : chunkerME 클래스 인스턴스화
그만큼 chunkerME 패키지 클래스 opennlp.tools.chunker문장을 청크하는 방법을 포함합니다. 이것은 최대 엔트로피 기반 청커입니다.
이 클래스를 인스턴스화하고 이전 단계에서 만든 모델 개체를 전달합니다.
//Instantiate the ChunkerME class
ChunkerME chunkerME = new ChunkerME(chunkerModel);
5 단계 : 문장 청크
그만큼 chunk() 의 방법 ChunkerME클래스는 전달 된 원시 텍스트의 문장을 청크하는 데 사용됩니다. 이 메소드는 토큰과 태그를 나타내는 두 개의 String 배열을 매개 변수로 허용합니다.
이전 단계에서 만든 토큰 배열과 태그 배열을 매개 변수로 전달하여이 메서드를 호출합니다.
//Generating the chunks
String result[] = chunkerME.chunk(tokens, tags);
Example
다음은 주어진 원시 텍스트에서 문장을 청크하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.ChunkerExample.java.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import opennlp.tools.chunker.ChunkerME;
import opennlp.tools.chunker.ChunkerModel;
import opennlp.tools.cmdline.postag.POSModelLoader;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class ChunkerExample{
public static void main(String args[]) throws IOException {
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Generating the POS tags
//Load the parts of speech model
File file = new File("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModelLoader().load(file);
//Constructing the tagger
POSTaggerME tagger = new POSTaggerME(model);
//Generating tags from the tokens
String[] tags = tagger.tag(tokens);
//Loading the chunker model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-chunker.bin");
ChunkerModel chunkerModel = new ChunkerModel(inputStream);
//Instantiate the ChunkerME class
ChunkerME chunkerME = new ChunkerME(chunkerModel);
//Generating the chunks
String result[] = chunkerME.chunk(tokens, tags);
for (String s : result)
System.out.println(s);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac ChunkerExample.java
java ChunkerExample
실행시 위의 프로그램은 주어진 문자열을 읽고 그 안에있는 문장을 청크하여 아래와 같이 표시합니다.
Loading POS Tagger model ... done (1.040s)
B-NP
I-NP
B-VP
I-VP
토큰의 위치 감지
또한 다음을 사용하여 청크의 위치 또는 범위를 감지 할 수 있습니다. chunkAsSpans() 의 방법 ChunkerME수업. 이 메서드는 Span 유형의 개체 배열을 반환합니다. Span이라는 클래스는opennlp.tools.util 패키지는 저장하는 데 사용됩니다 start 과 end 세트의 정수.
반환 된 스팬을 저장할 수 있습니다. chunkAsSpans() 다음 코드 블록과 같이 Span 배열에 메서드를 추가하고 인쇄합니다.
//Generating the tagged chunk spans
Span[] span = chunkerME.chunkAsSpans(tokens, tags);
for (Span s : span)
System.out.println(s.toString());
Example
다음은 주어진 원시 텍스트에서 문장을 감지하는 프로그램입니다. 이 프로그램을 이름의 파일에 저장하십시오.ChunkerSpansEample.java.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import opennlp.tools.chunker.ChunkerME;
import opennlp.tools.chunker.ChunkerModel;
import opennlp.tools.cmdline.postag.POSModelLoader;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
import opennlp.tools.util.Span;
public class ChunkerSpansEample{
public static void main(String args[]) throws IOException {
//Load the parts of speech model
File file = new File("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModelLoader().load(file);
//Constructing the tagger
POSTaggerME tagger = new POSTaggerME(model);
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Generating tags from the tokens
String[] tags = tagger.tag(tokens);
//Loading the chunker model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-chunker.bin");
ChunkerModel chunkerModel = new ChunkerModel(inputStream);
ChunkerME chunkerME = new ChunkerME(chunkerModel);
//Generating the tagged chunk spans
Span[] span = chunkerME.chunkAsSpans(tokens, tags);
for (Span s : span)
System.out.println(s.toString());
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac ChunkerSpansEample.java
java ChunkerSpansEample
실행시 위의 프로그램은 주어진 문자열과 그 안에있는 청크의 범위를 읽고 다음 출력을 표시합니다.
Loading POS Tagger model ... done (1.059s)
[0..2) NP
[2..4) VP
청커 확률 탐지
그만큼 probs() 의 방법 ChunkerME 클래스는 마지막으로 디코딩 된 시퀀스의 확률을 반환합니다.
//Getting the probabilities of the last decoded sequence
double[] probs = chunkerME.probs();
다음은 마지막 디코딩 된 시퀀스의 확률을 인쇄하는 프로그램입니다. chunker. 이 프로그램을 이름의 파일에 저장하십시오.ChunkerProbsExample.java.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import opennlp.tools.chunker.ChunkerME;
import opennlp.tools.chunker.ChunkerModel;
import opennlp.tools.cmdline.postag.POSModelLoader;
import opennlp.tools.postag.POSModel;
import opennlp.tools.postag.POSTaggerME;
import opennlp.tools.tokenize.WhitespaceTokenizer;
public class ChunkerProbsExample{
public static void main(String args[]) throws IOException {
//Load the parts of speech model
File file = new File("C:/OpenNLP_models/en-pos-maxent.bin");
POSModel model = new POSModelLoader().load(file);
//Constructing the tagger
POSTaggerME tagger = new POSTaggerME(model);
//Tokenizing the sentence
String sentence = "Hi welcome to Tutorialspoint";
WhitespaceTokenizer whitespaceTokenizer= WhitespaceTokenizer.INSTANCE;
String[] tokens = whitespaceTokenizer.tokenize(sentence);
//Generating tags from the tokens
String[] tags = tagger.tag(tokens);
//Loading the chunker model
InputStream inputStream = new
FileInputStream("C:/OpenNLP_models/en-chunker.bin");
ChunkerModel cModel = new ChunkerModel(inputStream);
ChunkerME chunkerME = new ChunkerME(cModel);
//Generating the chunk tags
chunkerME.chunk(tokens, tags);
//Getting the probabilities of the last decoded sequence
double[] probs = chunkerME.probs();
for(int i = 0; i<probs.length; i++)
System.out.println(probs[i]);
}
}
다음 명령을 사용하여 명령 프롬프트에서 저장된 Java 파일을 컴파일하고 실행합니다.
javac ChunkerProbsExample.java
java ChunkerProbsExample
실행시 위의 프로그램은 주어진 문자열을 읽고 청크하고 마지막 디코딩 된 시퀀스의 확률을 인쇄합니다.
0.9592746040797778
0.6883933131241501
0.8830563473996004
0.8951150529746051
OpenNLP는 명령 줄을 통해 다양한 작업을 수행 할 수있는 명령 줄 인터페이스 (CLI)를 제공합니다. 이 장에서는 OpenNLP 명령 줄 인터페이스를 사용하는 방법을 보여주는 몇 가지 예를 살펴 보겠습니다.
토큰 화
input.txt
Hi. How are you? Welcome to Tutorialspoint. We provide free tutorials on various technologies
통사론
> opennlp TokenizerME path_for_models../en-token.bin <inputfile..> outputfile..
명령
C:\> opennlp TokenizerME C:\OpenNLP_models/en-token.bin <input.txt >output.txt
산출
Loading Tokenizer model ... done (0.207s)
Average: 214.3 sent/s
Total: 3 sent
Runtime: 0.014s
output.txt
Hi . How are you ? Welcome to Tutorialspoint . We provide free tutorials on various technologies
문장 감지
input.txt
Hi. How are you? Welcome to Tutorialspoint. We provide free tutorials on various technologies
통사론
> opennlp SentenceDetector path_for_models../en-token.bin <inputfile..> outputfile..
명령
C:\> opennlp SentenceDetector C:\OpenNLP_models/en-sent.bin <input.txt > output_sendet.txt
산출
Loading Sentence Detector model ... done (0.067s)
Average: 750.0 sent/s
Total: 3 sent
Runtime: 0.004s
Output_sendet.txt
Hi. How are you?
Welcome to Tutorialspoint.
We provide free tutorials on various technologies
명명 된 엔티티 인식
input.txt
<START:person> <START:person> Mike <END> <END> is senior programming manager and
<START:person> Rama <END> is a clerk both are working at Tutorialspoint
통사론
> opennlp TokenNameFinder path_for_models../en-token.bin <inputfile..
명령
C:\>opennlp TokenNameFinder C:\OpenNLP_models\en-ner-person.bin <input_namefinder.txt
산출
Loading Token Name Finder model ... done (0.730s)
<START:person> <START:person> Mike <END> <END> is senior programming manager and
<START:person> Rama <END> is a clerk both are working at Tutorialspoint
Average: 55.6 sent/s
Total: 1 sent
Runtime: 0.018s
음성 태깅의 일부
Input.txt
Hi. How are you? Welcome to Tutorialspoint. We provide free tutorials on various technologies
통사론
> opennlp POSTagger path_for_models../en-token.bin <inputfile..
명령
C:\>opennlp POSTagger C:\OpenNLP_models/en-pos-maxent.bin < input.txt
산출
Loading POS Tagger model ... done (1.315s)
Hi._NNP How_WRB are_VBP you?_JJ Welcome_NNP to_TO Tutorialspoint._NNP We_PRP
provide_VBP free_JJ tutorials_NNS on_IN various_JJ technologies_NNS
Average: 66.7 sent/s
Total: 1 sent
Runtime: 0.015s