OpenNLP - API อ้างอิง
ในบทนี้เราจะพูดถึงคลาสและวิธีการที่เราจะใช้ในบทต่อ ๆ ไปของบทช่วยสอนนี้
การตรวจจับประโยค
คลาส SentenceModel
คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้ในการตรวจจับประโยคในข้อความดิบที่กำหนด คลาสนี้เป็นของแพ็คเกจopennlp.tools.sentdetect.
ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream อ็อบเจ็กต์ของไฟล์โมเดลตัวตรวจจับประโยค (en-sent.bin)
คลาส SentenceDetectorME
คลาสนี้เป็นของแพ็คเกจ opennlp.tools.sentdetectและมีวิธีการแยกข้อความดิบเป็นประโยค คลาสนี้ใช้แบบจำลองเอนโทรปีสูงสุดเพื่อประเมินอักขระ end-ofsentence ในสตริงเพื่อพิจารณาว่าพวกเขามีความหมายถึงจุดสิ้นสุดของประโยคหรือไม่
ต่อไปนี้เป็นวิธีการที่สำคัญของคลาสนี้
ส. เลขที่ | วิธีการและคำอธิบาย |
---|---|
1 |
sentDetect() วิธีนี้ใช้เพื่อตรวจจับประโยคในข้อความดิบที่ส่งผ่านไป ยอมรับตัวแปร String เป็นพารามิเตอร์และส่งกลับอาร์เรย์ String ซึ่งเก็บประโยคจากข้อความดิบที่กำหนด |
2 |
sentPosDetect() วิธีนี้ใช้เพื่อตรวจหาตำแหน่งของประโยคในข้อความที่กำหนด วิธีนี้ยอมรับตัวแปรสตริงซึ่งเป็นตัวแทนของประโยคและส่งคืนอาร์เรย์ของอ็อบเจ็กต์ประเภทSpan. ชั้นเรียนชื่อ Span ของ opennlp.tools.util แพ็กเกจใช้เพื่อจัดเก็บจำนวนเต็มเริ่มต้นและสิ้นสุดของชุด |
3 |
getSentenceProbabilities() วิธีนี้จะคืนค่าความน่าจะเป็นที่เกี่ยวข้องกับการโทรล่าสุดไป sentDetect() วิธี. |
Tokenization
คลาส TokenizerModel
คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้เพื่อโทเค็นประโยคที่กำหนด คลาสนี้เป็นของแพ็คเกจopennlp.tools.tokenizer.
ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream อ็อบเจ็กต์ของไฟล์โมเดลโทเค็นไนเซอร์ (entoken.bin)
ชั้นเรียน
ในการทำโทเค็นไลบรารี OpenNLP มีคลาสหลักสามคลาส ทั้งสามคลาสใช้อินเทอร์เฟซที่เรียกว่าTokenizer.
ส. เลขที่ | ชั้นเรียนและคำอธิบาย |
---|---|
1 |
SimpleTokenizer คลาสนี้โทเค็นข้อความดิบที่กำหนดโดยใช้คลาสอักขระ |
2 |
WhitespaceTokenizer คลาสนี้ใช้ช่องว่างเพื่อโทเค็นข้อความที่กำหนด |
3 |
TokenizerME คลาสนี้แปลงข้อความดิบเป็นโทเค็นแยก ใช้เอนโทรปีสูงสุดในการตัดสินใจ |
คลาสเหล่านี้ประกอบด้วยวิธีการดังต่อไปนี้
ส. เลขที่ | วิธีการและคำอธิบาย |
---|---|
1 |
tokenize() วิธีนี้ใช้ในการโทเค็นข้อความดิบ วิธีนี้ยอมรับตัวแปร String เป็นพารามิเตอร์และส่งคืนอาร์เรย์ของ Strings (โทเค็น) |
2 |
sentPosDetect() วิธีนี้ใช้เพื่อรับตำแหน่งหรือช่วงของโทเค็น ยอมรับประโยค (หรือ) ข้อความดิบในรูปแบบของสตริงและส่งคืนอาร์เรย์ของวัตถุประเภทSpan. |
นอกเหนือจากสองวิธีข้างต้นแล้วไฟล์ TokenizerME คลาสมีไฟล์ getTokenProbabilities() วิธี.
ส. เลขที่ | วิธีการและคำอธิบาย |
---|---|
1 |
getTokenProbabilities() วิธีนี้ใช้เพื่อรับความน่าจะเป็นที่เกี่ยวข้องกับการเรียกล่าสุดไปยังไฟล์ tokenizePos() วิธี. |
NameEntityRecognition
คลาส TokenNameFinderModel
คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้เพื่อค้นหาเอนทิตีที่มีชื่อในประโยคที่กำหนด คลาสนี้เป็นของแพ็คเกจopennlp.tools.namefind.
ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream อ็อบเจ็กต์ของไฟล์โมเดลการค้นหาชื่อ (enner-person.bin)
คลาส NameFinderME
ชั้นเรียนเป็นของแพ็คเกจ opennlp.tools.namefindและมีวิธีการดำเนินงาน NER คลาสนี้ใช้โมเดลเอนโทรปีสูงสุดเพื่อค้นหาเอนทิตีที่มีชื่อในข้อความดิบที่กำหนด
ส. เลขที่ | วิธีการและคำอธิบาย |
---|---|
1 |
find() วิธีนี้ใช้เพื่อตรวจหาชื่อในข้อความดิบ ยอมรับตัวแปร String ที่แสดงข้อความดิบเป็นพารามิเตอร์และส่งกลับอาร์เรย์ของอ็อบเจ็กต์ประเภท Span |
2 |
probs() วิธีนี้ใช้เพื่อรับความน่าจะเป็นของลำดับที่ถอดรหัสล่าสุด |
การค้นหาส่วนต่างๆของคำพูด
คลาส POSModel
คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้เพื่อแท็กส่วนของการพูดของประโยคที่กำหนด คลาสนี้เป็นของแพ็คเกจopennlp.tools.postag.
ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream ออบเจ็กต์ของไฟล์โมเดล pos-tagger (enpos-maxent.bin)
คลาส POSTaggerME
คลาสนี้เป็นของแพ็คเกจ opennlp.tools.postagและใช้เพื่อทำนายส่วนของคำพูดของข้อความดิบที่กำหนด ใช้เอนโทรปีสูงสุดในการตัดสินใจ
ส. เลขที่ | วิธีการและคำอธิบาย |
---|---|
1 |
tag() วิธีนี้ใช้เพื่อกำหนดประโยคของโทเค็นแท็ก POS วิธีนี้ยอมรับอาร์เรย์ของโทเค็น (String) เป็นพารามิเตอร์และส่งคืนแท็ก (อาร์เรย์) |
2 |
getSentenceProbabilities() วิธีนี้ใช้เพื่อรับความน่าจะเป็นสำหรับแต่ละแท็กของประโยคที่เพิ่งแท็ก |
การแยกวิเคราะห์ประโยค
คลาส ParserModel
คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้ในการแยกวิเคราะห์ประโยคที่กำหนด คลาสนี้เป็นของแพ็คเกจopennlp.tools.parser.
ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream อ็อบเจ็กต์ของไฟล์โมเดล parser (en-parserchunking.bin)
คลาส Parser Factory
คลาสนี้เป็นของแพ็คเกจ opennlp.tools.parser และใช้ในการสร้างตัวแยกวิเคราะห์
ส. เลขที่ | วิธีการและคำอธิบาย |
---|---|
1 |
create() นี่เป็นวิธีการแบบคงที่และใช้ในการสร้างวัตถุตัวแยกวิเคราะห์ วิธีนี้ยอมรับอ็อบเจ็กต์ Filestream ของไฟล์โมเดลตัวแยกวิเคราะห์ |
คลาส ParserTool
คลาสนี้เป็นของ opennlp.tools.cmdline.parser แพ็กเกจและใช้เพื่อแยกวิเคราะห์เนื้อหา
ส. เลขที่ | วิธีการและคำอธิบาย |
---|---|
1 |
parseLine() วิธีนี้ของ ParserToolคลาสใช้เพื่อแยกวิเคราะห์ข้อความดิบใน OpenNLP วิธีนี้ยอมรับ -
|
การจัดเป็นกลุ่ม
คลาส ChunkerModel
คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้ในการแบ่งประโยคออกเป็นกลุ่มย่อย ๆ คลาสนี้เป็นของแพ็คเกจopennlp.tools.chunker.
ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream วัตถุของ chunker ไฟล์โมเดล (enchunker.bin)
คลาส ChunkerME
คลาสนี้เป็นของแพ็กเกจที่ชื่อ opennlp.tools.chunker และใช้ในการแบ่งประโยคที่กำหนดให้เป็นชิ้นเล็ก ๆ
ส. เลขที่ | วิธีการและคำอธิบาย |
---|---|
1 |
chunk() วิธีนี้ใช้เพื่อแบ่งประโยคที่กำหนดให้เป็นชิ้นเล็ก ๆ ยอมรับโทเค็นของประโยคและPศิลปะ Oฉ Sแท็ก peech เป็นพารามิเตอร์ |
2 |
probs() วิธีนี้จะคืนค่าความน่าจะเป็นของลำดับที่ถอดรหัสล่าสุด |