OpenNLP - API อ้างอิง

ในบทนี้เราจะพูดถึงคลาสและวิธีการที่เราจะใช้ในบทต่อ ๆ ไปของบทช่วยสอนนี้

การตรวจจับประโยค

คลาส SentenceModel

คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้ในการตรวจจับประโยคในข้อความดิบที่กำหนด คลาสนี้เป็นของแพ็คเกจopennlp.tools.sentdetect.

ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream อ็อบเจ็กต์ของไฟล์โมเดลตัวตรวจจับประโยค (en-sent.bin)

คลาส SentenceDetectorME

คลาสนี้เป็นของแพ็คเกจ opennlp.tools.sentdetectและมีวิธีการแยกข้อความดิบเป็นประโยค คลาสนี้ใช้แบบจำลองเอนโทรปีสูงสุดเพื่อประเมินอักขระ end-ofsentence ในสตริงเพื่อพิจารณาว่าพวกเขามีความหมายถึงจุดสิ้นสุดของประโยคหรือไม่

ต่อไปนี้เป็นวิธีการที่สำคัญของคลาสนี้

ส. เลขที่ วิธีการและคำอธิบาย
1

sentDetect()

วิธีนี้ใช้เพื่อตรวจจับประโยคในข้อความดิบที่ส่งผ่านไป ยอมรับตัวแปร String เป็นพารามิเตอร์และส่งกลับอาร์เรย์ String ซึ่งเก็บประโยคจากข้อความดิบที่กำหนด

2

sentPosDetect()

วิธีนี้ใช้เพื่อตรวจหาตำแหน่งของประโยคในข้อความที่กำหนด วิธีนี้ยอมรับตัวแปรสตริงซึ่งเป็นตัวแทนของประโยคและส่งคืนอาร์เรย์ของอ็อบเจ็กต์ประเภทSpan.

ชั้นเรียนชื่อ Span ของ opennlp.tools.util แพ็กเกจใช้เพื่อจัดเก็บจำนวนเต็มเริ่มต้นและสิ้นสุดของชุด

3

getSentenceProbabilities()

วิธีนี้จะคืนค่าความน่าจะเป็นที่เกี่ยวข้องกับการโทรล่าสุดไป sentDetect() วิธี.

Tokenization

คลาส TokenizerModel

คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้เพื่อโทเค็นประโยคที่กำหนด คลาสนี้เป็นของแพ็คเกจopennlp.tools.tokenizer.

ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream อ็อบเจ็กต์ของไฟล์โมเดลโทเค็นไนเซอร์ (entoken.bin)

ชั้นเรียน

ในการทำโทเค็นไลบรารี OpenNLP มีคลาสหลักสามคลาส ทั้งสามคลาสใช้อินเทอร์เฟซที่เรียกว่าTokenizer.

ส. เลขที่ ชั้นเรียนและคำอธิบาย
1

SimpleTokenizer

คลาสนี้โทเค็นข้อความดิบที่กำหนดโดยใช้คลาสอักขระ

2

WhitespaceTokenizer

คลาสนี้ใช้ช่องว่างเพื่อโทเค็นข้อความที่กำหนด

3

TokenizerME

คลาสนี้แปลงข้อความดิบเป็นโทเค็นแยก ใช้เอนโทรปีสูงสุดในการตัดสินใจ

คลาสเหล่านี้ประกอบด้วยวิธีการดังต่อไปนี้

ส. เลขที่ วิธีการและคำอธิบาย
1

tokenize()

วิธีนี้ใช้ในการโทเค็นข้อความดิบ วิธีนี้ยอมรับตัวแปร String เป็นพารามิเตอร์และส่งคืนอาร์เรย์ของ Strings (โทเค็น)

2

sentPosDetect()

วิธีนี้ใช้เพื่อรับตำแหน่งหรือช่วงของโทเค็น ยอมรับประโยค (หรือ) ข้อความดิบในรูปแบบของสตริงและส่งคืนอาร์เรย์ของวัตถุประเภทSpan.

นอกเหนือจากสองวิธีข้างต้นแล้วไฟล์ TokenizerME คลาสมีไฟล์ getTokenProbabilities() วิธี.

ส. เลขที่ วิธีการและคำอธิบาย
1

getTokenProbabilities()

วิธีนี้ใช้เพื่อรับความน่าจะเป็นที่เกี่ยวข้องกับการเรียกล่าสุดไปยังไฟล์ tokenizePos() วิธี.

NameEntityRecognition

คลาส TokenNameFinderModel

คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้เพื่อค้นหาเอนทิตีที่มีชื่อในประโยคที่กำหนด คลาสนี้เป็นของแพ็คเกจopennlp.tools.namefind.

ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream อ็อบเจ็กต์ของไฟล์โมเดลการค้นหาชื่อ (enner-person.bin)

คลาส NameFinderME

ชั้นเรียนเป็นของแพ็คเกจ opennlp.tools.namefindและมีวิธีการดำเนินงาน NER คลาสนี้ใช้โมเดลเอนโทรปีสูงสุดเพื่อค้นหาเอนทิตีที่มีชื่อในข้อความดิบที่กำหนด

ส. เลขที่ วิธีการและคำอธิบาย
1

find()

วิธีนี้ใช้เพื่อตรวจหาชื่อในข้อความดิบ ยอมรับตัวแปร String ที่แสดงข้อความดิบเป็นพารามิเตอร์และส่งกลับอาร์เรย์ของอ็อบเจ็กต์ประเภท Span

2

probs()

วิธีนี้ใช้เพื่อรับความน่าจะเป็นของลำดับที่ถอดรหัสล่าสุด

การค้นหาส่วนต่างๆของคำพูด

คลาส POSModel

คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้เพื่อแท็กส่วนของการพูดของประโยคที่กำหนด คลาสนี้เป็นของแพ็คเกจopennlp.tools.postag.

ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream ออบเจ็กต์ของไฟล์โมเดล pos-tagger (enpos-maxent.bin)

คลาส POSTaggerME

คลาสนี้เป็นของแพ็คเกจ opennlp.tools.postagและใช้เพื่อทำนายส่วนของคำพูดของข้อความดิบที่กำหนด ใช้เอนโทรปีสูงสุดในการตัดสินใจ

ส. เลขที่ วิธีการและคำอธิบาย
1

tag()

วิธีนี้ใช้เพื่อกำหนดประโยคของโทเค็นแท็ก POS วิธีนี้ยอมรับอาร์เรย์ของโทเค็น (String) เป็นพารามิเตอร์และส่งคืนแท็ก (อาร์เรย์)

2

getSentenceProbabilities()

วิธีนี้ใช้เพื่อรับความน่าจะเป็นสำหรับแต่ละแท็กของประโยคที่เพิ่งแท็ก

การแยกวิเคราะห์ประโยค

คลาส ParserModel

คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้ในการแยกวิเคราะห์ประโยคที่กำหนด คลาสนี้เป็นของแพ็คเกจopennlp.tools.parser.

ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream อ็อบเจ็กต์ของไฟล์โมเดล parser (en-parserchunking.bin)

คลาส Parser Factory

คลาสนี้เป็นของแพ็คเกจ opennlp.tools.parser และใช้ในการสร้างตัวแยกวิเคราะห์

ส. เลขที่ วิธีการและคำอธิบาย
1

create()

นี่เป็นวิธีการแบบคงที่และใช้ในการสร้างวัตถุตัวแยกวิเคราะห์ วิธีนี้ยอมรับอ็อบเจ็กต์ Filestream ของไฟล์โมเดลตัวแยกวิเคราะห์

คลาส ParserTool

คลาสนี้เป็นของ opennlp.tools.cmdline.parser แพ็กเกจและใช้เพื่อแยกวิเคราะห์เนื้อหา

ส. เลขที่ วิธีการและคำอธิบาย
1

parseLine()

วิธีนี้ของ ParserToolคลาสใช้เพื่อแยกวิเคราะห์ข้อความดิบใน OpenNLP วิธีนี้ยอมรับ -

  • ตัวแปร String ที่แสดงถึงข้อความที่จะแยกวิเคราะห์
  • วัตถุแยกวิเคราะห์
  • จำนวนเต็มแทนจำนวนของการแยกวิเคราะห์ที่จะดำเนินการ

การจัดเป็นกลุ่ม

คลาส ChunkerModel

คลาสนี้แสดงถึงโมเดลที่กำหนดไว้ล่วงหน้าซึ่งใช้ในการแบ่งประโยคออกเป็นกลุ่มย่อย ๆ คลาสนี้เป็นของแพ็คเกจopennlp.tools.chunker.

ตัวสร้างของคลาสนี้ยอมรับไฟล์ InputStream วัตถุของ chunker ไฟล์โมเดล (enchunker.bin)

คลาส ChunkerME

คลาสนี้เป็นของแพ็กเกจที่ชื่อ opennlp.tools.chunker และใช้ในการแบ่งประโยคที่กำหนดให้เป็นชิ้นเล็ก ๆ

ส. เลขที่ วิธีการและคำอธิบาย
1

chunk()

วิธีนี้ใช้เพื่อแบ่งประโยคที่กำหนดให้เป็นชิ้นเล็ก ๆ ยอมรับโทเค็นของประโยคและPศิลปะ OSแท็ก peech เป็นพารามิเตอร์

2

probs()

วิธีนี้จะคืนค่าความน่าจะเป็นของลำดับที่ถอดรหัสล่าสุด