OpenNLP - API được tham chiếu

Trong chương này, chúng ta sẽ thảo luận về các lớp và phương thức mà chúng ta sẽ sử dụng trong các chương tiếp theo của hướng dẫn này.

Phát hiện câu

Lớp CâuMô hình

Lớp này đại diện cho mô hình được xác định trước được sử dụng để phát hiện các câu trong văn bản thô đã cho. Lớp này thuộc về góiopennlp.tools.sentdetect.

Hàm tạo của lớp này chấp nhận một InputStream đối tượng của tệp mô hình dò ​​câu (en-sent.bin).

Lớp QuestionDetectorME

Lớp này thuộc về gói opennlp.tools.sentdetectvà nó chứa các phương thức để tách văn bản thô thành các câu. Lớp này sử dụng mô hình entropy tối đa để đánh giá các ký tự end-ofsentence trong một chuỗi để xác định xem chúng có biểu thị sự kết thúc của một câu hay không.

Sau đây là các phương thức quan trọng của lớp này.

S. không Phương pháp và Mô tả
1

sentDetect()

Phương pháp này được sử dụng để phát hiện các câu trong văn bản thô được chuyển đến nó. Nó chấp nhận một biến Chuỗi làm tham số và trả về một mảng Chuỗi chứa các câu từ văn bản thô đã cho.

2

sentPosDetect()

Phương pháp này được sử dụng để phát hiện vị trí của các câu trong văn bản đã cho. Phương thức này chấp nhận một biến chuỗi, đại diện cho câu và trả về một mảng các đối tượng thuộc kiểuSpan.

Lớp có tên Span sau đó opennlp.tools.util gói được sử dụng để lưu trữ số nguyên bắt đầu và kết thúc của bộ.

3

getSentenceProbabilities()

Phương thức này trả về các xác suất được liên kết với các lệnh gọi gần đây nhất đến sentDetect() phương pháp.

Mã hóa

Lớp TokenizerModel

Lớp này đại diện cho mô hình được xác định trước được sử dụng để mã hóa câu đã cho. Lớp này thuộc về góiopennlp.tools.tokenizer.

Hàm tạo của lớp này chấp nhận một InputStream đối tượng của tệp mô hình tokenizer (entoken.bin).

Các lớp học

Để thực hiện mã hóa, thư viện OpenNLP cung cấp ba lớp chính. Tất cả ba lớp đều triển khai giao diện được gọi làTokenizer.

S. không Lớp và Mô tả
1

SimpleTokenizer

Lớp này mã hóa văn bản thô đã cho bằng cách sử dụng các lớp ký tự.

2

WhitespaceTokenizer

Lớp này sử dụng khoảng trắng để mã hóa văn bản đã cho.

3

TokenizerME

Lớp này chuyển đổi văn bản thô thành các mã thông báo riêng biệt. Nó sử dụng Maximum Entropy để đưa ra quyết định của mình.

Các lớp này chứa các phương thức sau.

S. không Phương pháp và Mô tả
1

tokenize()

Phương pháp này được sử dụng để mã hóa văn bản thô. Phương thức này chấp nhận một biến Chuỗi làm tham số và trả về một mảng Chuỗi (mã thông báo).

2

sentPosDetect()

Phương pháp này được sử dụng để lấy vị trí hoặc khoảng cách của mã thông báo. Nó chấp nhận câu (hoặc) văn bản thô ở dạng chuỗi và trả về một mảng đối tượng kiểuSpan.

Ngoài hai phương pháp trên, TokenizerME lớp học có getTokenProbabilities() phương pháp.

S. không Phương pháp và Mô tả
1

getTokenProbabilities()

Phương pháp này được sử dụng để nhận xác suất liên quan đến các lệnh gọi gần đây nhất đến tokenizePos() phương pháp.

NameEntityRecognition

Lớp TokenNameFinderModel

Lớp này đại diện cho mô hình được xác định trước được sử dụng để tìm các thực thể được đặt tên trong câu đã cho. Lớp này thuộc về góiopennlp.tools.namefind.

Hàm tạo của lớp này chấp nhận một InputStream đối tượng của tệp mô hình công cụ tìm tên (enner-person.bin).

Lớp NameFinderME

Lớp thuộc về gói opennlp.tools.namefindvà nó chứa các phương thức để thực hiện các tác vụ NER. Lớp này sử dụng mô hình entropy tối đa để tìm các thực thể được đặt tên trong văn bản thô đã cho.

S. không Phương pháp và Mô tả
1

find()

Phương pháp này được sử dụng để phát hiện tên trong văn bản thô. Nó chấp nhận một biến Chuỗi đại diện cho văn bản thô như một tham số và trả về một mảng đối tượng kiểu Span.

2

probs()

Phương pháp này được sử dụng để lấy xác suất của chuỗi được giải mã cuối cùng.

Tìm các phần của bài phát biểu

Lớp POSModel

Lớp này đại diện cho mô hình được xác định trước được sử dụng để gắn thẻ các phần lời nói của câu đã cho. Lớp này thuộc về góiopennlp.tools.postag.

Hàm tạo của lớp này chấp nhận một InputStream đối tượng của tệp mô hình pos-tagger (enpos-maxent.bin).

Lớp POSTaggerME

Lớp này thuộc về gói opennlp.tools.postagvà nó được sử dụng để dự đoán các phần của bài phát biểu của văn bản thô nhất định. Nó sử dụng Maximum Entropy để đưa ra quyết định của mình.

S. không Phương pháp và Mô tả
1

tag()

Phương thức này được sử dụng để gán câu của thẻ POS. Phương thức này chấp nhận một mảng mã thông báo (Chuỗi) làm tham số và trả về một thẻ (mảng).

2

getSentenceProbabilities()

Phương pháp này được sử dụng để lấy xác suất cho mỗi thẻ của câu được gắn thẻ gần đây.

Phân tích cú pháp câu

Lớp ParserModel

Lớp này đại diện cho mô hình được xác định trước được sử dụng để phân tích cú pháp câu đã cho. Lớp này thuộc về góiopennlp.tools.parser.

Hàm tạo của lớp này chấp nhận một InputStream đối tượng của tệp mô hình phân tích cú pháp (en-parserchunking.bin).

Lớp nhà máy phân tích cú pháp

Lớp này thuộc về gói opennlp.tools.parser và nó được sử dụng để tạo trình phân tích cú pháp.

S. không Phương pháp và Mô tả
1

create()

Đây là một phương thức tĩnh và nó được sử dụng để tạo một đối tượng phân tích cú pháp. Phương thức này chấp nhận đối tượng Filestream của tệp mô hình phân tích cú pháp.

Lớp ParserTool

Lớp này thuộc về opennlp.tools.cmdline.parser gói và, nó được sử dụng để phân tích nội dung.

S. không Phương pháp và Mô tả
1

parseLine()

Phương pháp này của ParserToollớp được sử dụng để phân tích cú pháp văn bản thô trong OpenNLP. Phương thức này chấp nhận -

  • Một biến Chuỗi đại diện cho văn bản được phân tích cú pháp.
  • Một đối tượng phân tích cú pháp.
  • Một số nguyên đại diện cho phân tích cú pháp no.of sẽ được thực hiện.

Chunking

ChunkerModel class

Lớp này đại diện cho mô hình được xác định trước được sử dụng để chia một câu thành các phần nhỏ hơn. Lớp này thuộc về góiopennlp.tools.chunker.

Hàm tạo của lớp này chấp nhận một InputStream đối tượng của chunker tệp mô hình (enchunker.bin).

Lớp ChunkerME

Lớp này thuộc về gói có tên opennlp.tools.chunker và nó được sử dụng để chia câu đã cho thành nhiều phần nhỏ hơn.

S. không Phương pháp và Mô tả
1

chunk()

Phương pháp này được sử dụng để chia câu đã cho thành nhiều phần nhỏ hơn. Nó chấp nhận mã thông báo của một câu vàPnghệ thuật Of Sthẻ peech làm thông số.

2

probs()

Phương thức này trả về xác suất của dãy được giải mã cuối cùng.