OpenNLP - Tổng quan

NLP là một bộ công cụ được sử dụng để lấy thông tin có ý nghĩa và hữu ích từ các nguồn ngôn ngữ tự nhiên như các trang web và tài liệu văn bản.

Open NLP là gì?

Apache OpenNLPlà một thư viện Java mã nguồn mở được sử dụng để xử lý văn bản ngôn ngữ tự nhiên. Bạn có thể xây dựng một dịch vụ xử lý văn bản hiệu quả bằng cách sử dụng thư viện này.

OpenNLP cung cấp các dịch vụ như mã hóa, phân đoạn câu, gắn thẻ một phần giọng nói, trích xuất thực thể được đặt tên, phân đoạn, phân tích cú pháp và phân giải đồng tham chiếu, v.v.

Các tính năng của OpenNLP

Sau đây là các tính năng đáng chú ý của OpenNLP:

  • Named Entity Recognition (NER) - Open NLP hỗ trợ NER, sử dụng nó bạn có thể trích xuất tên của vị trí, người và mọi thứ ngay cả khi đang xử lý các truy vấn.

  • Summarize - Sử dụng summarize , bạn có thể tóm tắt Đoạn văn, bài báo, tài liệu hoặc bộ sưu tập của chúng trong NLP.

  • Searching - Trong OpenNLP, một chuỗi tìm kiếm nhất định hoặc các từ đồng nghĩa của nó có thể được xác định trong văn bản nhất định, ngay cả khi từ đã cho bị thay đổi hoặc sai chính tả.

  • Tagging (POS) - Gắn thẻ trong NLP được sử dụng để chia văn bản thành các yếu tố ngữ pháp khác nhau để phân tích thêm.

  • Translation - Trong NLP, Dịch thuật giúp dịch ngôn ngữ này sang ngôn ngữ khác.

  • Information grouping - Tùy chọn này trong NLP nhóm thông tin dạng văn bản trong nội dung của tài liệu, giống như Các phần của bài phát biểu.

  • Natural Language Generation - Nó được sử dụng để tạo thông tin từ cơ sở dữ liệu và tự động hóa các báo cáo thông tin như phân tích thời tiết hoặc báo cáo y tế.

  • Feedback Analysis - Như tên của nó, NLP sẽ thu thập nhiều loại phản hồi từ mọi người về sản phẩm để phân tích mức độ thành công của sản phẩm trong việc chiếm được cảm tình của họ.

  • Speech recognition - Mặc dù khó phân tích giọng nói của con người, NLP có một số tính năng tích hợp cho yêu cầu này.

Mở API NLP

Thư viện Apache OpenNLP cung cấp các lớp và giao diện để thực hiện các tác vụ khác nhau của xử lý ngôn ngữ tự nhiên như phát hiện câu, mã hóa, tìm tên, gắn thẻ các phần của giọng nói, phân đoạn một câu, phân tích cú pháp, phân giải đồng tham chiếu và phân loại tài liệu.

Ngoài các nhiệm vụ này, chúng tôi cũng có thể đào tạo và đánh giá các mô hình của riêng mình cho bất kỳ nhiệm vụ nào trong số này.

OpenNLP CLI

Ngoài thư viện, OpenNLP cũng cung cấp Giao diện dòng lệnh (CLI), nơi chúng ta có thể đào tạo và đánh giá các mô hình. Chúng ta sẽ thảo luận chi tiết về chủ đề này trong chương cuối của hướng dẫn này.

Mở mô hình NLP

Để thực hiện các tác vụ NLP khác nhau, OpenNLP cung cấp một tập hợp các mô hình được xác định trước. Bộ này bao gồm các mô hình cho các ngôn ngữ khác nhau.

Tải xuống các mô hình

Bạn có thể làm theo các bước dưới đây để tải xuống các mô hình được xác định trước do OpenNLP cung cấp.

Step 1 - Mở trang chỉ mục của các mô hình OpenNLP bằng cách nhấp vào liên kết sau - http://opennlp.sourceforge.net/models-1.5/.

Step 2- Khi truy cập vào liên kết đã cho, bạn sẽ thấy danh sách các thành phần của nhiều ngôn ngữ khác nhau và các liên kết để tải chúng xuống. Tại đây, bạn có thể nhận danh sách tất cả các mô hình được xác định trước do OpenNLP cung cấp.

Tải xuống tất cả các mô hình này vào thư mục C:/OpenNLP_models/>, bằng cách nhấp vào các liên kết tương ứng của họ. Tất cả các mô hình này đều phụ thuộc vào ngôn ngữ và trong khi sử dụng chúng, bạn phải đảm bảo rằng ngôn ngữ mô hình khớp với ngôn ngữ của văn bản đầu vào.

Lịch sử của OpenNLP

  • Vào năm 2010, OpenNLP đã tham gia vào quá trình ấp Apache.

  • Năm 2011, Apache OpenNLP 1.5.2 Incubating được phát hành và cùng năm đó, nó trở thành một dự án Apache cấp cao nhất.

  • Vào năm 2015, OpenNLP đã được phát hành 1.6.0.