Lucene - Phân tích
Trong một trong những chương trước của chúng tôi, chúng tôi đã thấy rằng Lucene sử dụng IndexWriter để phân tích (các) Tài liệu bằng Trình phân tích và sau đó tạo / mở / chỉnh sửa các chỉ mục theo yêu cầu. Trong chương này, chúng ta sẽ thảo luận về các loại đối tượng Analyzer khác nhau và các đối tượng liên quan khác được sử dụng trong quá trình phân tích. Hiểu được quy trình Phân tích và cách hoạt động của máy phân tích sẽ cung cấp cho bạn cái nhìn sâu sắc về cách Lucene lập chỉ mục các tài liệu.
Sau đây là danh sách các đối tượng mà chúng ta sẽ thảo luận trong khóa học.
Không. | Lớp & Mô tả |
---|---|
1 | Mã thông báo
Mã thông báo đại diện cho văn bản hoặc từ trong tài liệu với các chi tiết có liên quan như siêu dữ liệu của nó (vị trí, độ lệch đầu, độ lệch cuối, loại mã thông báo và gia số vị trí của nó). |
2 | TokenStream
TokenStream là đầu ra của quá trình phân tích và nó bao gồm một loạt các mã thông báo. Nó là một lớp trừu tượng. |
3 | Máy phân tích
Đây là một lớp cơ sở trừu tượng cho mỗi và mọi loại Trình phân tích. |
4 | Khoảng trắng
Bộ phân tích này phân chia văn bản trong tài liệu dựa trên khoảng trắng. |
5 | SimpleAnalyzer
Bộ phân tích này tách văn bản trong tài liệu dựa trên các ký tự không phải chữ cái và đặt văn bản ở dạng chữ thường. |
6 | StopAnalyzer
Trình phân tích này hoạt động giống như Trình phân tích đơn giản và loại bỏ các từ phổ biến như 'a', 'an', 'the', Vân vân. |
7 | StandardAnalyzer
Đây là trình phân tích phức tạp nhất và có khả năng xử lý tên, địa chỉ email, v.v. Nó viết thường mỗi mã thông báo và loại bỏ các từ và dấu câu phổ biến, nếu có. |