Lucene - การวิเคราะห์

ในบทก่อนหน้าของเราเราได้เห็นว่า Lucene ใช้IndexWriterเพื่อวิเคราะห์เอกสารโดยใช้ตัววิเคราะห์จากนั้นจึงสร้าง / เปิด / แก้ไขดัชนีตามต้องการ ในบทนี้เราจะพูดถึงออบเจ็กต์ตัววิเคราะห์ประเภทต่างๆและอ็อบเจกต์อื่น ๆ ที่เกี่ยวข้องซึ่งใช้ในระหว่างกระบวนการวิเคราะห์ การทำความเข้าใจกระบวนการวิเคราะห์และวิธีการทำงานของเครื่องวิเคราะห์จะช่วยให้คุณมีความเข้าใจอย่างมากว่า Lucene จัดทำดัชนีเอกสารอย่างไร

ต่อไปนี้เป็นรายการวัตถุที่เราจะพูดถึงในช่วงเวลาที่กำหนด

ส. ชั้นเรียนและคำอธิบาย
1 โทเค็น

โทเค็นแสดงถึงข้อความหรือคำในเอกสารที่มีรายละเอียดที่เกี่ยวข้องเช่นข้อมูลเมตา (ตำแหน่งเริ่มต้นออฟเซ็ตออฟเซ็ตสิ้นสุดประเภทโทเค็นและการเพิ่มตำแหน่ง)

2 TokenStream

TokenStream เป็นผลลัพธ์ของกระบวนการวิเคราะห์ซึ่งประกอบด้วยชุดของโทเค็น มันเป็นชั้นนามธรรม

3 เครื่องวิเคราะห์

นี่คือคลาสพื้นฐานที่เป็นนามธรรมสำหรับตัววิเคราะห์แต่ละประเภท

4 ช่องว่าง

ตัววิเคราะห์นี้จะแยกข้อความในเอกสารตามช่องว่าง

5 SimpleAnalyzer

ตัววิเคราะห์นี้จะแยกข้อความในเอกสารโดยใช้อักขระที่ไม่ใช่ตัวอักษรและทำให้ข้อความเป็นตัวพิมพ์เล็ก

6 หยุดการวิเคราะห์

ตัววิเคราะห์นี้ทำงานเช่นเดียวกับ SimpleAnalyzer และลบคำทั่วไปเช่น 'a', 'an', 'the', เป็นต้น

7 มาตรฐาน

นี่คือเครื่องมือวิเคราะห์ที่ซับซ้อนที่สุดและสามารถจัดการชื่อที่อยู่อีเมล ฯลฯ ได้ซึ่งจะลดขนาดโทเค็นแต่ละรายการและลบคำทั่วไปและเครื่องหมายวรรคตอนหากมี