Lucene - การวิเคราะห์
ในบทก่อนหน้าของเราเราได้เห็นว่า Lucene ใช้IndexWriterเพื่อวิเคราะห์เอกสารโดยใช้ตัววิเคราะห์จากนั้นจึงสร้าง / เปิด / แก้ไขดัชนีตามต้องการ ในบทนี้เราจะพูดถึงออบเจ็กต์ตัววิเคราะห์ประเภทต่างๆและอ็อบเจกต์อื่น ๆ ที่เกี่ยวข้องซึ่งใช้ในระหว่างกระบวนการวิเคราะห์ การทำความเข้าใจกระบวนการวิเคราะห์และวิธีการทำงานของเครื่องวิเคราะห์จะช่วยให้คุณมีความเข้าใจอย่างมากว่า Lucene จัดทำดัชนีเอกสารอย่างไร
ต่อไปนี้เป็นรายการวัตถุที่เราจะพูดถึงในช่วงเวลาที่กำหนด
ส. | ชั้นเรียนและคำอธิบาย |
---|---|
1 | โทเค็น โทเค็นแสดงถึงข้อความหรือคำในเอกสารที่มีรายละเอียดที่เกี่ยวข้องเช่นข้อมูลเมตา (ตำแหน่งเริ่มต้นออฟเซ็ตออฟเซ็ตสิ้นสุดประเภทโทเค็นและการเพิ่มตำแหน่ง) |
2 | TokenStream TokenStream เป็นผลลัพธ์ของกระบวนการวิเคราะห์ซึ่งประกอบด้วยชุดของโทเค็น มันเป็นชั้นนามธรรม |
3 | เครื่องวิเคราะห์ นี่คือคลาสพื้นฐานที่เป็นนามธรรมสำหรับตัววิเคราะห์แต่ละประเภท |
4 | ช่องว่าง ตัววิเคราะห์นี้จะแยกข้อความในเอกสารตามช่องว่าง |
5 | SimpleAnalyzer ตัววิเคราะห์นี้จะแยกข้อความในเอกสารโดยใช้อักขระที่ไม่ใช่ตัวอักษรและทำให้ข้อความเป็นตัวพิมพ์เล็ก |
6 | หยุดการวิเคราะห์ ตัววิเคราะห์นี้ทำงานเช่นเดียวกับ SimpleAnalyzer และลบคำทั่วไปเช่น 'a', 'an', 'the', เป็นต้น |
7 | มาตรฐาน นี่คือเครื่องมือวิเคราะห์ที่ซับซ้อนที่สุดและสามารถจัดการชื่อที่อยู่อีเมล ฯลฯ ได้ซึ่งจะลดขนาดโทเค็นแต่ละรายการและลบคำทั่วไปและเครื่องหมายวรรคตอนหากมี |