Lucene - การวิเคราะห์

ในบทก่อนหน้าของเราเราได้เห็นว่า Lucene ใช้IndexWriterเพื่อวิเคราะห์เอกสารโดยใช้ตัววิเคราะห์จากนั้นจึงสร้าง / เปิด / แก้ไขดัชนีตามต้องการ ในบทนี้เราจะพูดถึงออบเจ็กต์ตัววิเคราะห์ประเภทต่างๆและอ็อบเจกต์อื่น ๆ ที่เกี่ยวข้องซึ่งใช้ในระหว่างกระบวนการวิเคราะห์ การทำความเข้าใจกระบวนการวิเคราะห์และวิธีการทำงานของเครื่องวิเคราะห์จะช่วยให้คุณมีความเข้าใจอย่างมากว่า Lucene จัดทำดัชนีเอกสารอย่างไร

ต่อไปนี้เป็นรายการวัตถุที่เราจะพูดถึงในช่วงเวลาที่กำหนด

ส.	ชั้นเรียนและคำอธิบาย
1	โทเค็น โทเค็นแสดงถึงข้อความหรือคำในเอกสารที่มีรายละเอียดที่เกี่ยวข้องเช่นข้อมูลเมตา (ตำแหน่งเริ่มต้นออฟเซ็ตออฟเซ็ตสิ้นสุดประเภทโทเค็นและการเพิ่มตำแหน่ง)
2	TokenStream TokenStream เป็นผลลัพธ์ของกระบวนการวิเคราะห์ซึ่งประกอบด้วยชุดของโทเค็น มันเป็นชั้นนามธรรม
3	เครื่องวิเคราะห์ นี่คือคลาสพื้นฐานที่เป็นนามธรรมสำหรับตัววิเคราะห์แต่ละประเภท
4	ช่องว่าง ตัววิเคราะห์นี้จะแยกข้อความในเอกสารตามช่องว่าง
5	SimpleAnalyzer ตัววิเคราะห์นี้จะแยกข้อความในเอกสารโดยใช้อักขระที่ไม่ใช่ตัวอักษรและทำให้ข้อความเป็นตัวพิมพ์เล็ก
6	หยุดการวิเคราะห์ ตัววิเคราะห์นี้ทำงานเช่นเดียวกับ SimpleAnalyzer และลบคำทั่วไปเช่น 'a', 'an', 'the', เป็นต้น
7	มาตรฐาน นี่คือเครื่องมือวิเคราะห์ที่ซับซ้อนที่สุดและสามารถจัดการชื่อที่อยู่อีเมล ฯลฯ ได้ซึ่งจะลดขนาดโทเค็นแต่ละรายการและลบคำทั่วไปและเครื่องหมายวรรคตอนหากมี

ja/tutorial