位置:首頁 > Java技術 > Lucene教學 > Lucene分析

Lucene分析

正如我們已經看到在前一章的Lucene索引過程,Lucene使用IndexWriterwhich分析用分析儀文件,然後根據需要創建/打開/編輯索引。在本章中,我們將討論不同類型的分析對象,哪些是在分析過程中使用的相關對象。了解分析過程中,分析儀如何工作,會給Lucene索引文件很大的啟示。

以下是我們將在適當的時候討論對象的列表。

Sr. No. 類和說明
1 Token
令牌表示(起始偏移量,結束偏移,令牌類型和位置增量位置,)在像它的元數據相關的詳細信息的文檔中的文本或字。
2 TokenStream
TokenStream是分析過程中的一個輸出,它包括串聯的令牌。它是一個抽象類。
3 Analyzer
這是對每個類型分析器的抽象基類。
4 WhitespaceAnalyzer
該分析儀analyzer分割的基礎的空白文檔中的文本。
5 SimpleAnalyzer
此分析器分割在基於非字母字符的文檔的文本,然後小寫它們。
6 StopAnalyzer
該分析儀的工作原理類似於SimpleAnalyzer並刪除常用詞像 'a','an','the'等等。
7 StandardAnalyzer
這是最複雜的分析,並能處理姓名,電子郵件地址等,它小寫每個標記,並刪除常用詞和標點符號(如有)。