| « | November 2025 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | | | | | | | |
| 公告 |
| 暂无公告... |
| Blog信息 |
|
blog名称: 日志总数:14 评论数量:24 留言数量:0 访问次数:54877 建立时间:2007年12月28日 |

| |
|
[论文]Lucene索引及其优化研究 原创空间, 软件技术, 科学研究
bg1011 发表于 2007/12/28 21:58:46 |
|
Lucene索引机制及其优化策略研究
1(西安电子科技大学电子工程学院 西安 710071)
2(西安电子科技大学经济管理学院 西安 710071)
【摘要】在对Lucene的索引机制进行分析的基础上,对其在索引的构建策略,索引数据结构,排序算法,中文分词等方面进行优化改进,以期可以适应于大规模信息的索引处理。
【关键词】Lucene 倒排索引 搜索引擎 全文检索
1 引言
Lucene是基于java的高性能的全文检索工具包,其提供了一组功能强大的API,在此基础上程序员可以快速方便的构建全文检索系统。此外,Lucene还可以嵌入到其它的应用系统中,根据具体的应用环境,实现全文检索功能。实践证明Lucene可以胜任一些大型的应用[1,2,4],如Apache组织网站的检索系统是构建在Lucene之上的,IBM的Eclipse,WebSphere也采用Lucene全文索引系统,而且Lucene提供了丰富的接口,应用程序员可以根据需要进行扩展,加入适合实际需求的新功能。
文中的第二部分探讨了Lucene索引机制,针对索引的数据组织结构和构建流程等进行了分析;第三部分给出了一下索引的优化策略,分别就内存缓存,索引的压缩编码,中文的处理技术和排序算法给出了相关的优化方案;最后是总结和展望以及对下一步的研究。
2 Lucene索引机制
2.1 Lucene索引基本原理
Lucene是一组全文检索API,在Lucene索引中,其基本的概念为词(Term)、域(Field)、文档(Document)、段(Segment)、索引(Index),它们之间的关系如图1所示[3]。
图1 Lucene索引的组织结构
Lucene索引(Index)由若干的段(Segment)组成,每个段都是一个子索引,段中包括若干的文档(Document),文档代表检索结果的一个实体,比如网页等,文档又由域(Field)组成,域是词(Term)的集合,词是索引的最小单位,就是文档中的单词,而域就是就有一定属性关系的词的集合,比如URL,作者,标题等都可以设置为域。
Lucene采用倒排索引的全文索引策略,其索引的数据结构为(Term,(DocId,(frq,pos))…)。
在图2中,给出了Lucene索引工具包的系统架构图,由图可以看出,Lucene由索引核心,对外接口,基础结构类模块组成,主要分为七个包,分别负责索引的构建,索引的存储,文档的分析,查询接口,文档的解析,一些实用类集合,索引的数据结构等[5]。
图2 Lucene系统架构
|
|
|
回复:Lucene索引及其优化研究 原创空间, 软件技术, 科学研究
dgfdg(游客)发表评论于2009/5/15 17:07:39 |
| 北京格兰仕电器售后维修网 北京三星电器售后维修网 北京LG电器售后维修网 北京伊莱克斯电器售后维修网 北京东芝电器售后维修网 北京日立电器售后维修网 北京TCL电器售后维修网 北京万家乐电器售后维修网 热水器维修 九州空调维修网 |
|
» 1 »
|