本站首页    管理页面    写新日志    退出


«February 2026»
1234567
891011121314
15161718192021
22232425262728


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接


Blog信息
blog名称:
日志总数:32
评论数量:9
留言数量:-1
访问次数:112615
建立时间:2008年12月3日




搜索引擎中的压缩技术
原创空间

liangbin 发表于 2008/12/3 23:43:24

发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: 搜索引擎中的压缩技术发信站: 水木社区 (Sat May 10 09:40:33 2008), 站内   压缩的本质是识别重复,如果每个东西都是Unique的,哪根本没法压缩。因此重复的部分可以采用同一的编码。  压缩的技巧还需要考虑概率,概率高的编码码长短。  数值范围,数值范围越小,编码码长越短。例如一个1-10之间变化的变量,那么编码的长度之需要[log2(10)]即可.  以英文字典为例。说明识别重复的方法  由于英语的构词法,重复是很多的,前缀,后缀,词根等。如果按照单词的字符串排序,可以发现很多前缀重复。例如:  labber  labor  laborator  ....  如果这样编码将能够获得空间上的节省  labber       0,6,labber  labor        4,2,or  laborator    6,4,ator   start,len,str,start表示起始位置,len表示长度,str表示实际字符。  例如,4,2,or表示该字符和上一个相比,从第4位开始变化,长度为2,这样之需要取出前 labber的前3个字母lab和or合并就可以找到这个单词。    当然还可以进一步识别出大量出现的后缀例如tion,在结构上进一步优化。    概率分析的方法不再举例,对数值范围搜索引擎也有特别有趣的技巧,可参见《走进搜索引擎》游程编码一节。  一个杂乱无章的数列,可以通过排序,得到一个差序列,使得每个值变小,能够以更短的码长编码,例如  4,10,6,9,24,46  排序后  4,6,9,10,24,46  两两求差,得到  4,2,3,1,14,22  这样数值区间就被理想的压缩了。    --硕士要啥自行车啊  ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:nkwht] [回信给作者] [进入讨论区] [返回顶部] 2 发信人: nkwht (低调做人, 踏实做事), 信区: SearchEngineTech标  题: Re: 搜索引擎中的压缩技术发信站: 水木社区 (Sat May 10 10:30:21 2008), 站内有记得以前看过专门讲 压缩技术的 书籍里面大段篇章讲解文本压缩的一些经典算法【 在 pennyliang (pennyliang) 的大作中提到: 】:   压缩的本质是识别重复,如果每个东西都是Unique的,哪根本没法压缩。因此重复的部分可以采用同一的编码。:   压缩的技巧还需要考虑概率,概率高的编码码长短。:   数值范围,数值范围越小,编码码长越短。例如一个1-10之间变化的变量,那么编码的长度之需要[log2(10)]即可.: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 123.118.66.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 3 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 搜索引擎中的压缩技术发信站: 水木社区 (Sat May 10 18:32:20 2008), 站内对压缩有兴趣吗?来参加MG一书的翻译吧。【 在 nkwht (低调做人, 踏实做事) 的大作中提到: 】: 有记得以前看过专门讲 压缩技术的 书籍: 里面大段篇章讲解文本压缩的一些经典算法--硕士要啥自行车啊  ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:kuangtu] [回信给作者] [进入讨论区] [返回顶部] 4 发信人: kuangtu ((狂徒,Web逛BBS男)), 信区: SearchEngineTech标  题: Re: 搜索引擎中的压缩技术发信站: 水木社区 (Sun May 11 00:48:55 2008), 站内前段时间看lucene的源码,碰巧阅读的就是posting排序以后,压缩的过程。哈哈【 在 pennyliang (pennyliang) 的大作中提到: 】: 对压缩有兴趣吗?来参加MG一书的翻译吧。--房子居然变成了合法抢劫的工具!※ 来源:·水木社区 http://newsmth.net·[FROM: 221.219.1.*]http://www.newsmth.net/bbstcon.php?board=SearchEngineTech&gid=6480


阅读全文(1220) | 回复(0) | 编辑 | 精华
 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.457 second(s), page refreshed 144820888 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号