| « | February 2026 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | |
| 公告 |
| 暂无公告... |
| Blog信息 |
|
blog名称: 日志总数:32 评论数量:9 留言数量:-1 访问次数:112615 建立时间:2008年12月3日 |

| |
|
搜索引擎中的压缩技术 原创空间
liangbin 发表于 2008/12/3 23:43:24 |
|
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: 搜索引擎中的压缩技术发信站: 水木社区 (Sat May 10 09:40:33 2008), 站内 压缩的本质是识别重复,如果每个东西都是Unique的,哪根本没法压缩。因此重复的部分可以采用同一的编码。 压缩的技巧还需要考虑概率,概率高的编码码长短。 数值范围,数值范围越小,编码码长越短。例如一个1-10之间变化的变量,那么编码的长度之需要[log2(10)]即可. 以英文字典为例。说明识别重复的方法 由于英语的构词法,重复是很多的,前缀,后缀,词根等。如果按照单词的字符串排序,可以发现很多前缀重复。例如: labber labor laborator .... 如果这样编码将能够获得空间上的节省 labber 0,6,labber labor 4,2,or laborator 6,4,ator start,len,str,start表示起始位置,len表示长度,str表示实际字符。 例如,4,2,or表示该字符和上一个相比,从第4位开始变化,长度为2,这样之需要取出前 labber的前3个字母lab和or合并就可以找到这个单词。 当然还可以进一步识别出大量出现的后缀例如tion,在结构上进一步优化。 概率分析的方法不再举例,对数值范围搜索引擎也有特别有趣的技巧,可参见《走进搜索引擎》游程编码一节。 一个杂乱无章的数列,可以通过排序,得到一个差序列,使得每个值变小,能够以更短的码长编码,例如 4,10,6,9,24,46 排序后 4,6,9,10,24,46 两两求差,得到 4,2,3,1,14,22 这样数值区间就被理想的压缩了。 --硕士要啥自行车啊 ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:nkwht] [回信给作者] [进入讨论区] [返回顶部]
2
发信人: nkwht (低调做人, 踏实做事), 信区: SearchEngineTech标 题: Re: 搜索引擎中的压缩技术发信站: 水木社区 (Sat May 10 10:30:21 2008), 站内有记得以前看过专门讲 压缩技术的 书籍里面大段篇章讲解文本压缩的一些经典算法【 在 pennyliang (pennyliang) 的大作中提到: 】: 压缩的本质是识别重复,如果每个东西都是Unique的,哪根本没法压缩。因此重复的部分可以采用同一的编码。: 压缩的技巧还需要考虑概率,概率高的编码码长短。: 数值范围,数值范围越小,编码码长越短。例如一个1-10之间变化的变量,那么编码的长度之需要[log2(10)]即可.: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 123.118.66.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
3
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 搜索引擎中的压缩技术发信站: 水木社区 (Sat May 10 18:32:20 2008), 站内对压缩有兴趣吗?来参加MG一书的翻译吧。【 在 nkwht (低调做人, 踏实做事) 的大作中提到: 】: 有记得以前看过专门讲 压缩技术的 书籍: 里面大段篇章讲解文本压缩的一些经典算法--硕士要啥自行车啊 ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:kuangtu] [回信给作者] [进入讨论区] [返回顶部]
4
发信人: kuangtu ((狂徒,Web逛BBS男)), 信区: SearchEngineTech标 题: Re: 搜索引擎中的压缩技术发信站: 水木社区 (Sun May 11 00:48:55 2008), 站内前段时间看lucene的源码,碰巧阅读的就是posting排序以后,压缩的过程。哈哈【 在 pennyliang (pennyliang) 的大作中提到: 】: 对压缩有兴趣吗?来参加MG一书的翻译吧。--房子居然变成了合法抢劫的工具!※ 来源:·水木社区 http://newsmth.net·[FROM: 221.219.1.*]http://www.newsmth.net/bbstcon.php?board=SearchEngineTech&gid=6480 |
|
|