| « | February 2026 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | |
| 公告 |
| 暂无公告... |
| Blog信息 |
|
blog名称: 日志总数:32 评论数量:9 留言数量:-1 访问次数:112607 建立时间:2008年12月3日 |

| |
|
最小完美哈希函数在搜索引擎中有哪些应用 原创空间
liangbin 发表于 2008/12/3 23:28:58 |
|
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Sun Nov 25 19:21:53 2007), 站内请大牛出来讲讲?我个人感觉可能很难实用。。。--※ 来源:·水木社区 http://newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
2
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Sun Nov 25 19:32:55 2007), 站内背景概念简述。。。完美哈希函数(Perfect Hash Function,简称PHF)就是没有冲突的哈希函数,也就是,函数 H 将 N 个 KEY 值映射到 M 个整数上,这里 M>=N ,而且,对于任意的 KEY1 ,KEY2 ,H( KEY1 ) != H( KEY2 ) ,并且,如果 M = = N ,则 H 是最小完美哈希函数(Minimal Perfect Hash Function,简称MPHF)。如果该哈希函数还具有以下性质,KEY1<KEY2, 则H(KEY1)<H(KEY2),称为order preserving. 综上则称为是OPMPHF,即有序又完美又最小的哈希函数。。。【 在 pennyliang (pennyliang) 的大作中提到: 】: 请大牛出来讲讲?我个人感觉可能很难实用。。。--※ 来源:·水木社区 http://newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:Craycloud] [回信给作者] [进入讨论区] [返回顶部]
3
发信人: Craycloud (无心的云), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Sun Nov 25 22:18:05 2007), 站内个人觉得实际应用中,MD5 碰撞概率并不大 够用了另外有序的哈希函数。。。用在一些范围查询场合可能不错(感觉怎么像数据库的索引。呵呵)【 在 pennyliang (pennyliang) 的大作中提到: 】: 请大牛出来讲讲?我个人感觉可能很难实用。。。--※ 来源:·水木社区 newsmth.net·[FROM: 125.33.198.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
4
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Mon Nov 26 08:40:49 2007), 站内动态集合显然不合适了,哪静态集合呢?比如分词词典,停用词表,违禁词表呢?【 在 Craycloud (无心的云) 的大作中提到: 】: 个人觉得实际应用中,MD5 碰撞概率并不大 够用了: 另外有序的哈希函数。。。用在一些范围查询场合可能不错(感觉怎么像数据库的索引。呵呵)--※ 来源:·水木社区 http://newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:glass] [回信给作者] [进入讨论区] [返回顶部]
5
发信人: glass (@sogou), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Mon Nov 26 09:50:01 2007), 站内静态集合通常不是瓶颈,一般的方法也够用了【 在 pennyliang (pennyliang) 的大作中提到: 】: 请大牛出来讲讲?我个人感觉可能很难实用。。。--※ 修改:·glass 于 Nov 26 09:50:24 修改本文·[FROM: 202.106.180.*]※ 来源:·水木社区 newsmth.net·[FROM: 202.106.180.*]
[本篇全文] [回复文章] [本篇作者:htam] [回信给作者] [进入讨论区] [返回顶部]
6
发信人: htam (海獭们), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Tue Nov 27 10:38:46 2007), 站内这个是理论上的东西吧,实际中有实现吗?【 在 pennyliang (pennyliang) 的大作中提到: 】: 背景概念简述。。。: 完美哈希函数(Perfect Hash Function,简称PHF)就是没有冲突的哈希函数,也就是,函数 H 将 N 个 KEY 值映射到 M 个整数上,这里 M>=N ,而且,对于任意的 KEY1 ,KEY2 ,H( KEY1 ) != H( KEY2 ) ,并且,如果 M = = N ,则 H 是最小完美哈希函数(Minimal Perfect Ha: 如果该哈希函数还具有以下性质,KEY1<KEY2, 则H(KEY1)<H(KEY2),称为order preserving. : ...................--※ 来源:·水木社区 newsmth.net·[FROM: 202.106.184.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
7
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Tue Nov 27 10:46:01 2007), 站内TREC有用到,据说5000条词汇,做一个有序最小完美哈希不超过1分钟,考虑到字典build(离线)1次,但将来好处多,可以忍受。。。当然这个是英文词典。估计是词根化后的了。中文词典可能不适用,需要是前缀树或后缀树结构【 在 htam (海獭们) 的大作中提到: 】: 这个是理论上的东西吧,实际中有实现吗?--※ 来源:·水木社区 newsmth.net·[FROM: 211.99.222.*]
[本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部]
8
发信人: kaineci (皮皮), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Tue Nov 27 11:04:12 2007), 站内5000个,就1分钟?ft。offline也受不了阿。【 在 pennyliang (pennyliang) 的大作中提到: 】: TREC有用到,据说5000条词汇,做一个有序最小完美哈希不超过1分钟,考虑到: 字典build(离线)1次,但将来好处多,可以忍受。。。当然这个是英文词典。: 估计是词根化后的了。中文词典可能不适用,需要是前缀树或后缀树结构: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 60.191.58.*]
[本篇全文] [回复文章] [本篇作者:htam] [回信给作者] [进入讨论区] [返回顶部]
9
发信人: htam (海獭们), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Tue Nov 27 11:14:26 2007), 站内google黑板报上提过一个 bloom-filter (布隆过滤器)好像也是类似hash这样的东西,不知道这个有没有实用的地方?http://googlechinablog.com/2007/07/bloom-filter.html【 在 pennyliang (pennyliang) 的大作中提到: 】: TREC有用到,据说5000条词汇,做一个有序最小完美哈希不超过1分钟,考虑到: 字典build(离线)1次,但将来好处多,可以忍受。。。当然这个是英文词典。: 估计是词根化后的了。中文词典可能不适用,需要是前缀树或后缀树结构: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 202.106.184.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
10
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Tue Nov 27 12:43:33 2007), 站内bloom-filter属于一般的hash,多层bitmap的那种。【 在 htam (海獭们) 的大作中提到: 】: google黑板报上提过一个 bloom-filter (布隆过滤器): 好像也是类似hash这样的东西,不知道这个有没有实用的地方?: http://googlechinablog.com/2007/07/bloom-filter.html: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 211.99.222.*]
[本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部]
11
发信人: kaineci (皮皮), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Tue Nov 27 13:25:50 2007), 站内spider用的。【 在 htam (海獭们) 的大作中提到: 】: google黑板报上提过一个 bloom-filter (布隆过滤器): 好像也是类似hash这样的东西,不知道这个有没有实用的地方?: http://googlechinablog.com/2007/07/bloom-filter.html: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 60.191.58.*]
[本篇全文] [回复文章] [本篇作者:htam] [回信给作者] [进入讨论区] [返回顶部]
12
发信人: htam (海獭们), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Tue Nov 27 14:02:53 2007), 站内这个冲突一般是怎么解决的?能做到和hashset那样准确的给出in/not in这样的结果吗?【 在 pennyliang (pennyliang) 的大作中提到: 】: bloom-filter属于一般的hash,多层bitmap的那种。--※ 来源:·水木社区 newsmth.net·[FROM: 202.106.184.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
13
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Tue Nov 27 14:45:02 2007), 站内动态集合比较适用【 在 kaineci (皮皮) 的大作中提到: 】: spider用的。--※ 来源:·水木社区 newsmth.net·[FROM: 211.99.222.*]
[本篇全文] [回复文章] [本篇作者:RoachCock] [回信给作者] [进入讨论区] [返回顶部]
14
发信人: RoachCock (反动学术权威), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Sat Dec 8 13:41:29 2007), 站内bloom filter 解决冲突的方式就是鸵鸟,认栽。【 在 htam (海獭们) 的大作中提到: 】: 这个冲突一般是怎么解决的?: 能做到和hashset那样准确的给出in/not in这样的结果吗?--中华人民共和国公民有说话、写字、开会、结拜、旅游、作秀的自由※ 来源:·水木社区 newsmth.net·[FROM: 123.118.4.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
15
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Sat Dec 8 14:26:21 2007), 站内bloom filter是效果和性能trade off的产物,最小的代价获取最大的胜利。。。【 在 RoachCock (反动学术权威) 的大作中提到: 】: bloom filter 解决冲突的方式就是鸵鸟,认栽。--※ 来源:·水木社区 http://newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:htam] [回信给作者] [进入讨论区] [返回顶部]
16
发信人: htam (海獭们), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Wed Dec 12 14:53:28 2007), 站内....形象啊,精辟啊...【 在 RoachCock (反动学术权威) 的大作中提到: 】: bloom filter 解决冲突的方式就是鸵鸟,认栽。--※ 来源:·水木社区 newsmth.net·[FROM: 211.99.222.*]
[本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部]
17
发信人: kaineci (皮皮), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Sun Nov 16 13:20:22 2008), 站内这个主要我主要是用在分布式架构上的,因为它有很好的性质,当然p2p也可能会用到。【 在 pennyliang (pennyliang) 的大作中提到: 】: 请大牛出来讲讲?我个人感觉可能很难实用。。。--※ 修改:·kaineci 于 Nov 16 13:22:12 2008 修改本文·[FROM: 124.205.30.*]※ 来源:·水木社区 newsmth.net·[FROM: 124.205.30.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
18
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Sun Nov 16 13:32:02 2008), 站内这么老的帖子你也翻出来了啊。【 在 kaineci (皮皮) 的大作中提到: 】: 这个主要我主要是用在分布式架构上的,因为它有很好的性质,当然p2p也可能会用到。--硕士要啥自行车啊 ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部]
19
发信人: kaineci (皮皮), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Sun Nov 16 13:50:43 2008), 站内没事。考古一下。我可能也要去杭州了。呵呵。【 在 pennyliang (pennyliang) 的大作中提到: 】: 这么老的帖子你也翻出来了啊。--※ 修改:·kaineci 于 Nov 16 13:52:15 2008 修改本文·[FROM: 124.205.30.*]※ 来源:·水木社区 newsmth.net·[FROM: 124.205.30.*]
[本篇全文] [回复文章] [本篇作者:areqi] [回信给作者] [进入讨论区] [返回顶部]
20
发信人: areqi (阿琦), 信区: SearchEngineTech标 题: Re: 最小完美哈希函数在搜索引擎中有哪些应用啊?发信站: 水木社区 (Sun Nov 16 17:05:37 2008), 站内啊...看来杭州可以搞分舵了..【 在 kaineci (皮皮) 的大作中提到: 】: 没事。考古一下。我可能也要去杭州了。呵呵。--欢迎访问SearchEngineTech版※ 来源:·水木社区 newsmth.net·[FROM: 125.34.8.*]
http://www.newsmth.net/bbstcon.php?board=SearchEngineTech&gid=3007 |
|
|