本站首页    管理页面    写新日志    退出


«Mar.2026»
1234567
891011121314
15161718192021
22232425262728
293031


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接


Blog信息
blog名称:
日志总数:32
评论数量:9
留言数量:-1
访问次数:112759
建立时间:2008年12月3日




为什么搜索引擎能搜索地这么快,大家能不能一起总结一下
原创空间

liangbin 发表于 2008/12/3 23:30:11

  发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 13:47:48 2008), 站内   大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节   (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。   (2)indexing,到排索引的方式,对关键词检索来说非常有利。   (3)distributing,存在多个索引子系统,每个索引子系统检索一部分的网页。   (4)mirroring,存在多个索引系统的镜像,可以使得检索请求排多个队。   (5)caching,使得重复检索的关键词不需要每次都查到排表。   (6)others,大家继续加。。。 --靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:Superplum] [回信给作者] [进入讨论区] [返回顶部] 2 发信人: Superplum (英格兰之足球几何哉,止增笑耳), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 13:58:36 2008), 站内很好 很学术【 在 pennyliang (pennyliang) 的大作中提到: 】:    大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节:    (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。:    (2)indexing,到排索引的方式,对关键词检索来说非常有利。: ...................--   EURO 2008 Austria-Switzerland                                                      Group A            Group B           Group C          Group D        1      库恩(1943)     希克斯贝格(1948)   范巴斯滕(1964)  雷哈格尔(1938)[德]  2    布吕克纳(1939)     比利奇(1968)     多纳多尼(1963)    拉格贝克(1948)    3  斯科拉里(1948)[巴]    勒夫(1960)      皮楚尔克(1956)   阿拉贡内斯(1938)   4     特里姆(1953)    本哈克(1942)[荷]   多梅内克(1952)   希丁克(1946)[荷]  ※ 来源:·水木社区 newsmth.net·[FROM: 202.106.180.*] [本篇全文] [回复文章] [本篇作者:zms] [回信给作者] [进入讨论区] [返回顶部] 3 发信人: zms (来福), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 14:59:52 2008), 站内都被你说完了。。。【 在 pennyliang (pennyliang) 的大作中提到: 】:    大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节:    (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。:    (2)indexing,到排索引的方式,对关键词检索来说非常有利。: ...................-- “其实,我是一个程序员” “哈~哈~,死写代码的” “小姐,如果你一定要叫我写代码的,你可不可以不要加一个‘死’字在前面?”※ 来源:·水木社区 newsmth.net·[FROM: 123.112.96.*] [本篇全文] [回复文章] [本篇作者:glass] [回信给作者] [进入讨论区] [返回顶部] 4 发信人: glass (@sogou), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 15:36:47 2008), 站内我从另一个维度说吧:1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的效率。对各节点需要分析各环节的瓶颈,例如io,cpu,内存,传输等,有针对性的优化。2)任务流的优化。一次请求从前台分词,cache,query,取展现文本,检索词标亮,页面展现,包括查询提示,广告系统等,需要合理规范流程和分配资源,流水+并行,使关键路径最短。3)容错,或者叫做短板的检测和规避。当机器规模大时,尽量避免一台机器故障或者超负载导致检索变慢。4)扩展性。这个可能不直接和性能相关,但实在扛不住了一定要能随便加机器加带宽。【 在 pennyliang (pennyliang) 的大作中提到: 】:    大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节:    (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。:    (2)indexing,到排索引的方式,对关键词检索来说非常有利。: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 221.221.22.*] [本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部] 5 发信人: kaineci (皮皮), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 15:49:39 2008), 站内恩。说得好。关于第一点,我个人是这样做的。专注所以高效.不是说在每台服务器上都将io,cpu,mem都用到极致。而是,将任务进行分配。哪些是io型的,哪些是cpu型的,分成不同server。这样机器成本会降低,效率也会增加。模型也变得很简单。第二点,基本上workqueue如何优化的问题。第三点,其实只要保证了share nothing的体系,问题不大。第四点,扩展性主要是share nothing的原则和分布式架构设计。这些都是比较宏观的。微观的东西可能更多。【 在 glass (@sogou) 的大作中提到: 】: 我从另一个维度说吧:: 1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的: 效率。对各节点需要分析各环节的瓶颈,例如io,cpu,内存,传输等,有针对性的优化。: ...................--※ 修改:·kaineci 于 Jan  5 15:50:19 修改本文·[FROM: 218.108.36.*]※ 来源:·水木社区 newsmth.net·[FROM: 218.108.36.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 6 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 16:11:08 2008), 站内【 在 kaineci (皮皮) 的大作中提到: 】: 恩。说得好。: 关于第一点,我个人是这样做的。: 专注所以高效.不是说在每台服务器上都将io,cpu,mem都用到极致。而是,将任务进行分配。哪些是io型的,哪些是cpu型的,分成不同server。这样机器成本会降低,效率也会增加。模型也变得很简单。: ...................--靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 7 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 16:16:59 2008), 站内【 在 kaineci (皮皮) 的大作中提到: 】恩。说得好。关于第一点,我个人是这样做的。专注所以高效.不是说在每台服务器上都将io,cpu,mem都用到极致。而是,将任务进行分配。哪些是io型的,哪些是cpu型的,分成不同server。这样机器成本会降低,效率也会增加。模型也变得很简单。  ~~~~~~~~~~~~~~~~~~~~~~glass说的跟你说的应该不是一回事,你的意思是一些机器专门是CPU密集型的,一些机器专门是IO密集型的,是这个意思吗?第二点,基本上workqueue如何优化的问题。                      第三点,其实只要保证了share nothing的体系,问题不大?                         第四点,扩展性主要是share nothing的原则和分布式架构设计。这些都是比较宏观的。微观的东西可能更多。【 在 glass (@sogou) 的大作中提到: 】: 我从另一个维度说吧:: 1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的: 效率。对各节点需要分析各环节的瓶颈,例如io,cpu,内存,传输等,有针对性的优化。: ...................--※ 修改:·kaineci 于 Jan  5 15:50:19 修改本文·[FROM: 218.108.36.*]--靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:mirror] [回信给作者] [进入讨论区] [返回顶部] 8 发信人: mirror (mirror), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 16:17:12 2008), 站内梁总,纯净水!【 在 pennyliang (pennyliang) 的大作中提到: 】: 标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下: 发信站: 水木社区 (Sat Jan  5 16:11:08 2008), 站内: : : 【 在 kaineci (皮皮) 的大作中提到: 】: : 恩。说得好。: : 关于第一点,我个人是这样做的。: : 专注所以高效.不是说在每台服务器上都将io,cpu,mem都用到极致。而是,将任务进行分配。哪些是io型的,哪些是cpu型的,分成不同server。这样机器成本会降低,效率也会增加。模型也变得很简单。: : ...................--※ 来源:·水木社区 newsmth.net·[FROM: 202.127.16.*] [本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部] 9 发信人: kaineci (皮皮), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 16:24:33 2008), 站内en【 在 pennyliang (pennyliang) 的大作中提到: 】: 恩。说得好。: 关于第一点,我个人是这样做的。: 专注所以高效.不是说在每台服务器上都将io,cpu,mem都用到极致。而是,将任务进行分配。哪些是io型的,哪些是cpu型的,分成不同server。这样机器成本会降低,效率也会增加。模型也变得很简单。: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 218.108.36.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 10 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 16:27:00 2008), 站内  我觉得你这个维度是实诚维度,我的维度属于忽悠维度。。。  【 在 glass (@sogou) 的大作中提到: 】我从另一个维度说吧:1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的效率。对各节点需要分析各环节的瓶颈,例如io,cpu,内存,传输等,有针对性的优化。~~~~~~~~~~~~我看过一些好玩的论文,通过一些参数的调节,使得对于每个计算结点的吞吐率发生明显的变化,关键还是cpu,mem,disk的match到最好。2)任务流的优化。一次请求从前台分词,cache,query,取展现文本,检索词标亮,页面展现,包括查询提示,广告系统等,需要合理规范流程和分配资源,流水+并行,使关键路径最短~~~~~~~~~~~~~~~~~赞任务流的方法。3)容错,或者叫做短板的检测和规避。当机器规模大时,尽量避免一台机器故障或者超负载导致检索变慢。4)扩展性。这个可能不直接和性能相关,但实在扛不住了一定要能随便加机器加带宽。~~~~~~~~~~~~~~~~这两条应该是说如何在发现慢了的情况下,搞快他,因此搜索引擎就永远不会慢了,赞补救策略【 在 pennyliang (pennyliang) 的大作中提到: 】:    大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节:    (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。:    (2)indexing,到排索引的方式,对关键词检索来说非常有利。: ...................----靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 11 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 16:28:52 2008), 站内  比如做索引库的地方,怎么把IO密集型的和CPU密集型的拆开呢,不可能吧??【 在 kaineci (皮皮) 的大作中提到: 】: en--靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部] 12 发信人: kaineci (皮皮), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 16:30:32 2008), 站内haha.另:我看过一些好玩的论文推荐几篇吧.【 在 pennyliang (pennyliang) 的大作中提到: 】:   我觉得你这个维度是实诚维度,我的维度属于忽悠维度。。。: 我从另一个维度说吧:: 1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的: ...................--※ 修改:·kaineci 于 Jan  5 16:32:03 修改本文·[FROM: 218.108.36.*]※ 来源:·水木社区 newsmth.net·[FROM: 218.108.36.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 13 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 17:13:18 2008), 站内   搜索引擎都在空间换时间的搞,mem,disk发展太快,CPU发展跟不上,现在还很少有什么CPU密集型的计算啊。   还真不知道搜索引擎分词怎么搞的,2gram不是很好吗?反正现在机器够多,磁盘够大。【 在 kaineci (皮皮) 的大作中提到: 】: Buildindex时候的分词是cpu密集的。--靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 14 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 17:26:21 2008), 站内   做好搜索引擎真不容易,受教了,拜glass神。【 在 glass (@sogou) 的大作中提到: 】我从另一个维度说吧:1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的效率。对各节点需要分析各环节的瓶颈,例如io,cpu,内存,传输等,有针对性的优化。2)任务流的优化。一次请求从前台分词,cache,query,取展现文本,检索词标亮,页面展现,包括查询提示,广告系统等,需要合理规范流程和分配资源,流水+并行,使关键路径最短。3)容错,或者叫做短板的检测和规避。当机器规模大时,尽量避免一台机器故障或者超负载导致检索变慢。4)扩展性。这个可能不直接和性能相关,但实在扛不住了一定要能随便加机器加带宽。【 在 pennyliang (pennyliang) 的大作中提到: 】:    大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节:    (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。:    (2)indexing,到排索引的方式,对关键词检索来说非常有利。: ...................----靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:nostalgiatom] [回信给作者] [进入讨论区] [返回顶部] 15 发信人: nostalgiatom (Richard.Stevens), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan  5 18:23:36 2008), 站内 你不是bd的么? 还明知故问 这种问题 Ohg【 在 pennyliang (pennyliang) 的大作中提到: 】:   比如做索引库的地方,怎么把IO密集型的和CPU密集型的拆开呢,不可能吧?: ?--蒹霞苍苍,白露为霜,所谓伊人,在水一方。※ 来源:·水木社区 newsmth.net·[FROM: 220.181.38.*] [本篇全文] [回复文章] [本篇作者:fervvac] [回信给作者] [进入讨论区] [返回顶部] 16 发信人: fervvac (高远), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Mon Jan  7 07:14:25 2008), 站内I've always suspected that allowing approximation (or even wrong answers) contributes a lot to the performance. (Otherwise, queries with common wordswill kill any SE -- I guess either the inverted lists were not retrievedin full or only the first-1000 results are computed and sorted)Any insider can shed light on this? --※ 来源:·水木社区 newsmth.net·[FROM: 129.94.175.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 17 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Mon Jan  7 08:44:36 2008), 站内    支持top-k的查询,其实也还是有很多precomputing在里面的,比如各种名目的rank,这样才可能做到top-k阿.    我认为这还是从需求出发,检索只需要检索需要的,而不是全部,所以allowing approximation也是群众的本质需要,所以说这是搜索引擎快速的一个原因感觉有点勉强.当然如果每个查询都call回全部的结果哪速度肯定慢死了,再多mirroring也不行,热词一般情况下都是大词。【 在 fervvac (高远) 的大作中提到: 】: I've always suspected that allowing approximation (or even wrong answers) : contributes a lot to the performance. (Otherwise, queries with common words: will kill any SE -- I guess either the inverted lists were not retrieved: ...................--靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:shuke] [回信给作者] [进入讨论区] [返回顶部] 18 发信人: shuke (小白), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Mon Jan  7 10:12:00 2008), 站内你说的没错。不过这里你已经先假设了标准做法是要查看所有可能的匹配,然后再排序。所以把性能提高归结到只查看部分结果。梁总等是从系统性能的角度来讲怎么提高的。【 在 fervvac (高远) 的大作中提到: 】: I've always suspected that allowing approximation (or even wrong answers) : contributes a lot to the performance. (Otherwise, queries with common words: will kill any SE -- I guess either the inverted lists were not retrieved: ...................--    小白是小新的宠物狗。over.※ 来源:·水木社区 newsmth.net·[FROM: 76.126.245.*] [本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部] 19 发信人: kaineci (皮皮), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Mon Jan  7 11:46:38 2008), 站内索引的剪枝分动态和静态。各有利弊。当然,倒排如果进行group,这样更灵活。将性能和准确度进行tradeoff.当然,如何tradeoff这里面工作很多。【 在 fervvac (高远) 的大作中提到: 】: I've always suspected that allowing approximation (or even wrong answers) : contributes a lot to the performance. (Otherwise, queries with common words: will kill any SE -- I guess either the inverted lists were not retrieved: ...................--※ 修改:·kaineci 于 Jan  7 11:47:39 修改本文·[FROM: 60.191.58.*]※ 来源:·水木社区 newsmth.net·[FROM: 60.191.58.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 20 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Mon Jan  7 12:21:44 2008), 站内  【 在 kaineci (皮皮) 的大作中提到: 】: 索引的剪枝分动态和静态。各有利弊。当然,倒排如果进行group,这样更灵活。                          ~~~~~~~~详细点?     ~~~~~~~~~~~~~~~~~~译作分组吗?                                                  和distributing还是mirroring?   : 将性能和准确度进行tradeoff.当然,如何tradeoff这里面工作很多。                                                    ~~~~~~~~~举1-2个例子吧                    --靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 211.99.222.*]   http://www.newsmth.net/bbstcon.php?board=SearchEngineTech&gid=4342  


阅读全文(2641) | 回复(0) | 编辑 | 精华
 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.623 second(s), page refreshed 144834056 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号