| « | Mar.2026 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | | | | | |
| 公告 |
| 暂无公告... |
| Blog信息 |
|
blog名称: 日志总数:32 评论数量:9 留言数量:-1 访问次数:112759 建立时间:2008年12月3日 |

| |
|
为什么搜索引擎能搜索地这么快,大家能不能一起总结一下 原创空间
liangbin 发表于 2008/12/3 23:30:11 |
|
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 13:47:48 2008), 站内 大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节 (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。 (2)indexing,到排索引的方式,对关键词检索来说非常有利。 (3)distributing,存在多个索引子系统,每个索引子系统检索一部分的网页。 (4)mirroring,存在多个索引系统的镜像,可以使得检索请求排多个队。 (5)caching,使得重复检索的关键词不需要每次都查到排表。 (6)others,大家继续加。。。 --靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:Superplum] [回信给作者] [进入讨论区] [返回顶部]
2
发信人: Superplum (英格兰之足球几何哉,止增笑耳), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 13:58:36 2008), 站内很好 很学术【 在 pennyliang (pennyliang) 的大作中提到: 】: 大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节: (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。: (2)indexing,到排索引的方式,对关键词检索来说非常有利。: ...................-- EURO 2008 Austria-Switzerland Group A Group B Group C Group D 1 库恩(1943) 希克斯贝格(1948) 范巴斯滕(1964) 雷哈格尔(1938)[德] 2 布吕克纳(1939) 比利奇(1968) 多纳多尼(1963) 拉格贝克(1948) 3 斯科拉里(1948)[巴] 勒夫(1960) 皮楚尔克(1956) 阿拉贡内斯(1938) 4 特里姆(1953) 本哈克(1942)[荷] 多梅内克(1952) 希丁克(1946)[荷] ※ 来源:·水木社区 newsmth.net·[FROM: 202.106.180.*]
[本篇全文] [回复文章] [本篇作者:zms] [回信给作者] [进入讨论区] [返回顶部]
3
发信人: zms (来福), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 14:59:52 2008), 站内都被你说完了。。。【 在 pennyliang (pennyliang) 的大作中提到: 】: 大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节: (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。: (2)indexing,到排索引的方式,对关键词检索来说非常有利。: ...................-- “其实,我是一个程序员” “哈~哈~,死写代码的” “小姐,如果你一定要叫我写代码的,你可不可以不要加一个‘死’字在前面?”※ 来源:·水木社区 newsmth.net·[FROM: 123.112.96.*]
[本篇全文] [回复文章] [本篇作者:glass] [回信给作者] [进入讨论区] [返回顶部]
4
发信人: glass (@sogou), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 15:36:47 2008), 站内我从另一个维度说吧:1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的效率。对各节点需要分析各环节的瓶颈,例如io,cpu,内存,传输等,有针对性的优化。2)任务流的优化。一次请求从前台分词,cache,query,取展现文本,检索词标亮,页面展现,包括查询提示,广告系统等,需要合理规范流程和分配资源,流水+并行,使关键路径最短。3)容错,或者叫做短板的检测和规避。当机器规模大时,尽量避免一台机器故障或者超负载导致检索变慢。4)扩展性。这个可能不直接和性能相关,但实在扛不住了一定要能随便加机器加带宽。【 在 pennyliang (pennyliang) 的大作中提到: 】: 大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节: (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。: (2)indexing,到排索引的方式,对关键词检索来说非常有利。: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 221.221.22.*]
[本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部]
5
发信人: kaineci (皮皮), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 15:49:39 2008), 站内恩。说得好。关于第一点,我个人是这样做的。专注所以高效.不是说在每台服务器上都将io,cpu,mem都用到极致。而是,将任务进行分配。哪些是io型的,哪些是cpu型的,分成不同server。这样机器成本会降低,效率也会增加。模型也变得很简单。第二点,基本上workqueue如何优化的问题。第三点,其实只要保证了share nothing的体系,问题不大。第四点,扩展性主要是share nothing的原则和分布式架构设计。这些都是比较宏观的。微观的东西可能更多。【 在 glass (@sogou) 的大作中提到: 】: 我从另一个维度说吧:: 1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的: 效率。对各节点需要分析各环节的瓶颈,例如io,cpu,内存,传输等,有针对性的优化。: ...................--※ 修改:·kaineci 于 Jan 5 15:50:19 修改本文·[FROM: 218.108.36.*]※ 来源:·水木社区 newsmth.net·[FROM: 218.108.36.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
6
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 16:11:08 2008), 站内【 在 kaineci (皮皮) 的大作中提到: 】: 恩。说得好。: 关于第一点,我个人是这样做的。: 专注所以高效.不是说在每台服务器上都将io,cpu,mem都用到极致。而是,将任务进行分配。哪些是io型的,哪些是cpu型的,分成不同server。这样机器成本会降低,效率也会增加。模型也变得很简单。: ...................--靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
7
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 16:16:59 2008), 站内【 在 kaineci (皮皮) 的大作中提到: 】恩。说得好。关于第一点,我个人是这样做的。专注所以高效.不是说在每台服务器上都将io,cpu,mem都用到极致。而是,将任务进行分配。哪些是io型的,哪些是cpu型的,分成不同server。这样机器成本会降低,效率也会增加。模型也变得很简单。 ~~~~~~~~~~~~~~~~~~~~~~glass说的跟你说的应该不是一回事,你的意思是一些机器专门是CPU密集型的,一些机器专门是IO密集型的,是这个意思吗?第二点,基本上workqueue如何优化的问题。 第三点,其实只要保证了share nothing的体系,问题不大? 第四点,扩展性主要是share nothing的原则和分布式架构设计。这些都是比较宏观的。微观的东西可能更多。【 在 glass (@sogou) 的大作中提到: 】: 我从另一个维度说吧:: 1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的: 效率。对各节点需要分析各环节的瓶颈,例如io,cpu,内存,传输等,有针对性的优化。: ...................--※ 修改:·kaineci 于 Jan 5 15:50:19 修改本文·[FROM: 218.108.36.*]--靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:mirror] [回信给作者] [进入讨论区] [返回顶部]
8
发信人: mirror (mirror), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 16:17:12 2008), 站内梁总,纯净水!【 在 pennyliang (pennyliang) 的大作中提到: 】: 标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下: 发信站: 水木社区 (Sat Jan 5 16:11:08 2008), 站内: : : 【 在 kaineci (皮皮) 的大作中提到: 】: : 恩。说得好。: : 关于第一点,我个人是这样做的。: : 专注所以高效.不是说在每台服务器上都将io,cpu,mem都用到极致。而是,将任务进行分配。哪些是io型的,哪些是cpu型的,分成不同server。这样机器成本会降低,效率也会增加。模型也变得很简单。: : ...................--※ 来源:·水木社区 newsmth.net·[FROM: 202.127.16.*]
[本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部]
9
发信人: kaineci (皮皮), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 16:24:33 2008), 站内en【 在 pennyliang (pennyliang) 的大作中提到: 】: 恩。说得好。: 关于第一点,我个人是这样做的。: 专注所以高效.不是说在每台服务器上都将io,cpu,mem都用到极致。而是,将任务进行分配。哪些是io型的,哪些是cpu型的,分成不同server。这样机器成本会降低,效率也会增加。模型也变得很简单。: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 218.108.36.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
10
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 16:27:00 2008), 站内 我觉得你这个维度是实诚维度,我的维度属于忽悠维度。。。 【 在 glass (@sogou) 的大作中提到: 】我从另一个维度说吧:1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的效率。对各节点需要分析各环节的瓶颈,例如io,cpu,内存,传输等,有针对性的优化。~~~~~~~~~~~~我看过一些好玩的论文,通过一些参数的调节,使得对于每个计算结点的吞吐率发生明显的变化,关键还是cpu,mem,disk的match到最好。2)任务流的优化。一次请求从前台分词,cache,query,取展现文本,检索词标亮,页面展现,包括查询提示,广告系统等,需要合理规范流程和分配资源,流水+并行,使关键路径最短~~~~~~~~~~~~~~~~~赞任务流的方法。3)容错,或者叫做短板的检测和规避。当机器规模大时,尽量避免一台机器故障或者超负载导致检索变慢。4)扩展性。这个可能不直接和性能相关,但实在扛不住了一定要能随便加机器加带宽。~~~~~~~~~~~~~~~~这两条应该是说如何在发现慢了的情况下,搞快他,因此搜索引擎就永远不会慢了,赞补救策略【 在 pennyliang (pennyliang) 的大作中提到: 】: 大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节: (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。: (2)indexing,到排索引的方式,对关键词检索来说非常有利。: ...................----靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
11
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 16:28:52 2008), 站内 比如做索引库的地方,怎么把IO密集型的和CPU密集型的拆开呢,不可能吧??【 在 kaineci (皮皮) 的大作中提到: 】: en--靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部]
12
发信人: kaineci (皮皮), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 16:30:32 2008), 站内haha.另:我看过一些好玩的论文推荐几篇吧.【 在 pennyliang (pennyliang) 的大作中提到: 】: 我觉得你这个维度是实诚维度,我的维度属于忽悠维度。。。: 我从另一个维度说吧:: 1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的: ...................--※ 修改:·kaineci 于 Jan 5 16:32:03 修改本文·[FROM: 218.108.36.*]※ 来源:·水木社区 newsmth.net·[FROM: 218.108.36.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
13
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 17:13:18 2008), 站内 搜索引擎都在空间换时间的搞,mem,disk发展太快,CPU发展跟不上,现在还很少有什么CPU密集型的计算啊。 还真不知道搜索引擎分词怎么搞的,2gram不是很好吗?反正现在机器够多,磁盘够大。【 在 kaineci (皮皮) 的大作中提到: 】: Buildindex时候的分词是cpu密集的。--靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
14
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 17:26:21 2008), 站内 做好搜索引擎真不容易,受教了,拜glass神。【 在 glass (@sogou) 的大作中提到: 】我从另一个维度说吧:1)单节点的效率问题。例如每一个检索节点,cache节点,前台节点,都需要做到尽量高的效率。对各节点需要分析各环节的瓶颈,例如io,cpu,内存,传输等,有针对性的优化。2)任务流的优化。一次请求从前台分词,cache,query,取展现文本,检索词标亮,页面展现,包括查询提示,广告系统等,需要合理规范流程和分配资源,流水+并行,使关键路径最短。3)容错,或者叫做短板的检测和规避。当机器规模大时,尽量避免一台机器故障或者超负载导致检索变慢。4)扩展性。这个可能不直接和性能相关,但实在扛不住了一定要能随便加机器加带宽。【 在 pennyliang (pennyliang) 的大作中提到: 】: 大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节: (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。: (2)indexing,到排索引的方式,对关键词检索来说非常有利。: ...................----靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:nostalgiatom] [回信给作者] [进入讨论区] [返回顶部]
15
发信人: nostalgiatom (Richard.Stevens), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Sat Jan 5 18:23:36 2008), 站内 你不是bd的么? 还明知故问 这种问题 Ohg【 在 pennyliang (pennyliang) 的大作中提到: 】: 比如做索引库的地方,怎么把IO密集型的和CPU密集型的拆开呢,不可能吧?: ?--蒹霞苍苍,白露为霜,所谓伊人,在水一方。※ 来源:·水木社区 newsmth.net·[FROM: 220.181.38.*]
[本篇全文] [回复文章] [本篇作者:fervvac] [回信给作者] [进入讨论区] [返回顶部]
16
发信人: fervvac (高远), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Mon Jan 7 07:14:25 2008), 站内I've always suspected that allowing approximation (or even wrong answers) contributes a lot to the performance. (Otherwise, queries with common wordswill kill any SE -- I guess either the inverted lists were not retrievedin full or only the first-1000 results are computed and sorted)Any insider can shed light on this? --※ 来源:·水木社区 newsmth.net·[FROM: 129.94.175.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
17
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Mon Jan 7 08:44:36 2008), 站内 支持top-k的查询,其实也还是有很多precomputing在里面的,比如各种名目的rank,这样才可能做到top-k阿. 我认为这还是从需求出发,检索只需要检索需要的,而不是全部,所以allowing approximation也是群众的本质需要,所以说这是搜索引擎快速的一个原因感觉有点勉强.当然如果每个查询都call回全部的结果哪速度肯定慢死了,再多mirroring也不行,热词一般情况下都是大词。【 在 fervvac (高远) 的大作中提到: 】: I've always suspected that allowing approximation (or even wrong answers) : contributes a lot to the performance. (Otherwise, queries with common words: will kill any SE -- I guess either the inverted lists were not retrieved: ...................--靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:shuke] [回信给作者] [进入讨论区] [返回顶部]
18
发信人: shuke (小白), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Mon Jan 7 10:12:00 2008), 站内你说的没错。不过这里你已经先假设了标准做法是要查看所有可能的匹配,然后再排序。所以把性能提高归结到只查看部分结果。梁总等是从系统性能的角度来讲怎么提高的。【 在 fervvac (高远) 的大作中提到: 】: I've always suspected that allowing approximation (or even wrong answers) : contributes a lot to the performance. (Otherwise, queries with common words: will kill any SE -- I guess either the inverted lists were not retrieved: ...................-- 小白是小新的宠物狗。over.※ 来源:·水木社区 newsmth.net·[FROM: 76.126.245.*]
[本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部]
19
发信人: kaineci (皮皮), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Mon Jan 7 11:46:38 2008), 站内索引的剪枝分动态和静态。各有利弊。当然,倒排如果进行group,这样更灵活。将性能和准确度进行tradeoff.当然,如何tradeoff这里面工作很多。【 在 fervvac (高远) 的大作中提到: 】: I've always suspected that allowing approximation (or even wrong answers) : contributes a lot to the performance. (Otherwise, queries with common words: will kill any SE -- I guess either the inverted lists were not retrieved: ...................--※ 修改:·kaineci 于 Jan 7 11:47:39 修改本文·[FROM: 60.191.58.*]※ 来源:·水木社区 newsmth.net·[FROM: 60.191.58.*]
[本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部]
20
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: Re: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下发信站: 水木社区 (Mon Jan 7 12:21:44 2008), 站内 【 在 kaineci (皮皮) 的大作中提到: 】: 索引的剪枝分动态和静态。各有利弊。当然,倒排如果进行group,这样更灵活。 ~~~~~~~~详细点? ~~~~~~~~~~~~~~~~~~译作分组吗? 和distributing还是mirroring? : 将性能和准确度进行tradeoff.当然,如何tradeoff这里面工作很多。 ~~~~~~~~~举1-2个例子吧 --靠,你们啊,就是2羊,2simple,sometimes拿衣服※ 来源:·水木社区 newsmth.net·[FROM: 211.99.222.*]
http://www.newsmth.net/bbstcon.php?board=SearchEngineTech&gid=4342
|
|
|