--有个想法大家一起来拍（关于collection的概念）

本站首页 管理页面写新日志退出

« February 2026 »
日一二三四五六
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28

公告

暂无公告...

我的分类（专题）

日志更新

说说价值观
大规模数据处理漫谈【4】
大规模数据处理漫谈【3】
大规模数据处理漫谈【2】
大规模数据处理漫谈【1】
搜索引擎的一些方向
麦凯恩的败选演讲failure is m
2008年在裁员风中摇摆的跨国公司(Z)
google的product searc
谷歌医药门

留言板

签写新留言

链接

Blog信息

blog名称:
日志总数:32
评论数量:9
留言数量:-1
访问次数:112612
建立时间:2008年12月3日

有个想法大家一起来拍（关于collection的概念）
原创空间

liangbin 发表于 2008/12/3 23:42:38

发信人: pennyliang (pennyliang), 信区: SearchEngineTech标题: 有个想法大家一起来拍发信站: 水木社区 (Sun Jun 8 19:01:09 2008), 站内海量数据用不同视角可以切割成不同的collection。 websearch 切出了网页，可能还能进一步的切出娱乐的collection和体育的collection。 newssearch 切出了新闻。 ... 面向不同的对象还可以切出，例如儿童collection,妇女collection。各种各样的切法，甚至可以把自己电脑上的桌面搜索，切成不同的collection。于是每次选择可以选择在指定的一个或者若干个collection中进行检索，这将多么有趣，好像餐馆的资助餐一样。多了一些互动，增加了一些乐趣。当然这并不是或不全是垂直搜索，比如可以有这样的用例在用户输入一个关键词后，立即给出，不同collection下的结果数,引导用户到更加精准的collection中，最后每个collection甚至可以由某个第三方公司制作，开发，提供给开放搜索引擎使用，收取看该collection的用户的产生的广告费。后发的搜索引擎应该更加开放，联合一切可以联合的力量，统战一切可以战斗的力量，在战场上取得一些独自战斗难以得到的战果。 --硕士要啥自行车啊 ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者：areqi] [回信给作者] [进入讨论区] [返回顶部] 2 发信人: areqi (阿琦), 信区: SearchEngineTech标题: Re: 有个想法大家一起来拍发信站: 水木社区 (Sun Jun 8 21:24:35 2008), 站内前端时间我也发过这样的想法。见我的5354文。这个东西其实对Google也是有力的，"google是地主，我们是长工.."忘记谁这么说的了..我本来想等几年，自己赚够一票以后，找更多的资源来做这件事情...我觉得Google App Engine也许真能走到这一天....【在 pennyliang (pennyliang) 的大作中提到: 】: 是啊，也就只有google有这个能力开放他的计算资源，数据资源，和技术资源了。如果google这样搞好了，我相信再也没有共军战胜国军的神话了。--※ 修改:·areqi 于 Jun 8 21:34:43 2008 修改本文·[FROM: 125.34.2.*]※ 来源:·水木社区 newsmth.net·[FROM: 125.34.2.*] [本篇全文] [回复文章] [本篇作者：xuchuan] [回信给作者] [进入讨论区] [返回顶部] 3 发信人: xuchuan (xuchuan), 信区: SearchEngineTech标题: Re: 有个想法大家一起来拍发信站: 水木社区 (Sun Jun 8 22:12:53 2008), 站内如果每个用户可以任意使用10M的网页，那么光1k用户就有10个billion的网页。google至少需要为这10个billion的网页提供额外的标记吧。并且这些标记肯定不能做在现有的index里边，需要额外的存储空间来保存url->tag这样的数据。另外再考虑这些网页的ranking问题，如果光是google来做，那基本没啥意义。如果是交给用户来做，那是不是应该允许用户提交一些binary到google的机器上运行呢？这样又会有安全性问题、效率问题等等，google又不可能把自己ranking的内部数据开放，于是用户得自己做ranking算法，这样就对存储提出了进一步的要求，总要存一些相关的signal吧。再说用户自己的ranking算法的quality又没法得到足够保证。像这样往深处考虑一下，就会发现大规模数据量的自定义搜索引擎是不切实际的，真要干这事情的公司还不如自己做。【在 areqi (阿琦) 的大作中提到: 】: 10M~100M..: 或者几千个网站..--※ 来源:·水木社区 newsmth.net·[FROM: 123.118.13.*] [本篇全文] [回复文章] [本篇作者：areqi] [回信给作者] [进入讨论区] [返回顶部] 4 发信人: areqi (阿琦), 信区: SearchEngineTech标题: Re: 有个想法大家一起来拍发信站: 水木社区 (Sun Jun 8 22:55:53 2008), 站内Good，终于进入一些细节的讨论了，说一下我的看法，只是一个思路.需要大家共同讨论..同时对所有的通用搜索都有用，不一定是针对Google..1.Google不需要针对用户的网页做标记。Google提供的是一个网页库，然后提供访问这个库的接口。这个库的访问方式可以是某个网站所有的网页，或者是用户比如检索"汽车”拿到的网页。所以这个库的接口Google内部系统应该是已经有了。Google也根本没有必要针对用户的使用做标记，用户需要什么通过提供的接口告诉Google好了，用户用了那些网页由用户自己决定。如果说考虑计费，完全可以基于流量或者请求总数来，就像App Engine这么做的。2.用户需要做什么a.知道自己需要哪些网页，并且维护自己需要的网页。b.需要针对抓取的网页采用与Google完全不同的处理方式，包括索引，信息抽取当然也必须包括Ranking..所以会自己产生大量数据。除了网页一样以外，别的和Google没有任何区别？c.1000万个网页，由用户维护的数据包括索引，程序等等每个用户100G够了吧? 100G不算多啊，Amazon EC2一个最初级的配置就有200G硬盘了,Google APP Engine也可以为用户提供远超100G的空间。3.有价值吗？1.对Google或者其他通用搜索，或者Amazon这样的云计算提供商。这是云计算在搜索引擎的一种典型应用。可以按照使用的CPU时间，硬盘空间，请求数目等等收钱。2.对网站开发公司或者个人，自己去抓取并且维护自己的网页库是需要成本的，如果说Google的费用，比自己维护一套抓取，网页系统成本低，那就可以接受。而且很多网站都对不知名的爬虫做限制的.3.现在的爬虫太多了......只要一家或者几家爬下来就好了....能大大减小网站负担..【在 xuchuan (xuchuan) 的大作中提到: 】: 如果每个用户可以任意使用10M的网页，那么光1k用户就有10个billion的网页。google至少需要为这10个billion的网页提供额外的标记吧。并且这些标记肯定不能做在现有的index里边，需要额外的存储空间来保存url->tag这样的数据。另外再考虑这些网页的ranking问题，如果光是g: 像这样往深处考虑一下，就会发现大规模数据量的自定义搜索引擎是不切实际的，真要干这事情的公司还不如自己做。--※ 修改:·areqi 于 Jun 8 22:57:54 2008 修改本文·[FROM: 125.34.2.*]※ 来源:·水木社区 newsmth.net·[FROM: 125.34.2.*]http://www.newsmth.net/bbstcon.php?board=SearchEngineTech&gid=7278

阅读全文(1265) | 回复(0) | 编辑 | 精华

发表评论：

昵称：
密码：
主页：
标题：

验证码： (不区分大小写,请仔细填写,输错需重写评论内容！)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.477 second(s), page refreshed 144823160 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号