| « | February 2026 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | |
| 公告 |
| 暂无公告... |
| Blog信息 |
|
blog名称: 日志总数:32 评论数量:9 留言数量:-1 访问次数:112612 建立时间:2008年12月3日 |

| |
|
有个想法大家一起来拍(关于collection的概念) 原创空间
liangbin 发表于 2008/12/3 23:42:38 |
|
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: 有个想法大家一起来拍发信站: 水木社区 (Sun Jun 8 19:01:09 2008), 站内 海量数据用不同视角可以切割成不同的collection。 websearch 切出了网页,可能还能进一步的切出娱乐的collection和体育的collection。 newssearch 切出了新闻。 ... 面向不同的对象还可以切出,例如儿童collection,妇女collection。 各种各样的切法,甚至可以把自己电脑上的桌面搜索,切成不同的collection。 于是每次选择可以选择在指定的一个或者若干个collection中进行检索,这将多么有趣,好像餐馆的资助餐一样。多了一些互动,增加了一些乐趣。 当然这并不是或不全是垂直搜索,比如可以有这样的用例 在用户输入一个关键词后,立即给出,不同collection下的结果数,引导用户到更加精准的collection中,最后每个collection甚至可以由某个第三方公司制作,开发,提供给开放搜索引擎使用,收取看该collection的用户的产生的广告费。后发的搜索引擎应该更加开放,联合一切可以联合的力量,统战一切可以战斗的力量,在战场上取得一些独自战斗难以得到的战果。 --硕士要啥自行车啊 ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]
[本篇全文] [回复文章] [本篇作者:areqi] [回信给作者] [进入讨论区] [返回顶部]
2
发信人: areqi (阿琦), 信区: SearchEngineTech标 题: Re: 有个想法大家一起来拍发信站: 水木社区 (Sun Jun 8 21:24:35 2008), 站内前端时间我也发过这样的想法。见我的5354文。这个东西其实对Google也是有力的,"google是地主,我们是长工.."忘记谁这么说的了..我本来想等几年,自己赚够一票以后,找更多的资源来做这件事情...我觉得Google App Engine也许真能走到这一天....【 在 pennyliang (pennyliang) 的大作中提到: 】: 是啊,也就只有google有这个能力开放他的计算资源,数据资源,和技术资源了。如果google这样搞好了,我相信再也没有共军战胜国军的神话了。--※ 修改:·areqi 于 Jun 8 21:34:43 2008 修改本文·[FROM: 125.34.2.*]※ 来源:·水木社区 newsmth.net·[FROM: 125.34.2.*]
[本篇全文] [回复文章] [本篇作者:xuchuan] [回信给作者] [进入讨论区] [返回顶部]
3
发信人: xuchuan (xuchuan), 信区: SearchEngineTech标 题: Re: 有个想法大家一起来拍发信站: 水木社区 (Sun Jun 8 22:12:53 2008), 站内如果每个用户可以任意使用10M的网页,那么光1k用户就有10个billion的网页。google至少需要为这10个billion的网页提供额外的标记吧。并且这些标记肯定不能做在现有的index里边,需要额外的存储空间来保存url->tag这样的数据。另外再考虑这些网页的ranking问题,如果光是google来做,那基本没啥意义。如果是交给用户来做,那是不是应该允许用户提交一些binary到google的机器上运行呢?这样又会有安全性问题、效率问题等等,google又不可能把自己ranking的内部数据开放,于是用户得自己做ranking算法,这样就对存储提出了进一步的要求,总要存一些相关的signal吧。再说用户自己的ranking算法的quality又没法得到足够保证。像这样往深处考虑一下,就会发现大规模数据量的自定义搜索引擎是不切实际的,真要干这事情的公司还不如自己做。【 在 areqi (阿琦) 的大作中提到: 】: 10M~100M..: 或者几千个网站..--※ 来源:·水木社区 newsmth.net·[FROM: 123.118.13.*]
[本篇全文] [回复文章] [本篇作者:areqi] [回信给作者] [进入讨论区] [返回顶部]
4
发信人: areqi (阿琦), 信区: SearchEngineTech标 题: Re: 有个想法大家一起来拍发信站: 水木社区 (Sun Jun 8 22:55:53 2008), 站内Good,终于进入一些细节的讨论了,说一下我的看法,只是一个思路.需要大家共同讨论..同时对所有的通用搜索都有用,不一定是针对Google..1.Google不需要针对用户的网页做标记。Google提供的是一个网页库,然后提供访问这个库的接口。这个库的访问方式可以是某个网站所有的网页,或者是用户比如检索"汽车”拿到的网页。所以这个库的接口Google内部系统应该是已经有了。Google也根本没有必要针对用户的使用做标记,用户需要什么通过提供的接口告诉Google好了,用户用了那些网页由用户自己决定。如果说考虑计费,完全可以基于流量或者请求总数来,就像App Engine这么做的。2.用户需要做什么a.知道自己需要哪些网页,并且维护自己需要的网页。b.需要针对抓取的网页采用与Google完全不同的处理方式,包括索引,信息抽取当然也必须包括Ranking..所以会自己产生大量数据。除了网页一样以外,别的和Google没有任何区别?c.1000万个网页,由用户维护的数据包括索引,程序等等每个用户100G够了吧? 100G不算多啊,Amazon EC2一个最初级的配置就有200G硬盘了,Google APP Engine也可以为用户提供远超100G的空间。3.有价值吗?1.对Google或者其他通用搜索,或者Amazon这样的云计算提供商。这是云计算在搜索引擎的一种典型应用。可以按照使用的CPU时间,硬盘空间,请求数目等等收钱。2.对网站开发公司或者个人,自己去抓取并且维护自己的网页库是需要成本的,如果说Google的费用,比自己维护一套抓取,网页系统成本低,那就可以接受。而且很多网站都对不知名的爬虫做限制的.3.现在的爬虫太多了......只要一家或者几家爬下来就好了....能大大减小网站负担..【 在 xuchuan (xuchuan) 的大作中提到: 】: 如果每个用户可以任意使用10M的网页,那么光1k用户就有10个billion的网页。google至少需要为这10个billion的网页提供额外的标记吧。并且这些标记肯定不能做在现有的index里边,需要额外的存储空间来保存url->tag这样的数据。另外再考虑这些网页的ranking问题,如果光是g: 像这样往深处考虑一下,就会发现大规模数据量的自定义搜索引擎是不切实际的,真要干这事情的公司还不如自己做。--※ 修改:·areqi 于 Jun 8 22:57:54 2008 修改本文·[FROM: 125.34.2.*]※ 来源:·水木社区 newsmth.net·[FROM: 125.34.2.*]http://www.newsmth.net/bbstcon.php?board=SearchEngineTech&gid=7278 |
|
|