本站首页 管理页面写新日志退出

« may 2026 »
日一二三四五六
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

公告

暂无公告...

我的分类（专题）

日志更新

说说价值观
大规模数据处理漫谈【4】
大规模数据处理漫谈【3】
大规模数据处理漫谈【2】
大规模数据处理漫谈【1】
搜索引擎的一些方向
麦凯恩的败选演讲failure is m
2008年在裁员风中摇摆的跨国公司(Z)
google的product searc
谷歌医药门

留言板

签写新留言

链接

Blog信息

blog名称:
日志总数:32
评论数量:9
留言数量:-1
访问次数:112955
建立时间:2008年12月3日

矩阵运算引起的换页错误，大家有什么方案
原创空间

liangbin 发表于 2008/12/3 23:40:20

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标题: 矩阵运算引起的换页错误，大家有什么方案
发信站: 水木社区 (Sun Jun 29 11:03:37 2008), 站内

  问题如下，比如一个boolean矩阵，为term*doc。即行表示term.列表示doc.
   1 2 3 4 5 6
0 | 0 0 0 0 0 1
1 | 0 1 0 1 0 0
2 | 1 0 1 0 1 1

  表示doc1包含term2,doc2包含term1,...doc6包含term0,term2

  在访问的时候，希望由term,取doclist,因此希望是按行读取.
  例如取term2,取出1 0 1 0 1 1

阅读全文(1316) | 回复(0) | 编辑 | 精华 | 删除

总结一下我的一些提问和感想（第4次版聚我的一些感想）
原创空间

liangbin 发表于 2008/12/3 23:38:39

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标题: 总结一下我的一些提问和感想
发信站: 水木社区 (Sun Nov 16 08:19:10 2008), 站内

   rocchio算法，读作“Rockey-O”。

   LDA，就是将原来向量空间的词的维度转变为Topic的维度，这一点是十分有意义的。

   例如，如果一个文档A，包含电脑这个关键词，那么A向量化后可能是,比如电脑这个词是
   100万词汇中的第2维（便于举例），微机这个词是100万词汇中的第3维，维上的投影简单看作是tf，即文档中出现的次数。

   A={x,2,0,...,x} 表示文档A中电脑出现了2次.x表示出现次数不care
   B={x,0,3,...

阅读全文(1326) | 回复(0) | 编辑 | 精华 | 删除

移动计算和开放平台--2008软件英雄大会归来有感
原创空间

liangbin 发表于 2008/12/3 23:36:10

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标题: 移动计算和开放平台--2008软件英雄大会归来有感
发信站: 水木社区 (Sat Mar 29 21:11:15 2008), 站内

参加了CSDN组织的英雄大会，期间嘉宾多有精彩发言。
对yahoo的发言尤为深刻映像，将企业的计算资源，数据资源通过开放API的方式让
更多人在其上建立自己的应用，将基本，底层技术做好，而应用，需求的工作由它人
完成，我个人认为是很好地解决一个大公司无法覆盖所有的应用，但可以通过这种开放
使得更多的人能够借助开放API来很好的解决更多用户的实际需求。

移动计算从来都是很热门的话题，手机的用户明显比互联网的用户多，，但其上的应用非常有限，手机更多的是一种前端设备，以往一直因为屏幕小，处理慢等原因，很难有PC用户的那种互联网体验，但这一切都被iphone的问世打破了,在可以想见的未来，这方面的投入会越来越大，越

阅读全文(1113) | 回复(0) | 编辑 | 精华 | 删除

相关性反馈的查询
原创空间

liangbin 发表于 2008/12/3 23:34:46

　发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标题: 相关性反馈的查询
发信站: 水木社区 (Sun May 4 14:45:04 2008), 站内

Relevance feedback Query

我们来看这个例子，比如你要做一个复杂的查询，
你输入第一个关键词Q0，检索出来了n个结果
标注若干相关的，若干不相关的。
从相关的词中提取positive的term,从不相关的词中提取negative的term,
构造出一个新的Q1，此时Q1是一个多个term的组成的带权向量。

反复迭代，直到满足精度和recall的需要。

举个例子比如你输入某个明星的名字，由于你的prefer,选择了几个相关和无关的结果，
系统自动构造出下一个查询，你继续评价，直到找到你满意的那些结果。

有人做过这个研究吗？

--
硕士要

阅读全文(1217) | 回复(0) | 编辑 | 精华 | 删除

搜索引擎的若干需求的理解
原创空间

liangbin 发表于 2008/12/3 23:33:48

发信人: pennyliang (pennyliang), 信区: SearchEngineTech 　标题: 搜索引擎的若干需求的理解
发信站: 水木社区 (Sat Apr 26 17:12:55 2008), 站内

通过长时间地思考搜索引擎的需求，我得出了如下结论，请看分析

对于搜索这个动词来说，人和信息，必然是应有之意，加上建立这种联系的桥梁，关键词。
那么基本上搜索引擎就在建立这样的图关系。

其中主体是={人，信息，关键词}
关系是任意两个主体构成的一个pair.例如{关键词，关键词}，{人，信息}

表面上看搜索引擎只是建立关键词和信息的关系，实际上，通过聚类，分类建立信息的关系，关键词间的关系等。

总体来说，我个人对一下关系逐一评价

{关键词,信息}的关系,5分，搜索引擎目前已经做到极致，目前只需要antispam和rank做好。
{信息，关键词}的关系，4.5分，抽取技术已达极致，各种先进方法.
{关键词，关键词}的关系

阅读全文(2326) | 回复(0) | 编辑 | 精华 | 删除

PageRank中的Page是方法发明人Page，而不是网页Page吧
原创空间

liangbin 发表于 2008/12/3 23:31:32

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标题: PageRank中的Page是方法发明人Page，而不是网页Page吧
发信站: 水木社区 (Sat Mar 15 11:06:19 2008), 站内

哪位知道这个典故啊，我也刚听说，谷歌创始人的家长太有先见之明了，我也改名叫monneyliang好了
--
硕士要啥自行车啊

※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]

[本篇全文] [

阅读全文(1295) | 回复(0) | 编辑 | 精华 | 删除

为什么搜索引擎能搜索地这么快，大家能不能一起总结一下
原创空间

liangbin 发表于 2008/12/3 23:30:11

　发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标题: 为什么搜索引擎能搜索地这么快，大家能不能一起总结一下
发信站: 水木社区 (Sat Jan 5 13:47:48 2008), 站内

   大家从宏观上说说看呢，我来抛砖引玉一下，大家补充和完善细节
   (1)precomputing,大量的离线工作（抓取，索引等）是预先做好的，不占用在线查询时间。
   (2)indexing,到排索引的方式，对关键词检索来说非常有利。
   (3)distributing,存在多个索引子系统，每个索引子系统检索一部分的网页。
   (4)mirroring,存在多个索引系统的镜像，可以使得检索请求排多个队。
   (5)caching,使得重复检索的关键词不需要每次都查

阅读全文(2643) | 回复(0) | 编辑 | 精华 | 删除

最小完美哈希函数在搜索引擎中有哪些应用
原创空间

liangbin 发表于 2008/12/3 23:28:58

发信人: pennyliang (pennyliang), 信区: SearchEngineTech 标题: 最小完美哈希函数在搜索引擎中有哪些应用啊？发信站: 水木社区 (Sun Nov 25 19:21:53 2007), 站内请大牛出来讲讲？我个人感觉可能很难实用。。。 -- ※ 来源:·水木社区 http://newsmth.net·[FROM: 58.30.83.*] [本篇全文] [
阅读全文(2832) \| 回复(0) \| 编辑 \| 精华 \| 删除

二零零八年搜索引擎十大猜想　
原创空间

liangbin 发表于 2008/12/3 23:26:14

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标题: 二零零八年搜索引擎十大猜想
发信站: 水木社区 (Mon Dec 31 19:54:41 2007), 站内

   在2007年即将离去，2008年就要到来之际，我斗胆抛出我对未来一年的十大猜想，已娱乐本版。
   （1）谷歌将从百度手上抢下10%的市场份额
   （2）雅虎中国变名中国雅虎后，在与阿里巴巴（妈妈）的合作下，取得惊人的成绩。能够在与soso,sogou的争夺中，稳住第三宝座
   （3）百度高层出走，在百度不断变大的同时，道路问题成为不可避免的矛盾，高层出走不可避免。
   （4）雅虎高层再发地震，人事变化不可避免。
   （5）搜狗与谷歌大斗输入法，搜狗胜出。
   （6）爱帮异军突起

阅读全文(1043) | 回复(0) | 编辑 | 精华 | 删除

版聚归来谈感想（地点清华大学C楼，互联网中心提供的场地）
原创空间

liangbin 发表于 2008/12/3 23:18:45

pennyliang (pennyliang) 于  (Sun May 18 21:03:58 2008)  提到:

  今天版聚很成功，各位风采展示的淋漓尽致啊。简单总结下
  第一位同学介绍的企业搜索，我个人觉得更好的提法可能是面向企业的搜索，服务的主体是企业，并不表示信息源来自于企业内部，或者说主要的盈利模式是企业购买，为自身服务。主讲人介绍的方法客观的说还比较初级，但比较全面，思路也很清晰，归纳一下就是，面向企业的搜索主要解决两类问题：首先是大公司的信息获取障碍，如果信息能够很容易的找到将会降低很多沟通的成本，这是有价值的，特别是人数众多，信息大量发布，信息形式各异，信息权限复杂的公司，比如设计公司，法律文书搜索等。其次是为大公司解决了外部信息整理的问题，内部信息有比较固定的模式，但是外部的信息，比如舆情，来自与各种载体，需要一种解决方案来一揽子解决企业外部信息的收集，整理，汇编的工作。
&nbs

阅读全文(1579) | 回复(0) | 编辑 | 精华 | 删除

« 1 2 3 4 »

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 1.016 second(s), page refreshed 144822571 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号