本站首页    管理页面    写新日志    退出


«February 2026»
1234567
891011121314
15161718192021
22232425262728


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接


Blog信息
blog名称:
日志总数:32
评论数量:9
留言数量:-1
访问次数:112588
建立时间:2008年12月3日




矩阵运算引起的换页错误,大家有什么方案
原创空间

liangbin 发表于 2008/12/3 23:40:20

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标  题: 矩阵运算引起的换页错误,大家有什么方案
发信站: 水木社区 (Sun Jun 29 11:03:37 2008), 站内

  问题如下,比如一个boolean矩阵,为term*doc。即行表示term.列表示doc.
     1 2 3 4 5 6  
 0 | 0 0 0 0 0 1
 1 | 0 1 0 1 0 0
 2 | 1 0 1 0 1 1

  表示doc1包含term2,doc2包含term1,...doc6包含term0,term2

  在访问的时候,希望由term,取doclist,因此希望是按行读取.
  例如取term2,取出1 0 1 0 1 1


阅读全文(1312) | 回复(0) | 编辑 | 精华 | 删除
 


总结一下我的一些提问和感想(第4次版聚我的一些感想)
原创空间

liangbin 发表于 2008/12/3 23:38:39

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标  题: 总结一下我的一些提问和感想
发信站: 水木社区 (Sun Nov 16 08:19:10 2008), 站内

   rocchio算法,读作“Rockey-O”。
  
   LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。

   例如,如果一个文档A,包含电脑这个关键词,那么A向量化后可能是,比如电脑这个词是
   100万词汇中的第2维(便于举例),微机这个词是100万词汇中的第3维,维上的投影简单看作是tf,即文档中出现的次数。

   A={x,2,0,...,x} 表示文档A中电脑出现了2次.x表示出现次数不care
   B={x,0,3,...


阅读全文(1322) | 回复(0) | 编辑 | 精华 | 删除
 


移动计算和开放平台--2008软件英雄大会归来有感
原创空间

liangbin 发表于 2008/12/3 23:36:10

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标  题: 移动计算和开放平台--2008软件英雄大会归来有感
发信站: 水木社区 (Sat Mar 29 21:11:15 2008), 站内

参加了CSDN组织的英雄大会,期间嘉宾多有精彩发言。
对yahoo的发言尤为深刻映像,将企业的计算资源,数据资源通过开放API的方式让
更多人在其上建立自己的应用,将基本,底层技术做好,而应用,需求的工作由它人
完成,我个人认为是很好地解决一个大公司无法覆盖所有的应用,但可以通过这种开放
使得更多的人能够借助开放API来很好的解决更多用户的实际需求。

移动计算从来都是很热门的话题,手机的用户明显比互联网的用户多,,但其上的应用非常有限,手机更多的是一种前端设备,以往一直因为屏幕小,处理慢等原因,很难有PC用户的那种互联网体验,但这一切都被iphone的问世打破了,在可以想见的未来,这方面的投入会越来越大,越

阅读全文(1109) | 回复(0) | 编辑 | 精华 | 删除
 


相关性反馈的查询
原创空间

liangbin 发表于 2008/12/3 23:34:46

  发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标  题: 相关性反馈的查询
发信站: 水木社区 (Sun May  4 14:45:04 2008), 站内

Relevance feedback Query

我们来看这个例子,比如你要做一个复杂的查询,
你输入第一个关键词Q0,检索出来了n个结果
标注若干相关的,若干不相关的。
从相关的词中提取positive的term,从不相关的词中提取negative的term,
构造出一个新的Q1,此时Q1是一个多个term的组成的带权向量。

反复迭代,直到满足精度和recall的需要。

举个例子比如你输入某个明星的名字,由于你的prefer,选择了几个相关和无关的结果,
系统自动构造出下一个查询,你继续评价,直到找到你满意的那些结果。

有人做过这个研究吗?

--
硕士要

阅读全文(1213) | 回复(0) | 编辑 | 精华 | 删除
 


搜索引擎的若干需求的理解
原创空间

liangbin 发表于 2008/12/3 23:33:48

发信人: pennyliang (pennyliang), 信区: SearchEngineTech  标  题: 搜索引擎的若干需求的理解
发信站: 水木社区 (Sat Apr 26 17:12:55 2008), 站内

通过长时间地思考搜索引擎的需求,我得出了如下结论,请看分析

对于搜索这个动词来说,人和信息,必然是应有之意,加上建立这种联系的桥梁,关键词。
那么基本上搜索引擎就在建立这样的图关系。

其中主体是={人,信息,关键词}
关系是任意两个主体构成的一个pair.例如{关键词,关键词},{人,信息}

表面上看搜索引擎只是建立关键词和信息的关系,实际上,通过聚类,分类建立信息的关系,关键词间的关系等。

总体来说,我个人对一下关系逐一评价

{关键词,信息}的关系,5分,搜索引擎目前已经做到极致,目前只需要antispam和rank做好。
{信息,关键词}的关系,4.5分,抽取技术已达极致,各种先进方法.
{关键词,关键词}的关系

阅读全文(2323) | 回复(0) | 编辑 | 精华 | 删除
 


PageRank中的Page是方法发明人Page,而不是网页Page吧
原创空间

liangbin 发表于 2008/12/3 23:31:32

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标  题: PageRank中的Page是方法发明人Page,而不是网页Page吧
发信站: 水木社区 (Sat Mar 15 11:06:19 2008), 站内

   哪位知道这个典故啊,我也刚听说,谷歌创始人的家长太有先见之明了,我也改名叫monneyliang好了
--
硕士要啥自行车啊  


※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]

[本篇全文] [
阅读全文(1290) | 回复(0) | 编辑 | 精华 | 删除
 


为什么搜索引擎能搜索地这么快,大家能不能一起总结一下
原创空间

liangbin 发表于 2008/12/3 23:30:11

  发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标  题: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下
发信站: 水木社区 (Sat Jan  5 13:47:48 2008), 站内

   大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节
   (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。
   (2)indexing,到排索引的方式,对关键词检索来说非常有利。
   (3)distributing,存在多个索引子系统,每个索引子系统检索一部分的网页。
   (4)mirroring,存在多个索引系统的镜像,可以使得检索请求排多个队。
   (5)caching,使得重复检索的关键词不需要每次都查

阅读全文(2638) | 回复(0) | 编辑 | 精华 | 删除
 


最小完美哈希函数在搜索引擎中有哪些应用
原创空间

liangbin 发表于 2008/12/3 23:28:58

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标  题: 最小完美哈希函数在搜索引擎中有哪些应用啊?
发信站: 水木社区 (Sun Nov 25 19:21:53 2007), 站内

请大牛出来讲讲?我个人感觉可能很难实用。。。
--

※ 来源:·水木社区 http://newsmth.net·[FROM: 58.30.83.*]

[本篇全文] [
阅读全文(2828) | 回复(0) | 编辑 | 精华 | 删除
 


二零零八年搜索引擎十大猜想 
原创空间

liangbin 发表于 2008/12/3 23:26:14

发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标  题: 二零零八年搜索引擎十大猜想
发信站: 水木社区 (Mon Dec 31 19:54:41 2007), 站内

   在2007年即将离去,2008年就要到来之际,我斗胆抛出我对未来一年的十大猜想,已娱乐本版。
   (1)谷歌将从百度手上抢下10%的市场份额
   (2)雅虎中国变名中国雅虎后,在与阿里巴巴(妈妈)的合作下,取得惊人的成绩。能够在与soso,sogou的争夺中,稳住第三宝座
   (3)百度高层出走,在百度不断变大的同时,道路问题成为不可避免的矛盾,高层出走不可避免。
   (4)雅虎高层再发地震,人事变化不可避免。
   (5)搜狗与谷歌大斗输入法,搜狗胜出。
   (6)爱帮异军突起

阅读全文(1039) | 回复(0) | 编辑 | 精华 | 删除
 


版聚归来谈感想(地点清华大学C楼,互联网中心提供的场地)
原创空间

liangbin 发表于 2008/12/3 23:18:45

pennyliang (pennyliang) 于  (Sun May 18 21:03:58 2008)  提到:

  今天版聚很成功,各位风采展示的淋漓尽致啊。简单总结下
  第一位同学介绍的企业搜索,我个人觉得更好的提法可能是面向企业的搜索,服务的主体是企业,并不表示信息源来自于企业内部,或者说主要的盈利模式是企业购买,为自身服务。主讲人介绍的方法客观的说还比较初级,但比较全面,思路也很清晰,归纳一下就是,面向企业的搜索主要解决两类问题:首先是大公司的信息获取障碍,如果信息能够很容易的找到将会降低很多沟通的成本,这是有价值的,特别是人数众多,信息大量发布,信息形式各异,信息权限复杂的公司,比如设计公司,法律文书搜索等。其次是为大公司解决了外部信息整理的问题,内部信息有比较固定的模式,但是外部的信息,比如舆情,来自与各种载体,需要一种解决方案来一揽子解决企业外部信息的收集,整理,汇编的工作。
 &nbs

阅读全文(1574) | 回复(0) | 编辑 | 精华 | 删除
 


« 1 2 3 4 »



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.766 second(s), page refreshed 144811823 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号