| « | February 2026 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | |
| 公告 |
| 暂无公告... |
| Blog信息 |
|
blog名称: 日志总数:32 评论数量:9 留言数量:-1 访问次数:112588 建立时间:2008年12月3日 |

| |
|
矩阵运算引起的换页错误,大家有什么方案 原创空间
liangbin 发表于 2008/12/3 23:40:20 |
发信人: pennyliang (pennyliang), 信区: SearchEngineTech 标 题: 矩阵运算引起的换页错误,大家有什么方案 发信站: 水木社区 (Sun Jun 29 11:03:37 2008), 站内
问题如下,比如一个boolean矩阵,为term*doc。即行表示term.列表示doc. 1 2 3 4 5 6 0 | 0 0 0 0 0 1 1 | 0 1 0 1 0 0 2 | 1 0 1 0 1 1
表示doc1包含term2,doc2包含term1,...doc6包含term0,term2
在访问的时候,希望由term,取doclist,因此希望是按行读取. 例如取term2,取出1 0 1 0 1 1 |
|
|
总结一下我的一些提问和感想(第4次版聚我的一些感想) 原创空间
liangbin 发表于 2008/12/3 23:38:39 |
发信人: pennyliang (pennyliang), 信区: SearchEngineTech 标 题: 总结一下我的一些提问和感想 发信站: 水木社区 (Sun Nov 16 08:19:10 2008), 站内
rocchio算法,读作“Rockey-O”。 LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。
例如,如果一个文档A,包含电脑这个关键词,那么A向量化后可能是,比如电脑这个词是 100万词汇中的第2维(便于举例),微机这个词是100万词汇中的第3维,维上的投影简单看作是tf,即文档中出现的次数。
A={x,2,0,...,x} 表示文档A中电脑出现了2次.x表示出现次数不care B={x,0,3,... |
|
|
移动计算和开放平台--2008软件英雄大会归来有感 原创空间
liangbin 发表于 2008/12/3 23:36:10 |
发信人: pennyliang (pennyliang), 信区: SearchEngineTech 标 题: 移动计算和开放平台--2008软件英雄大会归来有感 发信站: 水木社区 (Sat Mar 29 21:11:15 2008), 站内
参加了CSDN组织的英雄大会,期间嘉宾多有精彩发言。 对yahoo的发言尤为深刻映像,将企业的计算资源,数据资源通过开放API的方式让 更多人在其上建立自己的应用,将基本,底层技术做好,而应用,需求的工作由它人 完成,我个人认为是很好地解决一个大公司无法覆盖所有的应用,但可以通过这种开放 使得更多的人能够借助开放API来很好的解决更多用户的实际需求。
移动计算从来都是很热门的话题,手机的用户明显比互联网的用户多,,但其上的应用非常有限,手机更多的是一种前端设备,以往一直因为屏幕小,处理慢等原因,很难有PC用户的那种互联网体验,但这一切都被iphone的问世打破了,在可以想见的未来,这方面的投入会越来越大,越 |
|
|
相关性反馈的查询 原创空间
liangbin 发表于 2008/12/3 23:34:46 |
发信人: pennyliang (pennyliang), 信区: SearchEngineTech 标 题: 相关性反馈的查询 发信站: 水木社区 (Sun May 4 14:45:04 2008), 站内
Relevance feedback Query
我们来看这个例子,比如你要做一个复杂的查询, 你输入第一个关键词Q0,检索出来了n个结果 标注若干相关的,若干不相关的。 从相关的词中提取positive的term,从不相关的词中提取negative的term, 构造出一个新的Q1,此时Q1是一个多个term的组成的带权向量。
反复迭代,直到满足精度和recall的需要。
举个例子比如你输入某个明星的名字,由于你的prefer,选择了几个相关和无关的结果, 系统自动构造出下一个查询,你继续评价,直到找到你满意的那些结果。
有人做过这个研究吗?
-- 硕士要 |
|
|
搜索引擎的若干需求的理解 原创空间
liangbin 发表于 2008/12/3 23:33:48 |
发信人: pennyliang (pennyliang), 信区: SearchEngineTech
标 题: 搜索引擎的若干需求的理解 发信站: 水木社区 (Sat Apr 26 17:12:55 2008), 站内
通过长时间地思考搜索引擎的需求,我得出了如下结论,请看分析
对于搜索这个动词来说,人和信息,必然是应有之意,加上建立这种联系的桥梁,关键词。 那么基本上搜索引擎就在建立这样的图关系。
其中主体是={人,信息,关键词} 关系是任意两个主体构成的一个pair.例如{关键词,关键词},{人,信息}
表面上看搜索引擎只是建立关键词和信息的关系,实际上,通过聚类,分类建立信息的关系,关键词间的关系等。
总体来说,我个人对一下关系逐一评价
{关键词,信息}的关系,5分,搜索引擎目前已经做到极致,目前只需要antispam和rank做好。 {信息,关键词}的关系,4.5分,抽取技术已达极致,各种先进方法. {关键词,关键词}的关系 |
|
|
为什么搜索引擎能搜索地这么快,大家能不能一起总结一下 原创空间
liangbin 发表于 2008/12/3 23:30:11 |
发信人: pennyliang (pennyliang), 信区: SearchEngineTech 标 题: 为什么搜索引擎能搜索地这么快,大家能不能一起总结一下 发信站: 水木社区 (Sat Jan 5 13:47:48 2008), 站内
大家从宏观上说说看呢,我来抛砖引玉一下,大家补充和完善细节 (1)precomputing,大量的离线工作(抓取,索引等)是预先做好的,不占用在线查询时间。 (2)indexing,到排索引的方式,对关键词检索来说非常有利。 (3)distributing,存在多个索引子系统,每个索引子系统检索一部分的网页。 (4)mirroring,存在多个索引系统的镜像,可以使得检索请求排多个队。 (5)caching,使得重复检索的关键词不需要每次都查 |
|
|
二零零八年搜索引擎十大猜想  原创空间
liangbin 发表于 2008/12/3 23:26:14 |
发信人: pennyliang (pennyliang), 信区: SearchEngineTech 标 题: 二零零八年搜索引擎十大猜想 发信站: 水木社区 (Mon Dec 31 19:54:41 2007), 站内
在2007年即将离去,2008年就要到来之际,我斗胆抛出我对未来一年的十大猜想,已娱乐本版。 (1)谷歌将从百度手上抢下10%的市场份额 (2)雅虎中国变名中国雅虎后,在与阿里巴巴(妈妈)的合作下,取得惊人的成绩。能够在与soso,sogou的争夺中,稳住第三宝座 (3)百度高层出走,在百度不断变大的同时,道路问题成为不可避免的矛盾,高层出走不可避免。 (4)雅虎高层再发地震,人事变化不可避免。 (5)搜狗与谷歌大斗输入法,搜狗胜出。 (6)爱帮异军突起 |
|
|
版聚归来谈感想(地点清华大学C楼,互联网中心提供的场地) 原创空间
liangbin 发表于 2008/12/3 23:18:45 |
pennyliang (pennyliang) 于 (Sun May 18 21:03:58 2008) 提到:
今天版聚很成功,各位风采展示的淋漓尽致啊。简单总结下 第一位同学介绍的企业搜索,我个人觉得更好的提法可能是面向企业的搜索,服务的主体是企业,并不表示信息源来自于企业内部,或者说主要的盈利模式是企业购买,为自身服务。主讲人介绍的方法客观的说还比较初级,但比较全面,思路也很清晰,归纳一下就是,面向企业的搜索主要解决两类问题:首先是大公司的信息获取障碍,如果信息能够很容易的找到将会降低很多沟通的成本,这是有价值的,特别是人数众多,信息大量发布,信息形式各异,信息权限复杂的公司,比如设计公司,法律文书搜索等。其次是为大公司解决了外部信息整理的问题,内部信息有比较固定的模式,但是外部的信息,比如舆情,来自与各种载体,需要一种解决方案来一揽子解决企业外部信息的收集,整理,汇编的工作。 &nbs |
|
|