本站首页    管理页面    写新日志    退出


«February 2026»
1234567
891011121314
15161718192021
22232425262728


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接


Blog信息
blog名称:
日志总数:32
评论数量:9
留言数量:-1
访问次数:112599
建立时间:2008年12月3日




总结一下我的一些提问和感想(第4次版聚我的一些感想)
原创空间

liangbin 发表于 2008/12/3 23:38:39

发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 08:19:10 2008), 站内   rocchio算法,读作“Rockey-O”。     LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。   例如,如果一个文档A,包含电脑这个关键词,那么A向量化后可能是,比如电脑这个词是   100万词汇中的第2维(便于举例),微机这个词是100万词汇中的第3维,维上的投影简单看作是tf,即文档中出现的次数。   A={x,2,0,...,x} 表示文档A中电脑出现了2次.x表示出现次数不care   B={x,0,3,...,x} 表示文档B中微机次数出现了3次。   如果是用词做维度的向量空间,做聚类也好,分类也好,A和B在电脑和微机上的这种向量表示,机器理解为A和B完全在表示不同的意义。而事实上,如果在词的高维空间上看,电脑和微机的维是很近似的,正交性是很低的。     如果能够将高维空间上,近义词或者表示接近的词的维度“捏“成一个维度,比如电脑和微机这两个词被捏成了第2维,但是每个词在这个维上的权重给与不同的度量(比如概率)。   这样上诉例子变为   A={x,2*pi,x,...x},pi表示电脑这个词到Topic2的转移概率。   B={x,3*pj,x,...x}   这样,A和B看上去在第二个Topic上显示了一定的相关性。   由于Topic是被捏后的产物,每个Topic的正交性直观上看都很强,LDA开源的工具做出的结果可以把转移到TOpic最Top的那些词提取出来,都是十分相关或近似的词。而Topic与Topic之间显示出很大的差异性。   短文本分类的商业价值是很大的,在视频分类,广告分类上都可以看作是短文本分类问题,我有幸做了一些这方面的工作,其中提到的短文本的扩展是很好的思路。   问答系统商业价值也很巨大,特别是封闭领域的问答系统,可以拦截投诉,用户提问,降低人工成本。开放领域的问答系统商业上感觉前途有限,当然把搜索引擎的搜索结果进一步精化的思路肯定是搜索引擎的一个方向,用户会越来越懒,搜索引擎已经让用户懒了一些,还需要让用户继续懒下去。   --硕士要啥自行车啊  ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]   [本篇全文] [回复文章] [本篇作者:psm] [回信给作者] [进入讨论区] [返回顶部] 2 发信人: psm (阿肥), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 10:22:11 2008), 站内对,人类的懒惰,是科技发展的动力。呵呵【 在 pennyliang (pennyliang) 的大作中提到: 】: 标  题: 总结一下我的一些提问和感想: 发信站: 水木社区 (Sun Nov 16 08:19:10 2008), 站内: :    rocchio算法,读作“Rockey-O”。:   :    LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。: :    例如,如果一个文档A,包含电脑这个关键词,那么A向量化后可能是,比如电脑这个词是:    100万词汇中的第2维(便于举例),微机这个词是100万词汇中的第3维,维上的投影简单看作是tf,即文档中出现的次数。: :    A={x,2,0,...,x} 表示文档A中电脑出现了2次.x表示出现次数不care:    B={x,0,3,...,x} 表示文档B中微机次数出现了3次。: :    如果是用词做维度的向量空间,做聚类也好,分类也好,A和B在电脑和微机上的这种向量表示,机器理解为A和B完全在表示不同的意义。而事实上,如果在词的高维空间上看,电脑和微机的维是很近似的,正交性是很低的。:   :    如果能够将高维空间上,近义词或者表示接近的词的维度“捏“成一个维度,比如电脑和微机这两个词被捏成了第2维,但是每个词在这个维上的权重给与不同的度量(比如概率)。:    这样上诉例子变为: :    A={x,2*pi,x,...x},pi表示电脑这个词到Topic2的转移概率。:    B={x,3*pj,x,...x}: :    这样,A和B看上去在第二个Topic上显示了一定的相关性。: :    由于Topic是被捏后的产物,每个Topic的正交性直观上看都很强,LDA开源的工具做出的结果可以把转移到TOpic最Top的那些词提取出来,都是十分相关或近似的词。而Topic与Topic之间显示出很大的差异性。: :    短文本分类的商业价值是很大的,在视频分类,广告分类上都可以看作是短文本分类问题,我有幸做了一些这方面的工作,其中提到的短文本的扩展是很好的思路。: :    问答系统商业价值也很巨大,特别是封闭领域的问答系统,可以拦截投诉,用户提问,降低人工成本。开放领域的问答系统商业上感觉前途有限,当然把搜索引擎的搜索结果进一步精化的思路肯定是搜索引擎的一个方向,用户会越来越懒,搜索引擎已经让用户懒了一些,还需要让用户继续懒下去。: : :    : --: 硕士要啥自行车啊  : : : ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]--※ 来源:·水木社区 newsmth.net·[FROM: 202.108.12.*]   [本篇全文] [回复文章] [本篇作者:SmartCASIA] [回信给作者] [进入讨论区] [返回顶部] 3 发信人: SmartCASIA (被牛粪熏倒), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 10:40:39 2008), 站内nod,短文分类特别是完整不完整的query分类,有助于Semantic基础上理解用户Query的意图,适合用户越来越懒不能提供完整语句的情况【 在 pennyliang (pennyliang) 的大作中提到: 】:    rocchio算法,读作“Rockey-O”。:   :    LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。: ...................--※ 来源:·水木社区 http://newsmth.net·[FROM: 211.82.100.*]   [本篇全文] [回复文章] [本篇作者:duckyaya] [回信给作者] [进入讨论区] [返回顶部] 4 发信人: duckyaya (Sometimes Love Just Ain't Enough), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 11:15:33 2008), 站内赞!说得很好。【 在 pennyliang (pennyliang) 的大作中提到: 】:    rocchio算法,读作“Rockey-O”。:    LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。:    例如,如果一个文档A,包含电脑这个关键词,那么A向量化后可能是,比如电脑这个词是: ...................--一个人,也挺好:)※ 来源:·水木社区 newsmth.net·[FROM: 59.66.206.52]   [本篇全文] [回复文章] [本篇作者:zibuyu] [回信给作者] [进入讨论区] [返回顶部] 5 发信人: zibuyu (得之我幸), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 11:25:41 2008), 站内我觉得现场有个问题问的很好阿,从实用角度来讲LSA,PLSA和LDA的效果会差别很大么?【 在 pennyliang (pennyliang) 的大作中提到: 】:    rocchio算法,读作“Rockey-O”。:    LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。:    例如,如果一个文档A,包含电脑这个关键词,那么A向量化后可能是,比如电脑这个词是: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 59.66.130.*]   [本篇全文] [回复文章] [本篇作者:duckyaya] [回信给作者] [进入讨论区] [返回顶部] 6 发信人: duckyaya (Sometimes Love Just Ain't Enough), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 11:45:39 2008), 站内LSA是不实用的用PLSA吧【 在 zibuyu (得之我幸) 的大作中提到: 】: 我觉得现场有个问题问的很好阿,从实用角度来讲LSA,PLSA和LDA: 的效果会差别很大么?--一个人,也挺好:)※ 来源:·水木社区 newsmth.net·[FROM: 59.66.125.231]   [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 7 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 12:07:32 2008), 站内    今天很不情愿地又要去菜场买一天的菜,我就在想,要是有一个组织能够代办,代买商品就好了。比如现在有淘宝网,未来可能有代淘宝网,有人可能说这可能会失去购物的兴趣,其实我们买米,不也一样失去了种庄稼的乐趣嘛。         就好像版聚的问答系统,问题是蜘蛛有几条腿,结果是直接给出8条腿的答案,而不是让用户在搜索结果中找,代办的这种思想应该也算是问答系统的精髓了吧。    【 在 psm (阿肥) 的大作中提到: 】: 对,人类的懒惰,是科技发展的动力。呵呵--硕士要啥自行车啊  ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]   [本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部] 8 发信人: kaineci (皮皮), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 12:56:51 2008), 站内machine learning journal有篇半监督学习的paper(具体忘了啥名字了),我们用来做短文本分析效果很好。思想也特别简单。不过在高维的时候,这些线性代数的方法统统是不scale的。所以,现实中得用启发式的方法来代替。a framework for learning predictive structures from multiple tasks and unlabeled data【 在 pennyliang (pennyliang) 的大作中提到: 】:    rocchio算法,读作“Rockey-O”。:    LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。:    例如,如果一个文档A,包含电脑这个关键词,那么A向量化后可能是,比如电脑这个词是: ...................--※ 修改:·kaineci 于 Nov 16 15:44:38 2008 修改本文·[FROM: 124.205.30.*]※ 来源:·水木社区 newsmth.net·[FROM: 124.205.30.*]   [本篇全文] [回复文章] [本篇作者:kaineci] [回信给作者] [进入讨论区] [返回顶部] 9 发信人: kaineci (皮皮), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 13:14:25 2008), 站内其实一沱矩阵算法来整,不如加入知识库来的scale或者简单,而且可解释。这些个方法挖研究坑可以,实用起来。呵呵。年初,试验了这些方法和利用整理知识库后,做短文本分类。效果后者更好。当然如何半自动的整理知识库是个很大的问题。这次自然语言处理大会,看到很多家(包括ali)都有很丰富的知识库了。ps:昨天有事,没有参加这次版聚。错过了讨论的机会。【 在 pennyliang (pennyliang) 的大作中提到: 】:    rocchio算法,读作“Rockey-O”。:    LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。:    例如,如果一个文档A,包含电脑这个关键词,那么A向量化后可能是,比如电脑这个词是: ...................--※ 来源:·水木社区 newsmth.net·[FROM: 124.205.30.*]   [本篇全文] [回复文章] [本篇作者:wqfeng] [回信给作者] [进入讨论区] [返回顶部] 10 发信人: wqfeng (wqfeng), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 14:30:09 2008), 站内哎呀,有事没去成这个版聚真是遗憾啊。这个问题我也很想了解下。我想做一下词语的聚类,就是不知道用LSA,plsa,LDA哪个好。能否指导一下。我记得前不久一次lijinghui老师的报告中,貌似他以前在新加坡做的就是用的是LSA做的。【 在 zibuyu (得之我幸) 的大作中提到: 】: 我觉得现场有个问题问的很好阿,从实用角度来讲LSA,PLSA和LDA: 的效果会差别很大么?--※ 来源:·水木社区 http://newsmth.net·[FROM: 159.226.21.*]   [本篇全文] [回复文章] [本篇作者:kindy] [回信给作者] [进入讨论区] [返回顶部] 11 发信人: kindy (), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 15:28:16 2008), 站内梁总说的很好【 在 pennyliang (pennyliang) 的大作中提到: 】:    rocchio算法,读作“Rockey-O”。:   :    LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。: ...................--※ 来源:·水木社区 http://newsmth.net·[FROM: 123.116.149.*]   [本篇全文] [回复文章] [本篇作者:ddslayers] [回信给作者] [进入讨论区] [返回顶部] 12 发信人: ddslayers (Lucifer), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 17:54:16 2008), 站内同感兴趣【 在 zibuyu (得之我幸) 的大作中提到: 】: 我觉得现场有个问题问的很好阿,从实用角度来讲LSA,PLSA和LDA: 的效果会差别很大么?--※ 来源:·水木社区 newsmth.net·[FROM: 222.130.190.*]   [本篇全文] [回复文章] [本篇作者:agui1] [回信给作者] [进入讨论区] [返回顶部] 13 发信人: agui1 (无雪无痕), 信区: SearchEngineTech标  题: Re: 总结一下我的一些提问和感想发信站: 水木社区 (Sun Nov 16 21:23:27 2008), 站内不错不错。【 在 pennyliang (pennyliang) 的大作中提到: 】:    rocchio算法,读作“Rockey-O”。:   :    LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。: ...................--※ 来源:·水木社区 http://newsmth.net·[FROM: 58.31.66.*] http://www.newsmth.net/bbscon.php?bid=715&id=10919


阅读全文(1322) | 回复(0) | 编辑 | 精华
 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.031 second(s), page refreshed 144814949 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号