本站首页    管理页面    写新日志    退出


«may 2026»
12
3456789
10111213141516
17181920212223
24252627282930
31


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接


Blog信息
blog名称:
日志总数:32
评论数量:9
留言数量:-1
访问次数:112965
建立时间:2008年12月3日




矩阵运算引起的换页错误,大家有什么方案
原创空间

liangbin 发表于 2008/12/3 23:40:20

发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Sun Jun 29 11:03:37 2008), 站内  问题如下,比如一个boolean矩阵,为term*doc。即行表示term.列表示doc.     1 2 3 4 5 6   0 | 0 0 0 0 0 1 1 | 0 1 0 1 0 0 2 | 1 0 1 0 1 1  表示doc1包含term2,doc2包含term1,...doc6包含term0,term2  在访问的时候,希望由term,取doclist,因此希望是按行读取.  例如取term2,取出1 0 1 0 1 1     但是在创建这个矩阵时就必须按列存储,如果矩阵的列足够大,几乎在创建的时候每存一个值都可能是一个page fault,也就是一个n*m的矩阵,如果m足够大,则可能会造成m*n次page fault。大家有何高见,进来探讨一下?  --硕士要啥自行车啊  ※ 修改:·pennyliang 于 Jun 29 20:53:23 2008 修改本文·[FROM: 58.30.83.*]※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:shuke] [回信给作者] [进入讨论区] [返回顶部] 2 发信人: shuke (小白), 信区: SearchEngineTech标  题: Re: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Sun Jun 29 13:34:44 2008), 站内batch一下?一次读m1个文档,得到一个n*m1的小矩阵,再一次性拷贝到你的大矩阵里,只有n次page fault。总共是n*m/m1次page fault.【 在 pennyliang (pennyliang) 的大作中提到: 】:   问题如下,比如一个boolean矩阵,为term*doc。即行表示term.列表示doc.:      1 2 3 4 5 6  :  0 | 0 0 0 0 0 1: ...................--    小白是小新的宠物狗。over.※ 来源:·水木社区 http://newsmth.net·[FROM: 65.57.245.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 3 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Mon Jun 30 12:26:56 2008), 站内   小白同学曹冲称象的方法不错【 在 shuke (小白) 的大作中提到: 】: batch一下?一次读m1个文档,得到一个n*m1的小矩阵,再一次性拷贝到你的大矩阵里,只有n次page fault。总共是n*m/m1次page fault.--硕士要啥自行车啊  ※ 来源:·水木社区 newsmth.net·[FROM: 211.99.222.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 4 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Tue Jul 15 12:31:35 2008), 站内如果那位同学面试遇到这个题目答这三点,可以堪称完美(1)sort(2)compress   (3)partition【 在 shuke (小白) 的大作中提到: 】: batch一下?一次读m1个文档,得到一个n*m1的小矩阵,再一次性拷贝到你的大矩阵里,只有n次page fault。总共是n*m/m1次page fault.--硕士要啥自行车啊  ※ 来源:·水木社区 newsmth.net·[FROM: 211.99.222.*] [本篇全文] [回复文章] [本篇作者:houzhijiang] [回信给作者] [进入讨论区] [返回顶部] 5 发信人: houzhijiang (算法+编程+口语), 信区: SearchEngineTech标  题: Re: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Sun Jul 20 10:08:13 2008), 站内详细解释一下?【 在 pennyliang (pennyliang) 的大作中提到: 】: 如果那位同学面试遇到这个题目答这三点,可以堪称完美: (1)sort: (2)compress   : ...................--※ 来源:·水木社区 http://newsmth.net·[FROM: 221.131.61.*] [本篇全文] [回复文章] [本篇作者:ignace] [回信给作者] [进入讨论区] [返回顶部] 6 发信人: ignace (心茫然-坚持,信任), 信区: SearchEngineTech标  题: Re: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Sun Jul 20 10:15:54 2008), 站内page fault是啥意思出题目的人知道么?而且,这个也不是系统的主要瓶颈,热点..【 在 pennyliang (pennyliang) 的大作中提到: 】:   问题如下,比如一个boolean矩阵,为term*doc。即行表示term.列表示doc.:      1 2 3 4 5 6  :  0 | 0 0 0 0 0 1: ...................--心若在灿烂中死去爱会在灰烬里重生※ 来源:·水木社区 newsmth.net·[FROM: 211.99.222.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 7 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Sun Jul 20 17:45:48 2008), 站内内存和对换区来回换。如果虚拟的页不再内存中,则发生一次从磁盘调页的工作。称这个为一次page-fault.如果虚拟的页在内存中,则直接用之。一般小数据集的计算,工作集很快就能达到稳定,因此page-fault的机会很少,但是海量数据处理,这种局部性就差。不知道我理解的对不对。【 在 ignace (心茫然-坚持,信任) 的大作中提到: 】: page fault是啥意思出题目的人知道么?: 而且,这个也不是系统的主要瓶颈,热点..--硕士要啥自行车啊  ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 8 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Sun Jul 20 18:02:05 2008), 站内MG一书的作者花了一章来解释这个问题。。。排序,就是变随机访问为顺序访问。做过索引的人应该懂,我就不展开了。压缩,索引项不同分量压缩方法是不同的,d-gap,occur-gap,压缩后可以降低大量磁盘IO。切分,这个就更容易了,把大任务分解成若干小任务。如果我们想像一下有这样的机器,问题就简单了。(1)内存足够大,不需要对换区,完全不可能出现page-fault(2)内存不分页,采用早期的内存管理方法,比如可变分区方法等。【 在 houzhijiang (算法+编程+口语) 的大作中提到: 】: 详细解释一下?--硕士要啥自行车啊  ※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*] [本篇全文] [回复文章] [本篇作者:duckyaya] [回信给作者] [进入讨论区] [返回顶部] 9 发信人: duckyaya (女人们的咖啡), 信区: SearchEngineTech标  题: Re: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Sun Jul 20 18:16:25 2008), 站内看来并行是王道【 在 pennyliang (pennyliang) 的大作中提到: 】: MG一书的作者花了一章来解释这个问题。。。: 排序,就是变随机访问为顺序访问。做过索引的人应该懂,我就不展开了。: 压缩,索引项不同分量压缩方法是不同的,d-gap,occur-gap,压缩后可以降低大量磁盘IO。: ...................--自动对联机:床前明月光枕上有美女床前明月光案上青春色※ 来源:·水木社区 newsmth.net·[FROM: 202.106.180.35] [本篇全文] [回复文章] [本篇作者:ignace] [回信给作者] [进入讨论区] [返回顶部] 10 发信人: ignace (心茫然-坚持,信任), 信区: SearchEngineTech标  题: Re: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Sun Jul 20 23:07:23 2008), 站内有内存不够这个前提,那是对的我开始没想到这茬【 在 pennyliang (pennyliang) 的大作中提到: 】: 内存和对换区来回换。如果虚拟的页不再内存中,则发生一次从磁盘调页的工作。称这个为一次page-fault.: 如果虚拟的页在内存中,则直接用之。: 一般小数据集的计算,工作集很快就能达到稳定,因此page-fault的机会很少,但是海量数据处理,这种局部性就差。: ...................--心若在灿烂中死去爱会在灰烬里重生※ 来源:·水木社区 newsmth.net·[FROM: 211.99.222.*] [本篇全文] [回复文章] [本篇作者:ignace] [回信给作者] [进入讨论区] [返回顶部] 11 发信人: ignace (心茫然-坚持,信任), 信区: SearchEngineTech标  题: Re: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Sun Jul 20 23:09:57 2008), 站内排序过程必然也会有大量的page fault啊,如果工作集很大的话如何计算带来的好处呢?  MG里应该有说明, 不过,在这里能不能简单解释一下,让我们能快点理解这个问题MG书是啥.有空学习学习去.【 在 pennyliang (pennyliang) 的大作中提到: 】: MG一书的作者花了一章来解释这个问题。。。: 排序,就是变随机访问为顺序访问。做过索引的人应该懂,我就不展开了。: 压缩,索引项不同分量压缩方法是不同的,d-gap,occur-gap,压缩后可以降低大量磁盘IO。: ...................--心若在灿烂中死去爱会在灰烬里重生※ 来源:·水木社区 newsmth.net·[FROM: 211.99.222.*] [本篇全文] [回复文章] [本篇作者:pennyliang] [回信给作者] [进入讨论区] [返回顶部] 12 发信人: pennyliang (pennyliang), 信区: SearchEngineTech标  题: Re: 矩阵运算引起的换页错误,大家有什么方案发信站: 水木社区 (Mon Jul 21 06:48:28 2008), 站内排序分为,内排和外排两部。内排尽可能用已有内存,排出有序归并段,sorted merge runs.外排通过原地的多路归并排除最后的顺序。内排不会有page fault的。外排在堆中完成,也都是在可用内存内完成,所以也不会有page fault【 在 ignace (心茫然-坚持,信任) 的大作中提到: 】: 排序过程必然也会有大量的page fault啊,如果工作集很大的话: 如何计算带来的好处呢?  MG里应该有说明, 不过,: 在这里能不能简单解释一下,: ...................--硕士要啥自行车啊  ※ 修改:·pennyliang 于 Jul 21 06:48:50 2008 修改本文·[FROM: 58.30.83.*]※ 来源:·水木社区 newsmth.net·[FROM: 58.30.83.*]http://www.newsmth.net/bbstcon.php?board=SearchEngineTech&gid=7799


阅读全文(1316) | 回复(0) | 编辑 | 精华
 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.418 second(s), page refreshed 144826708 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号