本站首页    管理页面    写新日志    退出


«July 2025»
12345
6789101112
13141516171819
20212223242526
2728293031


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接


Blog信息
blog名称:
日志总数:14
评论数量:24
留言数量:0
访问次数:54312
建立时间:2007年12月28日




   

[搜索引擎]信息检索相关资料(pku)
网上资源,  电脑与网络

bg1011 发表于 2007/12/30 19:30:11

 信息检索领域相关资料 (A Guide to Information Retrieval) Organized by Hongfei Yan Last updated on July 27, 2007 --------------------- Contents Books + Finding Out About: Search Engine Technology from a cognitive Perspective (Belew, R.K., 2000) http://www-cse.ucsd.edu/~rik/foa/ + Foundations of Statistical Natural (C. Manning and H. Schutze, 1999) + Information Retrieval, 2nd edition (C.J. van Rijsbergen, 1979) (full text) http:


阅读全文(2987) | 回复(1) | 编辑 | 精华 | 删除
 


[Lucene]FS包实现
文章收藏,  软件技术

bg1011 发表于 2007/12/28 22:12:40

 在此包中,最重要的是FileSystem抽象类。它定义了文件系统中涉及的一些基本操作,如:create,rename,delete...另外包括一些分布式文件系统具有的操作:copyFromLocalFile, copyToLocalFile,...类似于Ftp中put和get操作。 LocalFileSystem和DistributedFileSystem,继承于此类,分别实现了本地文件系统和分布式文件系统。
了解了最重要的类之后,看一看它的一系列stream类:

    * FSOutputStream 在原有OutputStream基础之上添加了获得文件指针偏移量的getPos方法。可以通过FileSystem的 createRaw获得它的实例。这里存在一个疑问,这个扩展的getPos方法在fs包中没有被使用。如果在其余包中同样没有被使用,那么扩展就显得多余。

    * FSInputStream在原有InputStr


阅读全文(3412) | 回复(0) | 编辑 | 精华 | 删除
 


[Lucene]Hadoop--海量文件的分布式计算处理方案
文章收藏,  软件技术

bg1011 发表于 2007/12/28 22:09:26

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。     一、概论     作为Hadoop程序员,他要做的事情就是:
    1、定义Mapper,处理输入的Key-Value对,输出中间结果。
    2、定义Reducer,可选,对中间结果进行规约,输出最终结果。
   

阅读全文(1927) | 回复(0) | 编辑 | 精华 | 删除
 


[Lucene]Hadoop In Action 2
网上资源,  软件技术

bg1011 发表于 2007/12/28 22:06:20

 
(下面还有329字)

阅读全文(3273) | 回复(0) | 编辑 | 精华 | 删除
 


[论文]Lucene索引及其优化研究3
(需密码) 原创空间,  软件技术,  科学研究

bg1011 发表于 2007/12/28 22:01:20



(下面还有229字)

阅读全文(1821) | 回复(0) | 编辑 | 精华 | 删除
 


[论文]Lucene索引及其优化研究2
(需密码) 原创空间,  软件技术,  科学研究

bg1011 发表于 2007/12/28 22:00:12



(下面还有229字)

阅读全文(1784) | 回复(0) | 编辑 | 精华 | 删除
 


[论文]Lucene索引及其优化研究
原创空间,  软件技术,  科学研究

bg1011 发表于 2007/12/28 21:58:46

Lucene

阅读全文(4739) | 回复(1) | 编辑 | 精华 | 删除
 


[论文]基于BF的大规模网页去重策略研究4
(需密码) 原创空间,  软件技术,  科学研究

bg1011 发表于 2007/12/28 21:56:21


阅读全文(1510) | 回复(0) | 编辑 | 精华 | 删除
 


[论文]基于BF的大规模网页去重策略研究3
(需密码) 原创空间,  软件技术,  科学研究

bg1011 发表于 2007/12/28 21:54:28



(下面还有155字)

阅读全文(1371) | 回复(0) | 编辑 | 精华 | 删除
 


[论文]基于BF的大规模网页去重策略研究2
(需密码) 原创空间,  软件技术,  科学研究

bg1011 发表于 2007/12/28 21:53:16



(下面还有155字)

阅读全文(1658) | 回复(0) | 编辑 | 精华 | 删除
 


« 1 2 »



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.063 second(s), page refreshed 144757146 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号