本站首页 管理页面写新日志退出

« June 2026 »
日一二三四五六
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

公告

暂无公告...

我的分类（专题）

首页(14)
设计模式(0)
论文(9)
操作系统(0)
开源框架(0)
Lucene(3)
搜索引擎(2)

日志更新

留言板

签写新留言

留言

链接

Blog信息

blog名称:
日志总数:14
评论数量:24
留言数量:0
访问次数:55376
建立时间:2007年12月28日

[搜索引擎]信息检索相关资料（pku）
网上资源, 电脑与网络

bg1011 发表于 2007/12/30 19:30:11

　信息检索领域相关资料 (A Guide to Information Retrieval) Organized by Hongfei Yan Last updated on July 27, 2007 --------------------- Contents Books + Finding Out About: Search Engine Technology from a cognitive Perspective (Belew, R.K., 2000) http://www-cse.ucsd.edu/~rik/foa/ + Foundations of Statistical Natural (C. Manning and H. Schutze, 1999) + Information Retrieval, 2nd edition (C.J. van Rijsbergen, 1979) (full text) http:

阅读全文(3028) | 回复(1) | 编辑 | 精华 | 删除

[Lucene]FS包实现
文章收藏, 软件技术

bg1011 发表于 2007/12/28 22:12:40

　在此包中，最重要的是FileSystem抽象类。它定义了文件系统中涉及的一些基本操作，如：create，rename，delete...另外包括一些分布式文件系统具有的操作：copyFromLocalFile, copyToLocalFile,...类似于Ftp中put和get操作。 LocalFileSystem和DistributedFileSystem，继承于此类，分别实现了本地文件系统和分布式文件系统。
了解了最重要的类之后，看一看它的一系列stream类：

* FSOutputStream 在原有OutputStream基础之上添加了获得文件指针偏移量的getPos方法。可以通过FileSystem的 createRaw获得它的实例。这里存在一个疑问，这个扩展的getPos方法在fs包中没有被使用。如果在其余包中同样没有被使用，那么扩展就显得多余。

* FSInputStream在原有InputStr

阅读全文(3434) | 回复(0) | 编辑 | 精华 | 删除

[Lucene]Hadoop--海量文件的分布式计算处理方案
文章收藏, 软件技术

bg1011 发表于 2007/12/28 22:09:26

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验，就可以处理超大的分布式系统得资源。     一、概论     作为Hadoop程序员，他要做的事情就是：
    1、定义Mapper，处理输入的Key-Value对，输出中间结果。
    2、定义Reducer，可选，对中间结果进行规约，输出最终结果。

阅读全文(1956) | 回复(0) | 编辑 | 精华 | 删除

[Lucene]Hadoop In Action 2
网上资源, 软件技术

bg1011 发表于 2007/12/28 22:06:20

　
(下面还有329字)

阅读全文(3305) | 回复(0) | 编辑 | 精华 | 删除

[论文]Lucene索引及其优化研究3
(需密码) 原创空间, 软件技术, 科学研究

bg1011 发表于 2007/12/28 22:01:20

此日志需要密码访问。

(下面还有229字)

阅读全文(1848) | 回复(0) | 编辑 | 精华 | 删除

[论文]Lucene索引及其优化研究2
(需密码) 原创空间, 软件技术, 科学研究

bg1011 发表于 2007/12/28 22:00:12