以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术 』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  web 挖掘工具一览,及详细介绍  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=37776)


--  作者:pennyliang
--  发布时间:9/10/2006 5:29:00 PM

--  web 挖掘工具一览,及详细介绍
1)MALLET

A Machine Learning for Language Toolkit
http://mallet.cs.umass.edu/
“an integrated collection of Java code useful for statistical natural language processing, document classification, clustering, information extraction, and other machine learning applications to text”
Minimally documented but has lots of stuff:
Building feature vectors
Various classification methods (Naïve Bayes, max-ent, boosting, winnowing)
Evaluation: precision, recall, F1, etc.
N-grams
Selecting features using information gain
They have some examples of front-end code


--  作者:pennyliang
--  发布时间:9/10/2006 5:30:00 PM

--  
2)MinorThird
http://minorthird.sourceforge.net/
“a collection of Java classes for storing text, annotating text, and learning to extract entities and categorize text”
Documentation seems to be pretty good: comprehensive Javadocs, tutorial, FAQ…
Has the concept of “spans” (sequences of words) that can be extracted and classified based on content or context
Stored documents can be annotated in independent files using TextLabels (denoting, say, part-of-speech and semantic information)
--  作者:pennyliang
--  发布时间:9/10/2006 5:30:00 PM

--  
3)Weka
http://www.cs.waikato.ac.nz/~ml/weka/
“Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes.”
Has a GUI
Extensive documentation
Website lists a number of compatible datasets (regression and classification problems)
Also lists many Weka-related projects

--  作者:pennyliang
--  发布时间:9/10/2006 5:31:00 PM

--  
4)CLUTO
http://www-users.cs.umn.edu/~karypis/cluto/
“a software package for clustering low- and high-dimensional datasets and for analyzing the characteristics of the various clusters”
Partitional, agglomerative and graph-partitioning algorithms
Various similarity/distance metrics
Many options/tools for visualizing and summarizing clustering results
Claims to scale to hundreds of thousands of objects in tens of thousands of dimensions
wCluto: web-based application built on CLUTO
gCluto: cross-platform graphical application
--  作者:pennyliang
--  发布时间:9/10/2006 5:31:00 PM

--  
5)MG4J:
http://mg4j.dsi.unimi.it/
“a collaborative effort aimed at providing a free Java implementation of inverted-index compression techniques; as a by-product, it offers several general-purpose optimised classes, including fast & compact mutable strings, bit-level I/O, fast unsynchronised buffered streams, (possibly signed) minimal perfect hashing for very large strings collections, etc.”
--  作者:rainbow7
--  发布时间:10/9/2006 2:20:00 PM

--  
thank Y
--  作者:eviltear
--  发布时间:10/10/2006 5:42:00 PM

--  
狂赞一下
--  作者:zhengger
--  发布时间:10/13/2006 10:40:00 PM

--  
多谢,顺便恭喜一下楼主。
--  作者:jin
--  发布时间:1/17/2007 2:03:00 PM

--  
晕。。又是英文
--  作者:fqcx23
--  发布时间:5/31/2007 2:07:00 PM

--  
谢谢
--  作者:ippocket
--  发布时间:6/9/2007 9:04:00 PM

--  
有免费的么?
--  作者:lovezhou_2006
--  发布时间:7/7/2007 10:12:00 AM

--  
真实太好了!!
--  作者:locoroco
--  发布时间:9/27/2007 7:39:00 PM

--  
天呀,要学的太多了
--  作者:JustWind
--  发布时间:9/29/2007 6:18:00 PM

--  
Weka还稍微熟悉一点

--  作者:DMman
--  发布时间:9/29/2007 8:53:00 PM

--  
大师们多是用matlab编写改进算法做实验的


--  作者:senjoso
--  发布时间:10/7/2007 12:15:00 AM

--  
Net percerptions,不是都说这个。
--  作者:zhkf603
--  发布时间:5/10/2008 12:20:00 AM

--  
很好,很强!~~~~
--  作者:zhkf603
--  发布时间:5/15/2008 11:28:00 PM

--  
为什么好东西都是英文的?!~~~~~~~
--  作者:maxiaoyan123
--  发布时间:6/17/2008 9:50:00 AM

--  
lz真是好人啊,谢谢
--  作者:dingshanhu
--  发布时间:6/30/2008 5:08:00 PM

--  
赞一个!
--  作者:sesamfox
--  发布时间:10/28/2008 9:14:00 PM

--  
1)MALLET
一种基于Toolkit语言的机器学习工具。http://mallet.cs.umass.edu/
“一个集成Java代码收集,对统计自然语言处理,文档分类,聚类,信息抽取和其他机器学习在文本上的应用很有用”
记载很少但是功能很充实,建立特征向量,各种分类方法(Naïve ,贝叶斯,max-ent, boosting, winnowing)评估,精确,重唤F1,等等
N-grams
用信息获取选择特征,在前后代码当中有很多样本

2)MinorThird
http://minorthird.sourceforge.net/
“Java用于存储文本,注释文本和学习抽取标题和分类文本”
文档看上去很好,很容易理解的Javadocs, tutorial, FAQ…
有跨度的概念(词的序列)可以基于目录或文本进行抽取和分类
存储文档可以用文本标签(denoting, say, part-of-speech and semantic information)注解在独立的文件当中


--  作者:sesamfox
--  发布时间:10/28/2008 9:39:00 PM

--  
weka就不翻了吧
大家都很熟悉了
--  作者:freedom2k
--  发布时间:12/3/2008 11:26:00 AM

--  
不错,介绍的比较及时
--  作者:serenabear
--  发布时间:3/13/2009 2:37:00 PM

--  
请问这些工具在哪儿可以下载呀?
--  作者:serenabear
--  发布时间:3/13/2009 2:38:00 PM

--  
请问这些工具在哪儿可以下载呀?
--  作者:yjf19830610
--  发布时间:4/13/2009 10:25:00 AM

--  
ok
--  作者:青鸟之梦
--  发布时间:6/3/2009 11:03:00 AM

--  
看不懂的啦,555
--  作者:amongchina
--  发布时间:10/15/2009 9:36:00 PM

--  真的不错,看看好用不
真的不错,看看好用不,谢谢

[url=http://www.amongchina.com.cn]web design,seo/sem,php development,wordpress,drupal,megento development[/url]

[url=http://www.tianzhenfang.com]中国儿童学前教育,儿童美工,儿童手工,儿童漫画,儿童涂色画,下载[/url]

[url=http://www.amongchina.com.cn/blog] web design blog,seo/sem blog[/url]


--  作者:graduter
--  发布时间:11/8/2009 12:40:00 AM

--  
很不错,顶一下
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
121.094ms