|
以文本方式查看主题 - 中文XML论坛 - 专业的XML技术讨论区 (http://bbs.xml.org.cn/index.asp) -- 『 Web挖掘技术 』 (http://bbs.xml.org.cn/list.asp?boardid=69) ---- web 挖掘工具一览,及详细介绍 (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=37776) |
|
-- 作者:pennyliang -- 发布时间:9/10/2006 5:29:00 PM -- web 挖掘工具一览,及详细介绍 1)MALLET A Machine Learning for Language Toolkit |
|
-- 作者:pennyliang -- 发布时间:9/10/2006 5:30:00 PM -- 2)MinorThird http://minorthird.sourceforge.net/ “a collection of Java classes for storing text, annotating text, and learning to extract entities and categorize text” Documentation seems to be pretty good: comprehensive Javadocs, tutorial, FAQ… Has the concept of “spans” (sequences of words) that can be extracted and classified based on content or context Stored documents can be annotated in independent files using TextLabels (denoting, say, part-of-speech and semantic information) |
|
-- 作者:pennyliang -- 发布时间:9/10/2006 5:30:00 PM -- 3)Weka http://www.cs.waikato.ac.nz/~ml/weka/ “Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes.” Has a GUI Extensive documentation Website lists a number of compatible datasets (regression and classification problems) Also lists many Weka-related projects |
|
-- 作者:pennyliang -- 发布时间:9/10/2006 5:31:00 PM -- 4)CLUTO http://www-users.cs.umn.edu/~karypis/cluto/ “a software package for clustering low- and high-dimensional datasets and for analyzing the characteristics of the various clusters” Partitional, agglomerative and graph-partitioning algorithms Various similarity/distance metrics Many options/tools for visualizing and summarizing clustering results Claims to scale to hundreds of thousands of objects in tens of thousands of dimensions wCluto: web-based application built on CLUTO gCluto: cross-platform graphical application |
|
-- 作者:pennyliang -- 发布时间:9/10/2006 5:31:00 PM -- 5)MG4J: http://mg4j.dsi.unimi.it/ “a collaborative effort aimed at providing a free Java implementation of inverted-index compression techniques; as a by-product, it offers several general-purpose optimised classes, including fast & compact mutable strings, bit-level I/O, fast unsynchronised buffered streams, (possibly signed) minimal perfect hashing for very large strings collections, etc.” |
|
-- 作者:rainbow7 -- 发布时间:10/9/2006 2:20:00 PM -- thank Y |
|
-- 作者:eviltear -- 发布时间:10/10/2006 5:42:00 PM -- 狂赞一下 |
|
-- 作者:zhengger -- 发布时间:10/13/2006 10:40:00 PM -- 多谢,顺便恭喜一下楼主。 |
|
-- 作者:jin -- 发布时间:1/17/2007 2:03:00 PM -- 晕。。又是英文 |
|
-- 作者:fqcx23 -- 发布时间:5/31/2007 2:07:00 PM -- 谢谢 |
|
-- 作者:ippocket -- 发布时间:6/9/2007 9:04:00 PM -- 有免费的么? |
|
-- 作者:lovezhou_2006 -- 发布时间:7/7/2007 10:12:00 AM -- 真实太好了!! |
|
-- 作者:locoroco -- 发布时间:9/27/2007 7:39:00 PM -- 天呀,要学的太多了 |
|
-- 作者:JustWind -- 发布时间:9/29/2007 6:18:00 PM -- Weka还稍微熟悉一点 顶 |
|
-- 作者:DMman -- 发布时间:9/29/2007 8:53:00 PM -- 大师们多是用matlab编写改进算法做实验的
|
|
-- 作者:senjoso -- 发布时间:10/7/2007 12:15:00 AM -- Net percerptions,不是都说这个。 |
|
-- 作者:zhkf603 -- 发布时间:5/10/2008 12:20:00 AM -- 很好,很强!~~~~ |
|
-- 作者:zhkf603 -- 发布时间:5/15/2008 11:28:00 PM -- 为什么好东西都是英文的?!~~~~~~~ |
|
-- 作者:maxiaoyan123 -- 发布时间:6/17/2008 9:50:00 AM -- lz真是好人啊,谢谢 |
|
-- 作者:dingshanhu -- 发布时间:6/30/2008 5:08:00 PM -- 赞一个! |
|
-- 作者:sesamfox -- 发布时间:10/28/2008 9:14:00 PM -- 1)MALLET 一种基于Toolkit语言的机器学习工具。http://mallet.cs.umass.edu/ “一个集成Java代码收集,对统计自然语言处理,文档分类,聚类,信息抽取和其他机器学习在文本上的应用很有用” 记载很少但是功能很充实,建立特征向量,各种分类方法(Naïve ,贝叶斯,max-ent, boosting, winnowing)评估,精确,重唤F1,等等 N-grams 用信息获取选择特征,在前后代码当中有很多样本 2)MinorThird |
|
-- 作者:sesamfox -- 发布时间:10/28/2008 9:39:00 PM -- weka就不翻了吧 大家都很熟悉了 |
|
-- 作者:freedom2k -- 发布时间:12/3/2008 11:26:00 AM -- 不错,介绍的比较及时 |
|
-- 作者:serenabear -- 发布时间:3/13/2009 2:37:00 PM -- 请问这些工具在哪儿可以下载呀? |
|
-- 作者:serenabear -- 发布时间:3/13/2009 2:38:00 PM -- 请问这些工具在哪儿可以下载呀? |
|
-- 作者:yjf19830610 -- 发布时间:4/13/2009 10:25:00 AM -- ok |
|
-- 作者:青鸟之梦 -- 发布时间:6/3/2009 11:03:00 AM -- 看不懂的啦,555 |
|
-- 作者:amongchina -- 发布时间:10/15/2009 9:36:00 PM -- 真的不错,看看好用不 真的不错,看看好用不,谢谢 [url=http://www.amongchina.com.cn]web design,seo/sem,php development,wordpress,drupal,megento development[/url] [url=http://www.tianzhenfang.com]中国儿童学前教育,儿童美工,儿童手工,儿童漫画,儿童涂色画,下载[/url] [url=http://www.amongchina.com.cn/blog] web design blog,seo/sem blog[/url] |
|
-- 作者:graduter -- 发布时间:11/8/2009 12:40:00 AM -- 很不错,顶一下 |
|
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
121.094ms |