本站首页    管理页面    写新日志    退出

公告

宿命宽恕轮回修仙


我的分类(专题)

日志更新

最新评论

留言板

链接

-----------数据挖掘-----------

Data Mining Community's Top Resource(KDnuggets)
Information Management(DMReview)
STATISTICA Software(StatSoft)
IIR USA(CRM Community)
Editor's Picks(CustomerThink)
Data Mining Group
ACM SIGKDD(DM顶级国际会议)
SourceForge.NET(Open Source Software)

SAS
SPSS
KXEN
WEKA
AlphaMiner
RapidMiner

中国万维网联盟(W3CHINA)
中国统计网
数据库专委会
数据挖掘研究院(China Data Mining Research)
LAMDA机器学习与数据挖掘研究组
北京大学计算语言学研究所
北京大学Dlib组
哈工大信息检索研究室论坛
神威学术资源中心

CRMSKY
数据挖掘学习交流论坛
计算机科学论坛
数据分析论坛
Weka中文站
R语言中文论坛
SAS中文论坛

ECT 584

-----------同行博客-----------

数据挖掘者(IDMer)
数据挖掘青年(DMman)
数据挖掘斗士(DMFighter)
神威异度空间
一维空间
不准阁
不断学习
欧燊怡
Datamining&BI
王义
Koala++

-----------学者信息-----------

Jiawei Han(韩家炜)
张鹏
曾元顯
吴俊杰

-----------回忆过去-----------

www.5im.cn
www.ustbhrm.com
www.finance3399.cn
www.xueyuanlu.cn
www.ccesr.com
econometrics.buaa.edu.cn

 


Blog信息
blog名称:宿命宽恕轮回修仙
日志总数:18
评论数量:3
留言数量:0
访问次数:114737
建立时间:2009年3月18日

«September 2025»
123456
78910111213
14151617181920
21222324252627
282930




[WEKA](转)利用Weka实现文本分类
文章收藏,  软件技术

宿命宽恕轮回修仙 发表于 2009/6/5 23:14:09

来源:http://www.w3china.org/blog/more.asp?name=DMman&id=25987 1 介绍:嵌入式机器学习,在自己的算法中调用Weka现文本分类,是一个小的数据挖掘程序,虽然实用价值不是很大,但对于Weka的理解和使用是有帮助的。本例子来自《数据挖掘:实用机器学习技术》第2版(好像是倒数第三章)。大家可以到http://blogger.org.cn/blog/message.asp?name=DMman#23691 下载该书察


阅读全文(2687) | 回复(0) | 编辑 | 精华 | 删除
 


[WEKA](转)WEKA编写新学习方案
文章收藏,  软件技术

宿命宽恕轮回修仙 发表于 2009/6/5 20:43:59

来源:http://blog.csdn.net/comlc/archive/2007/12/13/1933775.aspx 1.编写新学习方案
如果用户需要实现一个Weka所没有的特殊目的的学习算法,或者用户正在进行机器学习的研究,并且想试验一个新的学习方案,或者用户只是想通过亲自动手编程,了解更多有关一个归纳算法的内部运作,本节用一个简单的范例演示在编写分类器时,如何充分利用Weka的类的层级结构,从而满足用户的需要. Weka包含了表15-1中所列的基本的、主要用于教育目的的学习方案.表中的方案对于接受命令行选项没有特别要求.它们对于理解分类器的内部运作都很有用.我们会将weka.classifiers.trees.Id3作为一个例子讨论,该方案实现了第4.3节中的ID3决策树学习器.
表15-1 Weka中的简单学习方案 方案  描述


阅读全文(2787) | 回复(0) | 编辑 | 精华 | 删除
 


[WEKA](转)利用WEKA编写数据挖掘算法
文章收藏,  软件技术

宿命宽恕轮回修仙 发表于 2009/6/5 19:22:21

  WEKA是由新西兰怀卡托大学开发的开源项目。WEKA是由JAVA编写的,并且限制在GNU通用公众证书的条件下发布,可以运行在所有的操作系统中。WEKA工作平台包含能处理所有标准数据挖掘问题的方法:回归、分类、聚类、关联规则挖掘以及属性选择。作为数据挖掘爱好者自然要对WEKA的源代码进行分析并以及改进,努力写出自己的数据挖掘算法。
下面着重介绍一下如何利用WEKA编写新的数据挖掘算法:       注意:WEKA的版本有两个版本:稳定版(STABLE)和开发版(DEVELOP),不同WEKA版本与不同JDK的版本匹配,稳定版WEKA3-4的与JDK1.4.2匹配,而开发版WEKA3-5与JDK1.5匹配,WEKA

阅读全文(7846) | 回复(0) | 编辑 | 精华 | 删除
 


[WEKA](转)Weka3.5中使用LibSVM
文章收藏,  软件技术

宿命宽恕轮回修仙 发表于 2009/6/5 19:17:13

Dr. Y.Bao推荐数据试验中最好用上SVM的分类方法,让我们在Weka中使用LibSVM,我在网上差了半天,看到许多相同的被转来转去的帖子都讲得人晕头转向,尤其是像我这种Java基础不牢固的人更是不知所以,弄了半天走了不少弯路,不过最后总算是让我把LibSVM集成进Weka了,下面就以我自己的实际经验介绍一下最简单并且切实可行的方法: Weka3.5后增加了libsvm这个选项,在分类器中的functions下面。但是,试图运行的时候,系统提示:Problem uating classifier:libsvm classes not in CLASSPATH。这是因为Weka只是提供了Libsvm的Wrapper调用机制,必须要安装Libsvm后将附带的jar路径添加到Weka的启动路径中。怎么解决呢?我的Weka版本较新(3.5.7),不过我的方法适用于3.5以上的所有版本。 首先,在http://www.cs.iastate.edu/~yasser/wlsvm/上下载wl

阅读全文(6982) | 回复(1) | 编辑 | 精华 | 删除
 


[WEKA](转)对Weka中DBSCAN算法的分析以及在C#中的实现
文章收藏,  软件技术

宿命宽恕轮回修仙 发表于 2009/6/5 19:14:47

  DBSCAN算法是常用的数据挖掘算法。所有的聚类方法分为若干类型,前面讨论过的KMEANS算法是基于划分的方法进行聚类,而这次提到的DBSCAN算法是基于密度的方法。当然其它的还有基于层次凝聚和分裂的方法、基于模型的方法等。我先对Weka中实现的DBSCAN算法进行一个介绍和分析,然后再分析自己用C#实现的DBSCAN方法。但在这之前要解释几个概念,如果之前没有了解过这个算法的话,最好是先熟悉几个概念:epsilon-邻域、核心对象、(直接)密度可达、密度相连,这些概念可以在《数据挖掘概念与技术》一书中找到,了解这些概念对理解这个算法来说是很重要的。   我们先来看看在Weka中是如何实现DBSCAN算法的:   DBSCAN算法的源代码在Weka的weka.clusterers这个包中,文件名为DBScan.

阅读全文(2274) | 回复(0) | 编辑 | 精华 | 删除
 


[WEKA](转)如何向weka中添加新算法
文章收藏,  软件技术

宿命宽恕轮回修仙 发表于 2009/6/5 19:06:48

1.编写新算法,所编写的新算法必须符合Weka 的接口标准。在此以从Weka中文站上下载的一个算法(模糊C均值聚类算法:FuzzyCMeans)的添加为例说明其具体过程。 2.由于FuzzyCMeans是聚类算法,所以直接将FuzzyCMeans.java 源程序考到 weka.clusterers 包下。 3.再修改weka.gui.GenericObjectEditor.props ,在#Lists the Clusterers I want to choose from的weka.clusterers.Clusterer=\下加入:weka.clusterers.FuzzyCMeans。 4.相应的修改weka.gui.GenericPropertiesCreator.props ,此去不用修改,因为包weka.clusterers已经存在,若加入新的包时则必须修改这里,加入新的包。 加入之后,重新编译,运行后,可以在weka的Explorer界面上的Cluster选项卡中的聚类算法中找到刚

阅读全文(2471) | 回复(0) | 编辑 | 精华 | 删除
 


[WEKA](转)当weka遇到大数据集时
文章收藏,  软件技术

宿命宽恕轮回修仙 发表于 2009/6/2 20:46:37

用的数据集是Reuters-21578和20个新闻组。结果光是前者,我还只是选择了其中的7个类别,最后生成的训练集的arff文件就有150MB。
我为此还换了个1G的内存。调整了JVM的大小,居然还是不行。有没有高人指点一下呢。 150M的训练集用WEKA做起来应该比较困难。我想有这么几个办法: 1 增加内存。 其实WEKA不光可以用物理内存,还可以占用虚拟内存。把JAVA的可用内存设置成2G的话,如果机器的物理内存只有1G,操作系统是会在需要时自动在硬盘上划分一块出来作为虚拟内存的。不过这时候一般会处理得比较慢,因此不推荐这个方法。 2 抽样。从训练集中随机抽取一部分数据来作训练。在二分类的时候,一般样本数量达到几千个时就能预测得比较准确了。如果几千个样本还不怎么准,那要么是所用的分类算法不适合,要么数据中的输入变量根本无法预测目标变量。
我试过了KDD 99中“kddcup.data_10_percent” 数据集,接近50万条数据,做成ARFF文件后有70多M。在Explorer中10来秒就载入了,抽取1%

阅读全文(2455) | 回复(0) | 编辑 | 精华 | 删除
 


[WEKA](转)开源机器学习:R Meets Weka
文章收藏,  软件技术

宿命宽恕轮回修仙 发表于 2009/6/2 20:40:24

背景介绍:
1)Weka:
Weka有两种意思:一种不会飞的鸟的名字,一个机器学习开源项目的简称(Waikato Environment for Knowledge Analysis,http://www.cs.waikato.ac.nz/~ml/weka/)。我们这里当然要介绍的是第二种意思啦,Weka项目从1992年开始,由新西兰政府支持,现在已在机器学习领域大名鼎鼎。Weka里有非常全面的机器学习算法,包括数据预处理、分类、回归、聚类、关联规则等。Weka的图形界面对不会写程序的人来说非常方便,而且提供“KnowledgeFlow” 功能,允许将多个步骤组成一个工作流。另外,Weka也允许在命令行执行命令。
2)R
R就不用我废话了吧,呵呵,越来越受欢迎的统计软件(http://www.r-project.org/)。 <

阅读全文(1946) | 回复(0) | 编辑 | 精华 | 删除
 


[WEKA]WEKA源码
原创空间

宿命宽恕轮回修仙 发表于 2009/6/2 17:28:42

到WEKA官网http://www.cs.waikato.ac.nz/ml/weka/上下载WEKA安装程序。 安装后,把安装目录下的weka-src.jar文件解压后就是WEKA的源文件。

阅读全文(1135) | 回复(0) | 编辑 | 精华 | 删除
 


[WEKA]weka学习资料
网上资源

宿命宽恕轮回修仙 发表于 2009/6/2 17:24:01

书籍: 《数据挖掘:实用机器学习技术》第2版 论坛: WEKA中文论坛http://bbs.wekacn.org/index.php 电子书: 500)this.width=500" border=0>Expl

阅读全文(3087) | 回复(0) | 编辑 | 精华 | 删除
 


« 1 2 »



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.356 second(s), page refreshed 144772128 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号