Blog信息 |
blog名称:宿命宽恕轮回修仙 日志总数:18 评论数量:3 留言数量:0 访问次数:114737 建立时间:2009年3月18日 |
« | September 2025 | » | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | | | | | |

| |
[WEKA](转)利用Weka实现文本分类 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/5 23:14:09 |
来源:http://www.w3china.org/blog/more.asp?name=DMman&id=25987
1 介绍:嵌入式机器学习,在自己的算法中调用Weka现文本分类,是一个小的数据挖掘程序,虽然实用价值不是很大,但对于Weka的理解和使用是有帮助的。本例子来自《数据挖掘:实用机器学习技术》第2版(好像是倒数第三章)。大家可以到http://blogger.org.cn/blog/message.asp?name=DMman#23691 下载该书察 |
|
[WEKA](转)WEKA编写新学习方案 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/5 20:43:59 |
来源:http://blog.csdn.net/comlc/archive/2007/12/13/1933775.aspx
1.编写新学习方案 如果用户需要实现一个Weka所没有的特殊目的的学习算法,或者用户正在进行机器学习的研究,并且想试验一个新的学习方案,或者用户只是想通过亲自动手编程,了解更多有关一个归纳算法的内部运作,本节用一个简单的范例演示在编写分类器时,如何充分利用Weka的类的层级结构,从而满足用户的需要.
Weka包含了表15-1中所列的基本的、主要用于教育目的的学习方案.表中的方案对于接受命令行选项没有特别要求.它们对于理解分类器的内部运作都很有用.我们会将weka.classifiers.trees.Id3作为一个例子讨论,该方案实现了第4.3节中的ID3决策树学习器. 表15-1 Weka中的简单学习方案
方案 描述
|
|
[WEKA](转)利用WEKA编写数据挖掘算法 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/5 19:22:21 |
WEKA是由新西兰怀卡托大学开发的开源项目。WEKA是由JAVA编写的,并且限制在GNU通用公众证书的条件下发布,可以运行在所有的操作系统中。WEKA工作平台包含能处理所有标准数据挖掘问题的方法:回归、分类、聚类、关联规则挖掘以及属性选择。作为数据挖掘爱好者自然要对WEKA的源代码进行分析并以及改进,努力写出自己的数据挖掘算法。 下面着重介绍一下如何利用WEKA编写新的数据挖掘算法:
注意:WEKA的版本有两个版本:稳定版(STABLE)和开发版(DEVELOP),不同WEKA版本与不同JDK的版本匹配,稳定版WEKA3-4的与JDK1.4.2匹配,而开发版WEKA3-5与JDK1.5匹配,WEKA |
|
[WEKA](转)Weka3.5中使用LibSVM 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/5 19:17:13 |
Dr. Y.Bao推荐数据试验中最好用上SVM的分类方法,让我们在Weka中使用LibSVM,我在网上差了半天,看到许多相同的被转来转去的帖子都讲得人晕头转向,尤其是像我这种Java基础不牢固的人更是不知所以,弄了半天走了不少弯路,不过最后总算是让我把LibSVM集成进Weka了,下面就以我自己的实际经验介绍一下最简单并且切实可行的方法:
Weka3.5后增加了libsvm这个选项,在分类器中的functions下面。但是,试图运行的时候,系统提示:Problem uating classifier:libsvm classes not in CLASSPATH。这是因为Weka只是提供了Libsvm的Wrapper调用机制,必须要安装Libsvm后将附带的jar路径添加到Weka的启动路径中。怎么解决呢?我的Weka版本较新(3.5.7),不过我的方法适用于3.5以上的所有版本。
首先,在http://www.cs.iastate.edu/~yasser/wlsvm/上下载wl |
|
[WEKA](转)对Weka中DBSCAN算法的分析以及在C#中的实现 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/5 19:14:47 |
DBSCAN算法是常用的数据挖掘算法。所有的聚类方法分为若干类型,前面讨论过的KMEANS算法是基于划分的方法进行聚类,而这次提到的DBSCAN算法是基于密度的方法。当然其它的还有基于层次凝聚和分裂的方法、基于模型的方法等。我先对Weka中实现的DBSCAN算法进行一个介绍和分析,然后再分析自己用C#实现的DBSCAN方法。但在这之前要解释几个概念,如果之前没有了解过这个算法的话,最好是先熟悉几个概念:epsilon-邻域、核心对象、(直接)密度可达、密度相连,这些概念可以在《数据挖掘概念与技术》一书中找到,了解这些概念对理解这个算法来说是很重要的。
我们先来看看在Weka中是如何实现DBSCAN算法的:
DBSCAN算法的源代码在Weka的weka.clusterers这个包中,文件名为DBScan. |
|
[WEKA](转)如何向weka中添加新算法 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/5 19:06:48 |
1.编写新算法,所编写的新算法必须符合Weka 的接口标准。在此以从Weka中文站上下载的一个算法(模糊C均值聚类算法:FuzzyCMeans)的添加为例说明其具体过程。
2.由于FuzzyCMeans是聚类算法,所以直接将FuzzyCMeans.java 源程序考到 weka.clusterers 包下。
3.再修改weka.gui.GenericObjectEditor.props ,在#Lists the Clusterers I want to choose from的weka.clusterers.Clusterer=\下加入:weka.clusterers.FuzzyCMeans。
4.相应的修改weka.gui.GenericPropertiesCreator.props ,此去不用修改,因为包weka.clusterers已经存在,若加入新的包时则必须修改这里,加入新的包。
加入之后,重新编译,运行后,可以在weka的Explorer界面上的Cluster选项卡中的聚类算法中找到刚 |
|
[WEKA](转)当weka遇到大数据集时 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/2 20:46:37 |
用的数据集是Reuters-21578和20个新闻组。结果光是前者,我还只是选择了其中的7个类别,最后生成的训练集的arff文件就有150MB。 我为此还换了个1G的内存。调整了JVM的大小,居然还是不行。有没有高人指点一下呢。
150M的训练集用WEKA做起来应该比较困难。我想有这么几个办法:
1 增加内存。 其实WEKA不光可以用物理内存,还可以占用虚拟内存。把JAVA的可用内存设置成2G的话,如果机器的物理内存只有1G,操作系统是会在需要时自动在硬盘上划分一块出来作为虚拟内存的。不过这时候一般会处理得比较慢,因此不推荐这个方法。
2 抽样。从训练集中随机抽取一部分数据来作训练。在二分类的时候,一般样本数量达到几千个时就能预测得比较准确了。如果几千个样本还不怎么准,那要么是所用的分类算法不适合,要么数据中的输入变量根本无法预测目标变量。 我试过了KDD 99中“kddcup.data_10_percent” 数据集,接近50万条数据,做成ARFF文件后有70多M。在Explorer中10来秒就载入了,抽取1% |
|
[WEKA](转)开源机器学习:R Meets Weka 文章收藏, 软件技术
宿命宽恕轮回修仙 发表于 2009/6/2 20:40:24 |
背景介绍: 1)Weka: Weka有两种意思:一种不会飞的鸟的名字,一个机器学习开源项目的简称(Waikato Environment for Knowledge Analysis,http://www.cs.waikato.ac.nz/~ml/weka/)。我们这里当然要介绍的是第二种意思啦,Weka项目从1992年开始,由新西兰政府支持,现在已在机器学习领域大名鼎鼎。Weka里有非常全面的机器学习算法,包括数据预处理、分类、回归、聚类、关联规则等。Weka的图形界面对不会写程序的人来说非常方便,而且提供“KnowledgeFlow” 功能,允许将多个步骤组成一个工作流。另外,Weka也允许在命令行执行命令。 2)R R就不用我废话了吧,呵呵,越来越受欢迎的统计软件(http://www.r-project.org/)。 < |
|
[WEKA]WEKA源码 原创空间
宿命宽恕轮回修仙 发表于 2009/6/2 17:28:42 |
到WEKA官网http://www.cs.waikato.ac.nz/ml/weka/上下载WEKA安装程序。
安装后,把安装目录下的weka-src.jar文件解压后就是WEKA的源文件。 |
|
[WEKA]weka学习资料 网上资源
宿命宽恕轮回修仙 发表于 2009/6/2 17:24:01 |
书籍:
《数据挖掘:实用机器学习技术》第2版
论坛:
WEKA中文论坛http://bbs.wekacn.org/index.php
电子书:
500)this.width=500" border=0>Expl |
|
|