宿命宽恕轮回修仙--（转）当weka遇到大数据集时

本站首页 管理页面写新日志退出

公告

宿命宽恕轮回修仙

我的分类（专题）

首页(18)
WEKA(9)
数据挖掘(1)
JAVA(2)
网页设计(2)
Matlab(1)

日志更新

主机屋很不错的
（转）网页设计者和开发人员常用的Fire
（转）CSS hack:区分IE6，IE
（转）利用Weka实现文本分类
（转）WEKA编写新学习方案
（转）利用WEKA编写数据挖掘算法
（转）Weka3.5中使用LibSVM
（转）Matlab遗传算法工具箱函数及实
（转）对Weka中DBSCAN算法的分析
（转）如何向weka中添加新算法

最新评论

回复:（转）Weka3.5中使用LibS

留言板

签写新留言

链接

-----------数据挖掘-----------

Data Mining Community's Top Resource(KDnuggets)
Information Management(DMReview)
STATISTICA Software(StatSoft)
IIR USA(CRM Community)
Editor's Picks(CustomerThink)
Data Mining Group
ACM SIGKDD(DM顶级国际会议)
SourceForge.NET(Open Source Software)

SAS
SPSS
KXEN
WEKA
AlphaMiner
RapidMiner

中国万维网联盟(W3CHINA)
中国统计网
 数据库专委会
 数据挖掘研究院(China Data Mining Research)
LAMDA机器学习与数据挖掘研究组
 北京大学计算语言学研究所
 北京大学Dlib组
 哈工大信息检索研究室论坛
神威学术资源中心
 CRMSKY
数据挖掘学习交流论坛
 计算机科学论坛
 数据分析论坛
 Weka中文站
 R语言中文论坛
SAS中文论坛
 ECT 584

-----------同行博客-----------

数据挖掘者(IDMer)
数据挖掘青年(DMman)
数据挖掘斗士(DMFighter)
神威异度空间
 一维空间
 不准阁
 不断学习
 欧燊怡
 Datamining&BI
王义
 Koala++

-----------学者信息-----------

Jiawei Han(韩家炜)
张鹏
 曾元顯
 吴俊杰

-----------回忆过去-----------

www.5im.cn
www.ustbhrm.com
www.finance3399.cn
www.xueyuanlu.cn
www.ccesr.com
econometrics.buaa.edu.cn

Blog信息

blog名称:宿命宽恕轮回修仙
日志总数:18
评论数量:3
留言数量:0
访问次数:119176
建立时间:2009年3月18日

« June 2026 »
日一二三四五六
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

[WEKA]（转）当weka遇到大数据集时
文章收藏, 软件技术

宿命宽恕轮回修仙发表于 2009/6/2 20:46:37

用的数据集是Reuters-21578和20个新闻组。结果光是前者，我还只是选择了其中的7个类别，最后生成的训练集的arff文件就有150MB。我为此还换了个1G的内存。调整了JVM的大小，居然还是不行。有没有高人指点一下呢。 150M的训练集用WEKA做起来应该比较困难。我想有这么几个办法： 1 增加内存。其实WEKA不光可以用物理内存，还可以占用虚拟内存。把JAVA的可用内存设置成2G的话，如果机器的物理内存只有1G，操作系统是会在需要时自动在硬盘上划分一块出来作为虚拟内存的。不过这时候一般会处理得比较慢，因此不推荐这个方法。 2 抽样。从训练集中随机抽取一部分数据来作训练。在二分类的时候，一般样本数量达到几千个时就能预测得比较准确了。如果几千个样本还不怎么准，那要么是所用的分类算法不适合，要么数据中的输入变量根本无法预测目标变量。我试过了KDD 99中“kddcup.data_10_percent” 数据集，接近50万条数据，做成ARFF文件后有70多M。在Explorer中10来秒就载入了，抽取1%的样本仅花了几秒钟。 3 增量学习（Incremental Learning）。所谓增量学习简单的说就是读取一条训练数据就修正一下模型，而不是把全部训练数据都读入之后才得到模型。在WEKA KnowledgeFlow 中支持增量学习算法。目前WEKA中有5种算法可以在这种方式下工作：NaiveBayesUpdateable, IB1, IBk, LWR。另外RacedIncrementalLogitBoost可以让任意的基于回归的算法来增量地学习分类任务。要注意的是，有时候数据不是ARFF格式的，而是C45,CSV等格式。这时手动把数据转换成ARFF，会节省很多内存，并且数据集中的错误更容易被检测出来。

阅读全文(2528) | 回复(0) | 编辑 | 精华

发表评论：

昵称：
密码：
主页：
标题：

验证码： (不区分大小写,请仔细填写,输错需重写评论内容！)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.017 second(s), page refreshed 144833214 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号