-
2011-12-26 15:21:29
Weka是什么不多介绍,直接切入正题,简单介绍Weka的数据格式。
Weka存储数据的格式是ARFF(Attribute-Relation File Format)文件,是一种ASCII文本文件。如下例,weka自带的weather.arff文件。
% ARFF file for the weather data with some numric features
%
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
%
% 4 instances
%
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
weka数据以“%”开始的行是注释,WEKA将忽略这些行。
除去注释后,整个ARFF文件可以分为两个部分。第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。
第二部分给出了数据信息(Data information),即数据集中给出的数据。从“@data”标记开始,后面的就是数据信息了。
关系声明
关系名称在ARFF文件的第一个有效行来定义,格式为
@relation <relation-name>
<relation-name>是一个字符串。如果这个字符串包含空格,它必须加上引号(指英文标点的单引号或双引号)。
属性声明
属性声明用一列以“@attribute”开头的语句表示。数据集中的每一个属性都有它对应的“@attribute”语句,来定义它的属性名称和数据类型。
声明语句的顺序很重要:它表明了该项属性在数据部分的位置;最后一个声明的属性被称作class属性,在分类或回归任务中,它是默认的目标变量。
属性声明的格式为
@attribute <attribute-name> <datatype>
其中<attribute-name>是必须以字母开头的字符串。和关系名称一样,如果这个字符串包含空格,它必须加上引号。
weka支持的<datatype>有四种,分别是
numeric 数值型
<nominal-specification> 分类(nominal)型
string 字符串型
date [<date-format>] 日期和时间型
注意“integer”,“real”,“numeric”,“date”,“string”这些关键字是区分大小写的,而“relation”“attribute ”和“date”则不区分。数值属性
数值型属性可以是整数或者实数,但weka把它们都当作实数看待。
分类属性
分类属性由<nominal-specification>列出一系列可能的类别名称并放在花括号中:{<nominal-name1>, <nominal-name2>, <nominal-name3>, ...} 。数据集中该属性的值只能是其中一种类别。
例如如下的属性声明说明“outlook”属性有三种类别:“sunny”,“ overcast”和“rainy”。而数据集中每个实例对应的“outlook”值必是这三者之一。
@attribute outlook {sunny, overcast, rainy}
如果类别名称带有空格,仍需要将之放入引号中。
字符串属性
字符串属性中可以包含任意的文本。这种类型的属性在文本挖掘中非常有用。
示例:
@ATTRIBUTE LCC string
日期和时间属性
日期和时间属性统一用“date”类型表示,它的格式是
@attribute <name> date [<date-format>]
其中<name>是这个属性的名称,<date-format>是一个字符串,来规定该怎样解析和显示日期或时间的格式,默认的字符串是ISO-8601所给的日期时间组合格式“yyyy-MM-ddTHH:mm:ss”。
数据信息部分表达日期的字符串必须符合声明中规定的格式要求。数据信息
数据信息中“@data”标记独占一行,剩下的是各个实例的数据。
每个实例占一行。实例的各属性值用逗号“,”隔开。如果某个属性的值是缺失值(missing value),用问号“?”表示,且这个问号不能省略。例如:
@data
sunny,85,85,FALSE,no
?,78,90,?,yes
字符串属性和分类属性的值是区分大小写的。若值中含有空格,必须被引号括起来。例如:
@relation LCCvsLCSH
@attribute LCC string
@attribute LCSH string
@data
AG5, 'Encyclopedias and dictionaries.;Twentieth century.'
AS262, 'Science -- Soviet Union -- History.'
日期属性的值必须与属性声明中给定的相一致。例如:
@RELATION Timestamps
@ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss"
@DATA
"2001-04-03 12:12:12"
"2001-05-03 12:59:55"
稀疏数据
有的时候数据集中含有大量的0值(比如购物篮分析),这个时候用稀疏格式的数据存贮更加省空间。
稀疏格式是针对数据信息中某个实例的表示而言,不需要修改ARFF文件的其它部分。看如下的数据:
@data
0, X, 0, Y, "class A"
0, 0, W, 0, "class B"
用稀疏格式表达的话就是
@data
{1 X, 3 Y, 4 "class A"}
{2 W, 4 "class B"}
每个实例用花括号括起来。实例中每一个非0的属性值用<index> <空格> <value>表示。<index>是属性的序号,从0开始计;<value>是属性值。属性值之间仍用逗号隔开。
注意在稀疏格式中没有注明的属性值不是缺失值,而是0值。若要表示缺失值必须显式的用问号表示出来。
更多相关内容 -
Weka – 分类
2021-02-27 11:39:291.weka简单介绍1) weka是新西兰怀卡托大学WEKA小组用JAVA开发的机器学习/数据挖掘开源软件。2) 相关资源链接3) 主要特点集数据预处理、学习算法(分类、回归、聚类、关联分析)和评估方法等为一体的综合性数据挖掘工具...1. weka简单介绍
1) weka是新西兰怀卡托大学WEKA小组用JAVA开发的机器学习/数据挖掘开源软件。
2) 相关资源链接
3) 主要特点
集数据预处理、学习算法(分类、回归、聚类、关联分析)和评估方法等为一体的综合性数据挖掘工具
具有交互式可视化界面
提供算法学习比較环境
通过其接口。可实现自己的数据挖掘算法
2. 数据集(.arff文件)
数据集的呈现形式如上图所看到的,其表现为一个二维表,当中:
表格里一行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录
表格里一列称作一个属性(Attribute)。相当于统计学中的一个变量,或者数据库中的一个字段
数据集的存储格式如上图所看到的。是一种ASCII文本文件,整个ARFF文件能够分为两个部分:
第一部分给出了头信息(Headinformation)。包含了对关系的声明和对属性的声明
第二部分给出了数据信息(Datainformation)。即数据集中给出的数据。从”@data”标记開始。后面即为数据信息
注:当中凝视部分以”%”開始。凝视部分weka将忽略这些行;
假设关系名。属性名,数据的字符串包括空格,它必须加上引號;
最后一个声明的属性被称作class属性,在分类或回归任务中它是默认的目标变量。
3. 数据类型
1)Weka支持四种数据类型,分别为:
numeric 数值型
数值型能够是整数(integer)或者实数(real),weka将它们都当作实数看待。
nominal 标称型
标称属性由一系列的类别名称放在花括号里。
string 字符串型
字符串属性能够包括随意的文本。
date日期和时间型
日期和时间属性统一用”date”类型表示,默认的字符串是ISO-8601所给的日期时间组合格式:“yyyy-MM-dd HH:mm:ss”
eg. @ATTRIBUTE timestamp DATE“yyyy-MM-dd HH:mm:ss”
@DATA “2015-06-23 20:05:40”
2)稀疏数据
当数据集中含有大量的0值时。用稀疏格式的数据存储更加省空间。
稀疏格式是针对数据信息中某个对象的表示而言。不须要改动ARFF文件的其他部分。比如:
@data @data
0, X, 0, Y,“class A” {1 X, 3 Y, 4“class A”}
0, 0, W, 0,“class B” {2 W, 4 “classB”}
4. 数据准备
.xls -> .csv -> .arff
5. 分类 Classify
1) 分类过程
依据一个WEKA实例的一组特征属性(输入变量),对目标属性进行分类预測。为了实现这一目的,我们须要有一个训练数据集。这个数据集中每一个实例的输入和输出都是已知的。观察训练集中的实例,能够建立预測的分类/回归模型。有了这个模型,就能够对新的未知实例进行分类预測。衡量模型的好坏主要在于预測的准确程度。
2) 数据预測的样例
a. 注意測试数据集和训练数据集的各个属性声明部分的设置必须是一致的。即使在測试数据集中没有class属性的值,也须要加入这个属性,能够将该属性在各个实例上的值均设置为缺失值。
b. 打开“Simple CLI”模块。使用“J48”算法的命令格式为:
java weka.classifiers.trees.J48 -C0.25 -M 2 -t "C:\\Users\\Administrator\\Desktop\\课题\\数据文件\\測试数据\\2.3參考文献--相关性分析+数据变换.csv.arff"-d"C:\\Users\\Administrator\\Desktop\\课题\\数据文件\\測试数据\\2.3參考文献--相关性分析+数据变换.model"
这里的” 2.3參考文献--相关性分析+数据变换.csv.arff”是训练数据集。当中參数“-C 0.25”表示置信因子,“-M 2”表示最小实例数。
“-t”后面为训练数据集的完整路径,“-d”后面为保存模型的完整路径。
c. 把这个模型应用到測试数据集的命令格式为:
java weka.classifiers.trees.J48 -p 11 -l"C:\\Users\\Administrator\\Desktop\\课题\\数据文件\\測试数据\\2.3參考文献--相关性分析+数据变换.model"-T "C:\\Users\\Administrator\\Desktop\\课题\\数据文件\\測试数据\\3.3学位论文中提取的參考文献.csv.arff"
当中“-p 11”指模型中的待预測属性的真实值存在第11个属性中,“-l”后面为模型的完整路径。“-T”后面为測试数据集的完整路径。
d. 输入上述命令后。出现的结果:
===Predictions on test data ===
inst# actual predicted error prediction ()
1 1:? 1:J 1
2 1:? 1:J 1
3 1:?
2:M 0.667
4 1:?
2:M 0.667
5 1:? 3:C 1
6 1:? 2:M 0.667
第一列为实例编号。第二列为測试数据集中原来class属性的值,第三列是预測后的结果,第四列为预測结果的置信度,比如对于实例1,有百分之百的把握说它的值为J.
-
weka数据格式
2017-08-18 17:00:04weka能处理的最好的数据格式是*.arff,arff(attribute relation file format),属性关系文件格式。 该格式的文件分为两部分:头信息和数据信息,头信息包括relation和attribute两部分,数据信息只有data。 @...weka能处理的最好的数据格式是*.arff,arff(attribute relation file format),属性关系文件格式。
该格式的文件分为两部分:头信息和数据信息,头信息包括relation和attribute两部分,数据信息只有data。
@relation person @attribute name string @attribute age numeric @attribute sex {male,female} @attribute birthday date"yyyy-MM-dd HH-mm-ss" @data xiaoming,12,male,"2012-12-02 00:00:00" xiaohong,11,male,"2013-03-04 00:00:00"
这是一个简单的atrr格式的文件。其中date必须指定格式如 date"yyyy-MM-dd HH-mm-ss", 名字或者数据里有空必须用引号括起来,单引号双引号都可以。
weka中一行称为一个实例(instance),相当于一个样本或者一条记录,竖行称为一个属性,相当于一个变量或者一个字段,整个表格称为数据集,展现了属性之间的关系。
属性名:关系名称在文件的第一有效行来定义,格式为@relation <relation-name>,relation-name是一个字符串,如果有空格必须用引号括起来。
属性声明:用@attribute开头的语句表示,格式为@attribute <relation-name> <datatype>,weka支持的数据格式有四种,string,numeric,nominal和date[data-format],
数据信息:@data标记,单独占一行,剩下的是各个实例的数据。每个实例占一行,实例的各个属性用逗号分开,如果某个属性的值缺失,用?号表示,逗号隔开,且?不能缺失。如xiaoming,?,male,?
稀疏矩阵:有些实例的属性值是0,且大量的值为0,如购物篮属性值,这样的数据用稀疏矩阵存更好一些。注意:是0值不是缺省值
例如:0,2,0,0,0,0,1,2,3 - > {1 2,6 1,7 2,8 3} 注意:括号必须有,且计数从0开始
数据准备:
我们拿到的数据大多数是 csv ,txt或者excel格式的,为了更好的得到实验效果,我们需要将csv转换为arff的,怎么做呢?
excel转换为csv直接右键另存为就可以了,txt也可以直接以逗号的形式保存为csv。
由于csv第一行没有属性,所以我们需要手动的在第一行添加属性。如下图:
将csv转换为arff:
前提:.在第一行加上属性
1.直接用weka打开csv,保存为arff格式。
2.或者调用weka的CLI,weka.core.converters.CSVLoader filename.csv > filename01.arff
就可以转换成功了,路径可以是绝对路径。
-
Weka数据预处理
2019-04-08 09:01:44Weka数据预处理(一) 对于数据挖掘而言,我们往往仅关注实质性的挖掘算法,如分类、聚类、关联规则等,而忽视待挖掘数据的质量,但是高质量的数据才能产生高质量的挖掘结果,否则只有"Garbage in garbage out"了。...Weka数据预处理(一)
对于数据挖掘而言,我们往往仅关注实质性的挖掘算法,如分类、聚类、关联规则等,而忽视待挖掘数据的质量,但是高质量的数据才能产生高质量的挖掘结果,否则只有"Garbage in garbage out"了。保证待数据数据质量的重要一步就是数据预处理(Data Pre-Processing),在实际操作中,数据准备阶段往往能占用整个挖掘过程6~8成的时间。本文就weka工具中的数据预处理方法作一下介绍。
Weka 主要支持一种ARFF格式的数据,含有很多数据过滤方法。关于ARFF格式文件,可以在此处了解详情。
Weka的数据预处理又叫数据过滤,他们可以在weka.filters中找到。根据过滤算法的性质,可以分为有监督的(SupervisedFilter)和无监督的(UnsupervisedFilter)。对于前者,过滤器需要设置一个类属性,要考虑数据集中类的属性及其分布,以确定最佳的容器的数量和规模;而后者类的属性可以不存在。同时,这些过滤算法又可归结为基于属性的(attribute)和基于实例的(instance)。基于属性的方法主要是用于处理列,例如,添加或删除列;而基于实例的方法主要是用于处理行,例如,添加或删除行。
数据过滤主要解决以下问题(老生常谈的):
数据的缺失值处理、标准化、规范化和离散化处理。
数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues。对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值。
标准化(standardize):类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。
规范化(Nomalize):类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值,类属性除外。结果值默认在区间[0,1],但是利用缩放和平移参数,我们能将数值属性值规范到任何区间。如:但scale=2.0,translation=-1.0时,你能将属性值规范到区间[-1,+1]。
离散化(discretize):类weka.filters.supervised.attribute.Discretize和weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化,用来离散数据集中的一些数值属性到分类属性。
下文将详细介绍一下Weka数据过滤类。
Weka数据预处理(二)
首先来看一下,有关属性—有监督过滤器。
AddClassification
该过滤器使用给定的分类器对原始数据添加分类标签,并给出类的分布以及关于原始数据集的错误分类标记。
其实就是利用分类算法对原始数据集进行预分类,其结果与在classify阶段得到的结果基本一致,同样包括分类的正确率等信息。
AttributeSelection
该过滤器,用于进行属性选择。根据给定的挖掘任务,利用合适的评估器,选择最有利于当前挖掘任务的属性。
ClassOrder
该过滤器用于改变的数据对象顺序,适用于binary对象和nominal对象。
Discretize
离散化过滤器,用于将连续属性离散化。使用频率非常高的一个过滤器,在实际应用当中,离散化也是很常见的数据预处理步骤。
NorminalToBinary
标称值转化为二分值。举个例子吧,看官请看下图,一目了然。
Nominal value
Binary value
下面谈到的是实例—有监督过滤器
Resample
让人又爱又恨的抽样过滤器。利用放回或者不放回方法抽取特定大小的随机样本。
抽样方法有很多种,基于水库的、链式抽样、分层抽样等等。
SMOTE
同样是抽样过滤器,叫综合少数过采样技术。他要求被采样的原始数据集必须全部存储在内存中。详细内容可以参考Synthetic Minority Over-sampling Technique。
SpreadSubsamp
该分类器需要得知类标是属性中的哪一个.当获得了类标之后,他会计算出类标属性的分布,同时,按照参数M,指定类标分布的最大差距,比如当给出参数W时,调整数据实例的权重。
注意,M参数设定值为l时,那么就认为是均匀分布,当设定为0的时候,那么不进行类标分布的拓展(SPread);如果设定大于l,那么这个值就表示了分布最大的类标属性(类标属性最为常见的值)和分布最小的属性(类标属性最为稀少的值)的分布的比例。
StratfiedRemoveFold
该过滤器简单的使用n重交叉验证的方法,将数据集进行分割,并返回按照参数指定的子集。
关于无监督方法的过滤器,可以参考:http://www.cnblogs.com/htynkn/archive/2012/04/02/weka_3.html
参考:
输入数据与ARFF文件--数据挖掘学习和weka使用(二)
数据预处理和weka.filters的使用--数据挖掘学习和weka使用(三)
weka数据预处理的更多相关文章
- 借助 SIMD 数据布局模板和数据预处理提高 SIMD 在动画中的使用效率
原文链接 简介 为发挥 SIMD1 的最大作用,除了对其进行矢量化处理2外,我们还需作出其他努力.可以尝试为循环添加 #pragma omp simd3,查看编译器是否成功进行矢量化,如果性能有所提升 ...
- R语言进行数据预处理wranging
R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with R packages:tidyr dplyr Ground rules ...
- Scikit-Learn模块学习笔记——数据预处理模块preprocessing
preprocessing 模块提供了数据预处理函数和预处理类,预处理类主要是为了方便添加到 pipeline 过程中. 数据标准化 标准化预处理函数: preprocessing.scale(X, ...
- Deep Learning 11_深度学习UFLDL教程:数据预处理(斯坦福大学深度学习教程)
理论知识:UFLDL数据预处理和http://www.cnblogs.com/tornadomeet/archive/2013/04/20/3033149.html 数据预处理是深度学习中非常重要的一 ...
- R语言--数据预处理
一.日期时间.字符串的处理 日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date(), date( ...
- 对数据预处理的一点理解[ZZ]
数据预处理没有统一的标准,只能说是根据不同类型的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,这里面经 ...
- Python数据预处理—归一化,标准化,正则化
关于数据预处理的几个概念 归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常用的 ...
- sklearn数据预处理-scale
对数据按列属性进行scale处理后,每列的数据均值变成0,标准差变为1.可通过下面的例子加深理解: from sklearn import preprocessing import numpy as ...
- 第七篇:数据预处理(四) - 数据归约(PCA/EFA为例)
前言 这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给 ...
- 借助 SIMD 数据布局模板和数据预处理提高 SIMD 在动画中的使用效率
-
Java编程实现WEKA数据文件的生成
2021-03-09 04:16:28WEKA(WaikatoEnvironmentforKnowledgeAnalysis)是Waikato大学研究的开放源码的免费使用的一款流行的数据挖掘平台,作为一个公开的数据挖掘工作平台,其中集成了大量能承担关联规则挖掘、分类、聚类等数据挖掘任务的... -
数据挖掘—Weka 的数据库挖掘及数据预处理
2021-11-13 19:53:11基于 Weka 的数据库挖掘及数据预处理 ❤️大家好,我是java厂长,今天带你们了走进数据挖掘的世界????????!❤️ 关于作者 作者介绍 ???? 博客主页:作者主页 ???? 简介:JAVA领域优质创作者????、一名在校... -
Weka中数据挖掘与机器学习系列之数据格式ARFF和CSV文件格式之间的转换(五)
2021-01-28 07:42:09Weka介绍:Weka是一个用Java编写的数据挖掘工具,能够运行在各种平台上。它不仅提供了可以直接用于数据挖掘的软件,还提供了src代码,使用者可以修改源代码,进行二次开发。但是,由于其使用了Java虚拟机,导致其不... -
weka及其数据格式(转)
2021-02-26 16:08:47以“%”开始的行是注释,WEKA将忽略这些行。如果你看到的“weather.arff”文件多了或少了些“%”开始的行,是没有影响的。除去注释后,整个ARFF文件可以分为两个部分。第一部分给出了头信息(Head information),包括... -
利用weka进行数据挖掘——基于Apriori算法的关联规则挖掘实例
2022-03-30 18:29:26利用weka进行数据挖掘3.1 将数据转为ARFF格式3.2 利用weka进行分析4. 参考文章 首先,如果不熟悉weka的使用的话,可以从我的git仓库里面拉取一下weka的相关教程,仓库里面还有包含此次实例的所有资源 1. weka安装 ... -
WEKA数据集
2018-09-30 15:21:46WEKA数据集: WEKA所处理的数据集是一个.arff(attribute relation file)为后缀名的二维表。这是一种ASCII文本文件。以%开始的行是注释。 表中具体的内容: @relation+文件名称 @attribute+属性名和具体的属性值 @... -
weka之数据集学习
2021-02-22 20:05:27每次先选定数据集,才可以继续选择上方的分类、...Weka数据集格式-ARFF Weka处理的数据集通常是存放在一种叫ARFF格式的文件中的。那么,什么是ARFF呢? 以weather.nominal.arff数据集为例,完整的数据集如下表示:. -
047-基于运单数据与WEKA挖掘的运输货物类型分类预测方法研究-word资料.pdf
2021-08-19 13:28:59047-基于运单数据与WEKA挖掘的运输货物类型分类预测方法研究-word资料.pdf -
【机器学习】Weka数据集文件形式.arff
2020-06-28 17:02:48ARFF头信息 ARFF的头信息包含这个关系的名称,还有一系列属性以及它们的数据类型。以IRIS数据集(https://archive.ics.uci.edu/ml/datasets/iris)为例,标准的IRIS数据集的头信息如下表示: % source: ... -
数据挖掘工具软件Weka学习教程
2021-04-21 22:41:56一、数据格式理解数据格式后,就可以完全控制数据预处理过程。1.1 ARFF格式样例说明%整行注释@relation person@attribute name string %半行注释@attribute age numeric@attribute sex {male,female}@attribute ... -
基于weka的.arff数据的低秩矩阵分解缺失值补全.java
2020-04-02 14:00:17使用weka,jar函数读取数据arff,代码引用类型如下: import weka.core....代码只限于处理arff数据类型,对于简单的5*4矩阵误差只有0.0018。 算法参考:https://www.cnblogs.com/wuliytTaotao/p/10814770.html -
数据挖掘-weka入门教程,数据格式,
2010-07-14 16:46:24weka简介,数据格式,数据准备,explorer界面,分类、聚类、关联规则。 -
《数据挖掘基础》实验:Weka环境基本操作
2021-12-20 22:28:20实现Weka环境基本操作,包括 1. Explorer界面的各项功能 2. 文件导入与编辑 3. 数据预处理 -
weka数据挖掘分析
2017-05-16 08:07:36基于Weka 数据聚类分析银行用户的购买力 通过分析对银行储户信息的分析,进行cluster分类,最终找到合适的消费 人群。 实验基本原理及目的 聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的,对... -
使用Weka进行数据可视化
2020-02-15 16:48:39先贴上Weka的下载地址和数据来源UCI: Weka:https://www.cs.waikato.ac.nz/ml/weka/ UCI:https://archive.ics.uci.edu/ml/index.php 注:本文选取其中Bank Marketing的数据作为示例。 一、将excel(csv)文件... -
《数据挖掘基础》实验:Weka平台实现分类算法
2021-12-21 14:39:17Weka平台实现分类算法 进一步理解分类算法(决策树、贝叶斯),利用weka实现数据集的分类处理,学会调整模型参数,以图或树的形式给出挖掘结果,并解释规则的含义。 -
【人工智能】软件使用--weka数据类型的转换
2011-12-07 22:53:39第2001列是类标识,他是一个代号,我用整数表示,但是weka默认给我弄成了小数 解决方法:在arff文件中 @attribute 999 numeric @attribute 1000 numeric %%@attribute 2001 numeric将这一行改成下面,用选择的... -
使用Weka进行数据挖掘(Weka教程二)Weka数据之ARFF与多文件格式转换
2016-03-05 15:17:41这篇博客主要讲解Weka的数据格式 Weka数据格式Weka的专有数据格式ARFF及与其他格式文件之间的转换。 -
weka数据导入
2015-12-04 10:35:44每一行代表一条数据,用逗号分开属性,最后一列为分类标签 将后缀名改为csv,用excel打开,为每一列加上属性名称,直接导入weka即可 -
《数据挖掘基础》实验:Weka平台实现关联规则挖掘
2021-12-21 09:57:48Weka平台实现关联规则挖掘:进一步理解关联规则算法(Apriori算法、FP-tree算法),利用weka实现数据集的挖掘处理,学会调整模型参数,读懂挖掘规则,解释规则的含义 -
使用Weka进行数据挖掘
2015-04-17 10:04:43使用Weka进行数据挖掘 1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面... -
数据预处理和weka.filters的使用--数据挖掘学习和weka使用(三)
2021-03-13 15:23:20weka支持从cvs转化,也可以从数据库中抽取,界面如下图weka安装目录有一个data目录,里面有一些测试数据,可以用于测试和学习。导入了数据仅仅是一个开始,我们还需要对数据进行预处理。数据预处理(data ... -
使用Weka进行数据挖掘(Weka教程三)Weka数据之Instances和Instance
2016-03-05 16:15:45本博客讲解以下Weka运行时数据的存储对象Instances和Instance。 -
数据挖掘与机器学习:Weka Java 编程接口 API
2022-04-30 15:53:08文章目录1 环境配置2 数据模型2.1 Instances:数据集2.2 Instance:数据实例2.3 Attribute:属性类3 DataSource4 DataSink5 数据集处理5.1 创建数据集5.2 添加数据6 过滤7 分类8 聚类 1 环境配置 在 Idea 上创建 ... -
DBLP数据集用weka数据挖掘 xml转csv格式文件
2019-07-16 18:58:22DBLP数据集用weka数据挖掘 xml转csv格式文件写在前面xml转csv格式文件数据预处理weka数据挖掘 写在前面 之前做了中国科学院大学的一门研讨课《数据挖掘技术与应用》,老师讲的非常好,这门课的几个大项目真的让我学...