精华内容
下载资源
问答
  • weka中对数值型数据离散化
    千次阅读
    2013-08-29 14:14:09
    连续数值离散化大致可分为:1)有监督(supervised)和2)无监督(unsupervised)两类。
    • 有监督方法可通过设定类别相关目标函数如:分类错误率,熵增益等指标结合二叉树算法对特征空间进行划分。这类方法的核心思想就是是每类样本尽量分布在特征空间中的不同子划分中。 
    • 无监督方法由于没有考虑类别信息,因此其核心思想是使得每个子划分空间的样本分布尽量均匀,具体可以采用等间隔、等密度或者k-means算法进行划分。 
    更多相关内容
  • weka--数据离散化

    千次阅读 2019-09-25 01:34:03
    等频离散化——如果设置为真,则将使用等频binning而不是等宽binning。 binRangePrecision——在生成bin标签时用于切割点的小数位数。 反向选择——设置属性选择模式。如果是false,则在范围内仅选择(数值)属性将被...

    NAME
    weka.filters.unsupervised.attribute.Discretize

    SYNOPSIS
    An instance filter that discretizes a range of numeric attributes in the dataset into nominal attributes. Discretization is by simple binning. Skips the class attribute if set.

    OPTIONS
    spreadAttributeWeight -- When generating binary attributes, spread weight of old attribute across new attributes. Do not give each new attribute the old weight.

    makeBinary -- Make resulting attributes binary.

    debug -- If set to true, filter may output additional info to the console.

    bins -- Number of bins.

    doNotCheckCapabilities -- If set, the filter's capabilities are not checked before it is built. (Use with caution to reduce runtime.)

    findNumBins -- Optimize number of equal-width bins using leave-one-out. Doesn't work for equal-frequency binning

    attributeIndices -- Specify range of attributes to act on. This is a comma separated list of attribute indices, with "first" and "last" valid values. Specify an inclusive range with "-". E.g: "first-3,5,6-10,last".

    desiredWeightOfInstancesPerInterval -- Sets the desired weight of instances per interval for equal-frequency binning.

    useBinNumbers -- Use bin numbers (eg BXofY) rather than ranges for for discretized attributes

    useEqualFrequency -- If set to true, equal-frequency binning will be used instead of equal-width binning.

    binRangePrecision -- The number of decimal places for cut points to use when generating bin labels

    invertSelection -- Set attribute selection mode. If false, only selected (numeric) attributes in the range will be discretized; if true, only non-selected attributes will be discretized.

    ignoreClass -- The class index will be unset temporarily before the filter is applied.

    名字
    weka.filters.unsupervised.attribute.Discretize
    提要
    一个实例过滤器,它将数据集中的一系列数字属性转换为名义属性。离散化通过简单的结合进行。如果设置,跳过分类属性。
    选项
    扩展属性——当生成二进制属性时,将旧属性的权重传递到新属性中。不要给每一个新的属性一个旧的重量。
    makeBinary——生成属性二进制。
    调试——如果设置为真,过滤器可以输出附加信息到控制台。
    段——段的数量。
    donotcheck功能——如果设置,过滤器的功能在构建之前不会被检查。(小心使用,以减少运行时。)
    findNumBins——使用leave-one-out优化等宽容器的数量。不适用于等频宾宁。
    属性索引——指定要执行的属性的范围。这是一个逗号分隔的属性索引列表,带有“first”和“last”有效值。指定包含“-”的范围。E。旅客:“前3、5、6 - 10,去年”。
    desiredWeightOfInstancesPerInterval——在每个间隔中为等频率绑定设置所需的实例权重。
    useBinNumbers——使用bin编号(如BXofY),而不是用于离散属性的范围。
    等频离散化——如果设置为真,则将使用等频binning而不是等宽binning。
    binRangePrecision——在生成bin标签时用于切割点的小数位数。
    反向选择——设置属性选择模式。如果是false,则在范围内仅选择(数值)属性将被离散;如果是真,则只有非选择的属性将被离散化。
    ignoreClass——在应用筛选器之前,类索引将被暂时取消。

    转载于:https://www.cnblogs.com/zuimeiyujianni/p/8963335.html

    展开全文
  • weka-实现数值数据离散化

    千次阅读 2018-12-04 22:06:21
    weka-实现数值数据离散化

    weka软件实现数值数据的离散化十分简单,图形界面只需我们点击几个按钮即可。

    步骤如下 :
    Explorer→Open File→Preprocess→Filter→Choose[weka.filters.unsupervised.attribute.Discretize]→Click to set→apply

    参数设置 :
    weka-数值数据离散化-参数设置

    1-about : 概要,一个实例过滤器,将数据集中的数值属性转换为标称属性;
    2-attributeIndices : 属性索引,指定要执行的属性的范围,是一个逗号分隔的属性索引列表,带有"first"和"last"有效值,指定包含"-“的范围,例如"first-last”;
    3-binRangePrecision : 在生成bin标签时用于切割点的小数位数;
    4-bins : 段,段的数量;
    5-debug : 调试,如果设置为真,过滤器可以输出附加信息到控制台;
    6-desiredWeightOfInstancesPerInterval : 在每个间隔中为等频绑定设置所需的实例权重;
    7-doNotCheckCapabilities : 如果设置为true,则过滤器的功能在构建之前不会被检查,小心使用,以减少运行时间;
    8-findNumBins : 使用leave-one-out优化等宽容器的数量,不适用于等频;
    9-ignoreClass : 忽略类属性,在应用筛选器之前,类索引将被暂时取消;
    10-invertSelection : 反向选择,设置属性选择模式,如果是false则在范围内仅选择数值属性离散,如果是true则只有非选择的属性将被离散化;
    11-makeBinary : 生成二进制属性;
    12-spreadAttributeWeight : 扩展属性,当生成二进制属性时,将旧属性的权重传递到新属性中,不要给每一个新的属性一个旧的重量;
    13-useBinNumbers : 使用bin编号(如BXofY),而不是用于离散属性的范围;
    14-useEqualFrequency : 等频离散化,如果设置为真,则将使用等频而不是等宽。

    展开全文
  • 建立决策树前进行数据预处理 使用weka软件我只实现了无监督的离散化 有监督的离散化又该怎么实现呢?
  • 压缩包里有TXT和arff两种格式数据均已处理完毕,也可以将数据转为其他格式,用于学习入侵检测和网络态势感知的仿真挺不错,可以直接用weka进行简单的分类预测。
  • 学习weka(7):weka数据预处理方法

    千次阅读 2021-04-11 09:30:58
    weka 数据预处理阶段全部在 filter 上: 下面把一些常见的机器学习数据与处理方法处理说一下(下面所有实例都是在 Explorer 模块上进行的)。 2、数据预处理方法 可以看到其 filters 可以分为五类,重点是画红框的...

    1、前言

    weka 数据预处理阶段全部在 filter 上:

    在这里插入图片描述

    下面把一些常见的机器学习数据与处理方法处理说一下(下面所有实例都是在 Explorer 模块上进行的)。
    在这里插入图片描述

    2、数据预处理方法

    可以看到其 filters 可以分为五类,重点是画红框的部分:supervised 是有监督的,unsupervised 是无监督的;每一种往下分,又分为基于 attribute(属性列)和 instance(实例),基于属性列是按照列来进行操作的,基于实例是按照数据行进行操作的。

    2.1 常见机器学习预处理方法

    常见的机器学习预处理方法一般有缺失值处理、标准化、规范化、正则化和离散化,下面针对这几项一一记录一下。

    2.1.1 缺失值处理

    缺失值处理函数:weka.filters.unsupervised.attribute.ReplaceMissingValues,按照顺序可以在 filters 中找到,具体如下图:

    在这里插入图片描述

    其参数如下:

    在这里插入图片描述

    三个参数重点在 ignoreClass 上,这个是判断是否要对标签进行缺失值处理的参数。

    实例

    加载 weka 自带数据集:weather.nominal.arff,将其两个属性外加标签(默认最后一列为标签)编辑(在菜单中寻找 Edit…)为缺失值:

    在这里插入图片描述

    对其进行缺失值处理(使用默认参数):

    在这里插入图片描述

    可以看到,第 2 和 3 列属性缺失值都被填充完毕,而第 5 列则没有,这是为什么呢,来看一下官方解释:

    Replaces all missing values for nominal and numeric attributes in a dataset with the modes and means from the training data. The class attribute is skipped by default.

    翻译过来:是使用均值(数值型)和模式(我认为对于非数值则是数量最多的属性值填充)填充缺失值,默认跳过标签列(其中 ignoreClass 参数默认为 False)。

    OK 了,将 ignoreClass 设置为 True,再进行一下缺失值处理:

    在这里插入图片描述

    2.1.2 标准化(standardize)

    weka 中的类:weka.filters.unsupervised.attribute.Standardize

    标准化给定数据集中所有数值属性的值到一个 0 均值和单位方差的正态分布。根据类包依赖顺序,在 filters 中找到其位置,查看一下参数:

    在这里插入图片描述

    和缺失值处理参数一样,不再细说。

    实例

    加载 weka 自带数据集:cpu.arff,处理之前原数据(参数为默认,一般标签数据是不会被标准化的):

    在这里插入图片描述

    处理之后:

    在这里插入图片描述

    2.1.3 规范化(normalize)

    规范化所在类:weka.filters.unsupervised.attribute.Normalize。

    数据规范化,可以将所有数据通过数据变换,转换到指定范围内。来看一下其参数:

    在这里插入图片描述

    除了 ignoreClass,重要参数为 scale 和 translation,这两个参数指定了转换范围,转换公式为:[translation,translation+scale]。比如,scale=2,translation 为-1,那么转换后的数据范围为:[-1,1]

    需要注意的是:无论是规范化还是标准化都是以列为单位。

    实例

    加载 weka 自带数据集:cpu.arff,处理前数据集为:

    在这里插入图片描述

    规范化处理之后(默认参数):

    在这里插入图片描述

    2.1.4 离散化处理(discretize)

    离散化所在类:weka.filters.supervised.attribute.Discretize 和 weka.filters.unsupervised.attribute.Discretize

    分别是监督和无监督的数值属性的离散化,用来离散数据集中的一些数值属性到分类属性。

    无监督离散化处理参数:

    在这里插入图片描述

    这里参数比较多,简要叙述一下:

    • attributeIndices:属性索引,指定要执行的属性的范围,默认参数为“first-last”,表示所有列中离散列都会被选中,如果只是想选择某一列,直接输入数字即可,多列用逗号隔开。
    • binRangePrecision:在生成 bin 标签时用于切割点的小数位数;
    • bins:分段数,离散化后会将连续数据分为多段;
    • debug:调试,如果设置为真,过滤器可以输出附加信息到控制台
    • desiredWeightOfInstancesPerInterval:在每个间隔中等频绑定设置所需的实例权重
    • doNotCheckCapabilities:如果设置为 true,则过滤器的功能在构建之前不会被检查(小心使用,以减少运行时间)
    • findNumBins:使用 leave-one-out 优化等宽容器的数量,不适合于等频
    • ignoreClass:是否忽略类标签索引
    • invertSelection:反向选择,设置属性选择模式,如果是 false 则在范围内仅选择数值属性离散,如果是 true 则只有非选择的属性将被离散化
    • makeBinary:生成二进制属性
    • spreadAttributeWeight:生成二进制属性时,将旧属性的权重分散到新属性中。 不要为每个新属性赋予旧的权重。
    • useBinNumbers:使用 bin 编号(如 BXofY),而不是使用范围
    • useEqualFrequency:等频离散化,如果设置为真,则将使用等频而不是等宽

    上面标黑的是需要注意的参数。

    实例

    加载 weka 自带数据集 weather.numeric.arff,原数据如下:

    在这里插入图片描述

    可以看到其连续属性只有两列,下面修改参数如下:

    在这里插入图片描述

    只修改了一项 bins,将其改为了 3,其他都是默认项,看一下离散化结果:

    在这里插入图片描述

    可以看到,两列连续性数据已经被离散化了(注意 attributeIndices 参数为所有,但是离散化只会选择连续性数据列),而且离散结果是 3 个——对应 bins

    通过这个结果,可以看到离散化原理就是将连续数据分段,以分段范围定义为离散属性值,而连续值在哪个分段内就赋予那个分段范围值,比如 72,在 71-78 内,则其离散化后就成了 71-78。

    我们更改一下 useBinNumbers 参数,再运行一遍(注意要加载原数据,当前数据已经不存在连续属性列,即便更参数运行,当前数据集也不会再发生变化):

    在这里插入图片描述

    可以看到其更改了名称,但是本质还是一样的,这个有一点不好的就是两列离散值是重复的,都是 B1of3,B2of3 和 B3of3。

    OK,今天就到这里,更多精彩内容关注我的个人网站:蓝亚之舟博客

    展开全文
  • 1.weka主界面各个功能键概述 Explorer(探索者):最容易使用的图形用户界面,通过菜单和填写表单可以调用weka的所有功能。 缺陷:要求将所需数据全部依次读进内存,一旦用户打开某个数据集,就会批量读取全部数据...
  • Weka中的有监督的离散化方法

    千次阅读 2018-05-11 15:33:53
    参考:机器学习-变量离散之MDLP 对应分析Wekaweka.filters.supervised.attribute.Discretize 涉及的其他类包括weka.filters.Filter 分析的宏观代码 Discretize disc=new Discretize() disc.setInputFormat...
  • 在这里,我想展示如何使用Weka API探索一些强大的工具,例如分类(有监督和无监督),一些过滤器(离散化,属性选择等),如何进行装袋,提升和其他强大的元分类技术,所有数据科学家工具箱中都需要具备这些技术。...
  • 数据挖掘初试--熟悉WEka平台

    千次阅读 2018-03-25 15:12:03
    实验一 熟悉weka平台一、实验名称WEKA的使用与数据准备二、实验目的 熟悉数据挖掘的常用软件WEKA的安装和环境,理解weka数据格式,掌握数据格式的转换,理解数据预处理的必要性和基本方法。三、实验平台计算机、...
  • 实现Weka环境基本操作,包括 1. Explorer界面的各项功能 2. 文件导入与编辑 3. 数据预处理
  • 数据挖掘—Weka 的数据库挖掘及数据预处理

    千次阅读 多人点赞 2021-11-13 19:53:11
    基于 Weka 的数据库挖掘及数据预处理 ❤️‍大家好,我是java厂长,今天带你们了走进数据挖掘的世界????????!❤️‍ 关于作者 作者介绍 ???? 博客主页:作者主页 ???? 简介:JAVA领域优质创作者????、一名在校...
  • 基于Weka的典型数据挖掘应用

    千次阅读 2019-07-05 09:24:56
    理解数据挖掘的基本概念,掌握基于Weka工具的基本数据挖掘(分类、回归、聚类、关联规则分析)过程。 实验内容 下载并安装Java环境(JDK 7.0 64位)。 下载并安装Weka 3.7版。 基于Weka数据分类。 基于...
  • Weka数据预处理

    千次阅读 2019-04-08 09:01:44
    Weka数据预处理(一) 对于数据挖掘而言,我们往往仅关注实质性的挖掘算法,如分类、聚类、关联规则等,而忽视待挖掘数据的质量,但是高质量的数据才能产生高质量的挖掘结果,否则只有"Garbage in garbage out"了。...
  • Java离散化原理及实现

    2021-02-10 18:11:22
    离散化 当一个数组中的长度很短,但是每个数却非常大,那么就可以使用离散化进行映射关系 例如有一个数组[50,500,900,1500,20000,320000,540000],我们可以找到映射关系来储存这个数组以及对数组的值进行操作 1.先将...
  • weka进行数据预处理

    万次阅读 2015-04-06 14:27:09
    Weka同时也具有读入“.csv”格式文件的能力,在做数据挖掘中,很多时候数据是存储在excel的电子表格中,打开Excel文件,从File(文件)下拉菜单下选择Save As(另存为),在弹出的对话框中,最下边会有Save As type...
  • weka中的数据预处理

    万次阅读 2010-08-29 10:29:00
    数据预处理包括数据的缺失值处理、标准化、规范化和离散化处理。 数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues。 对于数值属性,用平均值代替缺失值,对于nominal属性...
  • 加载完毕数据集后,还是不能直接进行数据挖掘模型的训练和学习,必须要进行数据预处理,Weka中的数据预处理使用Filter实现。
  • There are 4 attributes and 3 species of iris 在Weka中打开iris.arff 点击Edit就会弹出数据 可以编辑更改具体的数据 还可以remove attribute visualize one attribute
  • weka3.8.zip

    2021-07-09 13:03:25
    数据仓库专业数据分析工具
  • Weka数据挖掘——分类

    千次阅读 2016-01-19 16:53:57
    分类就是得到一个函数或分类模型(即分类器),通过分类器将未知类别的数据对象映射到某个给定的类别。 1.数据分类可以分为两步 第一步建立模型,通过分析由属性描述的数据集,来建立反映其特性的模型。该步骤也...
  • 数据挖掘模块 ... 过滤器:异常值重新采样离散化特征选择 SMOTE 模型: ScanSVMParams:使用 SVM 实现的分类器的参数扫描。 一类:SVM。 合奏:随机森林 评估:EvaluationLibSVM:坚持,不诚实,10FCV 预测:
  • 数据预处理和weka.filters的使用

    千次阅读 2018-06-06 20:10:56
    转载自:...weka支持从cvs转化,也可以从数据库中抽取,界面如下图weka安装目录有一个data目录,里面有一些测试数据,可以用于测试和学习。导入了数据仅仅是一个开始,我们还需要对数据进行...
  • 上一篇介绍了arff格式,这是weka专有格式,一般情况需要我们从其他数据源抽取或者获得。weka支持从cvs转化,也可以从数据库中抽取,界面如下图weka安装目录有一个data目录,里面有一些测试数据,可以用于测试和学习...
  • (1)Preprocess(预处理):选择数据集,以不同方式对其进行修改。 (2)Classify(分类):训练用于分类或回归的学习方案,并对其进行评估。 (3)Cluster(聚类):学习数据集聚类方案。 (4)Associate(关联)...
  • 数据挖掘入门实验(weka

    千次阅读 多人点赞 2018-04-06 10:40:42
    实验1:基于Weka的典型数据挖掘应用学号: 姓名: XXXX 专业: 计算机系统结构 班级: 实验目标理解数据挖掘的基本概念,掌握基于Weka工具的基本数据挖掘(分类、回归、聚类、关联规则分析)过程。实验内容下载并...
  • weka arff稀疏数据写法

    千次阅读 2016-11-09 17:31:18
    数据的属性数量非常大,并且较多属性值为0时,考虑将arff文件进行稀疏处理,来优化读入和减少存储 例如下图中数据存在大量的0,读入数据时读入大量无用数据,并且浪费了存储空间 以上图为例 最初的arff...
  • weka---数据预处理

    千次阅读 2015-05-10 18:14:55
    数据预处理包括数据的缺失值处理、标准化、规范化和离散化处理。 1、数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues。 对于数值属性,用平均值代替缺失值,对于nominal属性,用它...
  • weka过滤器介绍

    2021-10-15 21:57:16
    下面将罗列weka中所有filter介绍 AllFilter 一个实例过滤器,它不经过修改就通过所有实例。主要用于测试目标目的。 MultiFilter: 连续应用多个过滤器。如果所有提供的过滤器都是StreamableFilters,它也将作为一个...
  • 使用weka进行数据挖掘

    万次阅读 多人点赞 2016-06-07 10:34:41
    每一个属性都是标称类型(Nominal),都是离散的。 看一下可视区域的直方图代表什么意思:点击class属性,看到蓝色、红色、淡蓝色、灰色分别代表uacc, acc, v-good, good.再点击任意一个非类别属性,比如...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,208
精华内容 483
关键字:

weka数据离散化

友情链接: giusen_v86.zip