精华内容
下载资源
问答
  • weka--数据离散化

    2019-09-25 01:34:03
    等频离散化——如果设置为真,则将使用等频binning而不是等宽binning。 binRangePrecision——在生成bin标签时用于切割点的小数位数。 反向选择——设置属性选择模式。如果是false,则在范围内仅选择(数值)属性将被...

    NAME
    weka.filters.unsupervised.attribute.Discretize

    SYNOPSIS
    An instance filter that discretizes a range of numeric attributes in the dataset into nominal attributes. Discretization is by simple binning. Skips the class attribute if set.

    OPTIONS
    spreadAttributeWeight -- When generating binary attributes, spread weight of old attribute across new attributes. Do not give each new attribute the old weight.

    makeBinary -- Make resulting attributes binary.

    debug -- If set to true, filter may output additional info to the console.

    bins -- Number of bins.

    doNotCheckCapabilities -- If set, the filter's capabilities are not checked before it is built. (Use with caution to reduce runtime.)

    findNumBins -- Optimize number of equal-width bins using leave-one-out. Doesn't work for equal-frequency binning

    attributeIndices -- Specify range of attributes to act on. This is a comma separated list of attribute indices, with "first" and "last" valid values. Specify an inclusive range with "-". E.g: "first-3,5,6-10,last".

    desiredWeightOfInstancesPerInterval -- Sets the desired weight of instances per interval for equal-frequency binning.

    useBinNumbers -- Use bin numbers (eg BXofY) rather than ranges for for discretized attributes

    useEqualFrequency -- If set to true, equal-frequency binning will be used instead of equal-width binning.

    binRangePrecision -- The number of decimal places for cut points to use when generating bin labels

    invertSelection -- Set attribute selection mode. If false, only selected (numeric) attributes in the range will be discretized; if true, only non-selected attributes will be discretized.

    ignoreClass -- The class index will be unset temporarily before the filter is applied.

    名字
    weka.filters.unsupervised.attribute.Discretize
    提要
    一个实例过滤器,它将数据集中的一系列数字属性转换为名义属性。离散化通过简单的结合进行。如果设置,跳过分类属性。
    选项
    扩展属性——当生成二进制属性时,将旧属性的权重传递到新属性中。不要给每一个新的属性一个旧的重量。
    makeBinary——生成属性二进制。
    调试——如果设置为真,过滤器可以输出附加信息到控制台。
    段——段的数量。
    donotcheck功能——如果设置,过滤器的功能在构建之前不会被检查。(小心使用,以减少运行时。)
    findNumBins——使用leave-one-out优化等宽容器的数量。不适用于等频宾宁。
    属性索引——指定要执行的属性的范围。这是一个逗号分隔的属性索引列表,带有“first”和“last”有效值。指定包含“-”的范围。E。旅客:“前3、5、6 - 10,去年”。
    desiredWeightOfInstancesPerInterval——在每个间隔中为等频率绑定设置所需的实例权重。
    useBinNumbers——使用bin编号(如BXofY),而不是用于离散属性的范围。
    等频离散化——如果设置为真,则将使用等频binning而不是等宽binning。
    binRangePrecision——在生成bin标签时用于切割点的小数位数。
    反向选择——设置属性选择模式。如果是false,则在范围内仅选择(数值)属性将被离散;如果是真,则只有非选择的属性将被离散化。
    ignoreClass——在应用筛选器之前,类索引将被暂时取消。

    转载于:https://www.cnblogs.com/zuimeiyujianni/p/8963335.html

    展开全文
  • weka-实现数值数据的离散化

    千次阅读 2018-12-04 22:06:21
    weka-实现数值数据的离散化

    weka软件实现数值数据的离散化十分简单,图形界面只需我们点击几个按钮即可。

    步骤如下 :
    Explorer→Open File→Preprocess→Filter→Choose[weka.filters.unsupervised.attribute.Discretize]→Click to set→apply

    参数设置 :
    weka-数值数据离散化-参数设置

    1-about : 概要,一个实例过滤器,将数据集中的数值属性转换为标称属性;
    2-attributeIndices : 属性索引,指定要执行的属性的范围,是一个逗号分隔的属性索引列表,带有"first"和"last"有效值,指定包含"-“的范围,例如"first-last”;
    3-binRangePrecision : 在生成bin标签时用于切割点的小数位数;
    4-bins : 段,段的数量;
    5-debug : 调试,如果设置为真,过滤器可以输出附加信息到控制台;
    6-desiredWeightOfInstancesPerInterval : 在每个间隔中为等频绑定设置所需的实例权重;
    7-doNotCheckCapabilities : 如果设置为true,则过滤器的功能在构建之前不会被检查,小心使用,以减少运行时间;
    8-findNumBins : 使用leave-one-out优化等宽容器的数量,不适用于等频;
    9-ignoreClass : 忽略类属性,在应用筛选器之前,类索引将被暂时取消;
    10-invertSelection : 反向选择,设置属性选择模式,如果是false则在范围内仅选择数值属性离散,如果是true则只有非选择的属性将被离散化;
    11-makeBinary : 生成二进制属性;
    12-spreadAttributeWeight : 扩展属性,当生成二进制属性时,将旧属性的权重传递到新属性中,不要给每一个新的属性一个旧的重量;
    13-useBinNumbers : 使用bin编号(如BXofY),而不是用于离散属性的范围;
    14-useEqualFrequency : 等频离散化,如果设置为真,则将使用等频而不是等宽。

    展开全文
  • 建立决策树前进行数据预处理 使用weka软件我只实现了无监督的离散化 有监督的离散化又该怎么实现呢?
  • weka中对数值型数据离散化

    千次阅读 2013-08-29 14:14:09
    连续数值离散化大致可分为:1)有监督(supervised)和2)无监督(unsupervised)两类。 有监督方法可通过设定类别相关目标函数如:分类错误率,熵增益等指标结合二叉树算法对特征空间进行划分。这类方法的核心...
    连续数值离散化大致可分为:1)有监督(supervised)和2)无监督(unsupervised)两类。 
    
    • 有监督方法可通过设定类别相关目标函数如:分类错误率,熵增益等指标结合二叉树算法对特征空间进行划分。这类方法的核心思想就是是每类样本尽量分布在特征空间中的不同子划分中。 
    • 无监督方法由于没有考虑类别信息,因此其核心思想是使得每个子划分空间的样本分布尽量均匀,具体可以采用等间隔、等密度或者k-means算法进行划分。 
    展开全文
  • Weka中的有监督的离散化方法

    千次阅读 2018-05-11 15:33:53
    参考:机器学习-变量离散之MDLP 对应分析Wekaweka.filters.supervised.attribute.Discretize 涉及的其他类包括weka.filters.Filter 分析的宏观代码 Discretize disc=new Discretize() disc.setInputFormat...

    参考:机器学习-变量离散之MDLP

    对应分析Weka中weka.filters.supervised.attribute.Discretize
    涉及的其他类包括weka.filters.Filter
    分析的宏观代码

    Discretize disc=new Discretize()
    disc.setInputFormat(data)
    Instances afterDiscretize=Filter.useFilter(data,disc)

    Filter.useFilter()

    Filter.useFilter(Instances data, Filter filter){
    for (int i = 0; i < data.numInstances(); i++) {
          filter.input(data.instance(i));
          //进一步调用bufferInput():把instance复制一份后交给Filter的m_InputFormat变量,这相当于输入数据的一个完整copy
          //
        }
        filter.batchFinished();//调用离散化计算的主体部分calculateCutPoints()详细分析见下文
        Instances newData = filter.getOutputFormat();
        Instance processed;
        while ((processed = filter.output()) != null) {
          newData.add(processed);
        }
    }
    return newData

    Discretize.calculateCutPoints()

    calculateCutPoints(){
        m_CutPoints = new double[getInputFormat().numAttributes()][];
        calculateCutPointsByMDL(i, copy);//对第i个属性进行离散化
    }
    
    展开全文
  • 这是一篇2008年6月的硕士论文,详细的介绍了有关朴素贝叶斯 离散化的几种算法 包括EMD,PKI,muti_EMD,和weka离散化的方法等等
  • 压缩包里有TXT和arff两种格式数据均已处理完毕,也可以将数据转为其他格式,用于学习入侵检测和网络态势感知的仿真挺不错,可以直接用weka进行简单的分类预测。
  • 在这里,我想展示如何使用Weka API探索一些强大的工具,例如分类(有监督和无监督),一些过滤器(离散化,属性选择等),如何进行装袋,提升和其他强大的元分类技术,所有数据科学家工具箱中都需要具备这些技术。...
  • ![CSDN移动问答][1] [1]: http://v2.freep.cn/3tb_131227112305gdb0512293.png 我听说是:无类别信息,把类别加进去 怎么把类别加进去? 我这个是小白 从没接触过这个! 谢谢大神们~~
  • 学习weka(7):weka数据预处理方法

    千次阅读 2021-04-11 09:30:58
    weka 数据预处理阶段全部在 filter 上: 下面把一些常见的机器学习数据与处理方法处理说一下(下面所有实例都是在 Explorer 模块上进行的)。 2、数据预处理方法 可以看到其 filters 可以分为五类,重点是画红框的...
  • 3.6.4离散化 离散化技术包括无监督离散化和有监督离散化,前者不需要也不关注类别属性值,后者在创建间隔时考虑实例的类别属性值。常用的有等宽和等频离散化两种方法。默认方法为等宽。 使用Discretize进行离散化,...
  • weka3.8.zip

    2021-07-09 13:03:25
    数据仓库专业数据分析工具
  • 数据挖掘—Weka 的数据库挖掘及数据预处理

    千次阅读 多人点赞 2021-11-13 19:53:11
    基于 Weka 的数据库挖掘及数据预处理 ❤️‍大家好,我是java厂长,今天带你们了走进数据挖掘的世界????????!❤️‍ 关于作者 作者介绍 ???? 博客主页:作者主页 ???? 简介:JAVA领域优质创作者????、一名在校...
  • weka 分类边界

    2021-03-03 20:06:22
    可视:可视仅限数据属性和二维视图 OneR 三种颜色三种花 决策分解 OneR选择以petalwidth为决策依据 观察其他分类器的决策边界 IBK k=5 会投票法决定区域颜色K=20更模糊 NaiveBayes 连续属性,要...
  • Weka之训练与测试数据

    千次阅读 2019-10-27 22:40:12
    什么是训练数据和测试数据? 训练数据经过机器学习算法(ML Algorithm)可以得到分类器,再将测试数据放入分类器,则可得到评估结果。 训练集和测试集应来源于同一个数据集,但为两个不相交的集合。...
  • Weka数据预处理

    千次阅读 2019-04-08 09:01:44
    Weka数据预处理(一) 对于数据挖掘而言,我们往往仅关注实质性的挖掘算法,如分类、聚类、关联规则等,而忽视待挖掘数据的质量,但是高质量的数据才能产生高质量的挖掘结果,否则只有"Garbage in garbage out"了。...
  • 数据预处理和weka.filters的使用

    千次阅读 2018-06-06 20:10:56
    转载自:...weka支持从cvs转化,也可以从数据库中抽取,界面如下图weka安装目录有一个data目录,里面有一些测试数据,可以用于测试和学习。导入了数据仅仅是一个开始,我们还需要对数据进行...
  • 基于最小描述长度的离散化算法。 根据WEKA的标准和接口(机器学习的Java API)实现为过滤器。 更多信息:http://bruno-wp.blogspot.com/search/label/软件
  • weka过滤器介绍

    2021-10-15 21:57:16
    下面将罗列weka中所有filter介绍 AllFilter 一个实例过滤器,它不经过修改就通过所有实例。主要用于测试目标目的。 MultiFilter: 连续应用多个过滤器。如果所有提供的过滤器都是StreamableFilters,它也将作为一个...
  • WEKA使用教程(经典教程转载)

    万次阅读 多人点赞 2012-05-22 01:16:59
    WEKA使用教程 目录 1. 简介 2. 数据格式 3.数据准备 4. 关联规则(购物篮分析) 5. 分类与回归 6. 聚类分析 1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)...
  • Weka学习记录

    2019-06-01 00:53:35
    2.使用weka进行数据挖掘 0x02 相关介绍 1.界面介绍 2.简单教程 3.数据格式 4.数据准备 5.数据预处理 0x03 实例使用 实例1 关联规则 实例2 分类与回归 实例3 聚类 实例4 weka连接mysql数据库 实例5 在...
  • 基于Weka的典型数据挖掘应用

    千次阅读 2019-07-05 09:24:56
    理解数据挖掘的基本概念,掌握基于Weka工具的基本数据挖掘(分类、回归、聚类、关联规则分析)过程。 实验内容 下载并安装Java环境(JDK 7.0 64位)。 下载并安装Weka 3.7版。 基于Weka的数据分类。 基于...
  • 实现Weka环境基本操作,包括 1. Explorer界面的各项功能 2. 文件导入与编辑 3. 数据预处理
  • 1.weka主界面各个功能键概述 Explorer(探索者):最容易使用的图形用户界面,通过菜单和填写表单可以调用weka的所有功能。 缺陷:要求将所需数据全部依次读进内存,一旦用户打开某个数据集,就会批量读取全部数据...
  • 利用Weka进行线性回归预测

    万次阅读 2018-06-11 12:30:21
    一、实验目的和内容 (一)实验目的和内容 利用Weka对现有数据进行短期预测。先利用excel和weka软件将数据记性预处理,再将数据载入weka中,开始创建模型并进行预测。通过本实验,掌握Weka软件的使用,对数据创建...
  • 浅谈Weka

    千次阅读 2015-09-17 10:55:59
    它为数据挖掘的整个过程提供全面的支持,包括准备输入数据、统计评估学习方案、输入数据和学习效果的可视.Weka除了提供大量学习算法之外,还提供了适应范围很广的预处理工具,用户通过一个统一界面操作各种组件,...
  • 统计(statistics) 下面是一些获取评价结果的方法 l 数值型类别 Correct()分类正确的样本数(还有incorrect()) pctCorrect()分类正确的百分比(还有pctIncorrect()) kappa() Kappa statistics l 离散型类别 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,200
精华内容 480
关键字:

weka离散化