精华内容
下载资源
问答
  • 基于WEKA软件实现金融领域数据挖掘分析案例,分别使用随机森林,支持向量机等算法对大数据进行聚类分析,得出结论
  • 使用weka进行聚类分析

    万次阅读 多人点赞 2018-06-07 16:22:32
    1、将.xls文件转化为.arff格式 首先,将.xls文件另存为.csv格式,然后使用weka explorer的预处理面板(preprocess),打开.csv文件,将导入的文件另存为.arff。打开.csv文件时提示如下错误解决方法:出现特殊符号(...


    1、将.xls文件转化为.arff格式

      (1)首先,将.xls文件另存为.csv格式,然后使用weka explorer的预处理面板(preprocess),导入.csv文件

    首先,在weka的安装包里,将RunWeka.ini里面的编码格式改为UTF-8,避免出现中文乱码

    (2)打开.csv文件时提示如下错误
    错误一,.csv文件中存在特殊字符('),替换它

    错误二,.csv文件中自动换行,删除自动换行,并取消单元格里的换行



    错误三,若提示错误,修改特殊字符也没有,也无换行表现,则将上一行单元格内容复制过来,再手动还原该单元格内容即可

    导入成功如下所示
    (3)将.csv格式转化为.arff格式



    2、进行聚类分析

    (1)打开.arff文件


    (2)切换到“Cluster”,点击“choose”按钮选择“SimpleKMeans"。(K均值算法)

    (3)点击上面的文本框,将numClusters修改为16(我们把这16102条实例聚成16类),seed参数是要设一个随机种子,依次产生一个随机数,用来得到k均值算法中第k个簇中心的位置。(seed值不同,所算的误差平方和的结果不同)

    (4)选中Cluster Mode的Use training set,选中Store clusters for  visualization(存储聚类可视化),点击start按钮



    可在左下角的Result list下产生的结果上右键,在新窗口中浏览结果。



    3、结果分析


    (1)误差平方和:这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小

    (2)列出了各个簇中心的位置。

    (3)各个簇中实例的数目及百分比
    (4)可视化聚类结果,在Result list列出的结果下右击Visualize cluster assignments。


    (5)将聚类的结果保存为arff文件


    result.arff文件




    展开全文
  • WEKA聚类分析实例代码

    2014-11-27 18:50:30
    weka智能分析示例代码,主要实现了聚类分析功能。
  • weka_ 聚类分析实例演练

    万次阅读 多人点赞 2016-07-21 11:56:10
    weka_ 聚类分析实例演练 创建时间: 2016/7/13 10:33 更新时间: 2016/7/14 9:49 作者: 354467546@qq.com  1、数据准备   2、聚类原理  聚类分析中的“类”(cluster)和前面分类的“类”(class)...
     
    

    weka_ 聚类分析实例演练

    1、数据准备: 下载链接  http://download.csdn.net/detail/xuxurui007/6753847

    2、聚类原理
         聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的,对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说,这个距离通常指欧氏距离。
         现在我们对前面的“bank data”作聚类分析,使用最常见的K均值(K-means)算法。下面我们简单描述一下K均值聚类的步骤:     1)K均值算法首先随机的指定K个簇中心;
              2)将每个实例分配到距它最近的簇中心,得到K个簇;
              3)分别计算各簇中所有实例的均值,把它们作为各簇新的簇中心。
              4)重复1)和2),直到K个簇中心的位置都固定,簇的分配也固定。
         上述K均值算法只能处理数值型的属性,遇到分类型的属性时要把它变为若干个取值0和1的属性。WEKA将自动实施这个分类型到数值型的变换,而且WEKA会自动对数值型的数据作标准化。这样得到的数据文件为“bank.arff”,含600条实例。

    3、实现步骤
         (1)用“Explorer”打开刚才得到的“bank.arff”(600条实例数据)。




         (2)切换到“Cluster”,  点击“Choose”按钮选择“SimpleKMeans”,这是WEKA中实现K均值的算法。

        
         (3)点击旁边的文本框, 修改“numClusters”为6,说明我们希望把这600条实例聚成6类,即K=6; 下面的 “seed”参数 是要设置一个 随机种子  ,依此产生一个 随机数  用来得到K均值算法中第一次给出的K个簇中心的位置。 我们不妨暂时让它就为10,点击OK。

         (4)选中“Cluster Mode”的“Use training set”(使用训练集),选择“Store clusters for visualization”(存储聚类可视化),点击“Start”按钮。


         (5)观察右边“Clusterer output”给出的聚类结果。也可以在左下角“Result list”中这次产生的结果上点右键,“View in separate window”在新窗口中浏览结果。
     



    3、结果分析
    (1)首先我们注意到结果中有这么一行(误差平方和):  Within cluster sum of squared errors: 1604.7416693522332
    这是评价聚类好坏的标准,数值越小说明 同一簇 实例之间的距离越小。


         实际上如果把“seed”参数改一下,得到的这个数值就可能会不一样, 例如 将“seed”取200,就得到  :
     Within cluster sum of squared errors: 1555.6241507629218  


    (也许实际得到的值不一样)应该取后面这个,当然再尝试几个seed,这个数值可能会更小 (该数值越小,说明同一簇实例直接的距离越小,聚类的结果也就越好。多次试验,找到该值趋于最小的值(实例容量越大,越难找),即得到了本次实验最好的方案结果) 

         (2) 接下来“Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean);分类型的就是它的众数(Mode), 也就是说这个属性上取值为众数值的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(Std Devs)。

         (3) 最后的“  Clustered Instances ”是 各个簇中实例的数目及百分比。

         (4)为了观察可视化的聚类结果,我们在左下方“Result list”列出的结果上右击,点“  Visualize cluster assignments ”。
     

         弹出的窗口给出了  各实例的散点图 。最上方的两个框是选择横坐标和纵坐标,第二行的“color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。 可以在这里点“Save”把聚类结果保存成ARFF文件。
    result.arff
      
      

         在这个新的ARFF文件中,“instance_number”属性表示某实例的编号,“Cluster”属性表示聚类算法给出的该实例所在的簇。
    result.arff





    展开全文
  • weka文本聚类(1)--概述

    千次阅读 2017-05-09 18:12:11
    在百度上随便可以搜索到利用weka进行文本聚类的示例,非常详细,但是不足的是,它们都是用命令行进行的,而用java语言调用weka进行文本聚类的完整例子却很难找到。文本聚类的理论基础是VSM向量空间模型,关

       由于做毕业论文需要用到文本聚类,之前完全没有接触过这个领域,从一步一步探索,到成功完成聚类,花费了不少的时间和精力。现在将最近的学习经验整理下来,方便记忆同时也能为刚入门的朋友提供一些指导方向。在百度上随便可以搜索到利用weka进行文本聚类的示例,非常详细,但是不足的是,它们都是用命令行进行的,而用java语言调用weka进行文本聚类的完整例子却很难找到。文本聚类的理论基础是VSM向量空间模型,关于这个理论可以在百度搜索到,各大神的讲解非常完美,比我这个小白厉害多了,因此我就不再叙述这个理论了,完全从实际调用weka讲起。

       一般来说,文本聚类的过程分为:

      (1)读取文本,并对文本进行分词,去除掉没有意义的停用词,如“呀,啊”等等。

      (2)构造向量空间模型,设置模型的一些参数

      (3)选择合适的距离函数进行文本聚类

      (4)分析聚类结果

    接下来的文章会从这四个部分开始讲解。

    展开全文
  • 数据挖掘,基于weka的数据聚类分析,实验报告
  • 本文目的weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到...

    本文目的

    weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans是一种常见的聚类算法,这里先拿此算法和示例数据做一些实验,以便熟悉weka的界面操作。

    什么是kmeans

    详细的描述,参见这里。通俗的解释,就是将K个点,称为中心点(K需要预先给出),随机的放到数据集中,然后针对数据集中的每个点计算与这K个中心点的距离,找到每个点最近的中心点。然后更新这K个中心点,使每个中心点是最近的点的平均中心点。如此循环,直到这K个点的位置不能再移动,得到K个聚类。

    数据集

    weka定义了自己的数据集文件格式,以.arrf结尾,整体感觉就是一张表格,主要分为四个部分(如下图):

    45c6d1da56f17341c2a748fab0f59a40.png 注释,comment

    数据集名称,relation

    属性,attribute,相当于列

    数据,每行是一个实例,每一行中的每个字段用逗号隔开,字符串在引号中间,也可以是数字或枚举

    获取并安装weka

    到官网上获取weka,如果本机有jre,那么直接下载weka安装包,如果没有jre,又不想手动安装java,可以安装带有jre的weka,后者会比前者大。

    获取后,直接双击,然后一步步OK,就行,最后会在桌面上生成小图标51d638a6641e4fdb15a57b7a6932b049.png

    执行Kmeans聚类操作

    双击小图标,弹出如下对话框,

    4b66d29a7c6b850408dcb380bb6a8fa1.png

    选择“Explorer”,如果以后高级用户,可以选择最后的“Simple CLI”,直接命令行操作。

    弹出如下对话框

    d3b27dafcf44c348e0145afa8c74e362.png

    这里,需要实验数据集,点击这里下载,然后点击“open file …”,导入刚刚下载的数据集,出现如下界面,说明导入OK。

    9e83cbcd2fc79b4acb821333890fac02.png

    现在,选取最上面的第三个tab“Cluster”,进入聚类分析主界面

    75ac9faba55cb310c54bff56452141d2.png

    点击“Choose”按钮,选择聚类算法。这里先选择了SimpleKMeans,单机“Choose”旁边的输入框,可以设置算法参数

    caab3a5e51255933b7f40dcfeef663c6.png

    这里需要将”numClusters”修改为一个合适的值,其他保留默认即可。

    记下来,点击开始,weka就开会帮你算出结果,结果会以文件的方式存储在Result List中,方便后面分析。右边是计算结果。

    结果可视化

    21538262a70486890dcd51e27602b96a.png

    Explorer主界面最上面最后一个tab是数据结果可视化,目前只能支持2纬可视化,所以个人觉得比较鸡肋,因为一般数据纬度都为大于2纬。

    具体如何使用可视化,可以参见最后的链接。

    以上就是利用weka进行kmeans聚类操作的过程。

    参考资料

    展开全文
  • 新建Eclipse工程,下载weka.jar包,导入工程,新建class类,创建main函数,这些都不用说了吧!首先准备数据官方文本格式为arff,个人原因选择TXT格式,这个不必纠结!新建txt文本,格式为ANSI,接下来文件内容格式:...
  • How do we compute accuracy for clusters using Weka?I can use this formula:Accuracy (A) = (tp+tn)/Total # samplesbut how can I know what is the true positive, false positive, true negative and false ne...
  • 下面是调用weka包中实现的kmeans的代码 package others; import java.io.File; import weka.clusterers.SimpleKMeans; import weka.core.DistanceFunction; import weka.core.Instances; import weka.core....
  • cluster-weka聚类

    2012-11-09 09:57:09
    cluster.pdf是一篇关于在weka中实现聚类的论文 对于了解weka聚类 写数据挖掘方面的论文 有帮助,开发聚类设计也可以参考
  • weka 聚类算法总结

    千次阅读 2013-04-24 22:07:42
    概念聚类的一种形式,不仅聚类,而且更进一步来找出每一个类的特征描述。 并不显式地产生数据集聚类,而是用分类树的形式表现层次聚类。分类树的每一个节点表示了一个概念和对于这个概念(此概念总概了这个节点下的...
  • I've been trying to use the DBSCAN clusterer from Weka to cluster instances. From what I understand I should be using the clusterInstance() method for this, but to my surprise, when taking a look at t...
  • 使用Weka平台进行K-means聚类 1、启动Weka平台,点击Explorer 2、点击Open file,找到数据集所在路径 在Weka安装目录下有一个data文件夹,里面有一些现成的数据。 3、选择一个数据集打开,点击Cluster 4、点击...
  • 评价聚类使用ClusterEvaluation */ ClusterEvaluation eval = new ClusterEvaluation(); eval.setClusterer(kmeans); eval.evaluateClusterer(new Instances(dataset)); System.out.println(eval....
  • weka常用聚类

    2013-03-30 22:00:37
    非常实用的数据挖掘工具包
  • 当然,如果直接使用weka的工具,自然没有问题,但是如果想用weka的功能在自己的平台框架中呢?我这里放出一个当初对weka的源码学习过程,主要是如何调用weka的api。仅供参考,代码中有什么问题,欢迎邮件联系。这里...
  • weka文本聚类(3)--文本转换成arff

    千次阅读 2017-05-10 22:13:55
    使用weka进行聚类分析,必须先将文本数据转换成weka可识别的arff格式。Instances类是weka可识别的数据类,其toString方法即可转换为arff格式的数据。在文本聚类中,arff格式的示例如下: @relation patent @...
  • WEKA中文详细教程

    2018-11-21 15:44:28
    它是集数据预处理、学习算法(分类、回归、聚类、关联分析)和评估方法等为一体的综合性数据挖掘工具。 具有交互式可视化界面。 提供算法学习比较环境 通过其接口,可实现自己的数据挖掘算法
  • # weka 聚类使用

    2021-03-09 04:16:28
    import weka.clusterers.Clusterer; import weka.clusterers.EM; import weka.clusterers.FarthestFirst; import weka.clusterers.SimpleKMeans; import weka.core.Instance; import weka.core.Instances; import ...
  • 只要安装jdk环境就可使用(具体安装jdk可以百度)本文将论述如何不用代码,使用weka操作,通过与文档频数与单词权的特征选择方法进行文本聚类(数据为附件)第一步:将weka创建NetBeans文件目录中将weka导入NetBeans软件...
  • Weka平台实现聚类算法 进一步理解聚类算法(K-平均、PAM、层次聚类、密度聚类),利用weka实现数据集的聚类处理,学会调整模型参数,以图或树的形式给出挖掘结果,并解释规则的含义。
  • Weka初步二(聚类算法)

    千次阅读 2016-01-08 15:04:49
    上次我介绍了分类器的使用方法,这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与分类算法(supervised learning)相对的。在它们两者之间还一种叫做半监督...
  • 这是转自博友的博客,讲解了java调用weka两种聚类算法的demo,在调用之前,必须下载weka jar包导入eclipse里面,并下载weka自带的数据集 进行测试; 本人只是进行了简单的测试,发现算法可以完美调用,但是算法的...
  • 一个我本人写的关天Weka.jar工具包中各种聚类算法的调用的java源程序
  • Weka数据挖掘——聚类

    2016-01-21 20:57:00
    如果你渴望得到某样东西,你得让它自由,如果它回到你身边,它就是属于你的,如果它不回来,你就从未拥有过它。——大仲马《基督山伯爵》 生活是一面镜子,我们努力...2-3 DBSCAN具有噪声的基于密度的聚类方法 ...
  • Weka中各种分类算法和聚类算法集成

    热门讨论 2010-05-25 17:07:28
    本工具包集成了Weka中最新的分类和聚类算法,将其打包成jar包,方便java开发者调用
  • weka本身自带英文分词,没有自带中文分词,因此需要自己进行中文分词。可以通过继承Tokenizer,并覆盖里面的方法,如下: public String globalInfo() public boolean hasMoreElements() public String next...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,941
精华内容 1,576
关键字:

weka使用聚类教程