精华内容
下载资源
问答
  • 数据挖掘算法所依托的数理基础角度归类,目前数据挖掘算法主要分为:机器学习方法、统计方法与神经网络方法。机器学习方法分为决策树、基于范例学习、规则归纳与遗传算法等:统计方法细分为回归分析、时间序列...
    
    

    1. 分类

    • 在数据挖掘的发展过程中,由于数据挖掘不断地将诸多学科领域知识与技术融入当中,因此,目前数据挖掘方法与算法已呈现出极为丰富的多种形式。从使用的广义角度上看,数据挖掘常用分析方法主要有分类、聚类、估值、预测、关联规则、可视化等。从数据挖掘算法所依托的数理基础角度归类,目前数据挖掘算法主要分为三大类:机器学习方法、统计方法与神经网络方法。机器学习方法分为决策树、基于范例学习、规则归纳与遗传算法等:统计方法细分为回归分析、时间序列分析、关联分析、聚类分析、模糊集、粗糙集、探索性分析、支持向量机与最近邻分析等:神经网络方法分为前向神经网络、自组织神经网络、感知机、多层神经网络、深度学习等。在具体的项目应用场景中通过使用上述这些特定算法,可以从大数据中整理并挖掘出有价值的所需数据,经过针对性的数学或统计模型的进一步解释与分析, 提取出隐含在这些大数据中的潜在的规律、规则、知识与模式口。下面介绍数据挖据中经常使用的分类、聚类、关联规则与时间序列预测等相关概念。

    • 数据挖掘方法中的一种重要方法就是分类,在给定数据基础上构建分类函数或分类模型,该函数或模型能够把数据归类为给定类别中的某一种类别,这就是分类的概念。在分类过程中,通常通过构建分类器来实现具体分类,分类器是对样本进行分类的方法统称。一般情况下,分类器构建需要经过以下4步:①选定包含正、负样本在内的初始样本集,所有初始样本分为训练与测试样本;②通过针对训练样本生成分类模型:③针对测试样本执行分类模型,并产生具体的分类结果:④依据分类结果,评估分类模型的性能。在评估分类模型的分类性能方面,有以下两种方法可用于对分类器的错误率进行评估:①保留评估方法。通常采用所有样本集中的2/3部分样本作为训练集,其余部分样本作为测试样本,也即使用所有样本集中的2/3样本的数据来构造分类器,并采用该分类器对测试样本分类,评估错误率就是该分类器的分类错误率。这种评估方法具备处理速度快的特点,然而仅用2/3 样本构造分类器,并未充分利用所有样本进行训练。②交叉纠错评估方法。该方法将所有样本集分为N个没有交叉数据的子集,并训练与测试共计N次。在每一次 训练与测试过程中,训练集为去除某- 个子集的剩余样本,并在去除的该子集上进行N次测试,评估错误率为所有分类错误率的平均值。一般情况下,保留评估方法用于最初试验性场景,交叉纠错法用于建立最终分类器。

    2. 聚类

    • 随着科技的进步,数据收集变得相对容易,从而导致数据库规模越来越庞大,例如,各类网上交易数据、图像与视频数据等,数据的维度通常可以达到成百上千维。在自然社会中,存在大量的数据聚类问题,聚类也就是将抽象对象的集合分为相似对象组成的多个类的过程,聚类过程生成的簇称为一组数据对象的集合。聚类源于分类,聚类又称为群分析,是研究分类问题的另种统计计算方法, 但聚类又不完全等同于分类同。聚类与分类的不同点在于:聚类要求归类的类通常是未知的,而分类则要求事先已知多个类。对于聚类问题,传统聚类方法已经较为成功地解决了低维数据的聚类,但由于大数据处理中的数据高维、多样与复杂性,现有的聚类算法对于大数据或高维数据的情况下,经常面临失效的窘境。受维度的影响,在低维数据空间表现良好的聚类方法,运用在高维空间上却无法获得理想的聚类效果。在针对高维数据进行聚类时,传统聚类方法主要面临两个问题:①相对低维空间中的数据,高维空间中数据分布稀疏,传统聚类方法通常基于数据间的距离进行聚类,因此,在高维空间中采用传统聚类方法难以基于数据间距离来有效构建簇。②高维数据中存在大量不相关的属性,使得在所有维中存在簇的可能性几乎为零。目前,高维聚类分析已成为聚类分析的个重要研究方向,也是聚类技术的难点与挑战性的工作。

    3. 关联规则

    • 关联规则属于数据挖掘算法中的一类重要方法,关联规则就是支持度与置信度分别满足用户给定阈值的规则4。所谓关联,反映一个事件与其他事件间关联的知识。支持度揭示了A和B同时出现的频率。置信度揭示了B出现时,A有多大的可能出现。关联规则最初是针对购物篮分析问题提出的,销售分店经理想更多了解顾客的购物习惯,尤其想获知顾客在一次购物时会购买哪些商品。通过发现顾客放入购物篮中不同商品间的关联,从而分析顾客的购物习惯。关联规则的发现可以帮助销售商掌握顾客同时会频繁购买哪些商品,从而有效帮助销售商开发良好的营销手段。1993 年,R.Agrawal首次提出挖掘顾客交易数据中的关联规则问题,核心思想是基于二阶段频繁集的递推算法。起初关联规则属于单维、单层及布尔关联规则,例如,典型的Aprior 算法。在工作机制上,关联规则包含两个主要阶段:第1阶段先从资料集合中找出所有的高频项目组,第2阶段由高频项目组中产生关联规则。随着关联规则的不断发展,目前关联规则中可以处理的数据分为单维和多维数据。针对单维数据的关联规则中,只涉及数据的一一个维,如客户购买的商品:在针对多维数据的关联规则中,处理的数据涉及多个维。总体而言,单维关联规则处理单个属性中的一些关系,而多维关联规则处理各属性间的关系。

    4. 时间序列预测

    • 通常将统计指标的数值按时间顺序排列所形成的数列,称为时间序列。时间序列预测法是一种历史引申预测法,也即将时间数列所反映的事件发展过程进行引申外推,预测发展趋势的一种方法。时间序列分析是动态数据处理的统计方法,主要基于数理统计与随机过程方法,用于研究随机数列所服从的统计学规律,常用于企业经营、气象预报、市场预测、污染源监控、地震预测、农林病虫灾害预报、天文学等方面。时间序列预测及其分析是将系统观测所得的时数据,通过 参数估计与曲线拟合来建立合理数学模型的方法,包含谱分析与自相关分析在内的一系列统计分析理论, 涉及时间序列模型的建立、推断、最优预测、非线性控制等原理。时间序列预测法可用于短期、中期和长期预测,依据所采用的分析方法,时间序列预测又可以分为简单序时平均数法、移动平均法、季节性预测法、趋势预测法、指数平滑法等方法。
    展开全文
  • 这里假设 类标签为largeDoses, smallDoses, didntLike三类,假设训练样本有三个特征属性,类标签放在数据集的最后一列 import numpy as np def file2matrix(filename): # filename是文件保存地址 love_...

    这里假设 类标签为largeDoses, smallDoses, didntLike三类,假设训练样本有三个特征属性,类标签放在数据集的最后一列

    import numpy as np
    
    def file2matrix(filename):  # filename是文件保存地址
        love_dictionary = {'largeDoses':3, 'smallDoses':2, 'didntLike':1}
        fr = open(filename)
        arrayOLines = fr.readlines()
        numberOfLines = len(arrayOLines)            # 获得文件的行数
        returnMat = np.zeros((numberOfLines, 3))        # 用于存放训练数据
        classLabelVector = []                       # 用于存放类标签
        index = 0
        for line in arrayOLines:
            line = line.strip() # 截取掉所有的回车字符
            listFromLine = line.split() 
            returnMat[index, :] = listFromLine[0:3] # 存放训练样本
            if(listFromLine[-1].isdigit()): # 如果标签字符串是数字,用int()函数转换为数字类型
                classLabelVector.append(int(listFromLine[-1]))
            else: # 如果标签字符串不是数字,利用字典转换为数字类型
                classLabelVector.append(love_dictionary.get(listFromLine[-1]))
            index += 1
        return returnMat, classLabelVector

    isdigit()判断一个字符串是否为数字

    b = ['a', '2a', '2']
    print(b[0].isdigit())
    print(b[1].isdigit())
    print(b[2].isdigit())
    
    False
    False
    True

     

    展开全文
  • 1、Caltech-101 数据库:该数据库在2003年被发布,包括101目标图像和1背景图像,共102,彩色图像较多,部分灰度图像。总共图像数为9145(除去背景后总数为8677),每图像数大约在31~800之间,图像大小为...

         1、Caltech-101 数据库:该数据库在2003年被发布,包括101类目标图像和1类背景图像,共102类,彩色图像较多,有部分灰度图像。总共图像数为9145(除去背景后总数为8677),每类图像数大约在31~800之间,图像大小为300×200。此数据库的特点是:每个图像只含有一个目标,且目标大都处于图像中间位置,基本上占据整个图像区域,背景相对比较简单。

                 http://www.vision.caltech.edu/Image_Datasets/Caltech101/

         2、Caltech-256 数据库:该数据库在2006年被发布,包括256类目标图像和1类背景图像,共257类。与Caltech101相比主要变化表现在,图像总数达到30608,且每类最少含有80幅图像。

                  http://www.vision.caltech.edu/Image_Datasets/Caltech256/

        3、Pascal VOC 数据库:Pascal VOC Challenge(Pascal是Pattern Analysis, Statistical Modeling andComputational Learnin的缩写)是非常著名的视觉目标分类、检测及分割等任务比赛。从2005年到2012年,每年举行一届比赛并公布相应的数据库,该数据
    库中每幅图像含有多个类的目标,从2007年开始,每年的数据库均含有20类目标,但具体的目标数不一样。
              该数据库有三个显著的特点,每张图片可能含有多类目标且每类目标可能具有多个实例;目标的大小形状位置相差非常大;图像的背景比较复杂。这些特点给识别任务带来了非常大的困难。

                   http://host.robots.ox.ac.uk/pascal/VOC/

        4、行人检测数据库:

                   http://pascal.inrialpes.fr/data/human/INRIAPerson.tar                   大小970M

                   http://www.cis.upenn.edu/~jshi/ped_html/

    展开全文
  • 机器学习一般将数据划分成训练数据、验证数据(可选)、测试数据个部分,训练数据和验证数据用来训练模型,估计模型的具体参数,测试数据用来验证模型预测的准确程度。下面我们就对german_credit这个数据进行...

     机器学习一般将数据划分成训练数据、验证数据(可选)、测试数据、三个部分,训练数据和验证数据用来训练模型,估计模型的具体参数,测试数据用来验证模型预测的准确程度。下面我们就对german_credit这个数据进行划分

    german_credit <- read.csv("f:\\german_credit.csv")
    train <-createDataPartition(y=german_credit$Creditability,p=0.75,list=FALSE)
    train2 <- german_credit[train, ]  #75%的german_credit数据作为训练数据

    test2 <- german_credit[-train, ]  #25%的german_credit数据作为测试数据

    以上命令中createDataPartition( )就是数据划分函数,对象是german_credit$Creditability,p=0.75表示训练数据所占的比例为75%,list是输出结果的格式,默认list=FALSE。 train2 <- german_credit[train, ]test2 <- german_credit[-train, ]分别制定具体的训练数据和测试数据。

    使用createDataPartition 的好处在于,它能将低熵数据集随机抽取出我们需要的训练集来。比如我们的数据集共有 100 个样本点,前50 个是一类,后 50 个是一类。我们为了让训练集里两类样本都各有一些,必然希望从前 50 个样本点随机抽取一定比例,后 50 个里也随机抽取相应比例的样本点来组成训练集。这个手动过程因为涉及到人的主观意识,从而不能保证完全随机化。而 createDataPartition 会自动从 y 的各个 level 随机取出等比例的数据来,组成训练集,给我们省了很多事。

    展开全文
  • 文章目录深度学习-07(PaddlePaddle图像分类)图像分类概述概述什么是图像分类图像分类粒度图像分类发展历程图像分类问题的挑战常用数据集介绍MNIST数据集CIFAR10数据集ImageNet数据集FDDB人脸数据集WIDER Face数据集...
  • python机器学习库sklearn——生成样本数据

    万次阅读 多人点赞 2018-04-08 15:45:50
    python数据挖掘系列教程 sklearn自带数据 sklearn自动了下面几种数据用于算法练习。 load_boston([return_X_y]) 加载波士顿房价数据;用于回归问题 load_iris([return_X_y]) 加载iris 数据集;用于分类问题...
  • smote是一个很有用的用于样本生成的方法,在Python中已经了现成的实现可以直接调用,...今天主要是借助于样本生成的方法,来对原始不均衡样本数据集的扩充,使得其“尽力平衡” 下面是简单的实验:def create_dat...
  • 这里尝试使用RSD从已知的GF5 高光谱数据样本搜索光谱库,以便查找与之最相近的地物。这部分介绍的方法的可行性和效果如何还需经更多的使用验证。感兴趣的用户可以试用一下。 GF5 AHSI数据处理已经在前面介绍过 ①...
  • 文章目录内容介绍实际业务数据冲突样本的选择数据的共线性 内容介绍 将日常工作中遇到的数数据冲突和样本源的方法进行总结,其中主要包括 实际业务数据冲突、样本选取问题、数据共线性 等思路,并且长期更新。 实际...
  • 大公司们一般会自己的数据,但对于创业公司或是高校老师、学生来说,“Where can I get large datasets open to the public?”是不得不面对的一个问题。 本文结合笔者在研究生学习、科研期间使用过以及阅读文献...
  • 常用数据挖掘的技术

    万次阅读 2015-04-03 11:25:33
    一、前 沿  数据挖掘就是从大量的、不完全的、噪声的、模糊的、随机的数据中,...数据挖掘的任务是从数据集中发现模式,可以发现的模式很多种,按功能可以分为两大:预测性(Predictive)模式和描述性(Descripti
  • 数据分析中常用数据模型

    万次阅读 2011-10-07 22:05:22
    从数据库中随机抽取若干名用户作为分析样本建立分析模型,模型图中假定抽样人数为100人,15天内最高使用量为200最少为15,在横坐标轴依次画出每人的使用量立柱图;然后向右侧画出最高点和最低点的水平引线;然后垂直...
  • 数据样本的选择方法

    万次阅读 2017-04-26 10:41:33
     在目前我的实验中训练样本主要两种选择方式:(当让还有很多选择方式,比如我在人脸图像亲缘识别的实验中是将所有的数据当作训练样本,在将所有的数据作为测试样本来测试方法的识别率、还有比如交叉验证等很多...
  • SVM 处理高维小样本数据

    千次阅读 2017-12-28 19:40:28
    1.降维的时候 用PCA n_comments=0.99 保留99%的信息 2.SVM 分为SVC(分类)SVM(回归) 3.Leave One Out 进行训练集和测试集的划分 具体代码见 https://github.com/qqxze/SVM
  • #coding:utf-8 from __future__ import division import sys reload(sys) sys.setdefaultencoding('utf-8') import time start_time = time.time() ...# 从sklearn.datasets 导入 iris数据加载器。 from skle
  • 常用数据标准化方法

    千次阅读 2019-02-25 17:02:07
    什么是数据标准化(Normalization)? 数据的标准化(normalization)是将数据按比例缩放,使之...其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法:min-max标准化(Min-ma...
  • 无偏采样:意味着真实样本总体的类别比例在训练集中得以保持。 在训练集中正反例数目不同时,令表示正例数目,表示反例数目,观测几率为,,我们假设训练集是真是样本总体的无偏采样,因此观测几率就代表了真实几率...
  • 数据挖掘——常用聚类算法总结

    千次阅读 多人点赞 2019-06-04 15:50:39
    常用数据挖掘算法分为四大:聚类、分类、关联以及推荐算法。另外还有一个预处理:降维算法 聚类算法 聚类是在一群未知类别标号的样本上,用某种算法将他们分成若干类别,这是一种无监督学...
  • 就是人们常说的分类,通过已的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出...
  • 样本学习之半监督的小样本分类

    千次阅读 2019-03-13 21:59:57
    在上篇博客中介绍了原型网络,一种基于度量的小样本分类方法,核心思想便是在一个嵌入空间中将所有同类的样本拉到较近的位置,然后通过距离度量的方式来判断一个样本x属于哪一个。对于原型网络,这是一个监督学习...
  • 16种常用数据分析方法汇总

    万次阅读 多人点赞 2017-04-04 16:16:33
    经常会朋友问到一个朋友,数据分析常用的分析方法哪些,我需要学习哪个等等之的问题,今天数据分析精选给大家整理了十六种常用数据分析方法,供大家参考学习。 一、描述统计 描述性统计是指运用制表和...
  • 数据分析之数据分类了解

    千次阅读 2018-07-27 21:47:18
    1、定类数据 是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。如性别变量中的男、女取值,可以分别用1、 2表示,民族变量中的各个民族,可以用‘汉’‘回’‘满’等字符表...
  • 数据挖掘之分类

    千次阅读 2015-10-04 10:51:14
    数据挖掘之分类 一、分类综述 ...(由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然继续细化模型就会产生这样的模型,当决策树的叶节点没有足够的代表性样本时,很
  • Sklearn提供的常用数据

    万次阅读 多人点赞 2018-06-07 20:41:50
    1) 鸢尾花数据集:load_iris():用于分类任务的数据集2) 手写数字数据集:load_digits():用于分类任务或者降维任务的数据集3) 乳腺癌数据集load-barest-cancer():简单经典的用于二分类任务的数据...
  • 数据挖掘中常用数据清洗方法

    万次阅读 多人点赞 2018-05-15 14:16:15
    数据挖掘过程中,数据清洗主要根据探索性分析后得到的一些结论入手,然后主要对四类异常数据进行处理;分别是缺失值(missing value),异常值(离群点),去重处理(Duplicate Data)以及噪音数据的处理。 1. 探索性...
  • IRIS数据集也称作鸢尾花数据集,整个数据集共有150条数据,分为三类,每类50条数据,每一条数据四个属性:花萼长度,花萼宽度,花瓣长度,花瓣宽度,标签数据共有三种,分别是Setosa,Versicolour,Virginica。...
  • 常用数据科学方法总结梳理笔记

    千次阅读 2019-05-10 16:27:06
    常用数据科学方法 【未经允许,不得转载】 ...
  • 数据预处理】样本不均匀

    千次阅读 2018-03-06 09:44:40
    1:10000),什么较好的方案构造训练集的正负样本分布?构造后如何解决训练数据与预测的分布不一致? 上采样、下采样、代价敏感,没什么好办法。这个之前调研过,主要分重采样和欠采样!这种不平衡是因为比率的不...
  • 数据降维】数据降维方法分类

    万次阅读 多人点赞 2012-04-29 15:48:48
    数据降维基本原理是将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集紧致的低维表示。 数据降维工具箱drtoolbox中众多算法,这里简单做个分类。 因为很多并没有仔细了解,在...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 175,676
精华内容 70,270
关键字:

常用的样本数据有三类