精华内容
下载资源
问答
  • 链表是常用数据结构之一 ,总体分为单向 ,双向
  • 本章导读 数组是一种常用数据结构数组分为静态存储结构.ppt
  • 数据处理分为哪些步骤

    千次阅读 2020-06-01 11:51:58
     一般来说,大数据处理的基本流程可以分为数据抽取与集成、数据分析和数据解释这三个步骤。  一、数据抽取与集成  大数据来源广泛、种类多样、数据类型极其复杂,就像是想要从海水当中萃取盐分一样,想要从...

      具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。大数据来源广泛,应用需求和数据类型都不尽相同,不过最基本的处理流程是一样的。

     

      大数据处理的基本流程

     

      一般来说,大数据处理的基本流程可以分为数据抽取与集成、数据分析和数据解释这三个步骤。

     

      一、数据抽取与集成

     

      大数据来源广泛、种类多样、数据类型极其复杂,就像是想要从海水当中萃取盐分一样,想要从这样庞大杂乱的数据中提取价值,那首先就要对数据进行抽取和集成,从中提取出数据的实体和关系,经过关联和聚合后再采用统一定义的结构来存储这些数据。

     

      在数据抽取和集成时,需要对数据进行清洗,保证数据的质量和可信。数据抽取和集成并不是大数据时代特有的技术,而是在传统的数据库领域就存在了,一直到大数据时代渐渐发展成熟,直到现在,现有的抽取与集成方法大概可以分为四种:

     

      基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎,以及基于搜索引擎的方法。

     

      二、数据分析

     

      抽取、集成之后是数据分析,2.1中说抽取集成是海水中萃取出盐分,那数据分析就是二次加工,将粗盐精制为能够食用的食用盐……

     

      和抽取与集成一样,数据分析同样不是大数据时代特有的技术,在以前同样也有统计分析、数据挖掘和机器学习等,不过这些技术不能适应大数据时代数据分析的要求,必须有所调整,而这个调整又面临着几个问题:

     

      1.庞大的数据必然带来庞大的噪音,需要事前进行清洗,不过由于数据量过大,对于计算机资源和算法都是一个考验。

     

      2.大数据时代的应用常常具有实时性的特定,因此算法的准确性不再是主要指标,而是需要再实时性和准确率之间取一个平衡。很多传统的算法都是现行执行,在大数据时代,这些算法都需要变为并发,以应对大数据的处理。

     

      3.对数据结果的衡量标准比较困难,因为数据量大、内心混杂、产生速度快,进行分析的时候往往对整个数据的分布特点掌握得不清楚,从而导致设计衡量的方法和指标非常苦难。

     

      三、数据解释

     

      数据解释又称为数据分析,是大数据处理的核心,前两道工序将数据挖掘了出来,这个时候就要根据数据分析出一个结果了,比如有一个白领上班时间的大数据,那么根据大数据分析出今天这个白领在九点钟是否会出门上班……这个就叫做数据解释。

     

      数据解释的方法很多(比如直接以文本方式输出结果),比较传统的解释方法无疑在大数据时代不适用,这个时候可以考虑从两个方面提升数据解释能力:

     

      1.引入可视化技术,常见的可视化技术有标签云、历史流、空间信息流等。

     

      2.让用户能够在一定时间程度上了解和参与具体的分析过程,比如人机交互技术。

     

      大数据分析的前景是光明的,未来的发展方向是物联网、云计算、人工智能,这些科技发展方向将使用大数据,数据不断积累,数据越来越大,大数据的应用也越来越多。

    展开全文
  • UCI数据集整理(附论文常用数据集)

    万次阅读 多人点赞 2018-08-30 18:02:32
    摘要:UCI数据集作为标准测试数据集经常出现在许多机器学习的论文中,为了更方便使用这些数据集有必要对其进行整理,这里整理了论文中经常出现的数据集,并详细介绍如何使用MATLAB将...UCI数据集是一个常用的机器...

    摘要:UCI数据集作为标准测试数据集经常出现在许多机器学习的论文中,为了更方便使用这些数据集有必要对其进行整理,这里整理了论文中经常出现的数据集,并详细介绍如何使用MATLAB将数据集文件整理成自己需要的格式以及如何使用数据集文件。要点如下,博主另一篇博文UCI数据集详解及其数据处理(附148个数据集及处理代码)有更加详细的介绍。

    点击跳转至UCI数据集下载页

    下载链接:博主在面包多网站上的完整资源下载页


    1. 前言

    UCI数据集是一个常用的机器学习标准测试数据集,是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库。机器学习算法的测试大多采用的便是UCI数据集了,其重要之处在于“标准”二字,新编的机器学习程序可以采用UCI数据集进行测试,类似的机器学习算法也可以一较高下。其官网地址如下:
    website: UCI Machine Learning Repository

    尽管从UCI数据集官网可以很容易找到许多想要的数据集,但要将其提供给自己的程序使用还需要了解数据的详细信息。UCI数据集中并非所有数据集都是以相同格式存于文件中的,读取和使用文件方式不一,因此有必要对数据文件稍作整理,特此总结。


    2. UCI数据集介绍

    2.1 简要认识

    要使用数据集中的数据首先需要分清标记和属性值。如点击进入数据集官网:UCI数据集官网选取数据集Iris

    该数据集详情页面如下,从表中数据显示该数据集的数据量为150,属性数为4

    而再往下的Data Set information 中则介绍了该数据集的详细信息,下面的Attribute Information(属性信息)是我们需要关注的,如下图

    其中1-4分别说明了四个属性所代表的实际意义,而5则说明了该数据集分为三类:Iris Setosa、Iris VersicolourIris Virginica。认识到这些,再去看具体的Iris文件中的数据便清楚明了了,点击标题Iris Data Set下方的Data Folder进入文件位置页面,选择iris.data(该文件为Iris数据集数据存放文件)

    进入到数据详情页面,如下图。可以看到文本的排列:每行5个数以逗号分隔,共150行,每行的前4列(红框内的数)分别对应4个属性值,而最后一列(绿色框内)为每个数据所属类别(或称标记)。当前看到的都是“Iris-setosa”一类的数据,往下翻则可看到”Iris-versicolour“和”Iris-virginica

    • 其他的数据集的情况与iris相似,而各个数据集属性数或类别数各有差异。值得注意的是,有些数据集每行数据中间的分隔符并非都是“ ,”(逗号),还有可能是“ ”(空格);有些数据集的标记可能是用数字表示的,如1,2,… 其位置也可能出现在第1列(也可能文件中未给出标记,需自行加上);还有的可能属性值都是英文字符,分别如下所示的wine数据集heart-disease数据集adult数据集。要想以统一的程序使用这样内部格式不一的数据集,就需要在程序使用前根据实际情况对数据集进行调整了。
      总之,各数据集可能各有差异,按照上面的步骤了解了各自的注释信息,找到属性数、分类数、标记等重要信息使用起来便顺利得多。

    2.2 下载数据

    要保存网站上的数据文件,可以进入某个数据集的文件位置页面,如Iris文件位置,选择“iris.data”,右键,链接另存为,即可下载该数据集文件。如下所示,当前保存的文件格式为“.data”文件。

    • 如若想保存文本文件(.txt),可先自行新建一个文本文件,直接点击iris.data进入数据详情页面,直接全选所有数据将数据粘贴到自己新建的文本文件中。至于其他文件格式如.mat,.xls则可借助MATLAB先读取文件数据然后转存为其他格式,在后面章节也会介绍。

    3. 用程序整理数据集

    本节介绍如何使用MATLAB对数据集进行整理,下面以对Iris数据集的整理为例介绍。

    首先从官网下载数据集,例如前面下载的iris.data或者自行复制的txt文件(自命名iris.txt),在文件所在文件夹新建一个.m文件。整理程序的功能是读取原文件数据将最后一列的英文标记按每类改为1-3的数字并将标记放在第一列,重新存储到新的txt文件,顺便另存为.mat以及.xls文件。

    从前面可知,iris文件的最后列为英文字母,如果直接采用MATLABload( )函数将导致最后一列文本未知错误,所以这里采用textscan( )函数。textscan( )函数调用方式如下

    textscan( ): 读取任意格式的文本文件。通过此函数,能够以一次读取一个块的方式读取文件,并且每个块可以具有不同的格式。
    使用方法:首先打开文本文件以进行读取,fopen 返回文件标识符。
    fileID = fopen('test80211.txt','r');
    读取 4 个简介行,这些行是由换行符分隔的字符串。
    Intro = textscan(fileID,'%s',4,'Delimiter','\n')
    Intro = 1x1 cell array{4x1 cell} textscan 返回一个 1x1 元胞数组,其中包含由字符串组成的一个 4×1 元胞数组。
    然后读取每个块的内容即可取出数据了,最后关闭文件。
    fclose(fileID);
    —— 引自 《MATLAB中文文档》

    Iris数据集进行整理的MATLAB程序如下。首先利用textscan()读取数据data为 1 * 5 cell 的元胞数组,每个元素是150*1 double 的数组,存储了一列上的所有数据。明显地,最后一个元素就是全部的标记数组,我们遍历这些标记并把带同一类标记的数据的索引记录下来。根据记录下的每类所有数据的索引便可取出每一类的数据并重新加上数字的标记。

    • textscan()也可以读取txt的文件数据,所以第6行的代码中的文件名同样可以是txt文件,如第5行代码所示。
    clear
    clc
    % 整理iris数据集
    
    % f=fopen('iris.txt');
    f=fopen('iris.data');% 打开文件
    data=textscan(f,'%f,%f,%f,%f,%s'); % 读取数据
    
    D=[];% D中存放属性值
    for i=1:length(data)-1
        D=[D data{1,i}];
    end
    fclose(f);
    
    
    lable=data{1,length(data)};
    n1=0;n2=0;n3=0;
    % 找到每类数据的索引
    for j=1:length(lable)
       if strcmp(lable{j,1},'Iris-setosa')
           n1=n1+1;
           index_1(n1)=j;% 记录下属于“Iris-setosa”类的索引
           
       elseif strcmp(lable{j,1},'Iris-versicolor')
           n2=n2+1;
           index_2(n2)=j;
           
       elseif strcmp(lable{j,1},'Iris-virginica')
           n3=n3+1;
           index_3(n3)=j;
           
       end
    end
    
    % 按照索引取出每类数据,重新组合
    class_1=D(index_1,:);
    class_2=D(index_2,:);
    class_3=D(index_3,:);
    Attributes=[class_1;class_2;class_3];
    
    I=[1*ones(n1,1);2*ones(n2,1);3*ones(n3,1)];
    Iris=[I Attributes];% 为各类添加数字标记
    
    
    save Iris.mat Iris % 保存.mat文件
    save Iris -ascii Iris; % 保存data文件
    
    
    f=fopen('iris1.txt','w');
    [m,n]=size(Iris);
    for i=1:m
        for j=1:n
            if j==n
                fprintf(f,'%g \n',Iris(i,j));
            else
                 fprintf(f,'%g,',Iris(i,j));
            end
        end
    end
    
    fclose(f);
    
    
    % save iris.txt -ascii Iris 
    % dlmwrite('iris.txt',Iris);
    

    经过代码1-42行的操作,原来带有的英文标记的数据便由相应的数字标记代替了并放在了第一列的位置上。这里原来标记为Iris-setosa的数据重新标记为1,Iris-versicolor标记为2,Iris-virginica标记为3。

    代码45行和46行分别将整理好的数据保存为.mat文件和.data文件;第49-61行是通过文件操作的方式利用循环逐行逐列将数据打印到txt文件中,每个数据中间由逗号分隔,每行5个数据打印完则回车至下一行。

    当然也可以采用64行或65行的方式保存txt文件,不过里面数据的格式稍有不同,读者可以自行尝试一下。整理前后的文件对比情况如下图所示。参照以上代码对于其他数据集的整理程序可在此之上根据实际需要稍作修改。

    4. 如何使用数据集文件

    整理好了数据文件,使用起来就比较简单了,其实前面的代码中已经读取过文件中的数据了。经过整理现在文件中的数据都是数字形式,在MATLAB中可以通过load( )函数直接读取了,如下代码

    iris_data=load('iris1.txt');
    lable_iris=iris_data(:,1);
    attributes_iris=iris_data(:,2:end);
    

    iris_data包含了标记和属性值的全部数据,lable_irisiris_data的第一列所有元素,即每个数据的标记,attributes_iris取自其后的所有列上的元素,即所有属性值的数组。具体的使用UCI数据集的机器学习算法实例可参考本人前面一篇博文Kmeans聚类算法详解,后面也会继续介绍。


    • 论文中经常出现的数据集本人已经按照以上方法整理完成,现将其一并分享给大家。整理好的数据集如下表所示,每个数据集文件都保存了.mat、.data、.txt三种文件格式方便大家选择下载,以下是下载链接

    【下载链接】

    下载链接1:论文中常见UCI数据集txt版
    下载链接2:论文中常见UCI数据集mat版
    下载链接3:论文中常见UCI数据集data版

    另外在整理过程中搜集了许多其他的UCI数据集,文件都是mat格式方便使用,下图是压缩包内的文件详情,有需要的可以下载,下载链接如下

    下载链接4:43个mat格式的UCI数据集

        同时本资源已上传至面包多网站,如果您没有积分或C币或者没有会员,可以点击以下链接获取。完整文件下载链接如下:

    下载链接:博主在面包多网站上的完整资源下载页

    公众号获取
        本人微信公众号已创建,扫描以下二维码并关注公众号“AI技术研究与分享”,后台回复“UC20180830”即可获取全部资源文件信息。


    5. 结束语

    由于博主能力有限,博文中提及的方法与代码即使经过测试,也难免会有疏漏之处。希望您能热心指出其中的错误,以便下次修改时能以一个更完美更严谨的样子,呈现在大家面前。同时如果有更好的实现方法也请您不吝赐教。

    展开全文
  • 数据结构分为逻辑结构和物理结构 逻辑结构 1. 集合结构:除了同属一个集合,没有其他任何关系。 2. 线性结构:数据元素一对一的关系。 3. 树形结构:数据元素一对多的层次关系。 4. 图形结构:数据元素多对多的关系...

    数据结构分为逻辑结构和物理结构

    逻辑结构

    1. 集合结构:除了同属一个集合,没有其他任何关系。
    2. 线性结构:数据元素一对一的关系。
    3. 树形结构:数据元素一对多的层次关系。
    4. 图形结构:数据元素多对多的关系。

    物理结构(也叫存储结构)

    物理结构:指数据的逻辑结构在计算机中的存储形式。
    存储结构形式有两种:顺序存储和链式存储。

    1. 顺序存储结构:数据元素放在地址连续的存储单元里,逻辑关系和物理关系一致。
    2. 链式存储结构:通过一个指针存放数据元素的地址,通过地址来找到对应数据元素的位置,因此数据元素可存放任意存储单元中。

    展开全文
  • 数据结构:八大数据结构分类

    万次阅读 多人点赞 2018-09-05 18:23:28
    常用数据结构有:数组,栈,链表,队列,树,图,堆,散列表等,如图所示: 每一种数据结构都有着独特的数据存储方式,下面为大家介绍它们的结构和优缺点。 1、数组 数组是可以再内存中连续存储多个元素的...

    本文目录:

    数据结构分类

    数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成 。
    常用的数据结构有:数组,栈,链表,队列,树,图,堆,散列表等,如图所示:
    这里写图片描述
    每一种数据结构都有着独特的数据存储方式,下面为大家介绍它们的结构和优缺点。

    1、数组

    数组是可以再内存中连续存储多个元素的结构,在内存中的分配也是连续的,数组中的元素通过数组下标进行访问,数组下标从0开始。例如下面这段代码就是将数组的第一个元素赋值为 1。

    int[] data = new int[100];data[0]  = 1;
    

    优点:
    1、按照索引查询元素速度快
    2、按照索引遍历数组方便

    缺点:
    1、数组的大小固定后就无法扩容了
    2、数组只能存储一种类型的数据
    3、添加,删除的操作慢,因为要移动其他的元素。

    适用场景:
    频繁查询,对存储空间要求不大,很少增加和删除的情况。

    2、栈

    栈是一种特殊的线性表,仅能在线性表的一端操作,栈顶允许操作,栈底不允许操作。 栈的特点是:先进后出,或者说是后进先出,从栈顶放入元素的操作叫入栈,取出元素叫出栈。
    这里写图片描述
    栈的结构就像一个集装箱,越先放进去的东西越晚才能拿出来,所以,栈常应用于实现递归功能方面的场景,例如斐波那契数列。

    3、队列

    队列与栈一样,也是一种线性表,不同的是,队列可以在一端添加元素,在另一端取出元素,也就是:先进先出。从一端放入元素的操作称为入队,取出元素为出队,示例图如下:
    这里写图片描述
    使用场景:因为队列先进先出的特点,在多线程阻塞队列管理中非常适用。

    4、链表

    链表是物理存储单元上非连续的、非顺序的存储结构,数据元素的逻辑顺序是通过链表的指针地址实现,每个元素包含两个结点,一个是存储元素的数据域 (内存空间),另一个是指向下一个结点地址的指针域。根据指针的指向,链表能形成不同的结构,例如单链表,双向链表,循环链表等。
    这里写图片描述
    链表的优点:
    链表是很常用的一种数据结构,不需要初始化容量,可以任意加减元素;
    添加或者删除元素时只需要改变前后两个元素结点的指针域指向地址即可,所以添加,删除很快;

    缺点:
    因为含有大量的指针域,占用空间较大;
    查找元素需要遍历链表来查找,非常耗时。

    适用场景:
    数据量较小,需要频繁增加,删除操作的场景

    5、树

    是一种数据结构,它是由n(n>=1)个有限节点组成一个具有层次关系的集合。把它叫做 “树” 是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。它具有以下的特点:

    • 每个节点有零个或多个子节点;
    • 没有父节点的节点称为根节点;
    • 每一个非根节点有且只有一个父节点;
    • 除了根节点外,每个子节点可以分为多个不相交的子树;

    在日常的应用中,我们讨论和用的更多的是树的其中一种结构,就是二叉树
    这里写图片描述
    二叉树是树的特殊一种,具有如下特点:

    1、每个结点最多有两颗子树,结点的度最大为2。
    2、左子树和右子树是有顺序的,次序不能颠倒。
    3、即使某结点只有一个子树,也要区分左右子树。

    二叉树是一种比较有用的折中方案,它添加,删除元素都很快,并且在查找方面也有很多的算法优化,所以,二叉树既有链表的好处,也有数组的好处,是两者的优化方案,在处理大批量的动态数据方面非常有用。

    扩展:
    二叉树有很多扩展的数据结构,包括平衡二叉树、红黑树、B+树等,这些数据结构二叉树的基础上衍生了很多的功能,在实际应用中广泛用到,例如mysql的数据库索引结构用的就是B+树,还有HashMap的底层源码中用到了红黑树。这些二叉树的功能强大,但算法上比较复杂,想学习的话还是需要花时间去深入的。

    6、散列表

    散列表,也叫哈希表,是根据关键码和值 (key和value) 直接进行访问的数据结构,通过key和value来映射到集合中的一个位置,这样就可以很快找到集合中的对应元素。

    记录的存储位置=f(key)

    这里的对应关系 f 成为散列函数,又称为哈希 (hash函数),而散列表就是把Key通过一个固定的算法函数既所谓的哈希函数转换成一个整型数字,然后就将该数字对数组长度进行取余,取余结果就当作数组的下标,将value存储在以该数字为下标的数组空间里,这种存储空间可以充分利用数组的查找优势来查找元素,所以查找的速度很快。

    哈希表在应用中也是比较常见的,就如Java中有些集合类就是借鉴了哈希原理构造的,例如HashMap,HashTable等,利用hash表的优势,对于集合的查找元素时非常方便的,然而,因为哈希表是基于数组衍生的数据结构,在添加删除元素方面是比较慢的,所以很多时候需要用到一种数组链表来做,也就是拉链法。拉链法是数组结合链表的一种结构,较早前的hashMap底层的存储就是采用这种结构,直到jdk1.8之后才换成了数组加红黑树的结构,其示例图如下:
    这里写图片描述
    从图中可以看出,左边很明显是个数组,数组的每个成员包括一个指针,指向一个链表的头,当然这个链表可能为空,也可能元素很多。我们根据元素的一些特征把元素分配到不同的链表中去,也是根据这些特征,找到正确的链表,再从链表中找出这个元素。

    哈希表的应用场景很多,当然也有很多问题要考虑,比如哈希冲突的问题,如果处理的不好会浪费大量的时间,导致应用崩溃。

    7、堆

    堆是一种比较特殊的数据结构,可以被看做一棵树的数组对象,具有以下的性质:

    • 堆中某个节点的值总是不大于或不小于其父节点的值;

    • 堆总是一棵完全二叉树。

    将根节点最大的堆叫做最大堆或大根堆,根节点最小的堆叫做最小堆或小根堆。常见的堆有二叉堆、斐波那契堆等。

    堆的定义如下:n个元素的序列{k1,k2,ki,…,kn}当且仅当满足下关系时,称之为堆。
    (ki <= k2i,ki <= k2i+1)或者(ki >= k2i,ki >= k2i+1), (i = 1,2,3,4…n/2),满足前者的表达式的成为小顶堆,满足后者表达式的为大顶堆,这两者的结构图可以用完全二叉树排列出来,示例图如下:
    这里写图片描述
    因为堆有序的特点,一般用来做数组中的排序,称为堆排序。

    8、图

    图是由结点的有穷集合V和边的集合E组成。其中,为了与树形结构加以区别,在图结构中常常将结点称为顶点,边是顶点的有序偶对,若两个顶点之间存在一条边,就表示这两个顶点具有相邻关系。

    按照顶点指向的方向可分为无向图和有向图:
    这里写图片描述
    这里写图片描述
    图是一种比较复杂的数据结构,在存储数据上有着比较复杂和高效的算法,分别有邻接矩阵 、邻接表、十字链表、邻接多重表、边集数组等存储结构,这里不做展开,读者有兴趣可以自己学习深入。

    展开全文
  • 互联网是个神奇的大网,大数据开发也是一种模式,你如果真想了解大数据,可以来这里,这...大数据的类型大致可分为三类: 传统企业数据(Traditionalenterprisedata):包括CRMsystems的消费者数据,传统的ERP数据,...
  • 这里面是机器学习里面聚类所需的数据集,分为人工的二维数据集,如月牙形,双螺旋型等,和UCI真实数据集,是我搜集好久才弄出来的,有一些二维数据集是自己生成的,提供给大家做算法实验。
  • 在数据采集和数据传输系统中常运用数据压缩技术,数据压缩通常可分为无损压缩和有损...结合常用数据无损压缩算法原理,给出了实现流程图,并着重讨论各算法的优缺点,最后分析了在实现与优化算法过程中需要注意的问题。
  • 如何的商业运营问题转化为数据挖掘问题,可以对数据挖掘问题进行细分,分为四类问题:分类问题、聚类问题、关联问题、预测问题。 1、分类问题 用户流失率、促销活动响应、评估用户度都属于数据挖掘的分类问题,...
  • 图解!24张图彻底弄懂九大常见数据结构!

    万次阅读 多人点赞 2020-05-24 22:23:36
    ​数据结构想必大家都不会陌生,对于一个...数据结构种类繁多,本文将通过图解的方式对常用的数据结构进行理论上的介绍和讲解,以方便大家掌握常用数据结构的基本知识。 本文提纲: 1数组 数组可以说是最基本最...
  • oracle常用数据类型

    千次阅读 2015-06-28 11:15:25
    oracle中常用数据类型分为三大类:number(5,2)表示该数共有5个有效位,其中小数两位。即范围为-999.99~999.99 如果要表示整数,那么后面的小数位不写即可。 如果number后面两个参数都不写,则表示精度最高的情况...
  • 这里面是机器学习里面聚类所需的数据集,分为人工的二维数据集,如月牙形,双螺旋型等,和UCI真实数据集,是我搜集好久才弄出来的,有一些二维数据集是自己生成的,提供给大家做算法实验。
  • 一、系统日志采集系统。 许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集...目前常用的开源日志收集系统有Flume、Scribe...
  • 2 回归分析 回归分析是确定两个或两个以上变量间相互依赖的定量关系的一种统计分析方法回归分析按照涉及的变量多少分为一元回归分析和多元回归分析按照自变量和因变量之间的关系类型可分为线性回归分析和非线性回归...
  • MySQL常见数据类型

    千次阅读 2018-09-27 08:36:42
    MySQL的常见数据类型 数据类型是什么? 数据类型是列、存储过程的参数、表达式和局部变量的数据特征,它决定了数据的存储格式,代表了不同的信息类型。  有一些数据是要存储为数字的,数字当中有些是要存储为...
  • Oracle中常用数据类型,按照类型...Oracle数据库常用数据类型 字符类型:字符串类型可分为固定长度类型(char)和可变长度类型(varchar2) CAHR VARCHAR2 数字类型: int 日期类型: date ...
  • 常用数据结构与常用算法,

    万次阅读 多人点赞 2018-08-08 20:32:54
    1. 常见数据结构 人们进行程序设计时通常关注两个重要问题,一是如何将待处理的数据存储到计算机内存中,即数据表示;二是设计算法操作这些数据,即数据处理。数据表示的本质是数据结构设计,数据处理的本质是算法...
  • GNN常用数据集之Cora数据集

    千次阅读 多人点赞 2020-01-02 09:33:37
    在学习图神经网络 GNN 之前,必然要了解一些GNN的常用数据集,这篇博客主要以Cora数据集为例介绍GNN的数据集格式与读取方式,并以一个项目实例进行说明。 GNN常用数据集:https://linqs.soe.ucsc.edu/data 1. ...
  • 文章目录内容介绍变量转换 内容介绍 将日常工作中遇到的数据标志变量转换的方法进行总结,并且长期更新。 变量转换 将离散数据和连续数据转换为标志...例如,用户的价值分为高,中和低,教育程度分为博士,研究生和学士
  • 按照分类标准的不同,我们把数据结构分为逻辑机构和存储结构,今天主要讲解逻辑结构 逻辑结构:是指数据对象中的数据元素之间的相互关系,主要分为以下四种结构 1.集合结构 集合结构中的数据元素处理同属于一个...
  • 数据结构与算法】常见数据结构及基本操作

    万次阅读 多人点赞 2019-06-16 21:42:44
    数据结构与算法常见概念2.数据逻辑结构2.1线性结构2.2树形结构2.3图形结构2.4集合结构3.排序算法冒泡排序简单选择排序直接插入排序希尔排序堆排序归并排序快速排序4.查找算法顺序表查找有序表查找线性索引查找二叉...
  • 语义分割常用数据集整理

    千次阅读 2020-09-18 10:22:16
    语义分割的数据分为三类:2D图片,2.5D图片(RGB-D),3D图片。每一个类别的数据集都提供了像素级的标签,可以用来评估模型性能。同时其中一部分工作用到了数据增强来增加标签样本的数量。 一、2D数据 1.PASCAL ...
  • 数据产品经理常用工具

    千次阅读 2018-04-03 22:41:18
    数据产品经理常用工具  数据产品经理在工作过程中,要完成一个产品,在这过程中常用的工具可以分为4中类型:需求分析工具,数据探索工具,产品原型工具,图表设计工具。需求分析工具主要是在前期需求调研中辅助...
  • 数据的来源有多种,归纳起来可以分为内部来源和外部来源。内部来源 1、企业内部数据库 企业在生产经营过程中收集、整理的数据,主要有生产数据、库存数据、订单数据、电子商务数据、销售数据、客户关系管理数据...
  • 结构化数据和非结构化数据、半结构化数据的区别

    万次阅读 多人点赞 2019-03-05 22:10:06
    计算机信息化系统中的数据分为结构化数据和非结构化数据、半结构化数据。 结构化数据 结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理...
  • java 中几种常用数据结构

    万次阅读 多人点赞 2016-07-11 09:11:27
    java中有几种常用数据结构,主要分为Collection和map两个主要接口(接口只提供方法,并不提供实现),而程序中最终使用的数据结构是继承自这些接口的数据结构类。其主要的关系(继承关系)有: (----详细参见java...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 782,145
精华内容 312,858
关键字:

常见的数据可分为