精华内容
下载资源
问答
  • PostgreSQL数据库如何快速插入大量数据背景在一些应用场景中,需要向PostgreSQL数据库中快速装入大量的数据,比如数据库迁移,SQL日志分析等。在Abase上快速插入数据有几种方案,每种方案的效率怎么样?如何调优能...

    PostgreSQL数据库如何快速插入大量数据

    背景

    在一些应用场景中,需要向PostgreSQL数据库中快速装入大量的数据,比如数据库迁移,SQL日志分析等。在Abase上快速插入数据有几种方案,每种方案的效率怎么样?如何调优能加快的数据装载?
    ##场景设定
    SQL日志分析是一个采集JDBC日志、分析SQL、发送分析结果工具。在分析阶段,需要解析大量的JDBC日志,并把解析后的结构化结果装入数据库供后续处理。以分析阶段为实验场景,以解析JDBC日志(多个)为开始,以完成结构化数据装入(包过索引建立完成)为结束,来测试不同方案的数据装入效率。

    ##环境准备

    • 数据库环境
    名称
    操作系统 CENTOS 6.5
    CPU Intel® Xeon® CPU E5-2698 v3 @ 2.30GHz,逻辑64核
    内存 316G
    磁盘 RAID 10,写入速度1GB/s
    数据库版本 ArteryBase 3.5.4
    数据库内存参数 shared_buffers:30G work_mem:4MB maintenance_work_mem:64MB
    数据库CPU参数 max_worker_processes:16
    • 建表语句
    drop table if exists T_JDBC_SQL_RECORD ;
    --无主键,没有用到C_BH 查询,增加insert速度先去掉
    create table T_JDBC_SQL_RECORD (
    C_BH VARCHAR(32) ,
    C_BH_PARSE VARCHAR(32) NULL,
    C_BH_GROUP VARCHAR(32) NULL,
    C_BH_SQL VARCHAR(32) NULL,
    DT_ZXSJ TIMESTAMP NULL,
    N_RUNTIME INT NULL,
    C_RZLJ VARCHAR(600) NULL,
    N_STARTLINE INT NULL,
    N_ENDLINE INT NULL,
    N_SQLTYPE INT NULL,
    N_SQLCOMPLEX INT NULL,
    C_IP VARCHAR(100) NULL,
    C_PORT VARCHAR(100) NULL,
    C_XTBS VARCHAR(100) NULL,
    N_CHECKSTATUS INT  default 0,
    N_SQL_LENGTH INT NULL,
    N_SQL_BYTE INT NULL,
    N_5MIN INT NULL,
    C_METHOD VARCHAR(600) NULL,
    C_PSSQL_HASH VARCHAR(300) NULL,
    N_IS_BATCH INT,
    N_RESULTSET INT
    );
    
    drop table if exists T_JDBC_SQL_CONTENT ;
    CREATE TABLE T_JDBC_SQL_CONTENT (
    C_BH VARCHAR(32) NOT NULL,
    C_PSSQL_HASH VARCHAR(300) NULL,
    C_SQL_TEXT varchar NULL,
    C_PSSQL_TEXT varchar NULL
    );
    
    • 索引语句
    create index i_jdbc_sql_record_zh01 on t_jdbc_sql_record(c_bh_group,dt_zxsj,N_CHECKSTATUS,C_PSSQL_HASH);
    create index i_jdbc_sql_record_pshash on t_jdbc_sql_record(c_pssql_hash);
    create index i_jdbc_sql_content_pshash on t_jdbc_sql_content(c_pssql_hash);
    alter table t_jdbc_sql_content add constraint t_jdbc_sql_content_pkey primary key (C_BH);
    
    • 异步提交和unlogged table
     -- 异步提交,更改完重启数据库
     alter system set synchronous_commit to off;
     -- unlogged table 
     create unlogged table t_jdbc_sql_record 
     ...
     create unlogged table t_jdbc_sql_content 
     ...
    
    • JDBC日志量
      19个JDBC日志文件,共2G日志,600万记录

    方案设定

    方案名称 方案描述
    方案一 建立结构化表及其索引,多线程单个insert装入数据
    方案二 建立结构化表及其索引,多线程批量insert装入数据
    方案三 建立结构化表及其索引,库设置为异步提交,多线程批量insert装入数据
    方案四 建立结构化表,库设置为异步提交,多线程批量insert装入数据,建立索引
    方案五 建立结构化表及其索引,表设置为unlogged table,多线程批量insert装入数据
    方案六 建立结构化表,表设置为unlogged table,多线程批量insert装入数据,建立索引
    方案七 建立结构化表,多线程批量insert装入数据,建立索引

    实验结果

    每次实验时,解析的JDBC日志量,解析代码和中间件环境保持不变。只调整流程顺序和数据库参数。

    实验次数 方案一 方案二 方案三 方案四 方案五 方案六 方案七
    第一次 3596s 2043s 1164s 779s 545s 528s 1192s
    第二次 4092s 2068s 1283s 843s 528s 528s 1227s
    第三次 3891s 2177s 1378s 858s 536s 537s 1248s
    平均值 3859s 2096s 1275s 826s 536s 531s 1222s

    ##结果分析

    • 方案一、方案二比较,数据库参数不变,流程顺序不变

      • 方案一:单个insert提交,用时3859秒
      • 方案二:批量insert提交,用时2096秒
    • 方案二、方案三、方案五比较,流程顺序不变,均为建表->建索引->多线程批量插入。

      • 方案二:同步提交(等待WAL日志完成),用时2096秒
      • 方案三:异步提交(不等待WAL日志完成),用时1275秒
      • 方案五:不记录WAL日志,用时536秒
    • 方案二、方案七比较,均为同步提交

      • 方案二:插入数据前建立索引,用时2096秒
      • 方案七:插入数据后建立索引,用时1222秒
    • 方案三、方案四比较,均为异步提交

      • 方案三:插入数据前建立索引,用时1275秒
      • 方案四:插入数据后建立索引,用时826秒
    • 方案五、方案六比较,均为不记录WAL日志

      • 方案五:插入数据前建立索引,用时536秒
      • 方案六:插入数据后建立索引,用时531秒

    ##总结
    在该场景下:

    • 批量提交比单个提交快55%
    • 异步提交比同步提交快40%
    • 不记录日志提交比同步提交快75%
    • 记录日志且同步提交时,后建立索引比先建立索引快40%
    • 记录日志且异步提交时,后建立索引比先建立索引快35%
    • 不记录日志时,后建立索引比先建立索引略快,但差别不大

    插入数据最快组合为:
    unlogged table + 多线程批量insert+后建索引

    猜想:
    在insert过程中,维护索引的时间占总时间的35%到40%,且主要花费在日志持久化上。

    其他:
    同时在实验过程中的一些其他指标信息,如不同方案下数据库的写IO从未超过100MB/s,需要继续分析。

    展开全文
  • 用各种工具对数据进行分类汇总

    千次阅读 2018-06-04 15:10:19
    数据分类汇总的方法有很多种,工具也有很多,这次为大家一一介绍,各种工具如何进行分类汇总,大家自行判断,觉得哪种最好用,就用哪种,毕竟工具不重要,高效出结果才最重要。为了方便举例,所用的数据集就是鸾尾花...

    数据分类汇总的方法有很多种,工具也有很多,这次为大家一一介绍,各种工具如何进行分类汇总,大家自行判断,觉得哪种最好用,就用哪种,毕竟工具不重要,高效出结果才最重要。

    为了方便举例,所用的数据集就是鸾尾花数据集,5个字段(Sepal.Length、Sepal.Width、Petal.Length、Petal.Width、Species),每个字段150个观测值,

    1)根据Species来计算各种类型的花萼的长度均值

    1.Excel—数据透视表

    在Excel中选择插入—数据透视表—选中所有的数据——在右侧的行标签选中Species,数值选择Sepal.Length,值字段设置计算类型为平均值



    2.SPSS—分析—个案汇总

    将数据导入spss中,选择分析——个案汇总



    在分组变量中选择Species,在变量中选择Sepal.Length,在统计量中选择均值,记得不要勾选显示个案哦!输出结果如下:


    可以看到数据没有缺失值,汇总结果在图表中展示。SPSS操作偏傻瓜式,比较好上手,输出结果也很直观。

    3.  R—aggregate()函数

    加载dplyr包,使用aggregate()函数,选定统计的字段、分类的字段以及统计函数代码如下:

    > result<-aggregate(x=iris$Sepal.Length, by= list(iris$Species), FUN = mean)
    > result
         Group.1     x
    1     setosa 5.006
    2 versicolor 5.936
    3  virginica 6.588

    R语言的优势不言而喻,一行代码出结果,直观,唯一的缺陷是没有对合计值求均值。

    2)对花瓣的长度Petal.Length进行分类,0~2定义为短,3~4定义为正常,5~6定义为长,然后统计各种类型的各种情况

    1.Excel实现,ifelse函数+数据透视表

    首先定义出花瓣情况:IF(D2>=4,"长",IF(D2>=3,"正常","短"))


    然后输出统计结果


    这里的目录分为两级,一级是种类,二级是花瓣情况,分别统计了各种情况花瓣的数量和对应均值

    2)SPSS—转换—重新编码为不同变量+个案汇总



    输出花瓣情况后,选择个案汇总,将Species和花瓣情况都选入分组变量,变量中输入Petal.Length,统计量选择个案数和均值



    输出个案汇总结果

    3. R实现:需要用到within函数和aggregate函数,利用within函数定义出长、正常、短,利用aggregate函数按照Species和花瓣情况计算均值

    testdata<-within(  
      iris,{  
        a<-NA  
        a[iris$Petal.Length<=2]<-"短"
        a[iris$Petal.Length<=4&iris$Petal.Length>=2]<-"正常"
        a[iris$Petal.Length>4]<-"长"
      }  
    )
    aggregate(testdata$Petal.Length,by=list(testdata$Species,testdata$a),FUN="mean")
    > aggregate(testdata$Petal.Length,by=list(testdata$Species,testdata$a),FUN="mean")
         Group.1 Group.2        x
    1     setosa      短 1.462000
    2 versicolor      长 4.517647
    3  virginica      长 5.552000
    4 versicolor    正常 3.712500
    统计数量的话有一个table函数,一行代码搞定,
    > table(list(testdata$Species,testdata$a))
                .2
    .1           短 长 正常
      setosa     50  0    0
      versicolor  0 34   16
      virginica   0 50    0

    直接对Species和花瓣情况统计,可以很直观看到汇总结果。

    以上就是对分类汇总分享的内容,有问题欢迎沟通讨论!


    展开全文
  • 数据结构简答题汇总

    千次阅读 多人点赞 2020-05-12 23:56:08
    面对即将要参加的考研复试,数据结构是必考科目,希望以下能派上用场 1.算法的时间复杂度: 答:在程序中反复执行的语句的执行次数被称为语句的频度,时间复杂度就是所有语句频度之和的数量级,而所有语句的频度之和...

    面对即将要参加的考研复试,数据结构是必考科目,希望以下能派上用场

    1.算法的时间复杂度
    答:在程序中反复执行的语句的执行次数被称为语句的频度,时间复杂度就是所有语句频度之和的数量级,而所有语句的频度之和与程序最内层循环的频度是同一个数量级,所以算法的时间复杂度是最内层循环的频度的数量级

    补充:算法设计的步骤
    1.建立数据模型
    2.确定数据结构与算法
    3.选用语言
    4.调试并运行

    2.空间复杂度
    答:程序在运行时所占的空间
    直接插入排序的空间复杂度是O(1),递归的空间复杂度是O(n)

    3.贪心算法、动态规划和分治算法
    答:贪心算法是指从上到下,每次都求解局部最优解的算法,特点是每次求解最优解,但是最终的结果不一定是最优,经典例子是背包问题。

    动态规划是将一个大问题划分成若干个子问题,问题之间存在重叠,从上到下,求解整体最优解,每一次的求解会对下一次的问题造成影响,最终的最优解不一定包含每次的最优解,但是一定有部分最优解。经典例子是求最长子串。

    分治算法是将一个大问题划分成若干个和大问题相似的子问题,再对子问题进行递归求解,最终合并得到最后的结果。特点是大问题的划分与子问题相似,并且每个问题之间是相互独立的。经典例子是二路归并排序、快速排序

    4.数据的存储结构
    答:
    (1)顺序存储:逻辑上相邻的两个元素的物理位置也相邻。
    优点:能够随机存取。
    缺点:插入删除需要移动大量的元素,不方便。

    (2)链式存储:逻辑上相邻的两个元素的物理位置不一定相邻,每个结点用一个指针来找到下一个结点的位置。
    优点:插入和删除很方便
    缺点:随机读取时不方便,需要从第一个结点开始遍历

    (3)索引存储:在存储时,还附加建立索引表,索引表中的每一项称为索引项,索引项的一般形式是(关键字,地址)
    优点:检索速度快
    缺点:索引表占用存储空间,并且插入和删除一个数据时,对应的索引项也要插入和删除,会耗费较多的时间

    (4)哈希存储:通过函数,根据数据的元素的关键字计算该元素的地址
    优点:检索、增加和删除结点的操作比较快
    缺点:可能会出现元素存储单元的冲突,解决冲突又需要增加时间和空间的开销

    5.循环比递归的效率一定高吗
    答:循环和递归能够实现相互转换,且各自有自己的优缺点,判断谁的效率高是没有绝对的答案的。

    递归:
    优点:代码简洁清晰、容易实现
    缺点:当递归次数很多时,需要增加额外的堆栈处理,有可能产生堆栈溢出的现象

    循环:
    优点:结构简单,速度快,效率高
    缺点:不容易理解,编写复杂代码时会比较困难

    6.顺序表和链表的比较
    答:顺序表和链表可以从四个大的方向去比较。
    (1)存取(读取)方式:顺序表能够随机读取和顺序读取,而链表只能按顺序读取
    (2)查找:如果是按值查找并且表无序时,顺序表和链表的时间复杂度都是O(n),如果表有序,则可以用折半查找法,时间复杂度是O(nlog2n);如果是按序号查找,则顺序表支持随机查找,时间复杂度是O(1),而链表的时间复杂度是O(n)
    (3)插入和删除:顺序表插入和删除需要移动大量的元素,时间复杂度是O(n),链表的插入和删除只需要修改指针的位置,时间复杂度是O(1)
    (4)空间分配:顺序表的空间分配分为静态分配和动态分配,静态内存分配时,很容易导致内存溢出或者是浪费,而动态内存分配时,有时候不存在一大块连续的存储空间,导致分配失败,并且需要移动大量的元素,效率低。
    而链表是直接在需要的时候申请内存,只要有内存就能够分配,操作灵活、高效。

    7.头指针和头结点的区别
    答:头指针是指在第一个结点之前的指针,它是一个链表存在的标志,是必须存在必不可少的。
    头结点是第一个结点之前的结点,它是为了方面在第一个结点之前进行元素的插入和删除操作,它不是必须的,并且数据域也可以不存放信息。

    8.栈和队列的区别
    答:栈是只能在一端进行插入和删除的线性表,插入和删除都在栈顶进行,它的特点是“先进后出”。常用于浏览器的回退或者是括号的匹配问题,递归问题,但是递归问题要注意堆栈的溢出现象

    队列是在一端插入在另一端删除的线性表,插入的那端是队尾,删除的那端是队首,特点是“先进先出”,在层次遍历和BFS算法、狄杰斯特拉算法中使用到

    9.共享栈
    答:利用栈底位置不变的特性,让两个顺序栈共享同一个一维数组空间,将两个栈的栈底分别设在共享空间的两端,两个栈顶向共享空间延伸。

    10.如何区分循环队列是队空还是队满
    答:有两种区分方式:
    第一种:牺牲一个单元来区分队空和队满
    队空的标志是 队首指针 = = 队尾指针;
    队满的标志是(队尾指针+1)%maxsize ==队首指针

    第二种: 类型中增设表示元素数据的内存单元
    队空:元素的个数为0
    队满:元素的个数为Maxsize

    11.栈在括号匹配中的算法思想
    答:(1)如果是左括号,则入栈
    (2)如果是右括号,则判断当前栈是否为空,如果为空,则不匹配,不为空,则看是否与栈顶的左括号匹配,如果匹配,则栈顶元素出栈
    (2)最终所有的元素都进栈和出栈完毕,检查栈是否为空,如果不为空,则说明还有多余的左括号没有匹配,因此括号匹配失败,如果为空,则括号匹配成功。

    12.栈在后缀表达式求值的算法思想
    答:扫描表达式的每一项
    (1)如果是操作数,则进栈
    (2)如果是运算符,则从栈中退出两个元素,进行出栈,并且将得到的结果入栈
    (3)表达式的所有项都扫描完后,最后栈顶存放的元素就是最终的结果。

    13.栈在递归中的应用
    答:若在一个函数、一个过程或者一个数据结构的定义中直接或者间接的调用了它自身,则这个函数、这个过程、这个数据结构称为是递归定义的,简称为递归。
    递归问题只需要少数的代码就能够描述出解题过程中所需要的多次重复计算,大大减少了程序的代码量,递归所用到的是系统管理栈,但是通常情况下,每次递归都要保留现场,空间复杂度为O(n),效率不高,并且当递归次数过深的时候,容易出现堆栈溢出的现象。
    将递归转化成非递归算法,也是用栈来实现的。相比起递归算法的系统管理栈,需要建一个自己管理的栈。

    14.队列在层次遍历中的作用
    答:首先根结点入队,接着队根结点的子结点进行预处理,等预处理完后,根结点出队,接着刚刚处理的子结点入队,这部分的子结点又进行预处理,直到所有的结点都入队出队处理完毕。

    15.队列在计算机系统中的应用
    答:有两个方面的应用:
    (1)解决了主机和外部设备之间速度不匹配的问题
    以主机和打印机为例,主机输出数据的速度比打印机输出数据的速度要快很多,由于速度不匹配,直接把输出的数据给打印机肯定是不行的,于是需要设置一个缓冲区,主机将一部分要打印的数据写入缓冲区,写满后就暂停输出,转去做其他的事情,而打印机就从缓冲区中按照先进先出的原则依次取出数据并打印出来,打印完后向主机发出请求。这里的打印缓冲区就是一个队列。

    (2)CPU资源的竞争
    答:在一个多终端的计算机系统中,多个用户需要CPU各自运行自己的程序,分别通过各自的终端向操作系统提出占用CPU的请求。操作系统按照每个请求在时间上的先后顺序,将他们排成一个队列,每次把CPU分配给队首请求的用户使用。当相应的程序运行结束或者用完规定的时间间隔后,令其出队,再把CPU分配给新的队首请求的用户使用。

    16.矩阵的压缩技术
    答:针对特殊的矩阵进行压缩存储
    对称矩阵:含有大量相同元素的矩阵
    稀疏矩阵、上(下)三角矩阵:含有大量0元素的矩阵

    压缩思想:矩阵中相同的数据元素(包括元素0)只存储一个

    17.串的模式匹配
    串的模式匹配指子串在主串中的位置。
    暴力匹配算法:从主串的第一个字符开始,与子串的第一个字符比较,一旦出现不匹配的字符,则主串往后移动一个位置,子串移动子串的第一个位置,并与主串对齐
    KMP算法:暴力匹配的弊端就是,没有充分利用已经匹配了的串的信息,好的解决方法应该是在模式串中找到最长的子串,并且记录到next[]数组中
    KMP算法的步骤
    (1)主串S和模式串T进行比较,并设起始的下标为i和j
    (2)如果S[i]==T[j],则继续比较,并且i和j自增1
    (3)当s[I]!=T[j]时,将j=next[j];将模式串右移,直到与主串对齐;如果j == -1,则主串往后移动一个单位,i++;j++,j又回到模式串的第一个位置

    18.递归转换成非递归为什么要用栈
    答:在实现函数调用的时候,系统底层就是用栈来保护现场的;具体来说,每次调用函数时,会把当前函数的局部变量和返回地址都压栈保存起来,当系统调用结束返回时,再把局部变量从栈中弹出来;
    递归的核心就是重复的函数调用,如果要变成非递归,就需要自己实现栈的数据结构来保存一些状态变量,这其实就是模拟函数的调用。

    19.堆排序
    堆:是一种特殊的完全二叉树,叶子结点的值大于或者小于根结点的值
    (PS:完全二叉树是指第n-1层,每一层的结点数是2^(n-1),最后一层的结点可以不放满,但是必须是从左至右放的)

    堆排序:最好、最坏、平均时间复杂度是O(nlogn)
    思想:(以大根堆为例)将待排序的构造成一个大根堆,此时最大的元素就是根结点的元素,这时候,将这个元素与末尾的元素进行交换,然后再将剩下的n-1个元素构造成一个大根堆,就会形成一个有序 区。

    步骤:
    (1)构造初始堆
    a.建立一个完全二叉树
    b.从最后一个非叶子结点开始调整,一旦比根结点大,则与根结点进行交换,最终最大的元素位于根结点的位置上
    (2)将堆顶元素与末尾元素进行交换,末尾的元素值最大
    (3)重新调整结构,使其满足堆定义,然后继续交换堆顶元素当前末尾元素,反复执行+调整步骤,直到整个序列有序。

    20.图的思维导图
    在这里插入图片描述

    展开全文
  • 测试数据生成器汇总

    千次阅读 2017-10-13 11:40:42
    DataFactory是一种强大的数据产生器,拥有图形界面,它允许开发人员和QA很容易产生百万行有意义的正确的测试数据库,该工具支持DB2、Oracle、Sybase、SQL Server数据库,支持ODBC连接方式,无法直接使用MySQL数据库。...

    DataFactory

    是一种强大的数据产生器,拥有图形界面,它允许开发人员和QA很容易产生百万行有意义的正确的测试数据库,该工具支持DB2、Oracle、Sybase、SQL Server数据库,支持ODBC连接方式,无法直接使用MySQL数据库。 DataFactory 首先读取一个数据库方案,用户随后点击滑鼠产生一个数据库。

    JMeter

    是apache开源的性能测试工具,可以用来作为生成测试数据的工具.
    xcopy系列开源性能测试工具,如tcpcopy可以把外网机器的用户请求复制到测试环境.

    Generatedata

    是一个免费、开放源码的脚本,主要由javascript , PHP和MySQL构成,它可以让您可以迅速生成大量各种格式的客户数据,用于测试软件,把数据输入数据库等。

    DBMonster

    是一种生成随机测试数据,并插入到SQL数据库的工具。

    CSV Data Generator

    这是一个基于Ruby编写的免费数据生成器,可以输出数据格式为CSV文件。

    Datagenerator

    是一个以图形用户界面生成规则为基础的测试数据生成器,包括的数据库如MySQL/Firebird/interbase/ mssql/Oracle/SQLite/PostgreSQL 等等。
    原文地址: http://www.6san.com/744/

    展开全文
  • 数据仓库知识点汇总

    千次阅读 2019-10-09 15:04:01
    数据仓库形象解释 业务场景如下图 举例说明: 在很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵......他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界...
  • 《搞定Excel数据透视表》

    千次阅读 2018-10-25 16:10:19
    工作堆积如山,加班加点总也忙不完?...——数据透视表是一种对大量数据快速汇总和建立交叉列表的交互式动态表格,能帮助用户分析和组织数据。哪些数据可以用透视表分析?1、遇到庞大数据库的时...
  • 如何从大量数据中找出异常值

    千次阅读 2018-11-08 08:30:59
    机器学习中数据预处理阶段,首先要考虑的就是将数据集中的异常值找出来,然后再做额外处理。当然,异常值的处理并不存在什么银弹,只能具体情况具体分析再根据效果选择处理方法。 直方图 看看数据集直方图也许能看出...
  • 深度学习视觉领域常用数据汇总

    千次阅读 2017-01-08 11:40:53
    转自: ... [导读]“大数据时代”,...大公司们一般会有自己的数据,但对于创业公司或是高校老师、学生来说,“Where can I get large datasets open to the public?”是不得不面对的一个问题。 本文结合笔
  • redis——相关问题汇总

    万次阅读 多人点赞 2019-10-16 10:09:19
    Redis 本质上是一个 Key-Value 类型的内存数据库, 整个数据库加载在内存当中进行操作, 定期通过异步操作把数据库数据 flush 到硬盘上进行保存。 因为是纯内存操作, Redis 的性能非常出色, 每秒可以处理超过 10 ...
  • 一共81个,开源大数据处理工具汇总

    万次阅读 2017-03-14 16:08:26
    ❻DML支持:用于逐行插入的UPSERT VALUES、用于相同或不同表之间大量数据传输的UPSERT ❼SELECT、用于删除行的DELETE ❽通过客户端的批处理实现的有限的事务支持 ❾单表——还没有连接,同时二级索引也在开发...
  • 本文结合笔者在研究生学习、科研期间使用过以及阅读文献了解到的深度学习视觉领域常用的开源数据集,进行介绍和汇总。MNIST 深度学习领域的“Hello World!”,入门必备!MNIST是一个手写数字数据库,它有60000个...
  • es实战之查询大量数据

    千次阅读 2018-04-05 15:34:00
    查询大量数据 将数据生成文件并下载 本文主要探讨第一步,在es中查询大量数据或者说查询大数据集。 es支持的查询数量 es默认支持的查询数量或者说查询深度是10,000。 可以动态修改max_result_window这个参数的设置...
  • 数据分析--经典语录汇总

    千次阅读 2012-08-03 11:30:37
    数据分析经典语录汇总【转载】 【数据分析三字经】①学习:先了解,后深入;先记录,后记忆;先理论,后实践;先模仿,后创新; ②方法:先思路,后方法;先框架,后细化;先方法,后工具;先思考,后动手; ③分析...
  • 处理 Excel 中存储大量数据的技巧

    千次阅读 2012-12-13 18:54:19
    处理 Excel 中存储大量数据的技巧 12月 2012 如果您不知道如何正确处理 ... Excel 中存储的大量数据,那么这个工作将是一件非常令人头疼的事情。以下技巧*将帮助您提高工作...如果您需要快速分析、分类并汇总一个
  •  精选微软等公司数据结构+算法面试100题  -----[第1题-60题总]     -------------------------------- 相关资源,下载地址: [第1题-60题汇总]微软等数据结构+算法面试100...
  • 数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要一个过程和方法从数据中提取有用的信息,并将其转换为可理解的和可用的形式。 数据挖掘或“数据库中...
  • Python数据可视化库 在数据分析中最好展示数据的方式就是形象地绘制对应的图像,让人能够更好地理解数据。什么样的数据、什么样的场景用什么样的图表都是有一定的规定的。(这个以后写一篇博客来记录一下。当然我...
  • 目录 一、Pandas基础 二、Series数据结构(一维数据) 三、DataFrame数据结构(二维数据) ...Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是...
  • 用Python解决海量数据的分类汇总~一键化办公的神器

    千次阅读 多人点赞 2020-09-16 14:46:11
    现实的创作来源于生活的灵感! 项目引入 昨天突然发现有一个比较头疼的问题,有一份数据是某一个学校的寝室数据,有不同的维度的分类,总的数据大概有4000数据,...1.首先这个大量数据进行导入,用CSV这个库,然
  • 开源大数据处理引擎汇总(一) 标签: 大数据 2016-06-26 17:17 2207人阅读 评论(0) 收藏 举报  分类: BigData(1)  目录(?)[+] 查询引擎 一、Phoenix 贡献者::...
  • 名称 涉及领域 核心业务 投资机构 ...数据分析,数据集成与管控,数据应用开发 未披露       新三板   惠辰资讯 算法/分析/模型/可视化 数据洞察,大数据技术,数字化时代的市场决策支持
  • 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。日志收集系统...
  • 大数据学习菜鸟的Hadoop快速入门基础教程汇总详细解答 1、大数据 大数据是一门概念,也是一门技术,是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。 大数据包括了以Hadoop和Spark为代表的基础大数据...
  • 大量数据情况下前端分页处理

    千次阅读 2020-07-30 16:51:44
    前段时间有朋友问我一个他们公司遇到的问题, 说是后端由于某种原因没有实现分页功能, 所以一次性返回了2万条数据,让前端用select组件展示到用户界面里. 我听完之后立马明白了他的困惑, 如果通过硬编码的方式去直接...
  • C#新手学习快速成长学习资源汇总

    万次阅读 2016-04-25 11:35:02
    目录 一:引言 二:.NET技术体系 ...三:常用工具汇总 ...四:学习资源汇总 ...只好独辟蹊径,寻找快速掌握满足当前需求的方法,和大家分享: :先搜集.NET平台重点知识点的概念名称,然后通过网络搜集
  • 开源大数据处理引擎汇总(一)

    万次阅读 2018-07-23 11:48:31
    ❻DML支持:用于逐行插入的UPSERT VALUES、用于相同或不同表之间大量数据传输的UPSERT ❼SELECT、用于删除行的DELETE ❽通过客户端的批处理实现的有限的事务支持 ❾单表——还没有连接,同时二级索引也在开发当中 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 47,577
精华内容 19,030
热门标签
关键字:

对大量数据快速汇总