精华内容
下载资源
问答
  • clickhouse实时数据分析数据库

    千次阅读 2019-01-18 15:06:31
     列式数据库管理系统:columnar DBMS、联机分析处理OLAP http://www.clickhouse.com.cn/api社区 https://www.csdn.net/article/2018-01-14/2826786-ClickHouse https://www.jianshu.com/p/8633ae4...

    遨游在公司的技术里,有些兴奋、有些惶恐

    一、基础知识

        列式数据库管理系统:columnar DBMS、联机分析处理OLAP

    http://www.clickhouse.com.cn/api社区

    https://www.csdn.net/article/2018-01-14/2826786-ClickHouse

    https://www.jianshu.com/p/8633ae488cd4

    https://www.jianshu.com/p/5bfb043a075d

    https://www.jianshu.com/p/a5bf490247ea 基础篇,最后几个引擎没有看明白,还需要探索

    https://blog.csdn.net/huyuyang6688/article/details/77689459 数据脱敏:数据漂白、去隐私华、变形

    https://www.cnblogs.com/yanghuahui/p/3483754.html:LSM树原理:

        一棵大树拆分成N棵小树,先写入内存中,随小树越来越大,内存中的树flush到磁盘,磁盘的树定期merge,合并成一棵大树,以优化读性能

    展开全文
  • 爬虫+数据库+大数据分析

    千次阅读 2020-07-15 19:51:48
    利用python编写爬虫程序,从招聘网站上爬取数据,将数据存入到MongoDB数据库中,将存入的数据作一定的数据清洗后做数据分析,最后将分析的结果做数据可视化。 ** 前期准备 ** 1、配置大数据需要的环境 (1)配置...

    总体要求
    利用python编写爬虫程序,从招聘网站上爬取数据,将数据存入到MongoDB数据库中,将存入的数据作一定的数据清洗后做数据分析,最后将分析的结果做数据可视化。
    **

    前期准备

    **
    1、配置大数据需要的环境
    (1)配置Hadoop环境:可看博客:
    (2)配置zookeeper环境:https://blog.csdn.net/weixin_44701468/article/details/106822805
    (3)配置spark环境:
    (3)配置hive环境:
    (3)配置spark环境:
    2、下载好需要的数据库:Mysql、MangoDB
    3、准备好需要的数据:
    在这里插入图片描述
    爬取的是招聘网站前程无忧,由于爬取的一个数据不是很多,我就爬取了几个分别保存到了几个表中,大约有个百多兆的数据(数据量越多越好),第一次学习

    具体实现过程

    1、编写爬虫框架,爬取数据
    建议博客:https://blog.csdn.net/weixin_43581288/article/details/106950359
    里面有需要爬虫的字段,保存到的数据库,以及一些其他的要求
    2、数据存储
    正确搭建hadoop平台在这里插入图片描述
    选择flume协议传输形式
    在这里插入图片描述
    启动flame:

    flume-ng agent -n agent1 -c conf -f /usr/module/flume/apache-flume-1.6.0-bin/conf/template-hdfs.conf  -Dflume.root.logger=DEBUG,console
    
    

    上传数据至目录:
    在这里插入图片描述
    在这里插入图片描述
    将数据存储到hdfs:
    在这里插入图片描述
    3、进行hive查询:
    1、具体要求(要求:1、利用hive进行分析,2、将hive分析结果利用sqoop技术存储到mysql数据库中,并最后显示分析结果。):
    (1)分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资,并作条形图将结果展示出来;
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    (2)分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数,并做饼图将结果展示出来。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    (3)分析大数据相关岗位1-3年工作经验的薪资水平(平均工资、最高工资、最低工资),并做出条形图展示出来;
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    (4)分析大数据相关岗位几年需求的走向趋势,并做出折线图展示出来;
    在这里插入图片描述
    总结:
    这个项目使用爬虫、数据库、大数据分析等方法来完成,对爬虫的认识,使用、数据库(mangodb)的使用、大数据知识的运用都是很好的。爬虫有爬虫框架的搭建,代码的编写对我来说都是一个不小的难题,但通过查资料、和同学的探讨让我解决了这些问题,数据库(mangodb)使用还不是特别熟练,大数据各种环境的搭建也是一个不小的难题,配置的环境也是不少,我也是用来不少的时间来做这个事,在这其中还是有的。

    展开全文
  • 国产数据库比较之大数据分析

    千次阅读 2014-02-16 14:32:08
    最近,大数据越来越热,在自主可控的大旗下,各路国产数据库纷纷推出各自产品,本文,对国产数据库大数据分析方面做些比较,所有都来源各官方网站内容。下面所选都是专门针对大数据的产品: 达梦数据库高性能分析...

    最近,大数据越来越热,在自主可控的大旗下,各路国产数据库纷纷推出各自产品,本文,对国产数据库在大数据分析方面做些比较,所有都来源各官方网站内容。下面所选都是专门针对大数据的产品: 达梦数据库高性能分析组件,人大金仓K@DBCloud,南大通用GBase8a集群产品,翰云数据库,神通KStore海量数据管理系统。



    据上图,各路产品相差不是非常显著,都具有一定的时代特色,用户在选择时,还要比较能获得的服务,产品的稳定性等等。以后有机会再补充。

    数据来源:


    达梦数据库高性能分析组件 http://www.dameng.com/
    南大通用GBase 8a集群产品 http://www.gbase.cn/
    人大金仓K@DBCloud         http://www.kingbase.com.cn/
    翰云数据库 http://www.cloudwave.com.cn/
    神通KSTORE海量数据管理系统http://www.shentongdata.com/


    展开全文
  • 数据分析与数据管理系统实践 一、数据介绍 公司员工信息 ,Excel文件 提供 44 名员工 姓名、所在部门工作职务车的编号 公司员工的信用卡刷记录(两周) ,Excel 文件 约 1400 行信用卡刷记录,内容包括:员工...

    数据分析与数据管理系统实践

    一、数据介绍

    公司员工信息 ,Excel文件

    提供 44 名员工 姓名、所在部门工作职务车的编号

    公司员工的信用卡刷记录(两周) ,Excel 文件

    约 1400 行信用卡刷记录,内容包括:员工姓名、地点称金额时间

    二、大作业要求

    1、根据自己所学数据库操作和管理知识,创建一个数据库,把两个Excel表导入这个数据库,并对应建立两个表;对两个表创建主键、外键、索引,还可以自己增加一些列,或者做一些视图;

    2、综合运用自己所学的查询语句和SQL开发技巧对数据进行统计分析,并要求回答如下问题;

    问题一:员工的消费有一些什么有趣的模式和规律,请写出你分析的SQL语句,并截取分析结果,说明你是如何找到的这些模式和规律的;(不少于5个模式)

    问题二:员工的消费有什么异常现象,你是如何找到这个异常的,请写出你得到分析的SQL语句,并截取分析结果。(不少于3个异常)

    3、学习一门开发工具,开发一个小型数据库管理系统

    系统基本功能1:增加、删除和修改这两个表的记录

    系统基本功能2:提供输入框接受用户手动输入SQL查询语句,能输出用户任意输入的SQL查询语句的查询结果。

    系统基本功能3:能够按人、按消费地点、按天这三种组合,设计并输出几个统计报表。

     

    三、实验过程及结果

    1、创建“大数据作业”数据库后,右键点击该数据库,选择【任务】—>【导入数据】,如右图所示:


    2、选择导入的数据源,下一步,选择导入的数据库目标,如下图所示:

    3、在指定表复制或查询中应该可以选择【编写查询已指定要传输的数据】对数据进行清洗,尝试着写SQL语句过滤到脏数据,但没有成功,所以就选择直接先全将数据导入到数据库,再对数据进行过滤。

    4、通过对数据的查询,我们可以发现creditcard表中存在一些类似“Katerina抯 Caf?28”的奇字符,下面在数据库里对表中数据进行清洗。

    5、新建查询对数据清洗,并将新的数据建立一张新表。

    将employee表中FirstName和LastName合并,创建newemployee表

    select FirstName+' '+LastName as name,CurrentEmploymentType,CurrentEmploymentTitle
    
    into newemployee
    
    from employee

    将creditcard表中FirstName和LastName合并,创建newcreditcard表

    select FirstName+' '+LastName as name,timestamp,location,price
    
    into newcreditcard
    
    from creditcard

    通过对两张表的name查询,可以发现newemployee表共44名员工,newcreditcard表去掉为NULL共55人

    select distinct name
    
    from newemployee
    
    
    
    select distinct name
    
    from newcreditcard

    在这里我们对存在newemployee表中的44名员工进行对他们的消费记录的查询,可以发现creditcard表中错误不会影响,当然也可以尝试清洗一下数据

    select *
    
    into newcreditcard1
    
    from newcreditcard
    
    where name in (
    
    select name
    
    from newemployee
    
    )

    清洗数据:

    select *
    
    into newcreditcard
    
    from credtcard
    
    where location not like '%[0-9]%'and FirstName is not NULL and LastName is not NULL


    6、设置表中数据的数据类型、主键,newemployee表中FirstName、LastName没有重复项,可以设置为主键,而newcreditcard1表中有重复项,如果要设置主键,就必须FirstName、LastName、timestamp、location都设置为主键。

    7、分析数据:

    (1)模式和规律

    ① 查询每个人两周内的消费总金额和职业,可以发现卡车司机职业的消费金额比其他人都高,Valeria Morlun消费最多。


    ② 查询所有消费地点的消费人次,可以发现Hippokampos、Guy's Gyros、Brew've Been Served普遍比其他地方消费次数高,比较受欢迎。


    ③ 查询每个人到某个地点的消费次数,可以发现大部分人两周内基本每天都去某个地方消费一次。

    ④ 查询每天所有人的消费次数总和,可以发现6号至10号五天和13号至17号五天,消费次数比11、12号和18、19号要多,可以猜想工作日出门次数比周末次数多,消费次数多。

    ⑤ 查询每天某一时间段内的消费次数,将一天分24小时为【00:00:00-03:00:00】、【03:00:00-06:00:00】、【06:00:00-09:00:00】、【09:00:00-12:00:00】、【12:00:00-15:00:00】、【15:00:00-18:00:00】、【18:00:00-21:00:00】、【21:00:00-24:00:00】八个时间段,发现【00:00:00-03:00:00】、【03:00:00-06:00:00】、【15:00:00-18:00:00】这几个时间段消费次数较少,大多数消费集中在其他时间段:早餐、午餐、下午茶、晚餐。

    【06:00:00-09:00:00】


    【09:00:00-12:00:00】


    【12:00:00-15:00:00】


    【15:00:00-18:00:00】

    【18:00:00-21:00:00】


    【21:00:00-24:00:00】


    【00:00:00-03:00:00】


    【03:00:00-06:00:00】

    (2)异常现象

    ① Adan Morlun和Claudio Nant两人消费次数都比较少且平均消费金额比较大,最大单笔消费也比较多。

    select FirstName,LastName,COUNT(*)as '消费次数',SUM(price)as '总金额',AVG(price)as '平均消费金额',MAX(price)as '单笔最大消费'
    
    from newcredtcard
    
    group by FirstName,LastName 
    
    order by AVG(price)desc

    ② 13号的凌晨【00:00:00-03:00:00】和12、13号【03:00:00-06:00:00】有消费记录

    ③ Maximum Iron and Steel、Abila Scrapyard这几个地点,消费次数少,且金额大,平均金额也很大。

    select location,COUNT(*)as '消费次数',SUM(price)as '总金额',AVG(price)as '平均消费金额',MAX(price)as '单笔最大消费'
    
    from newcreditcard
    
    group by location
    
    order by AVG(price)desc

    8、数据库开发

    开发工具:Delphi 2010

    开发环境:Windows XP(在虚拟机上完成的,SQL Server Management Studio也在XP里,因为我的主机Win10安装不成功)

    开始选择Delphi 7 ,但感觉界面不太友好,就又重新选了Delphi 2010安装,安装网上有教程,破解也有,但没有破解出来,且只有14天的试用期。DevExpress VCL 13.1.4是后面网上找教程安装的插件,主要是一些控件的使用会用到,根据网上教程以及《Delphi程序开发范例宝典》进行数据库开发,具体实验截图见下:

    主界面:

    主体框架结构:

    Ucreadtcard.pas:对creditcard表(这里命名错了)的增删改操作的主程序;

    UDMmain.pas:数据库连接模块,后面会看到;

    Uemployee.pas:对employee表的增删改操作的主程序;

    Ugroup.pas:对creditcard表分组查询操作(按人、地点、天)的主程序;

    Umain.pas:主窗口程序;

    USQL.pas:SQL查询的主程序


    主窗口:设置了SQL查询、employee表、creditcard表、统计,四个按钮,通过dxBarManager进行管理,点击触发通过ActionList管理,dxSkinController界面皮肤管理控件。


    按钮触发事件代码如下:

    Employee表的窗口界面,一张表控件和数据库导航控件,导航控件可以对数据库进行增删改操作,creditcard表一样。


    ADOConnection连接数据库,ADOQuery查询数据库,DataSource查询后的数据源

    SQL查询界面,Memo接收SQL语句,查询按钮触发事件进行查询,表输出结果。


    设计代码如下:

    分组查询,设置查询条件,按人、地点、时间进行查询。


    给ComboBox设置选项,即查询列下的所有数据对象,代码如下图:


    按钮触发,进行查询,代码如下:

    实验测试结果如下:

    启动主界面;

    点击SQL查询按钮,输入SQL语句,点击查询。


    点击employee表,进行对该表的增删改,增是“+”,删是“-”,改直接在表中改,然后点击“√”

    增加数据的效果,SQL Sever数据库中增加了这么一行,如下图:


    删除数据的效果,选中某行数据,点击“-”按钮,删除数据。

    改,直接在表中改就行,然后点击“√”按钮。

    点击统计按钮,进行分组查询,从下拉框中选出查询的对象,点击查询就可以进行条件查询。

     

    四、总结

    通过本次数据库大作业实验,进一步巩固了我对数据库的基本操作,同时锻炼了对数据的分析能力,以及初步认识和学习数据库开发,掌握了一些数据库开发的基本操作。对于语言,无论是SQL语言、数据库开发语言,还是C、Java,都有其固定的结构,和类似的语法,函数调用、参数传递,可能一看就知道它在做什么,还有网上视频教程资源很多,对于语言、开发的学习有很大帮助,希望在今后学习中能提升更多。

    展开全文
  • 数据库冗余数据分析

    千次阅读 2014-04-06 22:55:59
    数据库物理层面的冗余指数据库存储的硬件资源的冗余,逻辑结构层面的冗余是指包括表、记录、字段、属性值以及索引、数据字典中的冗余,由于数据库逻辑实现的基础是各种硬件资源,所以物理层面的冗余影响数据库逻辑...
  • python数据分析之后处理的数据入什么数据库比较好 mysql?Oracle?python数据分析之后处理的数据入什么数据库比较好 mysql?Oracle?python数据分析之后处理的数据入什么数据库比较好 mysql?Oracle?python数据分析...
  • 插入大量数据至MongoDB数据库的速度问题分析 需求背景:某定时任务产生千条或更多JSON数据,本次数据还未完全写入数据库中,下一次定时任务的数据已经产生,由此而产生的数据拥堵怎么解决? 最初使用...
  • 数据分析利器 —— 列式储存数据库

    千次阅读 2016-07-21 22:42:02
    数据分析利器 —— 列式储存数据库列式数据库什么是列式数据库?可能大家也才到了,既然有列式数据库,那么肯定就有行式的喽!确实是这样的。也许大多数人并不了解数据库储存模型(storage model)和数据库的数据...
  • 四大基本概念(1)数据--Data① 数据的定义② 数据的种类③ 数据的特点④ 数据举例(2)数据库--Database① 数据库的定义② 数据库的基本特征(3)数据库管理系统--DataBase Management System① 什么是DBMS?...
  • 一丶 一般情况下,数据挖掘经过如下阶段1,数据记录到数据源中,如(文本文件,传统的业务数据系统,和其他各种数据源)2.这些数据经过ETL(extract,transform,load)过程存储到数据仓库中,如hive(这些数据仓库并不...
  • 上周在澳大利亚悉尼举行的Gartner数据峰会上,Gartner发表了数据分析数据库的十大最新预测,其中第五个是关于图数据库: Trend No. 5: Graph Graph analytics is a set of analytic techniques that allows for ...
  • 不同的数据库你需要下载不同的DB API模块,例如你需要访问Oracle数据库和Mysql数据,你需要下载Oracle和MySQL数据库模块。 DB-API 是一个规范. 它定义了一系列必须的对象和数据库存取方式, 以便为各种各样的底层...
  • 数据库MDF数据文件数据库恢复

    千次阅读 2012-04-01 09:47:28
    数据库MDF数据文件数据库恢复 .mdf文件是数据库中的一个主要数据文件,它是数据库的起点,指向数据库中文件的其它部分。当电脑出现故障无法备份数据库时,只能通过SQL命令的方式将.mdf数据文件附加到当前服务器,...
  • 操作型数据库 VS分析数据库

    千次阅读 2019-05-31 10:47:30
    操作型数据库VS分析型数据库关系...用于历史数据分析,负责利用历史数据对公司各主题域进行统计分析 3. 两类数据库的区别数年内 (1)数据组成差别 数据时间范围:操作型数据库只会存90天以内的数据;分析型数...
  • 数据模型分析思路1、 弄清每张表记录的数据内容 分模块对每张表记录的内容进行熟悉,相当 于你学习系统 需求(功能)的过程。 2、每张表重要的字段设置 非空字段、外键字段 3、数据库级别表与表之间的关系 ...
  • 大数据分析工具应用

    千人学习 2019-12-23 10:27:20
    Tableau是一款数据分析软件,使用非常简单,通过数据的导入,结合数据操作,即可实现对数据进行分析,并生成可视化的图表直接展现给人们想要看到的通过数据分析出来的信息。它具有许多理想的和独特的功能。使用...
  • 大数据分析方法有哪几种?

    万次阅读 2018-11-13 18:02:43
    科学技术的更新与互联网的飞速发展,推动着大数据时代的来临,每天各行各业都在产生数量无法预估的...大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分...
  • 国内五大数据库厂商分析

    千次阅读 2020-07-14 14:28:04
    创意信息技术股份有限公司(股票代码:300366)成立于1996年,2014年在深交所创业板上市,是国内领先的大数据产品及综合解决方案提供商,已形成数据采集汇聚、数据处理、数据挖掘分析数据应用的大数据全栈核心能力...
  • PostgreSQL数据库如何快速插入大量数据背景在一些应用场景中,需要向PostgreSQL数据库中快速装入大量的数据,比如数据库迁移,SQL日志分析等。在Abase上快速插入数据有几种方案,每种方案的效率怎么样?如何调优能...
  • 从所周知,大数据已经不简简单单是数据的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。...基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
  • 30款常用的大数据分析工具推荐(最新)

    万次阅读 多人点赞 2019-09-27 10:37:32
    数据挖掘和数据分析的能力在当今时代相当重要, 智能的工具是你与竞争对手对抗并为公司业务增加优势的必备条件。我列出了30个最热门的大数据工具,供大家参考。 Part 1:数据采集工具 Part 2:开源数据工具 Part ...
  • 分析论坛数据库设计&分析

    万次阅读 2015-08-07 18:26:26
    然后考虑到论坛数据量比较,所以在设计上有优化。 论坛把数据库分成3个数据表,这样在访问不同页面的时候都查询很快。 数据库表参考discuz 数据库设计: 只是挑了些相关字段,没有把所有字段列出了。--论坛板块...
  • 环境 Python 3.X IDE : juyter notebook 使用Python连接数据库 import ...#使用python连接数据库 conn = MySQLdb. connect( host = '127.0.0.1', #本地地址 user = 'root', #一般默认用户名 passwd = '********
  • xUtils3数据库模块分析数据

    千次阅读 2016-01-09 19:24:09
    xUtils3数据库模块分析数据篇xUtils3是目前比较流行的开源项目,因为较原xUtils版本改动较源码作者干脆另立山头,在Github上建立了新的版本库。xUtils3对6.0版本支持更好,而且删除了不少不常用的功能模块,具体...
  • 用户行为分析数据库设计

    千次阅读 2017-07-20 14:54:51
    详见下图:
  • 如何进行大数据分析与处理?

    万次阅读 2019-05-03 11:59:07
    大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受。 2. 数据挖掘算法 ...
  • 数据存入数据库乱码问题

    千次阅读 2017-05-06 17:17:51
    在编写javaweb项目的时候,遇到了一个问题,客户端传到后台的中文数据没有出现乱码问题,而在存入数据库之后,数据库中的数据出现了乱码问题。 分析了几个原因: 数据库的编码问题,数据库表的编码问题(由于客户端传...
  • 大数据分析软件另类应用在足球预测实例】足球滚球走地大小球判断方法和技巧 百度网盘地址 提取码: s8bu 大数据分析软件另类应用 1.可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是...
  • 大数据库优缺点分析

    万次阅读 2017-07-13 17:10:28
    一、sqlserver 优点: 易用性、适合分布式组织的可伸缩性、用于决策支持的数据仓库功能、与许多其他服务器软件紧密关联的集成性、良好的性价...作为一个完备的数据库数据分析包,SQLServer为快速开发新一代企业级商
  • 数据库中有重复数据时,用到哪些sql语句? 这里有若干数据,并掺杂了重复数据 1. 查看过滤重复后的数据 思路, group by 分组可以对多个列进行分组, 分组后可以过滤掉重复的数据 sql语句: SELECT id,`name`,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,018,932
精华内容 407,572
关键字:

大数据分析数据库