精华内容
下载资源
问答
  • 项目有大年夜大年夜有小,越大年夜大年夜的项目触及到常识点也就越;2019年将是这些领域取得长足进步的一年。我是一个大数据程序员,建了一个大数据资源...一个合格的阿里云大数据程序员要学习哪些技术,才算合格...

    QQ_20190309181219

    项目有大年夜大年夜有小,越大年夜大年夜的项目触及到常识点也就越多;2019年将是这些领域取得长足进步的一年。我是一个大数据程序员,建了一个大数据资源共享群199427210 每天分享大数据学习资料和学习方法 ,让我们在2019年一起成长.

    第一.能熟练的A使用Java SE:安装搭建环境.网络编程

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    第二.掌握使用Liunx系统+Hadoop生态圈

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    第三.能快速使用storm实时流式计算框架

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    现在贡献大数据基础知识Linux 简单上传修改权限方法 sftp:

    sftp是安全文件传输协议,它和ftp是兄弟,就想我们的http和https类似,sftp是依托于ssh端口22来完成相关的连接操作,听协议名称我们也会发现通过sftp传输是加密传输认证信息和数据的,安全但相对应的传输的效率就比普通的ftp要低。

    我们在window中可以用crt、xftp、filezilla、winscp等工具进行连接sftp上次、下载文件等操作。

    在Linux下输入sftp username@远程IP(或者 远程主机名)

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    我们允许sftp软件输入自己的服务器ip地址 用户名默认是root 密码 点击登录

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    在界面左边默认是本地文件夹,右边是服务器的文件夹

    我们在通过拖动将本地文件拖动到远程栏中实现上传或者下载

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    要注意我们的服务器或者本地文件夹的地址可以通过点击。。或者上面的下拉来选择目录

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    这里是第二种上传方法

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    在文件上面或者文件夹上右键 属性 可以调整文件夹或者文件的权限和所属组以及拥有者,这点极大的方便了不懂命令的朋友

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    最后软件的拓展性不错,可以通过右键自定义命令实现一些解压搜索等操作。

    对Linux命令不熟悉的小伙伴可以试试sftp,相信会对你使用Linux会有些许的帮助。

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的
    image

    展开全文
  • 项目有大年夜大年夜有小,越大年夜大年夜的项目触及到常识点也就越;2019年将是这些领域取得长足进步的一年。我是一个大数据程序员,建了一个大数据资源...一个合格的阿里云大数据程序员要学习哪些技术,才算合格...

    QQ_20190309181219

    项目有大年夜大年夜有小,越大年夜大年夜的项目触及到常识点也就越多;2019年将是这些领域取得长足进步的一年。我是一个大数据程序员,建了一个大数据资源共享群199427210 每天分享大数据学习资料和学习方法 ,让我们在2019年一起成长.

    第一.能熟练的A使用Java SE:安装搭建环境.网络编程

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    第二.掌握使用Liunx系统+Hadoop生态圈

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    第三.能快速使用storm实时流式计算框架

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    现在贡献大数据基础知识Linux 简单上传修改权限方法 sftp:

    sftp是安全文件传输协议,它和ftp是兄弟,就想我们的http和https类似,sftp是依托于ssh端口22来完成相关的连接操作,听协议名称我们也会发现通过sftp传输是加密传输认证信息和数据的,安全但相对应的传输的效率就比普通的ftp要低。

    我们在window中可以用crt、xftp、filezilla、winscp等工具进行连接sftp上次、下载文件等操作。

    在Linux下输入sftp username@远程IP(或者 远程主机名)

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    我们允许sftp软件输入自己的服务器ip地址 用户名默认是root 密码 点击登录

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    在界面左边默认是本地文件夹,右边是服务器的文件夹

    我们在通过拖动将本地文件拖动到远程栏中实现上传或者下载

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    要注意我们的服务器或者本地文件夹的地址可以通过点击。。或者上面的下拉来选择目录

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    这里是第二种上传方法

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    在文件上面或者文件夹上右键 属性 可以调整文件夹或者文件的权限和所属组以及拥有者,这点极大的方便了不懂命令的朋友

    image

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的

    最后软件的拓展性不错,可以通过右键自定义命令实现一些解压搜索等操作。

    对Linux命令不熟悉的小伙伴可以试试sftp,相信会对你使用Linux会有些许的帮助。

    一个合格的阿里云大数据程序员要学习哪些技术,才算合格的
    image

    展开全文
  • 漫谈大数据

    2019-12-03 11:38:48
    但是相信还是有很小伙伴会问到底什么是大数据又或者处理到才算大数据。如果你没有接触过大数据,那么你就不知道大数据究竟有大,大到什么样的数据才能称之为大数据。那么,根据数据收集的端口,企业端与个人...

    Hello各位old铁,我是酷酷的小张,今日份漫谈注意查收……
    一提到大数据就会想到他的背景、存储平台、以及计算模式和分析处理平台等等。但是相信还是有很多小伙伴会问到底什么是大数据又或者处理到多大才算大数据。如果你没有接触过大数据,那么你就不知道大数据究竟有多大,大到什么样的数据才能称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。
    关于大数据的定义也是众说风云,其实可以简单的用一句话概括:大数据一词由英文“big data”翻译而来,是最近几年兴起的概念,目前还没有一个统一的定义。相比于过去的“信息爆炸”的概念,它更强调数据量的“大”。

    关于大数据的V特征之前的版本都是4V查阅了一些资料发现已经具体到5V。
    大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
    在这里插入图片描述

    大数据存储平台
    对大数据进行处理必须需要一个能够存储所有数据的平台。下面介绍以下常用的大数据存储平台。
    1.HDFS
    HDFS(全称Hadoop Distributed File System)原是Apache开源项目Nutch的组件,现在成为是Hadoop的重要组件,它是一款具有高容错性特点的分布式文件系统,它被设计为可以部署在造价低廉的主机集群上。
    HDFS的设计目标:
    检测和恢复硬件故障。
    存储大数据集。
    应用程序流式地访问HDFS上的数据集。
    大部分MapReduce 程序对HDFS上的文件是一次写入,多次读取的。
    可移植性。
    让计算机数据的位置而移动。

    2.HBAS
    Apache HBase是运行于Hadoop平台上的数据库,它是可扩展的、分布式的大数据储存系统。HBase可以对大数据进行随机而实时的读取和写入操作。它的目标是在普通的机器集群中处理巨大的数据表,数据表的行数和列数都可以达到百万级别。受到Google Bigtable 思想启发,Apache开发出HBase, HBase是一个开源的、分布式的、数据多版本储存的、面向列的大数据储存平台。Google的Bigtable是运行于GFS(Google File System)上的,而HBase是运行与Apache开发的Hadoop平台上。
    HBase的特性包括:
    1)线性和模块化的扩展性;
    2)严格的读写一致性;
    3)自动且可配置的数据表分片机制;
    4)RegionServer之间可以进行热备份切换;
    5)为MapReduce操作HBase数据表提供方便JAVA基础类;
    6)易用的JAVA客户端访问API;
    7)支持实时查询的数据块缓存和模糊过滤;
    8)提供Trift网关和REST-ful Web服务,并支持XML,Protobuf和二进制编码;
    9)可扩展的Jrubyshell;
    10)支持通过Hadoop检测子系统或JMX导出检测数据到文件、Ganglia集群检测系统。

    3.Cassandra
    Cassandra是社交网络理想的数据库,适合于实时事务处理和提供交互型数据。以Amazon的完全分布式的Dynamo为基础,结合了Google BigTable基于列族(Column Family)的数据模型,P2P去中心化的存储,目前twitter和digg中都有使用。在CAP特性上(CAP即Consistnecy 一致性,Avaliability 可用性,Partition-tolerance分区容忍性),HBase选择了CP,Cassandra更倾向于AP,而在一致性上有所减弱。

    4.Redis
    Redis是一种面向“键/值”对类型数据的分布式NoSQL数据库系统,特点是高性能,持久存储,适应高并发的应用场景。
    Redis是一个支持持久化的内存数据库(与Memcache类似),也就是说redis需要经常将内存中的数据同步到磁盘来保证持久化。整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库 数据flush到硬盘上进行保存。因为是纯内存操作,Redis的性能非常出色,每秒可以处理超过 10万次读写操作,是已知性能最快的Key-Value DB。
    Redis的出色之处不仅仅是性能,Redis最大的魅力是支持保存多种数据结构,此外单个value的最大限制是1GB,不像 memcached只能保存1MB的数据,因此Redis可以用来实现很多有用的功能。

    以及大数据的处理分析平台最常见的就是Impala平台和HadoopDB平台

    随着社会未来向智能化的逐渐发展,大数据相关技术在一些传统领域的应用将越来越广泛。当然,现阶段大数据产业发展也存在着各种各样的状况。但是,大数据代表了未来发展的方向,这是当今社会的共识,大数据发展已经进入了最好的时代。

    展开全文
  • 引子:什么才算大数据?  自从写了上一篇《大数据应用之双色球算奖平台总体设计大纲篇一》,受到许多园友的关注和指导,在此表示感谢,尤其是园友个人知识管理给出的一个评论,让我深思,原文如下“双色球算奖这么...

    作者:张子良

    版权所有,转载请注明出处

    引子:什么才算大数据?

      自从写了上一篇《大数据应用之双色球算奖平台总体设计大纲篇一》,受到许多园友的关注和指导,在此表示感谢,尤其是园友个人知识管理给出的一个评论,让我深思,原文如下“双色球算奖这么简单的活,也称大数据。先生:不是数据多,叫大数据。双色球算奖,Oracle数据库的索引,1分钟内就算完。关键是人家不想这么快”。话不太好听,尤其是称我为先生那句,但却发人深思,是啊:到底什么是大数据呢?选择双色球算奖作为大数据应用的切入点是否合适呢?然后就是让我诧异的1分钟理论很是吓了我一跳的。

      说一下自己的理解吧,大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存储、管理和分析。大数据既有存储规模方面的考虑,同时也涉及到分析计算规模的考虑。之所以选择双色球算奖平台作为大数据应用的案例,也正是考虑到这两个方面的问题。其一,历史投注明细信息的存储,如果采用传统的关系型数据库,肯定是不合适,无论是分区还是分表,都无法解决根本问题。其二、当前投注规模的情况下,进行快速算奖,所要进行的计算规模肯定也不是一个传统方式能轻易解决的问题。

      当然关于具体多大规模的数据才算大数据,目前为止尚未有一个官方的界定阈值的存在,规定超过多少算大数据,低于多少不算大数据的说法。既然没有标准,也就无所谓是与不是,见仁见智,不一而足。

    一、概述 业务规则

     双色球奖项设置和兑奖规则如下所示:

    “双色球”彩票以投注者所选单注投注号码(复式投注按所覆盖的单注计)与当期开出中奖号码相符的球色和个数确定中奖等级: 

    一等奖:7个号码相符(6个红色球号码和1个蓝色球号码)(红色球号码顺序不限,下同) 

    二等奖:6个红色球号码相符; 

    三等奖:5个红色球号码和1个蓝色球号码相符; 

    四等奖:5个红色球号码或4个红色球号码和1个蓝色球号码相符; 

    五等奖:4个红色球号码或3个红色球号码和1个蓝色球号码相符; 

    六等奖:1个蓝色球号码相符(有无红色球号码相符均可)。

    二、数据对象分析

       既然是数据规模的评估,我们要解决的首先就是数据对象的确认。针对双色球算奖平台,我们需要关注那些数据对象呢?按照矛盾论的观点,事物的矛盾分为主要矛盾和次要矛盾,其中主要矛盾起决定性作用。所以在这里我们只考虑双色球算奖平台涉及的最主要的数据对象,而不考虑其他细节问题。

    数据对象主要包括以下几个方面:

    (1)销量统计:包括全国、分省市、销售网点的销量汇总统计数据。

    (2)中奖统计:包括全国、分省市、销售网点的各奖项的中奖注数汇总统计数据。

    (3)开奖号码:包括每一期开奖号码信息。

    (4)奖金信息:包括每一期次各奖项奖金多少的统计数据。

    (5)选注明细:当前期次选注明细数据。

    (6)选注历史明细:历史期次选注明细数据。

    (7)中奖选注明细:当前期中奖选注明细数据。

    (8)中奖选注历史明细:历史中奖选注明细数据。

      如果从存储规模和计算规模两个维度分别考虑,针对销量统计、中奖统计和奖金信息,我们需要关注的是计算规模;针对选注明细、选注历史我们要关注的则是存储规模。

    三、存储规模评估  

    3.1 数据结构

                 针对双色球算奖平台而言,所有需要存储的数据中,选注历史明细信息的存储是规模最大的,根据目前双色球每一期次的平均销量来看,需要存储的每一期次选注明细信息约为2亿条记录。每一选注需要存储的信息包括:站号、操作员、流水号、销售期、有效期、销售时间、金额、投注明细(多条)、开奖时间和附加码。具体如下图所示:

     

    为简化我们的分析,我们将复式投注和胆拖投注明细拆分成单式投注进行存储,具体数据结构如下:

    序号

    字段名称

    类型

    长度

    1

    期次

    Char

    7(YYYYMMN)

    2

    站号

    Char

    8(全国唯一)

    3

    流水号

    Char

    6(右侧补零)

    4

    Red1

    char

    2(左侧补零)

    5

    Red2

    Char

    2(左侧补零)

    6

    Red3

    Char

    2(左侧补零)

    7

    Red4

    Char

    2(左侧补零)

    8

    Red5

    Char

    2(左侧补零)

    9

    Red6

    Char

    2(左侧补零)

    10

    Blue

    char

    2(左侧补零)

    按照简化后的数据存储,单注明细需要的存储空间=35字节,每一期次需要存储的绝对数据规模=200000000*35/1024/1024=6675.7M。如果单从这个角度来看,数据存储规模还真的不算大。但是考虑到RDMS表的存储和访问,无论是采用分区,还是分表,能够实现的其实只是把数据塞进去,至于,读出来,如何读出来则将会是一个悲剧。不要告诉我用索引,用索引需要付出的代价是什么,我想有更多的人比我清楚。

    3.2 测试环境

    备注

    操作系统

    Windows XP

     

    数据库

    Sybase15.7

     

    CPU

    T5550

    双核1.83

    内存

    2G

     

    硬盘

    200G

     

    3.3 测试结果-无索引插入

    轮次

    插入记录数

    耗时

    第一轮

    200w

    15分03秒

    第二轮

    200w

    18分05秒

    第三轮

    200w

    19分04秒

    3.4 数据库空间-1000w记录数据库空间

    四、计算规模评估

      这部分设计到具体采用的算法,但是无论采用何种算法,2亿次规模的数据遍历是必须的,之前园友提到的方法其实很好,根据开奖号码,设计中奖选注表,利用待兑奖数据进行组合ID比较,然后得出目标选注。然后进行奖项层次的细分,思路很好,可是有没有想到过2亿次乘以目标中奖选注表项个数的计算规模有是多少次呢。如果采用SQL的方式,时间呢,又需要多少的时间?有数据有真相,正在跑相关的测试案例。至少目前看到的结果,很不理想。

    正在跑测试数据,持续更新中,有图有真相,有数据才有说服力!敬请关注、支持!求推荐!

    展开全文
  • 大数据大算“大

    2019-02-27 18:32:19
    在数据“泛滥”的今天,人人都在提“大数据”,但大的数据才算“大”呢?如果盲目的强调“大”,结果只会被数据淹没,从而导致信息过量,最终对决策不仅没有帮助反而使人困惑、不知所措。今天,我们来谈一谈信息...
  • 何为大数据

    2012-05-19 22:36:53
    但数据规模才算大,我给不出来一个通用的数字去界定大数据。虽然很公司的数据量都会上P,但这个不能作为大数据的标准。自我感觉,能称自己公司已经进入大数据时代,这个公司就需要考虑如下几点去应对自己的...
  • 从小样本到大数据:概念与误区 最近两年产生并记录的数据,总量占到人类文明以来所有数据总和的90%。我们源源不断记录着一切有价值的信息...明白这一道理就不会过分纠结“到底什么是大数据”,“多大数据算
  • 在兵法上这个其实就是大数据的概念。例如用兵如神的诸葛亮,书上形容他上知天文下晓地理,阴阳八卦无一不知。而这些知识是什么呢?其实一个人,要是能够通晓上下五千年的知识,那就是自行建立了一个大数据库,将这...
  • 现在很数据科学家都是在研究大数据的技术,很多人只是听过大数据这个词,但是对大数据还是不太了解的,对于大数据现在需要解决的关键问题不是很明朗。...只要我们解决好这三个问题,才算大数据...
  • 什么是大数据随谈

    2013-12-08 23:01:34
    什么是比高达他? 比高达他?...今天突然想起来前段时间一个在深圳工作的美国朋友问我,什么是大数据才算大以至于我们公司才需要大数据技术?我当时给了他一些参考,他还不是很明确。 很有意
  • 分析大量数据只是使大数据分析与以前的数据分析不同的一部分。我们还要了解其它方面。  先有数据,然后是大数据。那么,它们有什么区别? 定义大数据 ... 大的数据才算得上“大”尚无定论,但它通常...
  • 那么多么大的数据才算大呢? 一亿,十亿条记录数据。还是一百亿呢。 MapReduce的做法是分布式的,并行式的,即分成很的子任务,再汇总统计。 其实这不是电脑上的MapReduce的首创。类似的做法早以有之。下面举一个...
  • 不过,大数据应用怎样才算真正落到了实处?搭好一个大数据平台就万事大吉了吗? 一些企业用户在建立了大数据平台后,反而感到更加困惑甚至遗憾,数据应用仍有零乱之感,甚至感觉现有的大数据平台并不是自己想要的,...
  • 经常有学员来海口达内咨询,学习大数据要具备哪些技能才算学好了,才能满足企业的需求? 偶然认识的一个朋友,最开始是从事Java后端开发的,后来他在业余时间自学成功转入大数据行业,现在是一名大数据工程师,待遇...
  • 什么是大数据?你需要知道的一切

    千次阅读 2019-05-04 12:36:32
    分析大量数据只是使大数据分析与以前的数据分析不同的一部分。我们还要了解其它方面。  先有数据,然后是大数据。那么,它们有什么区别? 定义大数据 ... 大的数据才算得上“大”尚无定论,但它通常...
  • 凡事必须跟大数据扯上点关系才算时髦,才算符合时代潮流。 做个最普通不过的统计分析报告,也要冠以“大数据XX报告”。“大数据征信”,“大数据金融风控”,“大数据XX”更是比比皆是。在我看来,真正属于纯粹...
  • 开始,报名参加王家林老师的大数据蘑菇云行动,才算真正开始学习Spark,学习大数据技术。  网上很Spark的例子都是经典的WordCount example,可惜都是拿那个英文的readme 文件,分行分词统计,对于中文其实并不...
  • 无论做什么项目,首先我们肯定要做的是市场调查分析、了解相关政策法规、再选择靠谱的合作对象、制定合理的计划,到这里你才算真正地做好了第一步。刷脸支付,智慧医疗,智慧校园,智慧银行,餐饮超市酒店,无感停车...
  • 一遍发现忘记将lower_bound的复杂度进去了。 需要用两个数组维护:sum[]表示区间内值的个数,flag[]是延时标记,同时它如果延到叶子结点了是不会清空的,那么在这里就可以表示这个位置出现了多少次来用。...
  • 需要注意的是:当用户上传自己的投注方案后,网站需要按照以上规则出对应的数量,以及用户对应的需要支付的金额,当用户选择支付以后,允许用户下载过滤后的投注单列表。 现在的问题是: 所有的过滤操作都...
  • 正文之前 只有五天了,好方啊!幸好,今天问老师,老师告诉我下周一在,...《导》至今也看到第十章,而且都忘得差不多了!简直了!ZZB啊啊ZZB,你要加油了哇!想起昨天下午被抽中之前都约好了人清明去看《头号...
  • 春节假期也有很关注了我的新朋友,借着新朋友们来的机会,想跟大家聊聊数据那些事~~ 众所周知,近两年来,人工智能,已经跌入到两三年前大数据风口上,全民皆“数据科学家”的套路里了。大家都对各种人工智能的...
  • 什么样的思维才是数据分析工作者应该具备的入门思维?文章为你解析。 随着企业中的大数据采集技术、存储技术的日益增强,沉淀下来的大数据...那么,数据分析工作者在人工智能时代该具备怎样的思维才算真正的入门了

空空如也

空空如也

1 2 3 4
收藏数 77
精华内容 30
关键字:

多大数据才算大数据