精华内容
下载资源
问答
  • 关于大数据一些个人理解

    千次阅读 2014-12-23 20:02:39
    前几天商学院的校友问了我几个关于大数据问题,一看都是非常专业且典型的问题, 相信大家听这个词听得太多了也有很多疑问,于是我总结了下自己的理解,欢迎一起讨论。 1. 现在大数据很时髦,多大的数才能叫...

    前几天商学院的校友问了我几个关于大数据的问题,一看都是非常专业且典型的问题,

    相信大家听这个词听得太多了也有很多疑问,于是我总结了下自己的理解,分享出来大家一起讨论。


    1. 现在大数据很时髦,多大的数才能叫大数据?


    一般网站大概几TB的数据量,这个数量级用mysql这样传统的数据库还ok,
    但如果再大,查询起来就很慢,如果你想搜索个关键词,等半小时出不来结果,就很郁闷。
    所以大数据经常是上百TB,PB这样的量级,并且用传统的方法不能快速处理,必须用分布式的计算与存储方法,
    这样才好意思说自己是大数据,这是其一。


    其二,光量大还不够,如果数据单一,价值也不大,数据需要有多样性。
    比如:某些购物网站除了有你的购物历史记录,还有你的电话,家庭地址,职业,手机型号。
    有了这些多样化的数据,就可以全面判断你的购买倾向与消费能力,
    从而在合适的时间,合适的地点,用合适的渠道给你推荐你更有可能买的东西。
    所以,如果光有你的交易信息,没有这些附加信息,也不好意思说自己是大数据。

    还有一点特别重要,就是关于数据的完备性。
    以前公司出一个产品,想预研市场反应,就去街上抽样调查,逮住一个人就让他体验一下;
    这种方法误差是很大的,一方面样本量不够,另一方面结果是有偏的,还有用户信息不真实的情况。
    而大数据不做抽样,直接有全部用户的信息,历史行为与接触途径,它群发个测试,80%的用户都有反馈;或者每天80%的用户都在它的云里活动,那么调研结果一定是准确的;因为后者代表所有用户的反应,而不是样本的反应;这也是为什么百度指数越来越被营销重视,google用搜索电影关键词的统计可以用来预测票房高低的原因(因为美国大部分人都用google搜电影,而搜的人多了看的人也多)。


    2. 公司内部用户的数据能称得上大数据吗?外部数据又如何来?

    内部数据如果足够多,足够多样化,就算大数据。
    比如阿里巴巴,就是个航空母舰,
    特别是在收购了微博,高德,友盟之后,更加丰富了自己的数据来源,
    一个人在微博上说了什么话,晒了什么图片,用地图查了什么shopping mall, 上网浏览了什么网址,
    它都看得清清楚楚。

    小一点的公司,除了自己客户的交易记录,还有客户资料,客户跟客服的沟通和投诉记录,
    有上传的图片和视频等等,如果开了微信公众号,用户的微信相关资料,通过公众号跟公司的接触也有了;
    这些数据也很有价值,让我说也算大数据,“大”是个宽泛的概念。


    3. 数据可靠性如何?

    数据多了肯定有不规整,杂乱的情况,有用户电话号码不对,地址错误等很多情况出现,但相比总体巨大的量来说,正确的也有很大比例,只要关注正确的,就已经很多了;另外,通过做一些数据清理,也可以矫正和优化数据质量。



    (P.S. 遇到过几个这样的人,Excel复制粘贴都搞不到一起,看到最近都在谈论大数据,就临时买几本通俗读物往桌上一堆,让人来人往看到都觉牛逼,自己说起大数据动辄就提“4V, 相关而不是因果”,显得很懂的样子,呵呵,笑














    展开全文
  • 关于大数据去重的一些总结

    千次阅读 2018-09-15 22:48:15
    关于大数据去重的一些总结 前言 之前在实习的公司里, 涉及到从 Hbase 中去数据转储到 MongoDB 这一过程, 其中取数据的依据是 redis 中存放的 id 队列, 因为往这个队列中生产ID完全是另一个项目组的行为, 在这一...

    关于大数据去重的一些总结

    前言

    之前在实习的公司里, 涉及到从 Hbase 中去数据转储到 MongoDB 这一过程, 其中取数据的依据是 redis 中存放的 id 队列, 因为往这个队列中生产ID完全是另一个项目组的行为, 在这一过程中当然会涉及到数据重复的问题, 针对这一问题, 当时项目中的做法是: 利用 redis 中 HyperLoglog 这一数据结构来去重.

    HyperLoglog

    Redis HyperLogLog是一种使用随机化的算法,以少量内存提供集合中唯一元素数量的近似值。

    定义

    A HyperLogLog is a probabilistic data structure used in order to count unique things (technically this is referred to estimating the cardinality of a set). Usually counting unique items requires using an amount of memory proportional to the number of items you want to count, because you need to remember the elements you have already seen in the past in order to avoid counting them multiple times. However there is a set of algorithms that trade memory for precision: you end with an estimated measure with a standard error, in the case of the Redis implementation, which is less than 1%. The magic of this algorithm is that you no longer need to use an amount of memory proportional to the number of items counted, and instead can use a constant amount of memory! 12k bytes in the worst case, or a lot less if your HyperLogLog (We’ll just call them HLL from now) has seen very few elements.

    译: 一个HyperLogLog是一个用于统计唯一性事物数量的概率性数据结构(专业的说这叫估算集合的基数)。通常统计总数需要消耗与数量成正比例的存储空间,为了避免重复统计一个项多次你需要把你已经统计过的项记录下来,然而存在一种算法,损耗一定的精确度来节省存储空间,用一种带有一定误差的估算方式,在redis的实现中,这种误差小于1%。这种算法的魔力在于,你不再需要使用和已存储元素的数目成比例的存储空间,取而代之只使用固定数目的内存,在最差的情况下也仅仅需要12Kb的内存!如果你的元素数目很少,消耗的内存会更少。

    HyperLogLog 可以接受多个元素作为输入,并给出输入元素的基数估算值:

    • 基数:集合中不同元素的数量。比如 {‘apple’, ‘banana’, ‘cherry’, ‘banana’, ‘apple’} 的基数就是 3 。
    • 估算值:算法给出的基数并不是精确的,可能会比实际稍微多一些或者稍微少一些,但会控制在合理的范围之内。

    示例

    > pfadd salary "12K"
    (integer) 1
    
    > pfadd salary "12K"
    (integer) 0
    
    > pfadd salary "13K"
    (integer) 1
    
    > pfadd salary "15K"
    (integer) 1
    
    > pfcount salary
    (integer) 3

    The commands prefix is “PF” in honor of Philippe Flajolet

    RedisTemplate 中的接口

    public interface HyperLogLogOperations<K, V> {
    
        /**
         * Adds the given {@literal values} to the {@literal key}.
         * 
         * @param key must not be {@literal null}.
         * @param values must not be {@literal null}.
         * @return 1 of at least one of the values was added to the key; 0 otherwise.
         */
        Long add(K key, V... values);
    
        /**
         * Gets the current number of elements within the {@literal key}.
         * 
         * @param keys must not be {@literal null} or {@literal empty}.
         * @return
         */
        Long size(K... keys);
    
        /**
         * Merges all values of given {@literal sourceKeys} into {@literal destination} key.
         * 
         * @param destination key of HyperLogLog to move source keys into.
         * @param sourceKeys must not be {@literal null} or {@literal empty}.
         */
        Long union(K destination, K... sourceKeys);
    
        /**
         * Removes the given {@literal key}.
         * 
         * @param key must not be {@literal null}.
         */
        void delete(K key);
    
    }
    

    在具体的项目中判重的作法是使用 add(K key, V... values) 方法时, 如果返回值为0 , 即添加的该值在队列中已存在.

    当然, 使用HyperLoglog结构还是存在误差的, 我们应该将它应用在精确性不是很严格的场景下

    其他的基数统计方法

    bitmap

    布隆过滤器

    参考: https://blog.csdn.net/firenet1/article/details/77247649

    展开全文
  • 大数据面试一些问题

    2017-09-04 14:15:09
    大数据面试题

    1、给你海量数据(大到内存远不能满足计算)的场景,让你统计过滤排序等计算?

    http://blog.csdn.net/v_july_v/article/details/7382693

    2、关于数据结构和数据算法的面试题?

    http://blog.csdn.net/v_july_v/article/details/6870251      或者刷剑指offer

    3、数据量达到pb(已经存储到hbase,存储到hbase都很难解决)级别,怎么解决在前端快速的通过一条sql语句就能快速的查询出来结果?

    4、怎么解决某一时间段内计算数据量突然变大问题?

    5、怎么解决hive查询慢的问题?用presto或者优化hive

    6、怎么解决因爬虫数据产生的统计指标虚高问题?

    7、集群规模、数据量规模、执行作业时间?

    8、如何防止kafka丢失数据?

    9、spark的优化?




    待续


    展开全文
  • 数据现在是个热点词汇,关于有了大数据,如何发挥大数据的价值,议论纷纷,而笔者以为,似乎这有点搞错了原因与结果,就象关联关系,有A的时候,B与之关联,而有B的时候,A却未必关联,笔者还是从通常的4个V来描述...

      数据现在是个热点词汇,关于有了大数据,如何发挥大数据的价值,议论纷纷,而笔者以为,似乎这有点搞错了原因与结果,就象关联关系,有A的时候,B与之关联,而有B的时候,A却未必关联,笔者还是从通常的4个V来描述一下我所认为的大数据思维。

      首先是大数据的量,数据量足够大,达到了统计性意义,才有价值。笔者看过的一个典型的案例就是,例如传统的,收集几千条数据,很难发现血缘关系对遗传病的影响,而一旦达到2万条以上,那么发现这种影响就会非常明显。那么对于我们在收集问题时,是为了发现隐藏的知识去收集数据,还是不管有没有价值地收集,这还是值得商榷的。其实收集数据,对于数据本身,还是可以划分出一些标准,确立出层级,结合需求、目标来收集,当然有人会说,这样的话,将会导致巨大的偏差,例如说丧失了数据的完整性,有一定的主观偏向,但是笔者以为,这样至少可以让收集到的数据的价值相对较高。

      第二是大数据的种类,也可以说成数据的维度,对于一个对象,采取标签化的方式,进行标记,针对需求进行种类的扩充,和数据的量一样,笔者认为同样是建议根据需求来确立,但是对于标签,有一个通常采取的策略,那就是推荐标签和自定义标签的问题,分类法其实是人类文明的一大创举,采取推荐标签的方式,可以大幅度降低标签的总量,而减少后期的规约工作,数据收集时扩充量、扩充维度,但是在数据进入应用状态时,我们是希望处理的是小数据、少维度,而通过这种推荐、可选择的方式,可以在标准化基础上的自定义,而不是毫无规则的扩展,甚至用户的自定义标签给予一定的限制,这样可以使维度的价值更为显现。

      第三是关于时效性,现在进入了读秒时代,那么在很短的时间进行问题分析、关联推荐、决策等等,需要的数据量和数据种类相比以前,往往更多,换个说法,因为现在时效性要求高了,所以处理数据的方式变了,以前可能多人处理,多次处理,现在必须变得单人处理、单次处理,那么相应的信息系统、工作方式、甚至企业的组织模式,管理绩效都需要改变,例如笔者曾经工作的企业,上了ERP系统,设计师意见很大,说一个典型案例,以往发一张变更单,发出去工作结束,而上了ERP系统以后,就必须为这张变更单设定物料代码,设置需要查询物料的存储,而这些是以前设计师不管的,又没有为设计师为这些增加的工作支付奖励,甚至因为物料的缺少而导致变更单不能发出,以至于设计师工作没有完成,导致被处罚。但是我们从把工作一次就做完,提升企业的工作效率角度,这样的设计变更与物料集成的方式显然是必须的。那么作为一个工作人员,如何让自己的工作更全面,更完整,避免王府,让整个企业工作更具有时间的竞争力,提高数据的数量、种类、处理能力是必须的。

      第四关于大数据价值,一种说法是大数据有大价值,还有一种是相对于以往的结构化数据、少量数据,现在是大数据了,所以大数据的单位价值下降。笔者以为这两种说法都正确,这是一个从总体价值来看,一个从单元数据价值来看的问题。而笔者提出一个新的关于大数据价值的观点,那就是真正发挥大数据的价值的另外一个思路。这个思路就是针对企业的问题,首先要说什么是问题,笔者说的问题不是一般意义上的问题,因为一说问题,大家都以为不好、错误等等,而笔者的问题的定义是指状态与其期望状态的差异,包括三种模式,第一是通常意义的问题,例如失火了,必须立即扑救,其实这是三种模式中最少的一种;第二种模式是希望保持状态,第三种模式是期望的状态,这是比原来的状态高一个层级的。我们针对问题,提出一系列解决方案,这些解决方案往往有多种,例如员工的培训,例如设备的改进,例如组织的方式的变化,当然解决方案包括信息化手段、大数据手段,我们一样需要权衡大数据的方法是不是一种相对较优的方法,如果是,那么用这种手段去解决,那么也就是有价值了。例如笔者知道的一个案例,一个企业某产品部件偶尔会出现问题,企业经历数次后决定针对设备上了一套工控系统,记录材料的温度,结果又一次出现问题时,进行分析认为,如果工人正常上班操作,不应该有这样的数据记录,而经过与值班工人的质询,值班工人承认其上晚班时睡觉,没有及时处理。再往后,同样的问题再没有再次发生。

      总结起来,笔者以为大数据思维的核心还是要落实到价值上,面向问题,收集足够量的数据,足够维度的数据,达到具有统计学意义,也可以满足企业生产、客户需求、甚至竞争的时效要求,而不是一味为了大数据而大数据,这样才是一种务实、有效的正确思维方式,是一线大数据的有效的项目推进方式,在这样的思维模式基础上,采取滚雪球方式,把大数据逐步展开,才真正赢来大数据百花齐放的春天。

    展开全文
  • 大数据是什么 指的是一般单机无法处理的海量数据级,因此,对于此类的数据集,我们需要利用一些大数据处理的框架、工具,完成基于集群的数据处理 ...
  • 关于大数据的八大热点问题

    千次阅读 2013-12-02 15:46:06
    这一问题综合了两个问题,即大数据的基本内涵与数据的科学问题。前者关注的是大数据的基本定义和基本结构。迄今为止,什么是大数据,在产业界、学术界并没有形成一个公认的科学定义,大数据的内涵与外延也缺乏清晰的...
  • 关于大数据

    2014-11-17 21:14:43
    如果说人们对大数据存在一些误解,那么,有关大数据一些关键事实则需要不太看好大数据的企业去认真理解。 关键事实 关键事实 1 :需要不同技能 多数观察家都认同数据科学家短缺这一点。麦肯锡公司预测,...
  • 关于大数据最常见的10个问题

    千次阅读 2018-04-23 12:20:32
    还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。 大数据正是因为数据的爆发式增长带来的一个新的...
  • 关于大数据最常见的10个问题 作为大数据工程师,你必须熟练运用的性能优化技术 Hadoop中namenode和datanode是否可以共存问题 Hadoop源码解读-Job初始化过程 Hadoop中mapred包和...
  • 关于大数据技术最常见的10个问题

    千次阅读 2019-04-19 16:42:43
    还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。  大数据正是因为数据的爆发式增长带来的一个...
  • R语言分析分析大数据一些问题

    千次阅读 2017-07-15 20:46:32
    大数据分析包首先讲一下,处理大数据的data.table包特别好用,读入读出函数、连接函数、提取查询函数等。 或许你的电脑是4G内存,i5,我的电脑就是,32位,应该属于最低配置了,且C盘内存所剩无几,处理600万左右...
  • 关于大数据应用方向9点思考

    千次阅读 2020-03-06 21:59:32
    国内大数据的宣传早已过热,很多区县级政府也在考虑成立大数据局,政府对大数据热几乎没有抵抗力,企业没有紧跟就对了,在大数据高潮中反省政府的大数据行为、冷静一下头脑是有益的,毕竟大数据应用是一个经济问题,...
  • 《干货|50个大数据面试问题及答案第一篇:10个大数据面试入门级问题》 《干货|50个大数据面试问题及答案第二篇:10个大数据面试中级问题》 10个大数据Hadoop面试的专业问题 Hadoop是最受欢迎的大数据框架之一,...
  • 大数据一些基础概念

    千次阅读 2018-01-22 22:50:42
    一、大数据  1、什么是大数据?  大数据(Big data或Megadata):大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间达到截取、管理、处理、并整理成为人类所能...
  • 一个完整的大数据平台应该提供离线计算、即时查询、实时计算、实时查询这几个方面的功能.hadoop、spark、storm 无论哪一个,单独不可能完成上面的所有功能。 hadoop+spark+hive是一个很不错的选择.hadoop的HDFS...
  • 现如今,大数据是一个十分火热的技术,我们的生活也开始离不开大数据。而在大数据中,数据源是十分重要的,大数据和数据分析工作都是针对业务而来,从中我们不难看出数据源在大数据中的地位。那么大数据架构知识都有...
  • 上一篇文章我们总结了10个大数据面试入门级问题,大家是否有收获,如果还没有看的小伙伴,可以直接跳转《干货|50个大数据面试问题及答案第一篇:10个大数据面试入门级问题》开始学习吧! 本次我们慧都网分析的是10...
  • 还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。  他俩之间的关系你可以这样来理解,云计算技术...
  • 大数据是当今一个最热门的话题,我们每一个人都无法置身其外。 调研公司IDC 的定义可能比较容易被人们所接受。它对大数据的定义是:一种新一代的技术和架构,具备高效率的捕捉、发现和分析能力,能够经济地从类型...
  • 大数据时代:生活、工作与思维的大...一晃三年过去,笔者对于大数据也有了一些新的认识, 无论是所谓的大数据带来了思维方式上的变革,还是技术上的革命,或者商业模式或管理模式的改变,但从本质的角度讲,大数据
  • 随着科技的发展和社会的进步,大数据、人工智能等新兴技术开始进入了我们的生活。...一般来说,大数据的架构是比较复杂的,大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这...
  • 大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。 这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和...
  • 大数据时代才刚刚开始。随着越来越多的公司倾向于大数据运营,...在本文中,慧都网将介绍与大数据相关的前50大数据面试问题。 50个最受欢迎的大数据访谈和面试问题 为了使您的职业生涯更具优势,您应该为大数据面...
  • 5.大数据系统构建的几个核心问题?6.大数据技术的几个大变迁感受 大数据技术在当下时代,已经不算是什么新鲜东西了。但绝大部分同学往往又是没机会接触大数据相关底层技术的,包括我自己。 不过,俗话说没吃过猪肉还...
  • 关于大数据的10个预测

    千次阅读 2018-03-26 15:19:44
    人们可能会想,“大数据产业从哪里开始 ”以下有10个大数据预测可以回答这个有趣的问题。01机器学习将成为大数据应用的下一件大事当今最热门的技术趋势之一就是机器学习,它也将在未来的大数据中发挥重要作用。根据...
  • 关于大数据,这里有10个预测

    千次阅读 2019-05-04 12:29:50
    人们可能会想,“大数据产业从哪里开始 ”以下有10个大数据预测可以回答这个有趣的问题。  1. 机器学习将成为大数据应用的下一件大事  当今最热门的技术趋势之一就是机器学习,它也将在未来的大数据中发挥重要作用...
  • 大数据一些思考

    千次阅读 2014-09-13 00:49:41
    大数据一些思考
  • PHP关于大数据的批量结算总结

    千次阅读 2018-05-24 11:21:04
    可能根据业务和现实的情况需要,我们可能会用php 处理一些大数据结算!如收益结算,交易结算等。在处理之前我们要梳理清楚业务流程,保证业务流程的正确性和结算的准确性。我们可以根绝我们的实...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 255,737
精华内容 102,294
关键字:

关于大数据的一些问题