数据_数据包 - CSDN
数据 订阅
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0,1的形式表示。 展开全文
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0,1的形式表示。
信息
性    质
计算机术语
外文名
data
意    义
信息的表现形式和载体
释    义
事实或观察的结果
中文名
数据
数据定义
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2...`”、“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息。在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。 [1]  信息与数据既有联系,又有区别。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。而信息是数据的内涵,信息是加载于数据之上,对数据作具有含义的解释。数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体表达出信息。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,是逻辑性和观念性的;数据是信息的表现形式,信息是数据有意义的表示。数据是信息的表达、载体,信息是数据的内涵,是形与质的关系。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。 [2] 
收起全文
  • [入门数据分析的第一堂课] 这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍: Ø 什么是数据分析-知其然才...
  • 【入门基础+轻实战演示】【讲授方式轻松幽默、有趣不枯燥、案例与实操结合,与相关课程差异化】利用python进行数据处理、 分析,并结合大量具体的例子,对每个知识进行实战讲解,本课程通过大量练习和案例对...
  • “聚数据”平台整理了网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。 以下内容转自https://blog.csdn.net/qq_32447301/article/details/79487335 金融 美国劳工部统计...

    “聚数据”平台整理了网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。

    以下内容转自https://blog.csdn.net/qq_32447301/article/details/79487335

    金融

    交通

    商业

    推荐系统

    医疗健康

    图像数据

    综合图像

    场景图像

    Web标签图像

    人形轮廓图像

    视觉文字识别图像

    特定一类事物图像

    材质纹理图像

    物体分类图像

    人脸图像

    姿势动作图像

    指纹识别

    其它图像数据

    视频数据

    综合视频

    人类动作视频

    行人检测视频

    密集人群视频

    其它视频

     

    音频数据

    综合音频

    Google Audioset 音频数据【数据太大仅有介绍】

    语音识别

     

    自然语言处理

     

    社会数据

    展开全文
  • Python数据分析与挖掘

    2020-07-20 10:50:29
    从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过...
  • 数据结构、算法视频培训课程,该教程主要是介绍在游戏开发中经常使用的数据结构,例如数组,链表,栈,队列,二叉树,递归等重要知识点讲解以及将它们里灵活的运用到算法里面。
  • 数据科学项目为你在这个领域的深入研究提供了一个基础。通过实际应用,你不仅可以学习数据科学,也能够写在简历中提升你的资历。在这上边花费的时间越多,你学到的知识就越多。初级—...
        

    数据科学项目为你在这个领域的深入研究提供了一个基础。通过实际应用,你不仅可以学习数据科学,也能够写在简历中提升你的资历。在这上边花费的时间越多,你学到的知识就越多。

    640?wx_fmt=jpeg

    初级——这部分的数据集很容易处理,使用基础的回归/分类算法就可以处理这些数据集。并且,这些数据集有足够的教程供你学习。

    中级——略微有点难度。包含了需要使用有点难度的模式识别技能来处理的大中型数据集。另外,特征工程在这里可以发挥作用了。

    高级——包括神经网络、深度学习、推荐系统及高维数据等。


    初级


    1.Iris Data数据集(花的类别识别)

    640?wx_fmt=png


    Iris Data Set可能是模式识别领域学习分类技术最基本入门级的数据集,适合初学者。该数据集里面包含了150行4列个数据。

    问题: 根据已有特征预测花的类别。

    资源:

    数据集:https://archive.ics.uci.edu/ml/datasets/Iris?spm=a2c4e.11153940.blogcont603256.5.333b1d6f05ZggC

    教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r?spm=a2c4e.11153940.blogcont603256.6.333b1d6f05ZggC

    2.Loan Prediction 数据集(贷款预测)

    640?wx_fmt=jpeg


    它是保险领域最常引用的一个数据集。利用这个数据集,你可以充分体验到如何处理保险公司的数据,包括会遇到哪些挑战、需要什么策略、哪些变量会影响结果等。这是一个分类问题,数据集包含615行13列个数据。

    问题: 预测一个贷款是否能够被批准。

    资源:

    数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/?spm=a2c4e.11153940.blogcont603256.7.333b1d6fYOsiOK

    教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/?spm=a2c4e.11153940.blogcont603256.8.333b1d6fYOsiOK

    3. Bigmart Sales 数据集(零售业销售)

    640?wx_fmt=png

    零售业是另一个充分利用数据分析优化商业流程的行业。我们可以利用数据科学对商品的放置、库存管理、定制供应、商品捆绑等任务进行巧妙的处理。该数据集包含了商店的交易数据,是一个回归问题,共包含8523行12列个数据。

    问题:预测销量。

    资源:

    数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/?spm=a2c4e.11153940.blogcont603256.9.333b1d6fYOsiOK

    教程: https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/?spm=a2c4e.11153940.blogcont603256.10.333b1d6fYOsiOK

    4. Boston Housing 数据集(波士顿房屋)

    640?wx_fmt=png

    这是另一个模式识别领域较为常见的数据集,来自于波士顿的房地产业,是一个回归问题,数据集有506行14列个数据。这个数据集并不大,你可以尝试使用任何技术,而不用担心笔记本的内存不够。

    问题:预测业主拥有房屋数量的中间值。

    资源:

    数据集:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html?spm=a2c4e.11153940.blogcont603256.11.333b1d6fYOsiOK

    教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/?spm=a2c4e.11153940.blogcont603256.12.333b1d6fYOsiOK

    5. Time Series Analysis数据集(时间序列分析)

    640?wx_fmt=png

    时间序列是数据科学中最常用的技术之一,具有广泛的应用:预测天气预报、预测销售额、分析逐年趋势等。该数据集特定于时间序列,这里面临的挑战是预测交通方式。

    问题:预测新的交通工具的交通。

    资源:

    数据集: https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/?spm=a2c4e.11153940.blogcont603256.13.333b1d6fYOsiOK

    教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about?spm=a2c4e.11153940.blogcont603256.14.333b1d6fYOsiOK

    6. Wine Quality数据集(酒质量)

    640?wx_fmt=png


    这是初学者最常用的数据集之一,分成了2个数据集。在这个数据集上可以同时执行回归和分类任务——异常值检测、特征选择和不平衡数据。该数据集有4898行和12列个数据。

    问题:预测酒的质量。

    资源:

    数据集: https://archive.ics.uci.edu/ml/datasets/Wine+Quality?spm=a2c4e.11153940.blogcont603256.15.333b1d6fYOsiOK

    教程:https://archive.ics.uci.edu/ml/datasets/Wine+Quality?spm=a2c4e.11153940.blogcont603256.15.333b1d6fYOsiOK

    7. Turkiye Student Evaluation 数据集(学生课程评估)

    640?wx_fmt=png


    该数据集基于学生填写不同课程的评估表,拥有不同的属性,包括出勤率、难度、分数等,是一个无监督学习问题。该数据集有5820行33列个数据。

    问题:使用分类和聚类解决问题。

    资源:

    数据集 : https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps:/archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation?spm=a2c4e.11153940.blogcont603256.17.333b1d6fYOsiOK

    教程: https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf?spm=a2c4e.11153940.blogcont603256.18.333b1d6fYOsiOK&file=LA_EdMining_SanghoSuh.pdf

    8.Heights and Weights 数据集(身高体重预测)

    640?wx_fmt=png


    这是一个相当直接的回归问题,非常适合新手。该数据集有25,000行3列(索引、高度和权重)个数据。

    问题:预测一个人的身高或体重。

    资源:

    数据集:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights?spm=a2c4e.11153940.blogcont603256.19.333b1d6fYOsiOK

    教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html?spm=a2c4e.11153940.blogcont603256.20.333b1d6fYOsiOK


    中级


    1. Black Friday数据集(黑色星期五)

    640?wx_fmt=png


    这是一个包含零售商店记录的销售交易的经典数据集,可以扩展特征工程的技能,并从每天的购物经验中对其进行理解,是一个回归问题。该数据集有550,069行12列个数据。

    问题:预测购买力。

    教程:

    数据集:https://datahack.analyticsvidhya.com/contest/black-friday/?spm=a2c4e.11153940.blogcont603256.21.333b1d6fYOsiOK

    教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986?spm=a2c4e.11153940.blogcont603256.22.333b1d6fYOsiOK

    2. Human Activity Recognition 数据集(人类活动识别)

    640?wx_fmt=png


    该数据集通过带有嵌入式惯性传感器的智能手收集了30个实验者的记录,可用于分类问题。数据集有10,299行561列个数据。

    问题:预测人类活动的类别。

    资源:

    数据集:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones?spm=a2c4e.11153940.blogcont603256.23.333b1d6fYOsiOK

    教程: https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html?spm=a2c4e.11153940.blogcont603256.24.333b1d6fYOsiOK

    3. Text Mining数据集(文本挖掘)

    640?wx_fmt=png


    该数据集最初来自于2007年Siam文本挖掘竞赛,包括描述某些发生故障的航班的航空安全报告,是一个多分类和高维度问题。该数据集有21,519行30,438列个数据。

    问题:根据文本标签对文本进行分类。

    资源:

    数据集:https://yq.aliyun.com/articles/603256?spm=a2c4e.11153959.0.0.112a2dc6bqmpJ9#siam-competition2007

    教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf?spm=a2c4e.11153940.blogcont603256.26.333b1d6fYOsiOK&file=Survey%20of%20Text%20Mining%202%20.pdf

    4. Trip History数据集(旅行历史)

    640?wx_fmt=png


    此数据集来自美国的共享自行车服务。该数据集需要使用专业的数据处理技术,该数据集种的数据是从2010年第四季度开始按季度记录的。每个文件有7列是一个分类问题。

    问题:预测用户的类别。

    资源:

    数据集:https://www.capitalbikeshare.com/trip-history-data?spm=a2c4e.11153940.blogcont603256.27.333b1d6fYOsiOK

    教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/?spm=a2c4e.11153940.blogcont603256.28.333b1d6fYOsiOK

    5. Million Song数据集(预测歌曲发行时间)

    640?wx_fmt=png


    你知道数据科学现在也用于娱乐行业吗?这个数据集提出了一个回归任务,由515,345个观察值和90个变量组成。但是,这仅仅是原始数据库(约一百万首歌曲)中的一小部分。

    问题:预测歌曲的发行时间。

    资源:

    数据集 :http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD?spm=a2c4e.11153940.blogcont603256.29.333b1d6fYOsiOK

    教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf?spm=a2c4e.11153940.blogcont603256.30.333b1d6fYOsiOK&file=projectreport.pdf

    6.Census Income数据集(预测人口收入)

    640?wx_fmt=png


    这是一个经典的不平衡分类机器学习问题。现在,机器学习广泛应用于正被广泛用于解决不平衡问题,如癌症检测、欺诈检测等。该数据集有48,842行14列个数据。

    问题:预测美国人的收入水平。

    资源:数据集:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/?spm=a2c4e.11153940.blogcont603256.31.333b1d6fYOsiOK

    教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf?spm=a2c4e.11153940.blogcont603256.32.333b1d6fYOsiOK&file=048.pdf

    7. Movie Lens数据集(电影推荐系统)

    640?wx_fmt=png


    用于构建推荐系统,该数据集是数据科学行业中最受欢迎的“数据集”之一,有不同大小的数据集。这里有一个较小的数据集,包含4,000部电影,6000个用户的100万个收视率。

    问题:为用户推荐电影。

    资源:

    数据集:http://grouplens.org/datasets/movielens/1m/?spm=a2c4e.11153940.blogcont603256.33.333b1d6fYOsiOK

    教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/?spm=a2c4e.11153940.blogcont603256.34.333b1d6fYOsiOK

    8. Twitter Classification数据集(预测推文)

    640?wx_fmt=png

    Twitter数据已成为情感分析不可分割的一部分。该数据集大小为3MB,包含31,962条推文。

    问题:预测哪些推文是令人讨厌的,哪些不是。

    资源:

    数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/?spm=a2c4e.11153940.blogcont603256.35.333b1d6fYOsiOK

    教程:https://github.com/abdulfatir/twitter-sentiment-analysis?spm=a2c4e.11153940.blogcont603256.36.333b1d6fYOsiOK


    高级


    1.识别数字的数据集

    640?wx_fmt=png


    用于研究、分析和识别图像中的元素,这就是使用相机识别面部的技术,属于数字识别问题。该数据集有28,000个28*28大小的图像,总计31MB。

    问题:从图像中识别数字。

    资源:

    数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/?spm=a2c4e.11153940.blogcont603256.37.333b1d6fYOsiOK

    教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?spm=a2c4e.11153940.blogcont603256.38.333b1d6fYOsiOK

    2.城市声音分类

    640?wx_fmt=png


    该项目旨在介绍常用的音频分类问题。该数据集由10个类别(包含来自8,732个城市声音的记录)组成。

    问题:对音频进行分类。

    资源:

    数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/?spm=a2c4e.11153940.blogcont603256.39.333b1d6fYOsiOK

    教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/?spm=a2c4e.11153940.blogcont603256.40.333b1d6fYOsiOK

    3. Vox名人数据集

    640?wx_fmt=png

    音频处理正迅速成为深度学习的重要领域,因此这是另一个具有挑战性的问题。此数据集收集了大型演讲者的演讲,并从YouTube中提取的名人的讲话。对于语音识别来说,这是一个很有趣的项目。该数据集包含1,251位名人发表的100,000条言论。

    问题:找出声音属于哪个名人。

    资源:

    数据集:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/?spm=a2c4e.11153940.blogcont603256.41.333b1d6fYOsiOK

    教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf?spm=a2c4e.11153940.blogcont603256.42.333b1d6fYOsiOK&file=nagrani17.pdf

    4. ImageNet数据集

    640?wx_fmt=png


    ImageNet提供了各种各样的问题,包括对象检测、定位、分类和屏幕分析。 所有的图像都是免费的,你可以搜索任何类型的图像来构建项目。截至目前,该数据集拥有超过1500万张图片,大小超过140GB。

    问题:要解决的问题会受下载图像的类型影响。

    资源:

    数据集:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.43.333b1d6fYOsiOK

    教程:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.44.333b1d6fYOsiOK

    5.芝加哥犯罪数据集

    640?wx_fmt=jpeg


    现在,每个数据科学家都希望能够处理大型数据集,是一个多分类问题。该数据集在本地提供了处理大型数据集所需的实践经验。问题很简单,但数据管理是关键!这个数据集有6,000,000个观测值。

    问题:预测犯罪类型。

    资源:

    数据集:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2?spm=a2c4e.11153940.blogcont603256.45.333b1d6fYOsiOK

    教程:https://yq.aliyun.com/nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdfaceholder?spm=a2c4e.11153940.blogcont603256.46.333b1d6fYOsiOK&file=ChicagoCrimesReport.pdfaceholder

    6.印度演员年龄检测

    640?wx_fmt=jpeg

    对于任何深度学习爱好者来说,这是一个令人着迷的挑战。该数据集包含数千个印度演员的图像,用来预测其年龄。所有图像都是人工手动从视频帧中选取的,这就导致了尺度、姿势、表情、照明、年龄、分辨率、遮挡和化妆等的高度可变性。训练集中有19,906幅图像,测试集中有6,636幅图像。

    问题:预测演员的年龄。

    资源:

    数据集:http://image-net.org/download-imageurls?spm=a2c4e.11153940.blogcont603256.47.333b1d6fYOsiOK

    教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/?spm=a2c4e.11153940.blogcont603256.48.333b1d6fYOsiOK

    7.推荐引擎数据集

    640?wx_fmt=png

    这是一项高级推荐系统挑战赛。在这个项目中,你会得到以前解决的程序和数据,以及解决特定问题的时间。作为一名数据科学家,你构建的模型将协助在线评委决定向用户推荐的下一级问题。

    问题:根据用户的当前状态,预测解决问题所需要的时间。

    资源:

    数据库:https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/?spm=a2c4e.11153940.blogcont603256.49.333b1d6fYOsiOK

    8. VisualQA数据集

    640?wx_fmt=jpeg


    VisualQA是一个包含图像的开放式问题数据集。这些问题需要理解计算机视觉和语言,这些问题有一个自动评估指标。数据集包含265,016张图片,每张图片3个问题,且每个问题有10个标记好的答案。

    问题:使用深度学习回答有关图像的开放式问题。

    资源:

    数据集:http://www.visualqa.org/?spm=a2c4e.11153940.blogcont603256.50.333b1d6fYOsiOK

    教程:https://arxiv.org/abs/1708.02711?spm=a2c4e.11153940.blogcont603256.51.333b1d6fYOsiOK&file=1708.02711


    总结

    在上面列出的24个数据集中,你应该首先找到与自身技能相匹配的数据集进行实践和练习。比如说,假如你是一位初学者,请先从初级数据集开始实践,而不是直接从高级数据集开始练习。

    本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

    文章原标题《24 Ultimate Data Science Projects To Boost Your Knowledge and Skills (& can be accessed freely)》,译者:Mags,审校:袁虎。

    原文链接:https://yq.aliyun.com/articles/603256

    版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

    关联阅读

    原创系列文章:

    1:从0开始搭建自己的数据运营指标体系(概括篇)

    2 :从0开始搭建自己的数据运营指标体系(定位篇)

    3 :从0开始搭建自己的数据运营体系(业务理解篇)

    4 :数据指标的构建流程与逻辑

    5 :系列 :从数据指标到数据运营指标体系

    6:   实战 :为自己的公号搭建一个数据运营指标体系

    7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

    数据运营 关联文章阅读:  

    运营入门,从0到1搭建数据分析知识体系    

    推荐 :数据分析师与运营协作的9个好习惯

    干货 :手把手教你搭建数据化用户运营体系

    推荐 :最用心的运营数据指标解读

    干货 : 如何构建数据运营指标体系

    从零开始,构建数据化运营体系

    干货 :解读产品、运营和数据三个基友关系

    干货 :从0到1搭建数据运营体系

    数据分析、数据产品 关联文章阅读:

    干货 :数据分析团队的搭建和思考

    关于用户画像那些事,看这一文章就够了

    数据分析师必需具备的10种分析思维。

    如何构建大数据层级体系,看这一文章就够了

    干货 : 聚焦于用户行为分析的数据产品

    如何构建大数据层级体系,看这一文章就够了

    80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

    从底层到应用,那些数据人的必备技能

    读懂用户运营体系:用户分层和分群

    做运营必须掌握的数据分析思维,你还敢说不会做数据分析

    商务合作|约稿 请加qq:365242293  


    更多相关知识请回复:“ 月光宝盒 ”;

    数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

    640?wx_fmt=png

    展开全文
  • 最近可能大家听到“数据中台”这个词越来越频繁了,有时候我跟一些朋友聊起来,也是都在说这个,但是一直不知道这到底是个什么。最近就看到这篇文章,觉得说的还挺好的,分享给大家看...
        

    最近可能大家听到“数据中台”这个词越来越频繁了,有时候我跟一些朋友聊起来,也是都在说这个,但是一直不知道这到底是个什么。最近就看到这篇文章,觉得说的还挺好的,分享给大家看看,希望大家看完能对数据中台有一些认识。


    转载来源

    公众号:AI 前线

    声明:本文由微信公众号 「AI 前线」原创(ID:ai-front),未经授权不得转载

    阅读本文大概需要 12 分钟。


    导读:数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。数据中台是只有大厂才需要考虑的高大上的概念吗?普通企业该不该做数据中台?数据中台的出现会给现有数据从业者们带来颠覆式的挑战吗?带着上述问题,InfoQ 在技术雷达峰会上采访了 ThoughtWorks 数据和智能总监史凯,谈谈他对于数据中台的看法。
    数据中台不是大数据平台!

    首先它不是一个平台,也不是一个系统,如果有厂商说他们有个数据中台卖给你,对不起,它是个骗子。

    要回答数据中台是什么,首先要探讨一下中台到底是什么。虽然没有明确的定义,但是作为理工直男,我们可以先把中台看作是一种中间层。既然是一种中间层,那么中台确实是一种十足技术用语,我们可以完全从技术角度来探讨了。

    我们可以应用 Gartner 的 Pace Layer 来理解为什么要有中间层,这样可以更好地理解中台的定位和价值。Pace Layer 里提到,可以按照事物变化的速度来分层,这样可以逐层分析并设计合理的边界与服务。

    640?wx_fmt=png

    在数据开发中,核心数据模型的变化是相对缓慢的,同时,对数据进行维护的工作量也非常大;但业务创新的速度、对数据提出的需求的变化,是非常快速的。

    数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。

    数据中台解决的问题可以总结为如下三点:

    1. 效率问题:为什么应用开发增加一个报表,就要十几天时间?为什么不能实时获得用户推荐清单?当业务人员对数据产生一点疑问的时候,需要花费很长的时间,结果发现是数据源的数据变了,最终影响上线时间。

    2. 协作问题:当业务应用开发的时候,虽然和别的项目需求大致差不多,但因为是别的项目组维护的,所以数据还是要自己再开发一遍。

    3. 能力问题:数据的处理和维护是一个相对独立的技术,需要相当专业的人来完成,但是很多时候,我们有一大把的应用开发人员,而数据开发人员很少。

    这三类问题都会导致应用开发团队变慢。这就是中台的关键——让前台开发团队的开发速度不受后台数据开发的影响。

    史凯总结说,“数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念”。

    如下图所示:

    640?wx_fmt=png

    DData API 是数据中台的核心,它是连接前台和后台的桥梁,通过 API 的方式提供数据服务,而不是直接把数据库给前台、让前台开发自行使用数据。至于产生 DataAPI 的过程,怎么样让 DataAPI 产生得更快,怎么样让 DATA API 更加清晰,怎么样让 DATA API 的数据质量更好,这些是要围绕数据中台去构建的能力。

    数据中台和数据仓库、数据平台的关键区别

    这是现在数据行业大家经常讨论的问题,到底数据仓库、数据平台和数据中台的区别是什么。

    640?wx_fmt=png

    概括地说,三者的关键区别有以下几方面:

    1. 数据中台是企业级的逻辑概念,体现企业 D2V(Data to Value)的能力,为业务提供服务的主要方式是数据 API;

    2. 数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表;

    3. 数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;

    4. 数据中台距离业务更近,为业务提供速度更快的服务;

    5. 数据仓库是为了支持管理决策分析,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景;

    6. 数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。

    数据仓库具有历史性,其中存储的数据大多是结构化数据,这些数据并非企业全量数据,而是根据需求针对性抽取的,因此数据仓库对于业务的价值是各种各样的报表,但这些报表又无法实时产生。数据仓库报表虽然能够提供部分业务价值,但不能直接影响业务。

    数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。

    而数据中台是在数据仓库和数据平台的基础上,将数据生产为为一个个数据 API 服务,以更高效的方式提供给业务。

    数据中台应该具备什么能力?

    大数据和人工智能大火之后这几年,很多人一直在提一个说法,那就是“数据是新的石油”。但史凯的观点却有些不同,在他看来,数据不等于数据资产,如果没有从业务的角度对数据进行规划,再多的数据也无法产生价值。

    史凯认为数据中台最核心的一个关键组件是数据资产目录。“我们认为,一个企业的数据要能够充分发挥价值,很重要的一个前提条件就是这个企业的数据结构和数据资产目录是对整个企业开放的。所有人都能够通过这个资产目录了解公司有哪些类别的数据、包含什么属性、源数据由谁管理,这样就可以快速搞清楚这些数据是不是自己需要的。但数据本身可以不开放,因为数据是有隐私信息和安全级别的。”

    大企业内部业务众多,不同业务可能存在很多重复数据。所谓的数据资产目录就是把数据的模型去重、归一、梳理,变成一个树状结构,这个树状结构不直接对应数据库中的字段。以航空货运为例,其数据资产可能包括货机、客运机的辅舱,一架货机就是一个数据资产目录的节点,而货机的各种属性(如货机型号、空间大小、年份等)就是这个节点下面的数据模型。数据资产目录做的事情就是从业务层面出发制定数据标准,将企业业务相关的数据资产模型抽取出来,这跟后面用什么数据库去存储、用什么结构去存储、存成结构化还是非结构化都没有关系。它相当于把企业的业务从数据层面做了一个梳理,用数据的语言把企业的业务模型还原出来。数据资产目录做好之后,后面才是用什么技术手段、从哪里提取数据来映射到这个数据资产目录。

    除了开放,数据资产目录还应该具有标签描述、可检索,这样才能最大程度地方便真正使用数据的人,以最快的速度找到他们需要的东西。

    在 ThoughtWorks 提出的精益数据创新体系中将企业所需要具备的数据能力概括为以下六种,具备了这六种能力,企业才具备成为数据驱动的智能企业的基础,而这些能力的承载平台,就是数据中台:

    640?wx_fmt=png

    1. 数据资产的规划和治理

    做中台之前,首先需要知道业务价值是什么,从业务角度去思考企业的数据资产是什么。数据资产不等同于数据,数据资产是唯一的,能为业务产生价值的数据。 对于同一堆数据,不同业务部门所关注的数据指标可能完全不同,怎么让各个跨域的业务变成统一的标准,就需要规划企业的数据全景图,将所有有可能用上的、所有对企业有可能有价值的数据都规划出来,最终梳理出企业的数据资产目录。在这个时候不需要考虑有没有系统、有没有数据,只需要关注哪些数据是对企业业务有价值的。这一层不建议做得太细,太细就难以形成标准,不能适用于多个场景了。数据治理是数据中台很重要的一个领域,ThoughtWorks 认为在现在业务边界消失、需求快速变化的情况下,企业需要具备精益数据治理的能力——Lean Data Governance。传统的中心化、事前控制式的数据治理方式,要改变为去中心化、事后服务式的治理方式。

    640?wx_fmt=png

    1. 数据资产的获取和存储

    数据中台要为企业提供强大的数据资产的获取和存储的能力。

     3. 数据的共享和协作

    企业的数据中台一定是跨域的,需要让所有的人都知道数据资产目录在哪里。不能因为数据安全,就不让大家知道企业有什么数据。没有共享和开放,数据没有办法流动起来,没有流动的话数据的价值产生的速度就会非常慢。所以在数据安全的基础上,企业的数据资产目录要对利益相关者、价值创造者开放,要让业务人员能够做到“Self-Service”。

      4. 业务价值的探索和分析

    数据中台不仅要建立到源数据的通路,还需要提供分析数据的工具和能力,帮助业务人员去探索和发现数据的业务价值。一个好的数据中台解决方案中需要针对不同业务岗位的用户提供个性化的数据探索和分析的工具,并且在此基础上一键生成数据 API,以多样化的方式提供给前台系统。

    1. 数据服务的构建和治理

    数据中台需要保证数据服务的性能和稳定性,以及数据质量和准确性,还需要具备强大的服务治理能力。数据中台是一个生态平台,在数据中台上面会不断生长各种数据服务,所以从一开始就构建好数据服务的治理结构是非常重要的,数据服务需要可以被记录、可被跟踪、可被审计、可被监控。

       6. 数据服务的度量和运营

    如果数据中台最终只是做到把数据给到业务人员,那它就只是一个搬运工的角色。数据中台还需要具备度量和运营数据服务的能力,能够对中台上提供的数据服务及相关行为持续跟踪和记录,包括哪些数据服务被哪个部门用了多少次等,通过这些去度量每一个数据服务的业务价值。

    史凯认为,数据中台是一个需要用互联网思维去经营的利润中心平台,数据中台的经营分析人员需要分析业务,了解为什么今天上午这个财务部门的人用了数据中台、调用了十次,下午他不用了,原因是什么,调用了这些数据服务的人通常还会调用哪些其他的数据服务。这些都需要相应地做记录、做日志、做分析,要把数据当做像电商平台一样去经营,然后实时地根据这些业务行为数据去提醒数据服务提供方,调整、改变、优化数据服务,这才是可经营的数据中台,也只有这样业务部门才能得到最快的支持和响应。

    为什么人人都需要数据中台?

    数据中台并非只有大公司才需要的高大上的玩意。

    ThoughtWorks 从 2017 年到现在,已经帮助多家大型国内外企业建设数据中台,其中有体量巨大的企业级数据中台,也有部门级的小数据中台。

    “未来所有的企业核心都会变成加工数据的企业,而数据中台是数据价值化的加工厂,所以所有的企业都需要数据中台的能力,数据中台一定是未来每个企业的标准配置。”

    在史凯看来,数据中台并不意味着“大而全”的数据平台。根据企业的规模和业务的不同,数据中台可大可小,规模、复杂度可能都不相同,但它对业务产生的价值是一样的。

    当企业评估自己是否应该建设数据中台时,应该从哪些方面来考虑?史凯认为,从战略角度来说,每个企业都需要建立自己的数据中台;从战术角度来说,当企业发现自己的数据开发利用的速度和应用开发的速度不匹配的时候,就需要考虑构建数据中台。

    原来很多企业在做应用系统的时候,什么都不考虑直接上单体架构,一上来就先做数据库,然后在上面建应用。ThoughtWorks 建议现在的企业,即使不做数据中台、不去立一个叫做“数据中台”的项目,但是在做应用的时候,最好把这个应用分成三层,业务层、数据中台层、源数据层,在一开始做应用的时候就把三个层次抽象出来。

    数据质量差所以做不了数据中台?No!

    历史遗留的数据质量问题经常让大家对数据的利用和价值产生质疑。2018 年,史凯在与不同企业沟通过程中经常听到的一句话就是,“我们现在还没有到利用数据这一步,因为(应用系统中的)数据质量太差”。

    每次听到这句话,史凯脑子里就好像听到了另外一句话,“还没到培养孩子的时候啊,孩子太小了”。

    不能因为数据质量差,就不去利用数据。恰恰是因为没有去做后面的事情,所以数据质量才差。而且也不能因为数据质量差就抛开业务场景、试图全面解决数据质量的问题,这样得不到业务部门的支持,也无法从数据工作中产生业务价值。所以 ThoughtWorks 建议的恰恰是利用做应用、做业务的需求,同步解决数据质量问题。

    史凯认为,数据质量问题,根本上是在构建应用之初缺乏整体数据规划和数据思维导致的问题。原来的流程类应用构建之初,只考虑了如何让流程跑起来,缺乏对这个应用在整个企业的数据全景图(Data Landscape)中的定位的分析,没有从源头上优化数据的存储、流转,从而更好地与其他的系统中的数据去对齐口径、统一语言,将流程问题抽象成领域模型问题,再将领域模型抽象成数据模型。

    建设数据中台的挑战及应对策略

    建设数据中台最大的挑战在于前期能否从业务层面梳理清楚有业务价值的场景,以及数据全景图,而不仅在于后期的技术建设。

    数据中台建设面临的挑战包括:

    • 梳理业务场景:搞清楚数据中台如何对业务产生价值。

    • 建设数据中台的优先级策略:需求可能大而全,但我们不能直接建大而全的数据中台,应该根据业务重要性来排需求的优先级。

    • 数据治理问题:和业务独立开的数据治理少有成功的,大的数据标准要有(数据资产目录),通过数据资产目录将共有的纬度、共性的业务模型提炼出来,在此基础之上数据治理需要跟业务场景紧密结合。

      数据中台的建设需要两个战略耐心

    数据中台是为了加快从数据到业务价值的产生速度,但是它的生产过程依然是需要时间、有很多复杂的工作要做的,所以对于数据中台的投资方和数据中台的建设方来讲,都需要对应的战略耐心。

    640?wx_fmt=png

    • 对于投资方来讲,要充分认识到数据中台类项目的价值和局限性。在现在的组织结构和技术成熟度下,数据中台依旧是一个技术平台,对于业务价值的产生是一个加速的过程。但是业务对于数据的需求不会因为有了数据中台就减少,数据中台也不是哆啦 A 梦,不能随心所欲地变出各种业务想要的服务。这依然是一个需要统筹规划、敏捷迭代、演进建设的系统性工程,所以需要要管理好期望,有一定的战略耐心。

    • 对于建设方来讲,要充分认识到数据中台建设的复杂度,不要操之过急,不要期待毕其功于一役。史凯的建议是要从小中台做起,围绕具体有价值的业务场景去建设,尽量不脱离场景去搞周期长、大而全的纯工具平台建设。

      数据中台也可以小而美

      建设数据中台的关键考量包括两方面。

    首先数据中台一定要与业务价值对齐。构建数据中台,最重要的不是技术,也不是数据质量好不好,而是数据思维和数据文化。数据思维就是要建立起从数据的视角去思考问题的方式;数据文化就是要把数据和业务当成一体去看,而不是只将数据当作一个支持工具。想清楚业务对于数据的诉求是构建数据中台的第一步,哪怕暂时不能想的太细,也要去想,想不清楚就先不要做。

    不要在业务场景还没有明确、优先级还不清晰、价值度量体系尚未建立起来的时候,就建立大而全的数据平台,并且把所有的数据都存起来。企业都是追求投入产出比的,大而全的数据平台往往会面临尴尬的局面,一堆功能看上去很有用,应该都能用上,但是缺乏应用场景,真的有了场景,发现也不能开箱即用,还需要众多的定制化。

    其次,数据中台应该从小数据、小场景做起。

    数据中台是面向场景而非面向技术的,这种与客户的业务、企业的结构和信息化发展阶段有着紧密的相关性的业务基础架构,是很难买一个大而全的产品来一劳永逸解决的。

    可以通过下面这个图来解释构建中台的原则:

    640?wx_fmt=png

    一开始的时候需要顶层设计,面向业务愿景制定中台的整体规划,全面的梳理数据创新全景蓝图,这就是上图左边的黑色框架部分,通过业务愿景驱动出所有的业务场景探索,从而推导出数据中台的全景架构、技术支撑。

    但是在实施的时候,要从具体的业务场景出发。从高价值数据集场景做起,然后顺着这个场景竖切,找到数据全景图中的一个或多个数据集合,从小数据场景落地,这样才能快速验证价值。大处思考,全局拉通,避免后续的数据孤岛,但是从小数据集切入,从可实现性高的场景启动。然后一个个的场景做起来,业务价值和中台能力也就同步建立起来了。

    总的来讲就是,“设计阶段横着走,落地阶段竖着切。”

    数据中台团队和技术选型

    数据中台团队通常需要包含以下角色:

    • 业务专家团队:了解业务、梳理业务场景,确定数据资产与业务场景的一一对应关系,确定业务场景的优先级,为数据中台的建设提供依据。

    • 数据工程团队:建设和维护数据中台,包括 ETL、数据采集,以及数据中台性能和稳定性保证,利用中台的工具采集、存储、加工、处理数据。

    • 数据分析团队:分析数据价值、探索场景,生产更多的数据服务。

    • 数据治理团队:梳理数据标准、构件数据安全和隐私规范,利用开源去中心化的数据治理工具(比如 atlas、wherehows)来围绕业务场景解决数据质量和安全问题。

    • 智能算法团队:为数据分析、业务探索提供智能和算法工具。

    而这样的一个团队的工作就构成了一个数据生产线,一个从数据到业务服务的数据服务工厂,这个工厂有生产车间(Data Pipeline)、研发中心(数据实验室)、管理办公室(数据治理),还有产品展示中心(数据服务商店)。

    640?wx_fmt=png

    数据工厂是一个逻辑概念,不是一个大而全的产品,ThoughtWorks 结合过去几年的实践给出了一个数据工厂组件选型的参考架构,这些推荐的架构和组件,很多都体现在过去 ThoughtWorks 推出的技术雷达中并进行了详细解释,如下:

    640?wx_fmt=png

    数据中台的出现对于现有数据团队的挑战

    前面已经提到,数据中台是企业的 Data API 工厂,用更高效、更协同的方式加快从数据到业务的价值,能够给业务提供更高的响应力。所以数据中台距离业务更近,这对于传统企业的数据业务来讲,是一个重大的变化,同时给原来的数据团队也会带来巨大的挑战。

     1. 对数据分析人员的业务要求提高了

    企业传统的数据工作和业务工作分工明确、界限清晰,业务人员负责业务需求,提出业务问题,并将业务问题拆解成一个个清晰的数据问题,然后数据工程师和数据分析师在这个清晰的问题下解题。

    但是,在数据中台出现后,数据中台是一个赋能平台,它会沉淀、提供很多数据分析工具和数据服务,能够让不具备专业数据能力的业务人员也可以进行一些简单的数据分析,产生业务的洞察。这就意味着在数据中台的支持下,相对简单清晰的业务问题会更多的由业务人员自己解决掉,那么传递到专业数据人员的问题,都会是更加复杂的问题。这对于数据人员的业务理解能力就加强了,他 / 她们必须具备快速理解业务的能力,才能够体现出专业性和优势。

     2. 对于数据人员的工程能力要求提高了

    原来的数据分析工作属于个体工作方式,每一个数据科学家、数据分析师就是一个独立的工作单元,业务部门给出业务问题,他们通过自己擅长熟悉的工具和方法给出结果。但是在数据中台出现后,他们一方面获得了更多数据分析的武器和工具,能够站在前人的基础上工作,提高了效率和准确度,另外一方面,他们也需要掌握更多的平台化的数据分析工具,比如 Jupyter Notebook,同时也被要求能够把自己分析的结果转化成数据服务,沉淀到中台。

     3. 数据团队需要具备更多的业务视角

    原来的数据分析团队是一个功能型团队,更多以数据智囊团的身份存在。大部分情况下,距离业务比较远,更不要提对业务的结果负责。而在数据中台出现后,数据中台距离业务会越来越近,甚至直接影响和参与业务的运行,数据团队将慢慢脱离数据智囊团的身份,逐渐从后台走向前台,直接负责一个个数据服务,而这些数据服务是会直接参与到业务当中、产生业务价值的。这样的定位变化,要求数据团队具备更多的业务视角,要更关注业务价值,直接对齐企业的业务目标去工作。

    所以,数据中台的出现,不仅是一个技术平台,它对于企业而言是一个系统化的工作,企业数据相关的流程、职责、分工都要有对应的调整,才能达成整体的目标。

    数据中台 VS 数据隐私

    对于数据中台来说,数据隐私和安全性也是非常重要的问题。可能很多人还记得前些日子马化腾针对“腾讯数据中台论”的回应。去年腾讯组织架构调整进程中实现了技术打通,而对数据打通保持谨慎态度。马化腾在 18 年 11 月的世界互联网大会上回应“数据中台论”:“腾讯不能套用很多其他公司的做法,把数据直接去任意打通。因为在我们的平台里面,大量全部都是人和人之间的通信、社交行为数据,如果说数据可以任意打通,给公司业务部门或者给外部的客户用,那是会带来灾难性的后果。这方面我们要更加谨慎,我们要从用户的角度来考虑,把个人信息和数据保护放在优先地位。”很多人将这解读为腾讯不做数据中台,史凯却不这么认为。

    在他看来,腾讯的回应并不是说他们不做数据中台,而是强调要在数据隐私上做更多的工作。其实所有的数据安全和隐私的保护都需要从场景出发。史凯认为,“不能从纯数据层面来看数据隐私,数据隐私是不能脱离场景的”。如果纯粹从数据层面,而不从业务场景层面去管理数据隐私,就会带来两方面的问题,要么数据被管理的非常死,阻碍了业务价值的产生;要么数据隐私管理就会有漏洞。

    史凯举了一个例子,比如我们讲的用户交易数据,如果不关联用户基本信息,交易数据本身对于用户来说是不具备隐私风险的,因为它不关联到任何一个用户个体。所以,是可以对脱敏后的用户交易数据进行分析和利用的。

    另一方面,如果脱离场景谈数据隐私,也可能会导致忽略了潜在的安全问题。有时候如果不把场景关联起来,可能两个数据看上去没有安全问题,但其实外人把这两个数据关联起来就产生价值了。这也是为什么在一开始的时候就要把所有的场景,尽可能地全部分析出来。

    另外,设置权限、数据分级审核、库级数据脱敏等都是可以提升数据安全的手段。现代数据中台必须具备数据调用行为的监控和记录机制,反过来也能增强对数据安全和隐私的保护。

    数据中台的下一步

    当前国内外已经有不少公司开始投资建设数据中台,大家比较熟悉的包括阿里、华为、联想、海航、上汽、壳牌等。

    在史凯看来,数据中台当前处于上升发展期。虽然未来数据中台未必还叫做数据中台,但它一定会成为企业必备的基础组件。

    世界正在从信息化向数字化发展。信息化是指大部分的工作都在物理世界里完成,然后用信电脑的数字化世界解决一小部分问题。数字化则是把人从物理世界搬到数字化世界。从这个角度来讲,数据中台将会变成物理世界的业务在数字化世界的一个还原。

    数据中台设计的初衷是将计算与存储分离,从狭义上来说,真正最核心的数据中台可以是没有存储的。但就当前的情况来看,广义的数据中台在未来一段时间内仍会涵盖数据仓库、数据湖等存储组件,“数据工厂”这个概念可能更适用于现在的阶段。但随着数据中台的发展,未来很有可能不再需要数据湖了。

    最后,史凯也提到了阿里中台战略中的另一个中台——“业务中台”。他表示“当前业务中台更偏实时交易,是从上往下沉淀业务;数据中台目前更偏分析、决策和洞察,为业务提供 T+N 和 T+0 的数据服务,但是再往前走,数据中台跟交易会慢慢结合得更为紧密。随着计算能力越来越强,以及微服务架构的进一步发展,未来业务中台和数据中台可能会融为一体。”

    采访嘉宾

    史凯,ThoughtWorks 数据和智能总监,精益数据创新体系的提出者,2019 年被评选为 DataIQ100 的数据赋能者,有近 20 年年的企业信息化、数字化转型架构和实施经验,为众多大型客户提供数字化转型战略略规划和咨询实施服务。

    技术雷达是 ThoughtWorks 推出的公益的、不限行业的技术选型趋势报告,至今已坚持十年,旨在以雷达的表现形式,通过清晰的解读,给技术人员提供高质量、落地性强的技术平台、工具框架方面的选型指导,助力企业数字化转型。


    推荐阅读

    1

    跟繁琐的命令行说拜拜!Gerapy分布式爬虫管理框架来袭!

    2

    跟繁琐的模型说拜拜!深度学习脚手架 ModelZoo 来袭!

    3

    只会用Selenium爬网页?Appium爬App了解一下

    4

    妈妈再也不用担心爬虫被封号了!手把手教你搭建Cookies池

    崔庆才

    静觅博客博主,《Python3网络爬虫开发实战》作者

    隐形字

    个人公众号:进击的Coder

    640?wx_fmt=gif640?wx_fmt=jpeg640?wx_fmt=gif

    长按识别二维码关注


    好文和朋友一起看~
    展开全文
  • “大数据”现在可谓越来越火了,不管是什么行业,也不敢是不是搞计算机的,都...多大的数据算“大数据”哪?麦肯锡研究中心给出的定义是“超过一般计算机处理能力”的数据。好吧,这个概念真是投机取巧,让人难以攻...

    “大数据”现在可谓越来越火了,不管是什么行业,也不敢是不是搞计算机的,都要赶个集,借着这股热潮,亦或炒作,亦或大干一番。尤其是从事IT行业的,不跟“大数据”沾点边,都不好意思出去说自己是干IT的。

    “大数据”一词,已无从考证具体是什么时候兴起的,只是隐约记得大概火了三四年了吧。多大的数据算“大数据”哪?麦肯锡研究中心给出的定义是“超过一般计算机处理能力”的数据。好吧,这个概念真是投机取巧,让人难以攻击。因为大数据的界限真的难以定义。只能说我们平时自己保存和处理的数据都不是大数据。有些人以为自己电脑里有个特别大的Excel文件就是大数据;还有些人觉得有个数据库装了些数据就是大数据;有些闷骚男们说了:我专门买了个盘存了好几T的片片那,看我有这么大的数据……这些都不是大数据。

    按照麦肯锡的定义,既然大数据是一般的计算机都处理不了的数据,那么肯定不是几个尺寸大点儿的文件就可以被称之为大数据。笔者斗胆总结一下大数据的几个特性:

    首先,大数据肯定是存储量很大的数据。

    这是前提条件。业界没有给出明确的数量定义,但肯定不能低于TB级。否则一般的个人电脑就可以轻松处理,就没有多大的研究价值了。

    其次,大数据一定是没有明确组织规律的。

    虽然局部可能有些规律可循,但总体上一定是没有统一的规律了。否则也没有多大的研究价值。可能兼顾了表格、图片、日志等多种类型的数据,甚至可能会有各种格式的视频和音频流。

    第三,大数据一定是不容易分析的。

    接着第二点来说,大数据肯定不会是单纯的存储和组织方式,不会像我们平时自己造的表格那样简单明了。而且,我们无法从中分析出一个简单统一的公式,使得所有数据都可以满足这个公式。即便是可以分析出某些公式来,也会形成成百上千个公式。所以,大数据的分析一定不是一蹴而就的,而是分布开展的。可能先会得到一些最原始的规律,再从这些原始规律中去分析出更高级的规律……不知会经过多少步才会得到最终有些价值的信息。

    第四、大数据一般是动态的。

    大数据一般不会是死或一成不变的数据,而是会不断追加新的数据,从而其尺寸不断变大。比如常见的就是操作日志、监测数据……等等。常见的大数据包括大型机场的订票或飞行数据、大型超市的用户购物记录、证券公司股民的股票交易记录、化工厂的设备运行监测数据、城市出租车起止位置数据、煤矿等作业区域的人员定位数据……等等。这些数据除了数据量很大外,还会实时产生海量的新数据。所以进行大数据分析时要充分考虑到数据的变化因素。

    第五、大数据一般是用于预测的。

    正如上段内容中介绍的,大数据环境一定是海量的数据环境,并且增量都有可能是海量的。大数据分析的价值就是从已有的数据中分析出固有的一些规律,从而能够与未来新产生的数据相吻合,从而可以提前预测未来会发生的一些事件,或提供一些有价值的信息,提前进行决策和处置。

    忽然想起了多年前大学期间学过一门课程,叫《数据挖掘》,里面提到了数据挖掘针对的对象是“数据仓库”,指的就是数据量很大的数据。为此还提出了钻取、抽析等多种分析方法和理论。现在看来个人感觉大数据应该就是从数据挖掘的基础上发展起来的,只不过大数据面对的数据量比数据挖掘理论盛行时还要大很多个数量级吧。

    正因为大数据的特殊性,所以已经不能用通常的理论和方法来处理了。

    首先是大数据的存储。前面说了,大数据面对的数据量异常大,不是几块几个TB的硬盘就可以随随便便容纳得了的。而且个人电脑上的存储设备一般也无法容纳如此大量的数据。为了能够提供快速、稳定地存取这些数据,至少得依赖于磁盘阵列。同时还得通过分布式存储的方式将不同区域、类别、级别的数据存放于不同的磁盘阵列中。

    以往的关系型数据库受限于设计模式的限制,一般只考虑到了单机的数据存储方式,即不管数据量大与小,一定会让一台机器存储和管理所有数据(即便是做集群,集群中的每个节点实际上也是要把所有的数据再存储一遍)。而每台机器上可以承载的存储设备是有限的,一般也不会超过几个TB。而且一旦某个数据库的数据量和文件的尺寸暴增到一定程度后,数据的检索速度就会急剧下降。

    为了应对这个问题,很多主流的数据库纷纷提出了一些解决方案。如MySQL提供了MySQL proxy组件,实现了对请求的拦截,结合分布式存储技术,从而可以将一张很大的表中的记录拆分到不同的节点上去进行查询。对于每个节点来说,数据量不会很大,从而提升了查询效率。


    而Oracle针对大数据公开可查询的资料是“大数据机X3-2+Hadoop+NoSQL”的解决方案。在这套方案中,Oracle提供了拥有288个CPU、1152G内存、648T硬盘的无比豪华的服务器配置,同时结合Hadoop和NoSQL等技术对其中存储的大数据进行分析:


    怎么说那,个人感觉Oracle完全是土豪策略:有钱你才能玩大数据,而有了钱你就买个特别牛×的机器,这样你就不怕数据大了。实际上Oracle并没有从根儿上专门为大数据而动过手术。

    而对于像MongoDB、HBase等非关系型数据库,由于摆脱了表的存储模式,再加上起步较晚,所以对大数据的响应要比关系型数据库快的多。

    MongoDB和HBase天生都支持分布式存储,即将一份大的数据分散到不同的机器上进行存储,从而降低了单个节点的存取压力。


    所以在实际应用中,如果是针对老的系统尤其是老的数据库进行大数据存储及分析,那么只能考虑横向拆分关系型数据库中的数据了;如果是准备建设新的系统,那么最好采用MongoDB,并使用分片集特性来存储大数据。HBase也可以,但入门学习成本可能稍微有一些高。

    下一篇文章,咱们来聊聊大数据的分析过程和方法。
    展开全文
  • 最全的数据查询网站

    2020-02-19 11:32:09
    1、国家数据——主要用户:社会情况研究人员 国家统计局开设网站,公布我国各个领域的宏观经济情况,权威度高 2、中国裁判文书网——主要用户:法律从业/学习/爱好者 中国最高人民法院开设,权威可信,可用于查询...
  • 数据完整性

    2019-04-14 22:44:15
    关于SQL server的数据完整性的简要内容
  • 数据对接方式

    2018-12-19 16:35:00
    1 主动推送给对方 需要索取对方的标识id, 公钥,加密算法,私钥等 2 主动从对方那里访问获取 需要索取对方的标识id, 公钥,加密算法,私钥等 3 对方来我们这里访问获取 需要提供本方 标识id, 公钥,加密...
  • 首先:先假设有一张表,表的数据有10W条数据,其中有一条数据是nickname='css',如果要拿这条数据的话需要些的sql是 SELECT * FROM award WHERE nickname = 'css' 一般情况下,在没有建立索引的时候,mysql需要扫描全表及...
  • vue实现数据双向绑定的原理就是用Object.defineproperty()重新定义(set方法)对象设置属性值和(get方法)获取属性值的操纵来实现的 Object.property()方法的解释:Object.property(参数1,参数2,参数3) 返回值...
  • 在创建表的时候尽量把字段的默认值设置成 not null,除非你想存储null;因为在mysql中为null的的字段不会走索引,做统计的时候也不会被统计进去,如果想统计进去必须做特定的处理,这样做比较复杂。...
  • if(sessionStorage.opened){  console.log('窗口是刷新页面,不是新打开') }else{  console.log('窗口是新打开')  //如果获取到历史url,则重定向到历史地址  if(localStorage.history && localStorage....
  • 抽象数据类型(ADT)的概念,三要素:数据数据元素间的关系和数据的操作 - 2.线性表的特点:按照一条线排列的数据集合,1对1,除了首元和尾元,其他元素都有直接前驱和直接后继 - 3.牢记线性表的存储结构,要理解并熟悉...
  • 小猪的数据结构辅助教程——1.数据结构与算法绪论标签(空格分隔): 数据结构本节学习路线图与学习要点学习要点: 1.了解数据结构的相关概念 2.了解算法的相关概念 3.熟悉时间复杂度的计算 4.了解空间复杂度...
  • 数据结构 解释下列术语:数据数据元素、数据对象、数据结构 数据数据是表述抽象事物的数值、字符、以及其他由可以输入计算机中并由计算机程序进行加工处理的集合,是计算机操作对象的总称。 数据元素: 数据...
  • 数据中台架构详解

    2019-04-19 14:20:43
    但在数据运营过程中,企业普遍遇到“独-数据烟囱林立”、 “断-数据理解与分析断层”、“缺-缺数据、缺标准、缺治理”、“难-知数据难、懂数据难、要数据难”四大难题。因此,越来越多企业希望构建数据中台,通过...
  • 目录 1、不平衡(均衡)数据集 (1)不平衡数据集定义 (2)不平衡数据集举例 (3)不平衡数据集实例 ...3、将数据集划分为训练数据集和测试数据集 4、使用K折交叉验证评估模型性能 (1)K...
1 2 3 4 5 ... 20
收藏数 12,210,982
精华内容 4,884,393
关键字:

数据