精华内容
下载资源
问答
  • 互联网每天产生的数据量
    千次阅读
    2020-03-17 13:42:58

    近年来,数据安全形势越发严峻,各种数据安全事件层出不穷。在当前形势下,互联网公司也基本达成了一个共识:虽然无法完全阻止攻击,但底线是敏感数据不能泄漏。也即是说,服务器可以被挂马,但敏感数据不能被拖走。服务器对于互联网公司来说,是可以接受的损失,但敏感数据泄漏,则会对公司产生重大声誉、经济影响。

    在互联网公司的数据安全领域,无论是传统理论提出的数据安全生命周期,还是安全厂商提供的解决方案,都面临着落地困难的问题。其核心点在于对海量数据、复杂应用环境下的可操作性不佳。

    例如数据安全生命周期提出,首先要对数据进行分类分级,然后才是保护。但互联网公司基本上都是野蛮生长,发展壮大以后才发现数据安全的问题。但存量数据已经形成,日以万计的数据表在增长,这种情况下如何实现数据分类分级?人工梳理显然不现实,梳理的速度赶不上数据增长速度。

    再例如安全厂商提供的数据审计解决方案,也都是基于传统关系型数据库的硬件盒子。Hadoop环境下的数据审计方案是什么?面对海量数据,很多厂商也买不起这么多硬件盒子啊。

    因此,互联网公司迫切需要一些符合自身特点的手段,来进行数据安全保障。为此,美团信息安全中心进行了一些具体层面的探索。这些探索映射到IT的层面,主要包括应用系统和数据仓库,接下来我们分别阐述。

    一、应用系统

    应用系统分为两块,一是对抗外部攻击,是多数公司都有的安全意识,但意识不等于能力,这是一个负责任企业的基本功。传统问题包括越权、遍历、SQL注入、安全配置、低版本漏洞等,这一类在OWASP的Top10风险都有提到,在实践中主要考虑SDL、安全运维、红蓝对抗等手段,且以产品化的形式来解决主要问题。这里不做重点介绍。

    1.1 扫号及爬虫

    新的形势下,还面临扫号、爬虫问题。扫号是指撞库或弱口令:撞库是用已经泄漏的账号密码来试探,成功后轻则窃取用户数据,重则盗取用户资金;弱口令则是简单密码问题。对于这类问题,业界不断的探索新方法,包括设备指纹技术、复杂验证码、人机识别、IP信誉度,试图多管齐下来缓解,但黑产也在不断升级对抗技术,包括一键新机、模拟器、IP代理、人类行为模仿,因此这是个不断的对抗过程。

    举个例子,有公司在用户登录时,判断加速等传感器的变化,因为用户在手机屏幕点击时,必然会带来角度、重力的变化。如果用户点击过程中这些传感器没有任何变化,则有使用脚本的嫌疑。再加上一个维度去判断用户近期电量变化,就可以确认这是一台人类在用的手机,还是黑产工作室的手机。黑产在对抗中发现公司用了这一类的策略,则很轻易的进行了化解,一切数据都可以伪造出来,在某宝上可以看到大量的此类技术工具在出售。

    爬虫对抗则是另一个新问题,之前有文章说,某些公司的数据访问流量75%以上都是爬虫。爬虫不带来任何业务价值,而且还要为此付出大量资源,同时还面临数据泄漏的问题。

    在互联网金融兴起后,爬虫又产生了新的变化,从原来的未授权爬取数据,变成了用户授权爬取数据。举例来说,小张缺钱,在互联网金融公司网站申请小额贷款,而互联网金融公司并不知道小张能不能贷,还款能力如何,因此要求小张提供在购物网站、邮箱或其他应用的账号密码,爬取小张的日常消费数据,作为信用评分参考。小张为了获取贷款,提供了账号密码,则构成了授权爬取。这和以往的未授权爬取产生了很大的变化,互联网金融公司可以进来获取更多敏感信息,不但加重了资源负担,还存在用户密码泄漏的可能。

     

     

    对爬虫的对抗,也是一个综合课题,不存在一个技术解决所有问题的方案。解决思路上除了之前的设备指纹、IP信誉等手段之外,还包括了各种机器学习的算法模型,以区分出正常行为和异常行为,也可以从关联模型等方向入手。但这也是个对抗过程,黑产也在逐渐摸索试探,从而模拟出人类行为。未来会形成机器与机器的对抗,而决定输赢的,则是成本。

    1.2 水印

    近年来业界也出现了一些将内部敏感文件,截图外发的事件。有些事件引起了媒体的炒作,对公司造成了舆论影响,这就需要能够对这种外发行为进行溯源。而水印在技术上要解决的抗鲁棒性问题,针对图片的水印技术包括空间滤波、傅立叶变换、几何变形等,简单的说是将信息经过变换,在恶劣条件下还原的技术。

    1.3 数据蜜罐

    是指制作一个假的数据集合,来捕获访问者,从而发现攻击行为。国外已经有公司做出了对应的产品,其实现可以粗暴地理解为,在一个数据文件上加入了一个“木马”,所有的访问者再打开后,会把对应记录发回服务器。通过这个“木马”,可以追踪到攻击者细节信息。我们也曾做过类似的事情,遗憾的是,这个数据文件放在那里很久,都无人访问。无人访问和我我们对蜜罐的定位有关,现阶段我们更愿意把它作为一个实验性的小玩意,而不是大规模采用,因为“木马”本身,可能带有一定的风险。

    1.4 大数据行为审计

    大数据的出现,为关联审计提供了更多的可能性,可以通过各种数据关联起来分析异常行为。这方面,传统安全审计厂商做了一些尝试,但从客观的角度来看,还比较基础,无法应对大型互联网公司复杂情况下的行为审计,当然这不能苛求传统安全审计厂商,这与生意有关,生意是要追求利润的。这种情况下,互联网公司就要自己做更多的事情。

    例如防范内鬼,可以通过多种数据关联分析,通过“与坏人共用过一个设备”规则,来发现内鬼。举一反三,则可以通过信息流、物流、资金流等几个大的方向衍生出更多符合自身数据特点的抓内鬼规则。

    除此之外,还可以通过UEBA(用户与实体行为分析)来发现异常,这需要在各个环节去埋点采集数据,后端则需要对应的规则引擎系统、数据平台、算法平台来支撑。

    例如常见的聚类算法:某些人与大多数人行为不一致,则这些人可能有异常。具体场景可以是:正常用户行为首先是打开页面,选择产品,然后才是登录、下单。而异常行为可以是:先登录,然后修改密码,最后下单选了一个新开的店,使用了一个大额优惠券。这里每一个数据字段,都可以衍生出各种变量,通过这些变量,最后可以有一个异常判断。

    再例如关联模型,一个坏人团伙,通常是有联系的。这些维度可以包括IP、设备、WiFi MAC地址、GPS位置、物流地址、资金流等若干维度,再结合自己的其他数据,可以关联出一个团伙。而团伙中如果有一个人标记为黑,则关系圈则会根据关系强弱进行信誉打分降级。

     

     

    UEBA的基础是有足够的数据支撑,数据可以是外部的数据供应商。例如腾讯、阿里都提供一些对外数据服务,包括对IP信誉的判断等,使用这些数据,可以起到联防联控的效果。也可以是内部的,互联网公司总会有若干条业务线服务一个客户,这就要看安全人员的数据敏感度了,哪些数据能为自己所用。

    1.5 数据脱敏

    在应用系统中,总会有很多用户敏感数据。应用系统分为对内和对外,对外的系统脱敏,主要是防止撞号和爬虫。对内的系统脱敏,主要是防止内部人员泄漏信息。

    对外系统的脱敏保护,可以分层来对待。默认情况下,对于银行卡号、身份证、手机号、地址等关键信息,强制脱敏,以****替换关键位置,这样即使被撞库或者爬虫,也获取不到相关信息,从而保护用户数据安全。但总有客户需要看到自己或修改自己的完整信息,这时就需要分层保护,主要是根据常用设备来判断,如果是常用设备,则可以无障碍的点击后显示。如果非常用设备,则推送一个强验证。

    在日常业务中,美团还有一个特点。外卖骑手与买家的联系,骑手可能找不到具体位置,需要和买家进行沟通,这时至少包括了地址、手机号两条信息暴露。而对于买家信息的保护,我们也进行了摸索试探。手机号码信息,我们通过一个“小号”的机制来解决,骑手得到的是一个临时中转号码,用这个号码与买家联系,而真实号码则是不可见的。地址信息,我们在系统中使用了图片显示,在订单完成之后,地址信息则不可见。

    对内系统的脱敏保护,实践中可以分为几个步骤走。首先是检测内部系统中的敏感信息,这里可以选择从Log中获取,或者从JS前端获取,两个方案各有优劣。从Log中获取,要看公司整体上对日志的规范,不然每个系统一种日志,对接周期长工作量大。从前端JS获取,方案比较轻量化,但要考虑性能对业务的影响。

    检测的目的是持续发现敏感信息变化,因为在内部复杂环境中,系统会不断的改造升级,如果缺少持续监控的手段,会变成运动式工程,无法保证持续性。

    检测之后要做的事情,则是进行脱敏处理。脱敏过程需要与业务方沟通明确好,哪些字段必须强制完全脱敏,哪些是半脱敏。应用系统权限建设比较规范的情况下,可以考虑基于角色进行脱敏,例如风控案件人员,是一定需要用户的银行卡完整信息的,这时候可以根据角色赋予免疫权限。但客服人员则不需要查看完整信息,则进行强制脱敏。在免疫和脱敏之间,还有一层叫做半脱敏,是指在需要的时候,可以点击查看完整号码,点击动作则会被记录。

    就脱敏整体而言,应该有一个全局视图。每天有多少用户敏感信息被访问到,有多少信息脱敏,未脱敏的原因是什么。这样可以整体追踪变化,目标是不断降低敏感信息访问率,当视图出现异常波动,则代表业务产生了变化,需要追踪事件原因。

    二、数据仓库

    数据仓库是公司数据的核心,这里出了问题则面临巨大风险。而数据仓库的治理,是一个长期渐进的建设过程,其中安全环节只是其中一小部分,更多的则是数据治理层面。本文主要谈及安全环节中的一些工具性建设,包括数据脱敏、隐私保护、大数据行为审计、资产地图、数据扫描器。

    2.1 数据脱敏

    数据仓库的脱敏是指对敏感数据进行变形,从而起到保护敏感数据的目的,主要用于数据分析人员和开发人员对未知数据进行探索。脱敏在实践过程中有若干种形式,包括对数据的混淆、替换,在不改变数据本身表述的情况下进行数据使用。但数据混淆也好,替换也好,实际上都是有成本的,在大型互联网公司的海量数据情况下,这种数据混淆替换代价非常高昂, 实践中常用的方式,则是较为简单的部分遮盖,例如对手机号的遮盖,139****0011来展示,这种方法规则简单,能起到一定程度上的保护效果。

    但有些场景下,简单的遮盖是不能满足业务要求的,这时就需要考虑其他手段,例如针对信用卡号码的的Tokenization,针对范围数据的分段,针对病例的多样性,甚至针对图片的base64遮盖。因此需要根据不同场景提供不同服务,是成本、效率和使用的考量结果,

    数据遮盖要考虑原始表和脱敏后的表。原始数据一定要有一份,在这个基础上是另外复制出一张脱敏表还是在原始数据上做视觉脱敏,是两种不同成本的方案。另外复制一张表脱敏,是比较彻底的方式,但等于每张敏感数据表都要复制出来一份,对存储是个成本问题。而视觉脱敏,则是通过规则,动态的对数据展现进行脱敏,可以较低成本的实现脱敏效果,但存在被绕过的可能性。

    2.2 隐私保护

    隐私保护上学术界也提出了一些方法,包括K匿名、边匿名、差分隐私等方法,其目的是解决数据聚合情况下的隐私保护。例如有的公司,拿出来一部分去除敏感信息后的数据公开,进行算法比赛。这个时候就要考虑不同的数据聚合后,可以关联出某个人的个人标志。目前看到业界在生产上应用的是Google的DLP API,但其使用也较为复杂,针对场景比较单一。隐私保护的方法,关键是要能够进行大规模工程化,在大数据时代的背景下,这些还都是新课题,目前并不存在一个完整的方法来解决隐私保护所有对抗问题。

    2.3 大数据资产地图

    是指对大数据平台的数据资产进行分析、数据可视化展现的平台。最常见的诉求是,A部门申请B部门的数据,B作为数据的Owner,当然想知道数据给到A以后,他是怎么用的,有没有再传给其他人使用。这时候则需要有一个资产地图,能够跟踪数据资产的流向、使用情况。换个角度,对于安全部门来说,需要知道当前数据平台上有哪些高敏感数据资产,资产的使用情况,以及平台上哪些人拥有什么权限。因此,通过元数据、血缘关系、操作日志,形成了一个可视化的资产地图。形成地图并不够,延伸下来,还需要能够及时预警、回收权限等干预措施。

    2.4 数据库扫描器

    是指对大数据平台的数据扫描,其意义在于发现大数据平台上的敏感数据,从而进行对应的保护机制。一个大型互联网公司的数据表,每天可能直接产生多达几万张,通过这些表衍生出来更多的表。按照传统数据安全的定义,数据安全第一步是要分类分级,但这一步就很难进行下去。在海量存量表的情况下,该怎样进行分类分级?人工梳理显然是不现实的,梳理的速度还赶不上新增的速度。这时候就需要一些自动化的工具来对数据进行打标定级。因此,数据库扫描器可以通过正则表达式,发现一些基础的高敏感数据,例如手机号、银行卡等这些规整字段。对于非规整字段,则需要通过机器学习+人工标签的方法来确认。

    综上,数据安全在业务发展到一定程度后,其重要性越发突出。微观层面的工具建设是一个支撑,在尽量减少对业务的打扰同时提高效率。宏观层面,除了自身体系内的数据安全,合作方、投资后的公司、物流、骑手、商家、外包等各类组织的数据安全情况,也会影响到自身安全,可谓“唇亡齿寒”。而在当前各类组织安全水平参差不齐的情况下,就要求已经发展起来的互联网公司承担更多的责任,帮助合作方提高安全水平,联防共建

    更多相关内容
  • 你知道互联网每天产生多少数据吗?随着互联网、传感器,以及各种数字化终端设备的普及,一个万物互联的世界正在成型。同时,随着数据呈现出爆炸式的指数级增长,数字化已经成为构建现代社会的基础力量...

    你知道互联网每天能产生多少数据吗?

    随着互联网、传感器,以及各种数字化终端设备的普及,一个万物互联的世界正在成型。同时,随着数据呈现出爆炸式的指数级增长,数字化已经成为构建现代社会的基础力量,并推动着我们走向一个深度变革的时代。 

    在这个数字洪流汹涌澎湃的新时代,具体到每一天,我们的世界到底能产生多少数据?

    (图片来源:Raconteur)

    以下是信息图中突出的每日产生的关键数据:

    • 发出5亿条推特

    • 发送2940亿封邮件

    • Facebook上新创建4拍字节(PB)数据

    • 每辆联网的汽车都会创造出4太字节的数据

    • WhatsApp上发送出650亿条信息

    • 50亿次搜索

    为了能对上面内容的数据单位有一个大体的概念,我们可以先了解一下各数据单位。

    1B (Byte 字节)=8b (bit 位)

    1KB (Kilobyte 千字节)=1024B

    1MB (Megabyte 兆字节 简称“兆”)=1024KB

    1GB (Gigabyte 吉字节 又称“千兆”)=1024MB

    1TB (Trillionbyte 万亿字节 太字节)=1024GB

    1PB(Petabyte 千万亿字节 拍字节)=1024TB

    1EB(Exabyte 百亿亿字节 艾字节)=1024PB

    1ZB (Zettabyte 十万亿亿字节 泽字节)=1024EB

    1YB (Yottabyte 一亿亿亿字节 尧字节)=1024ZB

    只Facebook每天就能产生4,194,304‬GB的数据,由此可见每天产生的数据量之多。

    据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB,相当于每天产生491EB的数据。

     

    那么175ZB的数据到底有多大呢?1ZB相当于1.1万亿GB。如果把175ZB全部存在DVD光盘中,那么DVD叠加起来的高度将是地球和月球距离的23倍(月地最近距离约39.3万公里),或者绕地球222圈(一圈约为四万公里)。以25Mb/秒的网速,一个人要下载完这175ZB的数据,需要18亿年。

    数据人才的需求量剧增

    这样的数据量无疑是震撼的,数据的产生的加速状态无法改变,那么接下来我们需要面对更加庞大的数据和对数据处理的人才需求。

    人力资源和社会保障部在2020年5月份发布的数据显示,预计2020年中国大数据行业人才需求规模将达210万,2025年需求总量在2000万人左右。

    在大数据人才需求迅猛增长的同时,人才供需缺口也在持续增大,赛迪智库预测2025年中国大数据核心人才缺口将达230万;某机构统计显示,未来中国基础性数据分析人才缺口将达到1400万。

    面对这样大的一个缺口,将来数据分析将会是一个炙手可热的岗位。掌握数据处理分析的能力是我们成为一名数据分析师的基础。那么要学习什么内容,从哪里开始学习,如何系统学习是我们现在面临的一个很现实具体的问题。

    CDA数据挖掘就业班

    CDA秉承着总结凝练先进的商业数据分析实践为使命,明晰各类数据分析从从业者的知识体系为职责,开展数据分析课程培训200+期,培养数据分析人才上10万+人次,遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、大型互联网企业、国企事业单位、国家行政机关等等。“CDA数据分析师”人才队伍秉承着CDA职业道德准则,发挥着专业技能,已成为科技飞速发展的核心力量。

    CDA数据挖掘就业班是专门为希望转岗到数据挖掘相关岗位学员开设,相关岗位包括数据挖掘工程师、机器学习工程师、算法工程师、商业策略数据分析师等。

    课程内容包含数据治理、数字化工作方法、数据处理方法、python数据处理分析及案例、统计分析与运筹学、数据分析模型、算法与商业应用、标签体系与应用、高级数据处理与特征工程、机器学习算法与应用、自然语言处理与文本分析等。

    当然这些课程中还包含有很多的应用案例,会渗透在课程的每一部分学习中。

    课程大纲

    01    数字化工作保障机制-数据治理

    02     数字化工作方法

    03     数据采集方法

    04     python编程基础

    05     python数据探索数据处理与可视化

    06     python探索分析综合案例

    07     python统计分析与运筹学基础

    08     数据分析模型、算法与商业应用

    09     标签体系与应用

    10     数据挖掘概论

    11     高级数据处理与特征工程

    12     机器学习算法与应用

    13     机器学习实战

    14     自然语言处理与文本分析理论

    15     行业综合项目实战

    16     文本、图像、深度学习实战案例

    17     面试技巧指导与简历修改

    课程服务

    助教老师全程跟进关注学员学习,在学员上课之前帮助学员规划学习及课程预习,上课过程中持续关注学员学习,及时解决学习疑问,课后结合作业习题及阶段测试强化学习内容。面试题集强化训练,把握面试机会。

    就业服务

    就业指导老师,从开班起,对每一位同学一对一进行简历指导;组织数据分析行业应用分享,培养锻炼每一位同学的数据分析认知及思维;一对一模拟企业面试场景,提前熟悉面试过程,避免面试采坑。

    CDA成都校区往期就业学员概览

    从学历来看,本科毕业学员占一大部分,其次是大专,有少部研究生学历同学。

    从年龄分布来看,20-30岁的年龄段占比较高。

    从工作年限来看,应届毕业生到10年以上的工作经验都有所分布,5年以内的占大多数。

    从专业来看,计算机相关专业占大部分,数学统计学专业学员也占有一定比例,还有少部分其他专业学员。

    从就业行业来看,我们就业学员分布在金融、第三方大数据服务公司和计算机软件公司居多。

    从入职岗位来看,就业岗位以数据分析师、数据运营和数据挖掘居多。

    就业薪酬以7-12K为主流区间,成都校区就业平均薪酬9K+。

    通过对我们成都校区进一步的认识,希望我们就业和课程服务能够满足我们不同的学员的个性化的需求,为亟待转行或者提升数据分析思维的学员带来更加专业的课程体验。

    新的起点,新的开始,接下来的学习生活有成都校区陪大家一起度过,在最后都能够实现目标!

    近期开课信息

    上下滑动可查看全部开课信息

    脱产班课程

    CDA数据分析脱产就业班

    2021年8月2日开课/@成都&全国

    CDA数据挖掘脱产就业班

    2021年7月12日开课/@成都&全国

    周末班课程

    CDA数据分析周末就业班

    2021年8月8日开课/@成都&全国

    CDA数据挖掘周末就业班

    2021年7月17日开课/@成都&全国

    CDA数据赋能 LEVEL I

    2021年8月8日开课/@成都&全国

    CDA商业策略数据分析 LEVEL II

    2021年7月17日开课/@成都&全国

    CDA python机器学习 LEVEL III

    2021年7月31日开课/@成都&全国

     上 课 地 点 

    成都校区

    成都市高新区天府二街368号绿地之窗2栋12层(地铁1号线世纪城站/地铁5号线大源站)

    获取课程详细信息

    添加老师微信

    获取课程详细信息

    展开全文
  • 来源:资本实验室随着互联网、传感器,以及各种数字化终端设备的普及,一个万物互联的世界正在成型。同时,随着数据呈现出爆炸式的指数级增长,数字化已经成为构建现代社会的基础力量...

    640?wx_fmt=jpeg

    来源:资本实验室

    随着互联网、传感器,以及各种数字化终端设备的普及,一个万物互联的世界正在成型。同时,随着数据呈现出爆炸式的指数级增长,数字化已经成为构建现代社会的基础力量,并推动着我们走向一个深度变革的时代。 


    那么,在这个数字洪流汹涌澎湃的新时代,具体到每一天,我们的世界到底能产生多少数据?


    为了能对后面内容的数据单位有一个大体的概念,我们可以先了解一下各数据单位。

    • 1B (Byte 字节)=8b (bit 位)

    • 1KB (Kilobyte 千字节)=1024B

    • 1MB (Megabyte 兆字节 简称“兆”)=1024KB

    • 1GB (Gigabyte 吉字节 又称“千兆”)=1024MB

    • 1TB (Trillionbyte 万亿字节 太字节)=1024GB

    • 1PB(Petabyte 千万亿字节 拍字节)=1024TB

    • 1EB(Exabyte 百亿亿字节 艾字节)=1024PB

    • 1ZB (Zettabyte 十万亿亿字节 泽字节)=1024EB

    • 1YB (Yottabyte 一亿亿亿字节 尧字节)=1024ZB


    不管是邮件发送、视频上传,还是每天的在线搜索,乃至自动驾驶汽车每天的数据收集,我们会发现,互联网时代形成的数据量是多么的不可思议。


    2025年全球每天产生的数据量将达到491EB


    据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB,相当于每天产生491EB的数据。


    640?wx_fmt=jpeg


    那么175ZB的数据到底有多大呢?1ZB相当于1.1万亿GB。如果把175ZB全部存在DVD光盘中,那么DVD叠加起来的高度将是地球和月球距离的23倍(月地最近距离约39.3万公里),或者绕地球222圈(一圈约为四万公里)。目前美国的平均网速为25Mb/秒,一个人要下载完这175ZB的数据,需要18亿年。


    随着物联网基础设施及智能手机、可穿戴设备的普及,我们每个人时刻都在产生大量的数据。我们也完全已经成为数字化的个体。


    640?wx_fmt=jpeg

    据IDC预测,2025年,全世界每个联网的人每天平均有4909次数据互动,是2015年的8倍多,相当于每18秒产生1次数据互动。


    2019年全球每天收发2936亿封电子邮件


    电子邮件是用户日常获取信息的重要渠道之一,特别是企业用户。


    据Radicati Group统计,2018年全球电子邮件用户数量达到38亿人,即全球超过一半的人口在使用电子邮件。


    640?wx_fmt=jpeg


    2018年,全球每天发送和接收的商业和消费者电子邮件的总数超过2811亿封,预计2019年每天的电子邮件数量将达到2936亿封,而到2022年年底,将达到3332亿封。


    有趣的是,即使电子邮件总数一直增长,但增长率却逐年下降。这里面显然有着社交媒体和更为便利的移动通讯带来的影响。


    一辆联网汽车每天将产生4TB的数据


    据英特尔公司预测,2020年,一辆联网的自动驾驶汽车每运行8小时将产生4TB的数据。这主要来源于自动驾驶汽车将拥有的数百个车载传感器。英特尔表示,仅摄像头就能每秒产生20-40Mb的数据,而激光雷达每秒将产生10-70MB的数据。


    640?wx_fmt=jpeg


    英特尔公司首席执行官Brian Krzanich表示,2020年互联网用户每天将产生1.5GB的数据,以此计算,每辆在路上行驶的联网汽车将产生约3000人的数据量。而一百万辆自动驾驶汽车将产生30亿人的数据。


    2025年全球物联网连接设备将达到754.4亿


    无处不在的物联网设备正在将世界变成一个“数字地球”。据HIS的数据预测,到2025年,全球物联网(IoT)连接设备的总安装量预计将达到754.4亿,约是2015年的5倍。


    640?wx_fmt=jpeg


    在各种联网设备中,可穿戴设备是重要的组成部分。据预测,到2020年,全球可穿戴设备将产生28PB的数据。


    全世界每天有50亿次在线搜索


    互联网时代,搜索引擎已经成为人们寻找日常解决方案的重要渠道。有事没事搜一下,已经成为工作与生活的常态。特别是智能手机的普及,让我们随时随地都在产生搜索数据。


    640?wx_fmt=jpeg


    据Smart insight估计,目前全球每天有50亿次搜索,其中35亿次搜索来自Google,占全球搜索量的70%,相当于每秒处理4万多次搜索。而回到2000年,在那个时候,Google一年的搜索量才140亿次。


    无处不在的社交数据


    智能手机让人们的社交生活彻底数字化,每天在社交网络上花费的时间越来越多,产生的数据量也相应地不断增长。


    640?wx_fmt=jpeg


    据Facebook统计,Facebook每天产生4PB的数据,包含100亿条消息,以及3.5亿张照片和1亿小时的视频浏览。此外,在Instagram上,用户每天要分享9500万张照片和视频;Twitter用户每天要发送5亿条信息。


    未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


    未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


      如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


    640?wx_fmt=jpeg


    展开全文
  • 在过去的十年中,产生数据量远远大于从发明计算机或互联网之时起所产生的数据总量。 每天都会产生和消费数万亿兆字节的数据。 在在线零售评论中,甚至在我们感兴趣的特殊情况下,即在线电影评论情绪分析。 评论者...
  • 面对如此庞大的数据量,那么一旦数据量疯狂增长,必然造成读写缓慢。 那么,为了使系统能够抗住千万级数据量的压力,都有哪些解决方案呢? 二、 分表分库 当数据库表读写缓慢的时候,我们第一时间考虑到的是优化...

    一、 引言

    一个系统,目前订单数据量已达上亿,并且每日以百万级别的速度增长,甚至之后还可能是千万级。

    面对如此庞大的数据量,那么一旦数据量疯狂增长,必然造成读写缓慢。

    那么,为了使系统能够抗住千万级数据量的压力,都有哪些解决方案呢?


    二、 分表分库

    当数据库表读写缓慢的时候,我们第一时间考虑到的是优化程序读写模块,调整软件架构;不过,对于单库单表而言,一旦数据量疯狂增长,无论是IO还是会CPU都会扛不住,单单从软件上来解决优化效果有限。

    我们这里要介绍的解决方案是:分表分库,即先将表进行拆分,再进行分布存储。


    三、 拆分储存的技术选型

    拆分存储常用的解决方案有4种,包括:MySQL分区技术、NoSQL、NewSQL、基于MySQL的分表分库。

    3.1 MySQL分区技术

    我们先来看下MySQL官方文档的MySQL架构图
    在这里插入图片描述
    从上面的MySQL架构图,不难发现MySQL的分区主要在文件存储层做文章,它可以将一张表的不同行存放在不同存储文件中。实际应用中,不建议使用MySQL分区技术,主要原因有三个:

    • MySQL实例只有一个,它仅仅分摊了存储,无法分摊请求负载。
    • MySQL的分区对用户透明,因此用户在实际操作的时候往往给不太注意,使得跨分区操作严重影响系统性能。
    • MySQL存在其他一些限制,比如不支持query cache、位操作表达式等。

    3.2 NoSQL

    比较典型的NoSQL就是MongoDB。
    MongoDB的分片功能从并发性和数据这2个角度已经能满足一般大量数据的需求。

    不过还是需要注意以下3大要点:

    • 约束考量:MongoDB不是关系型数据库,而是文档型数据库。它的每一行记录都是一个结构灵活可变的Json,比如存储非常重要的订单时,就不能使用MongoDB,因为订单数据必须使用强约束的关系型数据库存储。
    • 业务功能考量:事务、锁、SQL、表达式等操作都在MySQL验证过,MySQL能满足所有的业务需求。MongoDB却不能。
    • 稳定性考量:MySQL在实践考验过,NoSQL待验证。

    3.3 NewSQL

    NewSQL 技术还比较新,但从稳定性和功能扩展性两方面考量后,最终没有使用,具体原因与 MongoDB 类似。

    3.4 基于MySQL的分表分库

    什么是分表分库?
    分表是将一份大的表数据拆分存放到多个结构一样的拆分表;
    分库是将一个大的数据库拆分成多个结构一样的小库。

    分库分表对第三方依赖比较少,业务逻辑灵活可控,本身不需要非常复杂的底层原理,也不需要重新做数据库,只是根据不同的逻辑使用不同的SQL语句和数据源而已。


    四、 分库分表技术通用需求

    如果使用分库分表,有3个技术通用需求需要实现:
    1)SQL组合:因为关联的表明是动态的,因此需要根据逻辑组装动态的SQL;
    2)数据库路由:因为数据库名也是动态的,因此需要通过不同的逻辑使用不同的数据库;
    3)执行结果合并:有些需求需要通过多个分库执行, 再合并归集起来。

    目前市面上能解决上面问题的中间件分为2类:Proxy模式Client模式

    4.1 Proxy 模式

    借用ShardingSphere官方文档里的图进行说明,重点看Sharding-Proxy层
    在这里插入图片描述
    该模式把SQL组合、数据库路由、执行结果合并等功能全部存放在一个代理服务中,而与分表分库相关的处理逻辑全部存放在另外服务中。这种模式的优点是:对业务代码无入侵,业务值需要关注自身的业务逻辑即可。

    4.2 Client 模式

    借用ShardingSphere官方文档的图进行说明
    在这里插入图片描述
    该模式把分表分库相关逻辑放在客户端,一般客户端的而应用会引用一个jar,然后再jar中处理SQL组合、数据库路由、执行结果合并等相关功能。



    市面上,上面两种的模式中间件有:
    在这里插入图片描述
    Proxy和Client模式优缺点比较:
    在这里插入图片描述
    在实际应用中,我们可以根据自己的需求选择适合自己的模式。


    五、 分库分表实现思路

    5.1、 使用什么字段作为分片键

    我们以下面订单表,选择使用Client模式为例进行说明。
    在这里插入图片描述
    把上表中的数据拆分成了一个订单表,表中主要的数据结构如下:
    在这里插入图片描述
    选择字段作为分片键时,需要考虑3点要求
    1)数据尽量均匀分布在不同表或库;
    2)跨库查询尽量减少;
    3)这个字段值不会变。


    上表中,我们使用user_id作为分片主键,为什么这么分呢?主要是依据业务需求。
    如一些常见的业务需求:

    • 用户需要查询所有订单,订单数据中肯定包含不同的order_time;
    • 后台需要根据城市查询当地的订单;
    • 后台需要统计每个时间段的订单趋势。

    根据上面的需求,判断优先级,用户操作就是第一个需求必须优先满足。
    这时如果使用user_id作为订单的分片字段,就能保证每次用户查询数据时在一个分库的一个分表里即可获取数据。
    使用user_id作为分片主键,在分表分库查询时,首先会把user_id作为参数传过来。

    5.2、 分片的策略是什么

    通用的分片策略分为:根据范围分片、根据hash值分片、根据hash值及范围分片。

    1)根据范围分片
    如果用户id是自增型数字,我们把用户id按照没100w份分为一个库,每10w份分为一个表的形式进行分片:
    在这里插入图片描述


    2)根据hash值分片
    指的是根据用户id的hash值mod一个特定的数进行分片(为了扩展,一般时2的几次方)。


    3)根据hash值及范围分片
    先按照范围分片,再根据hash值取模分片。
    如:表名=order_#user_id%10#_#hash(user_id)%8,即被分成了 10*8=80 个表。为了方便你理解,我们画个图说明下,如下图所示:
    在这里插入图片描述

    如何选择分片策略?
    上述3种不同点额分片策略,应该如何选择?
    我们只需要考虑一点:假设数据量变大后,需要我们把表分得更细,此时保证迁移的数据尽量少即可。

    因此根据hash值分片时一般建议拆分成2的N次方表,比如分成8张表,数据迁移时把原来的每张表拆一半出来组成新的表,这样数据迁移量就小了。

    项目经验值:根据用户id的hash值取模32,把数据分成32个数据库,每个数据库再分成16张表。

    可以做个简单的计算:
    假设每天订单量1000万,每个库日增 1000万/32=31.25万,每个表日增1000万/32/16=1.95万。
    如果每天订单量1000万,3年后每个表的数据量就是1.95x3x365=2135万,还在可控范围内。

    如果业务增长特别快,并且运维还扛得住,为避免以后出现扩容问题,建议库分得越多越好。

    5.3、 业务代码如何修改

    修改业务代码部分与业务强关联,具体如何修改并不具备参考性。不需要需要注意以下几点:

    • 微服务对于特定表的分表分库,影响面只在该表所在的服务中,如果是一个单体架构的应用做分表分库,就比较麻烦;
    • 在互联网架构中,基本不适用外键约束;
    • 随着查询分离的流行,后台系统中有很多操作需要跨库查询,导致系统性能差,此时分表分库一般会解耦查询分离一起操作:先将所有数据在ES索引一份,再使用ES在后台直接查询数据。如果订单数据量很大,还有一个常见的做法:先将ES中存储索引字段(作为查询条件的字段),再将详情数据放在HBase中。

    5.4、 历史数据迁移

    在这里插入图片描述
    数据迁移基本思路:
    存储数据直接迁移,增量数据监听binlog,然后通过canal通知迁移程序搬运数据,新的数据库拥有全量数据,且校验通过后逐步切换流量。

    数据迁移解决方案详细步骤:

    • 上线canal,通过canal触发增量数据的迁移;
    • 迁移数据库脚本测试通过后,将老数据迁移到新的分表分库中;
    • 注意迁移量数据与迁移老数据的时间差,确保全部数据都被迁移过去,无遗漏;
    • 第2、3步都运行完成后,新的分表分库中已经拥有了全量数据了,这时我们可以运行数据验证的程序,确保所有数据都存放在新的数据库中;
    • 到这步数据迁移就算完成了,之后就是新版本代码上线。至于是灰度上还是直接上,需要根据实际情况决定,回滚方案也是一样。

    5.5、 未来的扩容方案是什么

    随着业务的发展,如果原来的分片设计已经无法满足日益增长的数据需求,就要考虑扩容,扩容依赖下面2点:

    • 分片策略是否可以让新表数据的迁移源只是1个旧表,而不是多个旧表,这就是前面建议使用2的N次方分表的原因;
    • 数据迁移:需要把旧分片上的数据迁移到新的分片上,这个方案与上面提及的历史数据迁移一样。
    展开全文
  • 互联网与大数据.doc

    2022-06-21 13:24:57
    eBay的分析平台每天处理的数据量高达100PB,超过了纳斯达克交 易平台所每天的数据处理量,为了准确分析用户的购物行为,eBay定义了超过500种类型 的数据,对顾客的的行为进行跟踪分析。2012年的双十一,中国互联网...
  • 在业务发展初期单表完全可以满足业务需求,在阿里巴巴开发手册也建议:单表行数超过500万行或者单表容量超过2GB才推荐进行分库分表,如果预计三年后数据量根本达不到这个级别,请不要在创建表时就分库分表。...
  •  他说,“如今,全球每天将有50亿人次在访问互联网,这意味着,更多的用户所产生数据量已经超过拥挤的网络的能力,这也是当今的数据中心必须改变的原因。”  波契特将会谈论对人们建立和设计未来的数据中心的...
  • 山 东 科 技 大 学 本科毕业设计论文 题 目 大数据...高速信息时代我们每天的生活都要产生大量数据因此我们获取数据的速度 和规模不断增长大量数据不断的被存入存储介质中形成海量数据海量数据 的存储应用及挖掘已成为
  • 互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。个人理解,互联网行业的实时计算可以分为以下...
  • 山 东 科 技 大 学 本科毕业设计论文 题 目 大数据及...随着计算机技术的革新互联网新媒体的快速发展人们的生活已经进入高速信息时代我们每天的生活都要产生大量数据因此我们获取数据的速度和规模不断增长大量数据不断
  • 数据时代 2025》报告-2017年版

    千次阅读 2022-06-12 22:35:00
    白皮书显示,未来数据增长速度惊人,2025年全球的数据量将达到163ZB,是目前的10倍之多;同时,数据的来源以及由数据飙升引起的应用趋势也会产生变化,这是数据未来的大势所趋。
  • 在业务发展初期单表完全可以满足业务需求,在阿里巴巴开发手册也建议:单表行数超过500万行或者单表容量超过2GB才推荐进行分库分表,如果预计三年后数据量根本达不到这个级别,请不要在创建表时就分库分表。...
  • 大型互联网站的数据存储与传统存储环境相比不仅是一个服务器、一个数据库那么简单,而是由网络... 随着系统中用户数据量的线性增长,数据量将会越来越多。在这样一个数据不断膨胀的环境中,数据已经如洪水般汹涌泛滥
  • 数据挖掘技术在金融领域的应用 武 扬 金融部门每天的业务都会产生大量数据利用目前的数据库系统可以有效地实现数据的 录入 查询统计等功能 但无法发现数据中存在的关系和规则无法根据现有的数据预测 未来的发展趋势 ...
  • 在大型互联网服务中,每天需要处理的请求和存储的缓存数据都是海量的,在这些大型系统中,使用单实例的redis,很难满足系统超高的并发请求以及海量数据缓存需求。大型的互联网服务中对于redis的使用,往往采用集群...
  • 互联网企业文化

    千次阅读 2020-09-08 10:25:21
    目录 1、 快速迭代,勇于试错 2、 不断反思,放空自己 3、 拥抱变化 4、 危机文化 5、 使用工具来优化效率 ...17、 互联网公司经典语录 ...一、互联网文化 ...互联网讲究的是“天下武功,唯快不破”,所...
  • 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存储大数据量的问题,主要是数据库中的两张历史数据表,一张模拟量历史数据和一张开关量历史数据表,这两张表字段设计的很简单(OrderNo,...
  • 运维人员对公司互联网业务所依赖的基础设施、基础服务、线上业务进行稳定性加强,进行日常巡检发现服务可能存在的隐患,对整体架构进行优化以屏蔽常见的运行故障,多数据中接入提高业务的容灾能力。 通过监控、日.....
  • 数据化运营管理_互联网行业(一)(流量篇)

    千次阅读 多人点赞 2016-05-22 15:16:34
    现在的工作会接触到很多...就从这个角度,来逐一分解,互联网行业中,哪些数据需要分析,怎样分析,分析的价值是什么。我会整体分为四大部分:收入相关的数据分析、成本相关的数据分析、风险(为了持续发展)相关的数据
  • 这些传感器设备每天大量产生大数据。 这些数据可用于分析以解决不同的日常问题。 本文讨论了可用于 IoT 框架的不同大数据工具和技术。 它还提出了一种如何使用大数据智能分析物联网数据集的方法。 详细解释了大数据...
  • 5、数据集市(1994-1996) 数据仓库发展的第一明显分歧是数据集市概念的产生。由于企业级数据仓库的设计、实施很困难,使得最早吃数据仓库螃蟹的公司遭到大面积的失败,因此数据仓库的建设者和分析师开始考虑只...
  • 说人类步入了信息时代,有个事情是非常重要的,就是物理世界的信息化,包括信息基础设施建设和数字化,紧接着就是如何将数字化的东西(数据)进行储存、传输、交换以及使用,这一脉络伴随着移动互联网,云计算、...
  • 物联网、工业互联网大数据的特点

    千次阅读 多人点赞 2019-07-20 09:41:38
    Gartner报告联网的设备在2019年已经超过142亿,预计2021年将达到250亿,这是一个巨大的数量,产生海量的数据。但与现在大家所熟悉的互联网相比,物联网数据有其显著不同特点,本文对其特点做一分析
  • 主要用于如何解决单表大数据量问题,提供一个解决思路。
  • 见到热云数据CEO白冬立是秋意正浓的一个下午。在刚刚搬进望京绿地中心国锦大厦40层热云数据明亮宽敞的办公室里,这位看上去就是技术出身的CEO见到老孙的第一句话就是为中午不得不陪客户而将采访时间推后半小时而道歉...
  • 02 多维度拆解案例说明 数据涨跌如何处理03 漏斗观察案例常见的渠道划分方式渠道质量跟踪04 分布情况常见的群体划分05 用户留存的分析方法一般的计算方式案例某批漫画对付费会员转化的效果评估(漏斗分析、用户分群...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 47,633
精华内容 19,053
热门标签
关键字:

互联网每天产生的数据量