精华内容
下载资源
问答
  • 来源:资本实验室随着互联网、传感器,以及各种数字化终端设备的普及,一个万物互联的世界正在成型。同时,随着数据呈现出爆炸式的指数级增长,数字化已经成为构建现代社会的基础力量...
        

    640?wx_fmt=jpeg

    来源:资本实验室

    随着互联网、传感器,以及各种数字化终端设备的普及,一个万物互联的世界正在成型。同时,随着数据呈现出爆炸式的指数级增长,数字化已经成为构建现代社会的基础力量,并推动着我们走向一个深度变革的时代。 


    那么,在这个数字洪流汹涌澎湃的新时代,具体到每一天,我们的世界到底能产生多少数据?


    为了能对后面内容的数据单位有一个大体的概念,我们可以先了解一下各数据单位。

    • 1B (Byte 字节)=8b (bit 位)

    • 1KB (Kilobyte 千字节)=1024B

    • 1MB (Megabyte 兆字节 简称“兆”)=1024KB

    • 1GB (Gigabyte 吉字节 又称“千兆”)=1024MB

    • 1TB (Trillionbyte 万亿字节 太字节)=1024GB

    • 1PB(Petabyte 千万亿字节 拍字节)=1024TB

    • 1EB(Exabyte 百亿亿字节 艾字节)=1024PB

    • 1ZB (Zettabyte 十万亿亿字节 泽字节)=1024EB

    • 1YB (Yottabyte 一亿亿亿字节 尧字节)=1024ZB


    不管是邮件发送、视频上传,还是每天的在线搜索,乃至自动驾驶汽车每天的数据收集,我们会发现,互联网时代形成的数据量是多么的不可思议。


    2025年全球每天产生的数据量将达到491EB


    据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB,相当于每天产生491EB的数据。


    640?wx_fmt=jpeg


    那么175ZB的数据到底有多大呢?1ZB相当于1.1万亿GB。如果把175ZB全部存在DVD光盘中,那么DVD叠加起来的高度将是地球和月球距离的23倍(月地最近距离约39.3万公里),或者绕地球222圈(一圈约为四万公里)。目前美国的平均网速为25Mb/秒,一个人要下载完这175ZB的数据,需要18亿年。


    随着物联网基础设施及智能手机、可穿戴设备的普及,我们每个人时刻都在产生大量的数据。我们也完全已经成为数字化的个体。


    640?wx_fmt=jpeg

    据IDC预测,2025年,全世界每个联网的人每天平均有4909次数据互动,是2015年的8倍多,相当于每18秒产生1次数据互动。


    2019年全球每天收发2936亿封电子邮件


    电子邮件是用户日常获取信息的重要渠道之一,特别是企业用户。


    据Radicati Group统计,2018年全球电子邮件用户数量达到38亿人,即全球超过一半的人口在使用电子邮件。


    640?wx_fmt=jpeg


    2018年,全球每天发送和接收的商业和消费者电子邮件的总数超过2811亿封,预计2019年每天的电子邮件数量将达到2936亿封,而到2022年年底,将达到3332亿封。


    有趣的是,即使电子邮件总数一直增长,但增长率却逐年下降。这里面显然有着社交媒体和更为便利的移动通讯带来的影响。


    一辆联网汽车每天将产生4TB的数据


    据英特尔公司预测,2020年,一辆联网的自动驾驶汽车每运行8小时将产生4TB的数据。这主要来源于自动驾驶汽车将拥有的数百个车载传感器。英特尔表示,仅摄像头就能每秒产生20-40Mb的数据,而激光雷达每秒将产生10-70MB的数据。


    640?wx_fmt=jpeg


    英特尔公司首席执行官Brian Krzanich表示,2020年互联网用户每天将产生1.5GB的数据,以此计算,每辆在路上行驶的联网汽车将产生约3000人的数据量。而一百万辆自动驾驶汽车将产生30亿人的数据。


    2025年全球物联网连接设备将达到754.4亿


    无处不在的物联网设备正在将世界变成一个“数字地球”。据HIS的数据预测,到2025年,全球物联网(IoT)连接设备的总安装量预计将达到754.4亿,约是2015年的5倍。


    640?wx_fmt=jpeg


    在各种联网设备中,可穿戴设备是重要的组成部分。据预测,到2020年,全球可穿戴设备将产生28PB的数据。


    全世界每天有50亿次在线搜索


    互联网时代,搜索引擎已经成为人们寻找日常解决方案的重要渠道。有事没事搜一下,已经成为工作与生活的常态。特别是智能手机的普及,让我们随时随地都在产生搜索数据。


    640?wx_fmt=jpeg


    据Smart insight估计,目前全球每天有50亿次搜索,其中35亿次搜索来自Google,占全球搜索量的70%,相当于每秒处理4万多次搜索。而回到2000年,在那个时候,Google一年的搜索量才140亿次。


    无处不在的社交数据


    智能手机让人们的社交生活彻底数字化,每天在社交网络上花费的时间越来越多,产生的数据量也相应地不断增长。


    640?wx_fmt=jpeg


    据Facebook统计,Facebook每天产生4PB的数据,包含100亿条消息,以及3.5亿张照片和1亿小时的视频浏览。此外,在Instagram上,用户每天要分享9500万张照片和视频;Twitter用户每天要发送5亿条信息。


    未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


    未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


      如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


    640?wx_fmt=jpeg


    展开全文
  • 互联网公司数据安全保护新探索

    千次阅读 2018-05-23 09:52:12
    服务器对于互联网公司来说,是可以接受的损失,但敏感数据泄漏,则会对公司产生重大声誉、经济影响。 在互联网公司的数据安全领域,无论是传统理论提出的数据安全生命周期,还是安全厂商提供的解决方案,...

    背景

    近年来,数据安全形势越发严峻,各种数据安全事件层出不穷。在当前形势下,互联网公司也基本达成了一个共识:虽然无法完全阻止攻击,但底线是敏感数据不能泄漏。也即是说,服务器可以被挂马,但敏感数据不能被拖走。服务器对于互联网公司来说,是可以接受的损失,但敏感数据泄漏,则会对公司产生重大声誉、经济影响。

    在互联网公司的数据安全领域,无论是传统理论提出的数据安全生命周期,还是安全厂商提供的解决方案,都面临着落地困难的问题。其核心点在于对海量数据、复杂应用环境下的可操作性不佳。

    例如数据安全生命周期提出,首先要对数据进行分类分级,然后才是保护。但互联网公司基本上都是野蛮生长,发展壮大以后才发现数据安全的问题。但存量数据已经形成,日以万计的数据表在增长,这种情况下如何实现数据分类分级?人工梳理显然不现实,梳理的速度赶不上数据增长速度。

    再例如安全厂商提供的数据审计解决方案,也都是基于传统关系型数据库的硬件盒子。Hadoop环境下的数据审计方案是什么?面对海量数据,很多厂商也买不起这么多硬件盒子啊。

    因此,互联网公司迫切需要一些符合自身特点的手段,来进行数据安全保障。为此,美团点评信息安全中心进行了一些具体层面的探索。这些探索映射到IT的层面,主要包括应用系统和数据仓库,接下来我们分别阐述。

    一、应用系统

    应用系统分为两块,一是对抗外部攻击,是多数公司都有的安全意识,但意识不等于能力,这是一个负责任企业的基本功。传统问题包括越权、遍历、SQL注入、安全配置、低版本漏洞等,这一类在OWASP的Top10风险都有提到,在实践中主要考虑SDL、安全运维、红蓝对抗等手段,且以产品化的形式来解决主要问题。这里不做重点介绍。

    1.1 扫号及爬虫

    新的形势下,还面临扫号、爬虫问题。扫号是指撞库或弱口令:撞库是用已经泄漏的账号密码来试探,成功后轻则窃取用户数据,重则盗取用户资金;弱口令则是简单密码问题。对于这类问题,业界不断的探索新方法,包括设备指纹技术、复杂验证码、人机识别、IP信誉度,试图多管齐下来缓解,但黑产也在不断升级对抗技术,包括一键新机、模拟器、IP代理、人类行为模仿,因此这是个不断的对抗过程。

    举个例子,有公司在用户登录时,判断加速等传感器的变化,因为用户在手机屏幕点击时,必然会带来角度、重力的变化。如果用户点击过程中这些传感器没有任何变化,则有使用脚本的嫌疑。再加上一个维度去判断用户近期电量变化,就可以确认这是一台人类在用的手机,还是黑产工作室的手机。黑产在对抗中发现公司用了这一类的策略,则很轻易的进行了化解,一切数据都可以伪造出来,在某宝上可以看到大量的此类技术工具在出售。

    爬虫对抗则是另一个新问题,之前有文章说,某些公司的数据访问流量75%以上都是爬虫。爬虫不带来任何业务价值,而且还要为此付出大量资源,同时还面临数据泄漏的问题。

    在互联网金融兴起后,爬虫又产生了新的变化,从原来的未授权爬取数据,变成了用户授权爬取数据。举例来说,小张缺钱,在互联网金融公司网站申请小额贷款,而互联网金融公司并不知道小张能不能贷,还款能力如何,因此要求小张提供在购物网站、邮箱或其他应用的账号密码,爬取小张的日常消费数据,作为信用评分参考。小张为了获取贷款,提供了账号密码,则构成了授权爬取。这和以往的未授权爬取产生了很大的变化,互联网金融公司可以进来获取更多敏感信息,不但加重了资源负担,还存在用户密码泄漏的可能。

    这里写图片描述

    对爬虫的对抗,也是一个综合课题,不存在一个技术解决所有问题的方案。解决思路上除了之前的设备指纹、IP信誉等手段之外,还包括了各种机器学习的算法模型,以区分出正常行为和异常行为,也可以从关联模型等方向入手。但这也是个对抗过程,黑产也在逐渐摸索试探,从而模拟出人类行为。未来会形成机器与机器的对抗,而决定输赢的,则是成本。

    1.2 水印

    近年来业界也出现了一些将内部敏感文件,截图外发的事件。有些事件引起了媒体的炒作,对公司造成了舆论影响,这就需要能够对这种外发行为进行溯源。而水印在技术上要解决的抗鲁棒性问题,针对图片的水印技术包括空间滤波、傅立叶变换、几何变形等,简单的说是将信息经过变换,在恶劣条件下还原的技术。

    1.3 数据蜜罐

    是指制作一个假的数据集合,来捕获访问者,从而发现攻击行为。国外已经有公司做出了对应的产品,其实现可以粗暴地理解为,在一个数据文件上加入了一个“木马”,所有的访问者再打开后,会把对应记录发回服务器。通过这个“木马”,可以追踪到攻击者细节信息。我们也曾做过类似的事情,遗憾的是,这个数据文件放在那里很久,都无人访问。无人访问和我我们对蜜罐的定位有关,现阶段我们更愿意把它作为一个实验性的小玩意,而不是大规模采用,因为“木马”本身,可能带有一定的风险。

    1.4 大数据行为审计

    大数据的出现,为关联审计提供了更多的可能性,可以通过各种数据关联起来分析异常行为。这方面,传统安全审计厂商做了一些尝试,但从客观的角度来看,还比较基础,无法应对大型互联网公司复杂情况下的行为审计,当然这不能苛求传统安全审计厂商,这与生意有关,生意是要追求利润的。这种情况下,互联网公司就要自己做更多的事情。

    例如防范内鬼,可以通过多种数据关联分析,通过“与坏人共用过一个设备”规则,来发现内鬼。举一反三,则可以通过信息流、物流、资金流等几个大的方向衍生出更多符合自身数据特点的抓内鬼规则。

    除此之外,还可以通过UEBA(用户与实体行为分析)来发现异常,这需要在各个环节去埋点采集数据,后端则需要对应的规则引擎系统、数据平台、算法平台来支撑。

    例如常见的聚类算法:某些人与大多数人行为不一致,则这些人可能有异常。具体场景可以是:正常用户行为首先是打开页面,选择产品,然后才是登录、下单。而异常行为可以是:先登录,然后修改密码,最后下单选了一个新开的店,使用了一个大额优惠券。这里每一个数据字段,都可以衍生出各种变量,通过这些变量,最后可以有一个异常判断。

    再例如关联模型,一个坏人团伙,通常是有联系的。这些维度可以包括IP、设备、WiFi MAC地址、GPS位置、物流地址、资金流等若干维度,再结合自己的其他数据,可以关联出一个团伙。而团伙中如果有一个人标记为黑,则关系圈则会根据关系强弱进行信誉打分降级。

    这里写图片描述

    UEBA的基础是有足够的数据支撑,数据可以是外部的数据供应商。例如腾讯、阿里都提供一些对外数据服务,包括对IP信誉的判断等,使用这些数据,可以起到联防联控的效果。也可以是内部的,互联网公司总会有若干条业务线服务一个客户,这就要看安全人员的数据敏感度了,哪些数据能为自己所用。

    1.5 数据脱敏

    在应用系统中,总会有很多用户敏感数据。应用系统分为对内和对外,对外的系统脱敏,主要是防止撞号和爬虫。对内的系统脱敏,主要是防止内部人员泄漏信息。

    对外系统的脱敏保护,可以分层来对待。默认情况下,对于银行卡号、身份证、手机号、地址等关键信息,强制脱敏,以**替换关键位置,这样即使被撞库或者爬虫,也获取不到相关信息,从而保护用户数据安全。但总有客户需要看到自己或修改自己的完整信息,这时就需要分层保护,主要是根据常用设备来判断,如果是常用设备,则可以无障碍的点击后显示。如果非常用设备,则推送一个强验证。

    在日常业务中,美团点评还有一个特点。外卖骑手与买家的联系,骑手可能找不到具体位置,需要和买家进行沟通,这时至少包括了地址、手机号两条信息暴露。而对于买家信息的保护,我们也进行了摸索试探。手机号码信息,我们通过一个“小号”的机制来解决,骑手得到的是一个临时中转号码,用这个号码与买家联系,而真实号码则是不可见的。地址信息,我们在系统中使用了图片显示,在订单完成之后,地址信息则不可见。

    对内系统的脱敏保护,实践中可以分为几个步骤走。首先是检测内部系统中的敏感信息,这里可以选择从Log中获取,或者从JS前端获取,两个方案各有优劣。从Log中获取,要看公司整体上对日志的规范,不然每个系统一种日志,对接周期长工作量大。从前端JS获取,方案比较轻量化,但要考虑性能对业务的影响。

    检测的目的是持续发现敏感信息变化,因为在内部复杂环境中,系统会不断的改造升级,如果缺少持续监控的手段,会变成运动式工程,无法保证持续性。

    检测之后要做的事情,则是进行脱敏处理。脱敏过程需要与业务方沟通明确好,哪些字段必须强制完全脱敏,哪些是半脱敏。应用系统权限建设比较规范的情况下,可以考虑基于角色进行脱敏,例如风控案件人员,是一定需要用户的银行卡完整信息的,这时候可以根据角色赋予免疫权限。但客服人员则不需要查看完整信息,则进行强制脱敏。在免疫和脱敏之间,还有一层叫做半脱敏,是指在需要的时候,可以点击查看完整号码,点击动作则会被记录。

    就脱敏整体而言,应该有一个全局视图。每天有多少用户敏感信息被访问到,有多少信息脱敏,未脱敏的原因是什么。这样可以整体追踪变化,目标是不断降低敏感信息访问率,当视图出现异常波动,则代表业务产生了变化,需要追踪事件原因。

    二、数据仓库

    数据仓库是公司数据的核心,这里出了问题则面临巨大风险。而数据仓库的治理,是一个长期渐进的建设过程,其中安全环节只是其中一小部分,更多的则是数据治理层面。本文主要谈及安全环节中的一些工具性建设,包括数据脱敏、隐私保护、大数据行为审计、资产地图、数据扫描器。

    2.1 数据脱敏

    数据仓库的脱敏是指对敏感数据进行变形,从而起到保护敏感数据的目的,主要用于数据分析人员和开发人员对未知数据进行探索。脱敏在实践过程中有若干种形式,包括对数据的混淆、替换,在不改变数据本身表述的情况下进行数据使用。但数据混淆也好,替换也好,实际上都是有成本的,在大型互联网公司的海量数据情况下,这种数据混淆替换代价非常高昂,
    实践中常用的方式,则是较为简单的部分遮盖,例如对手机号的遮盖,139****0011来展示,这种方法规则简单,能起到一定程度上的保护效果。

    但有些场景下,简单的遮盖是不能满足业务要求的,这时就需要考虑其他手段,例如针对信用卡号码的的Tokenization,针对范围数据的分段,针对病例的多样性,甚至针对图片的base64遮盖。因此需要根据不同场景提供不同服务,是成本、效率和使用的考量结果,

    数据遮盖要考虑原始表和脱敏后的表。原始数据一定要有一份,在这个基础上是另外复制出一张脱敏表还是在原始数据上做视觉脱敏,是两种不同成本的方案。另外复制一张表脱敏,是比较彻底的方式,但等于每张敏感数据表都要复制出来一份,对存储是个成本问题。而视觉脱敏,则是通过规则,动态的对数据展现进行脱敏,可以较低成本的实现脱敏效果,但存在被绕过的可能性。

    2.2 隐私保护

    隐私保护上学术界也提出了一些方法,包括K匿名、边匿名、差分隐私等方法,其目的是解决数据聚合情况下的隐私保护。例如有的公司,拿出来一部分去除敏感信息后的数据公开,进行算法比赛。这个时候就要考虑不同的数据聚合后,可以关联出某个人的个人标志。目前看到业界在生产上应用的是Google的DLP API,但其使用也较为复杂,针对场景比较单一。隐私保护的方法,关键是要能够进行大规模工程化,在大数据时代的背景下,这些还都是新课题,目前并不存在一个完整的方法来解决隐私保护所有对抗问题。

    2.3 大数据资产地图

    是指对大数据平台的数据资产进行分析、数据可视化展现的平台。最常见的诉求是,A部门申请B部门的数据,B作为数据的Owner,当然想知道数据给到A以后,他是怎么用的,有没有再传给其他人使用。这时候则需要有一个资产地图,能够跟踪数据资产的流向、使用情况。换个角度,对于安全部门来说,需要知道当前数据平台上有哪些高敏感数据资产,资产的使用情况,以及平台上哪些人拥有什么权限。因此,通过元数据、血缘关系、操作日志,形成了一个可视化的资产地图。形成地图并不够,延伸下来,还需要能够及时预警、回收权限等干预措施。

    2.4 数据库扫描器

    是指对大数据平台的数据扫描,其意义在于发现大数据平台上的敏感数据,从而进行对应的保护机制。一个大型互联网公司的数据表,每天可能直接产生多达几万张,通过这些表衍生出来更多的表。按照传统数据安全的定义,数据安全第一步是要分类分级,但这一步就很难进行下去。在海量存量表的情况下,该怎样进行分类分级?人工梳理显然是不现实的,梳理的速度还赶不上新增的速度。这时候就需要一些自动化的工具来对数据进行打标定级。因此,数据库扫描器可以通过正则表达式,发现一些基础的高敏感数据,例如手机号、银行卡等这些规整字段。对于非规整字段,则需要通过机器学习+人工标签的方法来确认。

    综上,数据安全在业务发展到一定程度后,其重要性越发突出。微观层面的工具建设是一个支撑,在尽量减少对业务的打扰同时提高效率。宏观层面,除了自身体系内的数据安全,合作方、投资后的公司、物流、骑手、商家、外包等各类组织的数据安全情况,也会影响到自身安全,可谓“唇亡齿寒”。而在当前各类组织安全水平参差不齐的情况下,就要求已经发展起来的互联网公司承担更多的责任,帮助合作方提高安全水平,联防共建。

    作者简介

    鹏飞,美团点评集团安全部数据安全负责人,负责集团旗下全线业务的数据安全与隐私保护。

    团队介绍

    美团点评集团安全部汇集国内多名尖端安全专家及诸多优秀技术人才,坚持打造“专业、运营和服务”的理念,共同为集团全线业务的高速发展保驾护航。团队致力于构建一套基于海量 IDC 环境下横跨网络层、虚拟化层、Server 软件层(内核态/用户态)、语言执行虚拟机层(JVM/Zend/JavaScript V8)、Web应用层、数据访问层(DAL)的基于大数据+机器学习的全自动安全事件感知系统并努力打造内置式安全架构和纵深防御体系,借助广阔平台及良机,深度发展,注重企业安全建设方面的实践,向安全团队最佳发展方向努力前行。

    安利个小广告

    美团点评集团安全部正在招募Web&二进制攻防、后台&系统开发、机器学习&算法等各路小伙伴,对在安全和工程技术领域有所追求的同学来说应该是一个很好的机会。

    如果你想加入我们,欢迎简历请发至邮箱zhaoyan17#meituan.com

    具体职位信息可参考链接FreeBuf招聘站

    美团点评 SRC主页美团点评安全应急响应中心

    敬请关注我们的企业安全系列文章——面向实操的大型互联网安全解决方案

    《从Google白皮书看企业安全最佳实践》

    《互联网企业安全之端口监控》

    Coming Soon

    《个人信息保护关键点识别与思考》

    《美团点评千亿量级WAF是如何打造的》

    《海量IDC下的分布式入侵感知系统设计与实现》

    《大型互联网安全体系成熟度度量》

    这里写图片描述

    展开全文
  • 互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。个人理解,互联网行业的实时计算可以分为以下...


    1. 实时计算的概念

    互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。个人理解,互联网行业的实时计算可以分为以下两种应用场景:

    1)  数据源是实时的不间断的,要求对用户的响应时间也是实时的。

    主要用于互联网流式数据处理。所谓流式数据是指将数据看作是数据流的形式来处理。数据流则是在时间分布和数量上无限的一系列数据记录的集合体;数据记录是数据流的最小组成单元。举个例子,对于大型网站,活跃的流式数据非常常见,这些数据包括网站的访问PV/UV、用户访问了什么内容,搜索了什么内容等。实时的数据计算和分析可以动态实时地刷新用户访问数据,展示网站实时流量的变化情况,分析每天各小时的流量和用户分布情况,这对于大型网站来说具有重要的实际意义。

    2)  数据量大且无法或没必要预算,但要求对用户的响应时间是实时的。

    主要用于特定场合下的数据分析处理。当数据量很大,同时发现无法穷举所有可能条件的查询组合或者大量穷举出来的条件组合无用的时候,实时计算就可以发挥作用,将计算过程推迟到查询阶段进行,但需要为用户提供实时响应[参考链接]。

    2. 实时计算相关技术

    互联网上海量数据(一般为日志流)的实时计算过程可以被划分为以下三个阶段:数据的产生与收集阶段、传输与分析处理阶段、存储对对外提供服务阶段。下面分别进行简单的介绍:

    2.1 数据实时采集

    需求:功能上保证可以完整的收集到所有日志数据,为实时应用提供实时数据;响应时间上要保证实时性、低延迟在1秒左右;配置简单,部署容易;系统稳定可靠等。

    目前,互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、Cloudera开源的Flume,淘宝开源的TimeTunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求。

    2.2 数据实时计算

    传统的数据操作,首先将数据采集并存储在DBMS中,然后通过query和DBMS进行交互,得到用户想要的答案。整个过程中,用户是主动的,而DBMS系统是被动的。

    但是,对于现在大量存在的实时数据,比如股票交易的数据,这类数据实时性强,数据量大,没有止境,传统的架构并不合适。流计算就是专门针对这种数据类型准备的。在流数据不断变化的运动过程中实时地进行分析,捕捉到可能对用户有用的信息,并把结果发送出去。整个过程中,数据分析处理系统是主动的,而用户却是处于被动接收的状态。

    需求:适应流式数据、不间断查询;系统稳定可靠、可扩展性好、可维护性好等。

    实时流计算框架:Yahoo开源的S4、Twitter开源的Storm,还有EsperStreambaseHStreaming等。

    有关计算的一些注意点:分布式计算,并行计算(节点间的并行、节点内的并行),热点数据的缓存策略,服务端计算。

    2.3 实时查询服务

    全内存:直接提供数据读取服务,定期dump到磁盘或数据库进行持久化。

    半内存:使用Redis、Memcache、MongoDB、BerkeleyDB等内存数据库提供数据实时查询服务,由这些系统进行持久化操作。

    全磁盘:使用HBase等以分布式文件系统(HDFS)为基础的NoSQL数据库,对于key-value引擎,关键是设计好key的分布。

    3. 应用举例

    对于电子商务网站上的店铺:

    1)实时展示一个店铺的到访顾客流水信息,包括访问时间、访客姓名、访客地理位置、访客IP、访客正在访问的页面等信息;

    2)显示某个到访顾客的所有历史来访记录,同时实时跟踪显示某个访客在一个店铺正在访问的页面等信息;

    3)支持根据访客地理位置、访问页面、访问时间等多种维度下的实时查询与分析。

    更详细的内容,以后再进一步展开介绍。

    4. 总结的话

    1)并不是任何应用都做到实时计算才是最好的。

    2)使用哪些技术和框架来搭建实时计算系统,需要根据实际业务需求进行选择。

    3)对于分布式系统来说,系统的可配置性、可维护性、可扩展性十分重要,系统调优永无止境。

    5. 参考链接

    1)Scribe:https://github.com/facebook/scribe

    2)Kafka:http://sna-projects.com/kafka/

    3)Flume:https://github.com/cloudera/flume/

    4)Chukwa:http://incubator.apache.org/chukwa/

    5)TimeTunnel:http://code.taobao.org/p/TimeTunnel/

    6)S4:http://s4.io

    7)StreamBase:http://www.streambase.com

    8)HStreaming:http://www.hstreaming.com/

    9)Esper:http://esper.codehaus.org/

    10)Storm:http://engineering.twitter.com/2011/08/storm-is-coming-more-details-and-plans.html

    展开全文
  • 数据化运营管理_互联网行业(一)(流量篇)

    千次阅读 多人点赞 2016-05-22 15:16:34
    现在的工作会接触到很多...就从这个角度,来逐一分解,互联网行业中,哪些数据需要分析,怎样分析,分析的价值是什么。我会整体分为四大部分:收入相关的数据分析、成本相关的数据分析、风险(为了持续发展)相关的数据

            现在的工作会接触到很多互联网公司做bi分析的朋友,想就着这个机会,把自己所见到、学到的整理一下与大家分享,同时也希望通过分享来增加与相通兴趣的朋友的交流。文章中存在的各种不足或者错误,欢迎大家评论。

            关于数据化管理的文章书籍已经非常多了,我这里只是近一步整理。数据分析也是为了公司的发展,粗暴一点讲,是为了公司的盈利和持续的盈利。就从这个角度,来逐一分解,互联网行业中,哪些数据需要分析,怎样分析,分析的价值是什么。我会整体分为四大部分:收入相关的数据分析、成本相关的数据分析、风险(为了持续发展)相关的数据分析、综合管理篇。

         下面将进行逐一介绍(分阶段更新)。


    第一章 收入相关数据分析

      互联网的商业模式千变万化,但其盈利模式目前大抵可以分为以下三种:一是向用户出售商品或服务,其中电商和o2o就属这种模式;二是靠广告来进行盈利,典型的例如google、百度以及其他平台类互联网公司;三是直接向用户收取费用,目前游戏公司大都属于这种模式。不同收入模式也有着不同的数据指标,我们分别对其进行介绍。

    一、向用户出售商品和服务模式

             电商公司和o2o类公司主要是通过这种模式来盈利,公司的收入是由一个个订单堆积出来,其收入状况可通过订单状况得以体现。订单是由用户购买了相关的商品或服务产生,可以说用户和商品或服务为订单的两大基本元素,公司收入下降、增长、异常最终都可以追踪到用户与商品这两大元素上。这样我们将公司收入相关数据拆解为三大模块:用户、商品或服务、订单。

    用户

             公司收入、订单都是由用户消费所产生,用户的消费流程可以划分为以下四个阶段:引流、转化、消费、存留。我们所希望的理想情况就是大量的用户进来并且产生消费,并且持续的产生消费。然而现实一般是和我们所希望的相差甚远的,我们能做的,就是对这些数据进行分析,根据数据情况进行策略对调整,让现实与理想情况之间的距离越来越近。

             我们一般将用户分为新用户和老用户,如下图所示:


            无论新老用户,我们都会关心两块内容,一个是引流(拉新),一个是转化,最终以数据的形式体现出来,就是流量与转化率。


    引流

            一个购物中心,建在荒郊野外,没人进来,装饰再奢华也没什么卵用。根据CNNIC统计,中国网民数量在2015年已达6.88亿,增速稳定,依然维持在5.7%。京东平台2015年第四季度的1.319亿相比2014年第四季度的8280万,流量同比增长率高达59%。这些数字在高速我们,资源是稀缺的,但是却永远都有增长空间的。我们需要精打细算,实现对每种渠道每种类型的流量来源的最大价值利用。

    分析目标:通过对流量的分析,保证流量的稳定性,并通过调整,尝试提高流量

    分析角度:

            1.观察流量规律,便于活动安排、服务调整

            2.发现流量异常,分析异常原因并及时调整

            3.观察流量结构,分析其合理性,并作出调整

            4.追踪流量情况,衡量活动或者调整效果

    分析方法

    (我们先了解关于流量的一些基本数据指标:访客数(uv)、浏览量(pv)、访问次数(visits),是常用的衡量流量多少的数据指标;平均访问深度(浏览量/访问次数)、平均停留时间(总停留时间/总浏览量)、跳失率(跳出次数/访问次数)是用来衡量流量质量优劣的指标。)

             很多方法都可以完成上述的目标,将数据进行可视化展示,以一个合理的角度观察数据,会使得数据展现会更加清晰,降低发现问题的难度。下面将以图表的形式,实现对各个角度的数据分析。

    1.观察流量规律,便于活动安排、服务调整 


            从上图中,可以发现以下规律:一天当中,访问集中在9点到11点和14点到17点这段工作时间,一年中则在春节前后的访问量比较大,每周中也是访问集中在工作日。大部分互联网业务的规律会与上述情况不同,一般2c的业务会在休息时间访问量巨大,可能刚好遇上述情况相反,但并不妨碍以上的分析方式。

            一般来说,流量都是以每天中的时段、季节、节假日、星期这样的规律来分布的。所以可以将以上几面统一放到同一页面中进行观测,可以全面的了解应用的访问规律。并且通过对渠道、业务的选择,可以观测具体的渠道、业务的访问规律。

             分析出流量的规律,对活动效果、业务调整具有重大影响。例如:a公司想开展为期两天每天两小时的消费满200减50并赠送肥皂的活动,那么活动开始时间最好是选在周三、周四,时间在上午的9、10点钟。这样才能在一定的时间内被大部分用户所知道,毕竟活动的广告时间成本都是钱。另外可以根据不同时期访问量的密集程度,调整公司的业务布局,进行合理的成本控制等。


    2.发现流量异常,分析异常原因并及时调整 


            通过对上图的观察,可以发现两个异常现象:

             a. 流量按周的规律分布,工作日的流量较高,周末的流量比较低,但是上图中5月2日和4月1日是周一,流量也非常低,观察日历发现这两天为五一和清明假期,依然是休息日,所以流量不高。属于正常现象。

            b. 3月21日到4月17日到流量图中,工作日到流量一般都维持在2400左右,而观察4月18日到5月15日到图,发现流量从4月19日下滑开始,很少突破2000,也就是流量在近一个月有明显下滑。原因可能是对手购买了竞价排名、自己的seo做的不好等等。问题发现,还要根据实际情况进一步分析具体原因。

            一般来说,流量以周为单位,周期性分布的情况是比较多的,将视角拉长,一次性多看几个周的数据,便于发现问题。将一段时间内的数据与历史数据进行对比,也有助于问题的发现。

            除上图中对流量异常的简单监控外,可以对流量进行进一步分解,如下图所示,通过图表联动,观察具体渠道或者业务的流量情况,从而完成对问题的追踪定位,例如通过进一步分析发现,4月中旬开始的流量下降主要出现在pc端,那么可以进一步缩小问题的范围。便于问题的解决。 





    3.观察流量结构,分析其合理性,并作出调整 


             流量结构一般可分为渠道结构、业务结构、地区结构。通过查询一段时间内的各结构占比,了解流量组成。

             如上图所示,在渠道中,pc占比相对过大,而app占比不高,app对于用户具有更大的黏度,所以应分析app占比过低原因,并想办法提高app流量占比。下面的折线图可以对各渠道的流量情况进行追踪,分析占比不合理是短期内出现的,还是长期存在的,辅助问题的分析。

            怎样的占比才是合理的,在不同的场景下是不同的,但通常来说,付费流量占比不应过高,通用渠道占比应占据主导地位。对于各业务来说就更加不同。但是可以通过分析对比行业数据或者竞争对手的数据,来分析合理性,当然前提是可以获取到相关数据。

            通常渠道来源很多,自主访问、搜索引擎、淘宝付费、京东付费等等。有人会通过渠道流量占比来分析各渠道的质量。仅仅根据流量情况来衡量质量是不全面的,需要配合转化率和roi一起。具体会在后面写到转化率时一起考虑。

    4.追踪流量情况,衡量活动或者调整效果

            对流量的追踪,一般就是对流量的监控,观察活动前、活动中、活动后的变化情况,评估活动效果。一般来讲,活动期间流量会大幅提升,活动后有一定回落,是一个成功的活动。如果活动期间流量上升幅度不大,或者活动结束后流量大幅度跌落,甚至流量低于活动前的正常流量很多,都不能说是一个成功的活动。 


           当然,若分析活动效果,需要追踪的不仅仅是流量,包括转化率、订单数、成交额、都需要进行追踪。后面会进行针对性的介绍。

           除活动外,公司可能会常常调整渠道投入、页面布局、功能改进等等,每一项调整后,都对流量进行追踪观察,可以分析调整的效果。这里只介绍流量的追踪,在进行产品或渠道的优化调整后,同时需要追踪的还有转化率等,关于转化率会在后面进行介绍。



    (下一篇将针对转化率进行专题介绍。  欢迎交流,相互学习)

    展开全文
  • 解决单表大数据量问题 2.学习/操作 2.1 阅读 MySQL单表数据量过千万,采坑优化记录,完美解决方案 原创互联网编程2018-12-10 11:52:42 问题概述 使用阿里云rds for MySQL...
  • 互联网

    千次阅读 2015-08-01 16:23:44
    互联网+技术 又落后了。。我们还在“互联网+”,美国的技术已经到了什么地步? 2015-05-13 谷来丰 最商业 离财务自由更近一公里,【最商业】,做中国最好的商业自媒体,点击标题下名字可关注。   在中国举国...
  • 今天我会讲三个议题,一是用18亿数据解读现在移动互联网的生态圈。二是看看数据有什么样的应用。三是大数据的隐私保护问题。 我们的数据提及了三次,我们移动互联网的设备是12.4亿,去年年底的时候是10.6亿,半年的...
  • 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存储大数据量的问题,主要是数据库中的两张历史数据表,一张模拟量历史数据和一张开关量历史数据表,这两张表字段设计的很简单(OrderNo,...
  • [互联网思维(转)]互联网思维法则

    千次阅读 2016-10-18 21:15:32
    成功的互联网产品多抓住了“屌丝群体”、“草根一族”的需求。这是一个人人自称“屌丝”而骨子里认为自己是“高富帅”和“白富美”的时代。当你的产品不能让用户成为产品的一部分,不能和他们连接在一起,你的产品...
  • 利用MySQL数据库如何解决大数据量存储问题? 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存储大数据量的问题,主要是数据库中的两张历史数据表,一张模拟量历史数据和一张开关量历史...
  • 移动互联网

    千次阅读 2013-05-14 10:18:44
    移动互联网 百科名片   移动互联网 移动互联网,就是将移动通信和互联网二者结合起来,成为一体。移动通信和互联网成为当今世界发展最快、市场潜力最大、前景最诱人的两大业务,它们的增长速度...
  • 互联网思维方式指南

    千次阅读 2013-12-31 14:09:00
    本文尝试通过问答的方式解释互联网的思维方式。 互联网人在做什么?  最近和一些不同行业的朋友聊天,大家都觉得互联网和移动互联网搞的很热闹,但从传统角度很难看到盈利模式,只在在做概念和用户数量,而且这些...
  • 此外,由于这一类型的业务数据量普遍较大,比如清算系统的清分明细、云管平台的资源计量明细、订单系统的订单流水和云计算主机资源上报的性能数据等,如果只是使用单库单表存储的普通方案,那么在单表数据量达到千万...
  • “用户每天产生的日志大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程...
  • 一、有哪些类型的OLAP数仓?1.按数据量划分对一件事物或一个东西基于不同角度,可以进行多种分类方式。对数仓产品也一样。比如我们可以基于数据量来选择不同类型的数量,如下图所示:本系列文章...
  • 互联网30年,泡沫如梦

    千次阅读 多人点赞 2020-05-31 13:48:46
    然后再有新的泡沫产生互联网的历史,就是泡沫浮起和破灭的历史。 1 1993年,美国白宫宣布开始提供“在线服务”,在场的记者面面相觑,不知 “在线服务”和“电话服务”有什么区别。 不久,联合国也...
  • 主要解决数据研发ETL 错综复杂的依赖关系,而不能直观监控任务健康状态等问题。EasyScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。...
  • 说人类步入了信息时代,有个事情是非常重要的,就是物理世界的信息化,包括信息基础设施建设和数字化,紧接着就是如何将数字化的东西(数据)进行储存、传输、交换以及使用,这一脉络伴随着移动互联网,云计算、...
  • 互联网浪费了多少能源?

    千次阅读 2012-10-08 12:07:21
    互联网浪费了多少能源? ...不间断运行的无数互联网数据中心,浪费了海量的能源。 分享到: 新浪微博 人人 豆瓣 QQ空间 腾讯微博 Facebook的首席工程师杰夫·罗斯柴尔德(Jeff
  • 漫谈互联网思维

    千次阅读 2015-06-21 11:05:02
    我的互联网思维观 互联网思维,这个观念在每次互联网发生变革的时候,无论99年的互联网还是09年的移动互联网,均会被再次提及——代表一种新的潮流,代表一种颠覆方式,代表生产关系与生产力的变革,好像成为治疗...
  • 物联网、工业互联网大数据的特点

    千次阅读 多人点赞 2019-07-20 09:41:38
    Gartner报告联网的设备在2019年已经超过142亿,预计2021年将达到250亿,这是一个巨大的数量,产生海量的数据。但与现在大家所熟悉的互联网相比,物联网数据有其显著不同特点,本文对其特点做一分析

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 43,031
精华内容 17,212
关键字:

互联网每天产生的数据量