订阅软件研发RSS CSDN首页> 软件研发

【CTO讲堂】独家直播双十一全网动态?前黑客“劳改”带你玩转大数据

发表于2015-11-24 10:26| 次阅读| 来源CSDN| 0 条评论| 作者蒲婧

摘要:从双十一的活动数据监测中,得出了哪些有意思的结论?流化数据处理体系有什么优势?数据采集系统和数据处理系统的效率提升了多少倍?为什么采用Kafka,优势是什么?本文为星图数据CTO崔仑在CTO讲堂的演讲分享。

为了帮助IT从业者职业之路拥有更多收获,在诸多C粉的殷切期待下,由 CTO俱乐部打造的CTO线上讲堂自登场以来获得大家好评。本期邀请星图数据CTO崔仑带来“独家直播双十一全网动态?前黑客“劳改”带你玩转大数据 ”的主题分享。

欢迎加入CTO讲堂微信群与业界大咖零距离沟通,11月26日本期讲堂报名方式拖至文末查看。


分享嘉宾:星图数据CTO 崔仑

嘉宾简介:崔仑,知名“黑客”,搜索引擎及信息安全专家,10年互联网、软件研发经验。曾在阿里巴巴设计并主导开发淘宝及天猫若干一线数据产品,包括站内搜索、一淘、阿里妈妈广告引擎等。在此之前,曾任瑞星科技高级软件工程师以及TOM软件工程师。精通搜索引擎及高并发数据服务的架构设计研发,对大数据及云计算领域有深入研究。

公司简介:星图数据(Syntun)是消费领域专业的大数据产品、服务和解决方案提供商;专注为企业、互联网平台及消费者提供全方位专业数据服务。使用自主研发的大数据技术,并依靠长期积累的行业零售研究、用户研究及数据处理经验,以及独到的大数据分析体系和云计算处理技术,打造了一条为品牌制造企业、线上流通平台以及网购消费者提供全方位专业数据服务的消费领域大数据服务产业链。

主要产品:

  • D-Matrix(数据矩阵)大数据分析系统:为品牌企业提供丰富、直观的数据查询、分析与预测功能。D-Matrix是基于iNebula(分布式大数据获取与存储系统)与WarpEngine(大数据处理与分析引擎),集成了搜索引擎、分布式计算、机器自学习算法等大数据领域的领先技术,为品牌企业提供丰富、直观的数据查询、分析与预测功能。

  • SkyScope(天镜)线上渠道巡检系统:帮助企业及时了解渠道的经营状况、实时进行渠道巡查、发现和查处渠道的违规行为。SkyScope线上渠道巡检系统,通过搜索引擎、数据挖掘等技术,为品牌企业提供实时的渠道监控与管理工具。帮助企业及时了解渠道的经营状况、实时进行渠道巡查、发现和查处渠道的违规行为,并以短信、邮件、APP推送等方式,实现实时预警。

  • AtomPower(原子力)SKU单品分析系统:为企业提供单品监控与管理工具,帮助企业及时了解单品的销售市场状况。AtomPower SKU单品分析系统拥有及时、细致的庞大的基础数据资源。能够实现数据每日更新。强大的大数据引擎,可以实现快速、自由的数据展现、分析与追溯,以及海量的数据整理和挖掘。

以下是11月20日CTO讲堂现场完整速记:

主持人:今天讲堂开始啦,欢迎星图数据CTO崔仑,请您跟大家介绍下自己吧。

崔仑:hi,大家好。我是星图数据的技术负责人崔仑。我先自我介绍一下,我是2005年本科毕业参加工作的,至今刚好10年。从小就喜欢折腾电脑,大学学的电气工程的强电方向,和计算机硬件优点相关。毕业之后,进入了一个互联网公司,tom.com。当年还能排得上号儿的一个门户网站。

后来公司的SP业务下降很厉害,公司转型,收购了ebay中国。我也是机缘巧合,被抽调去做ebay中国的站内商品搜索。折腾了半年,也算是进入了搜索这个行业,了解了搜索引擎是怎么回事,在呢么个运作原理。后来ebay业务被淘宝冲击得比较厉害,自己做出来的东西也没什么成就感,决定趁着年轻,换换口味,就在2007年离开了tom.com。

我相信很多做技术的人都梦想着有朝一日当一个神出鬼没的黑客, 我也想去安全行业见识一下。于是就去了瑞星的网络安全部。当时瑞星的这个部门并不做pc端的软件,主要做一些放在机房里的设备。我们主要负责的是一个叫“防毒墙”的产品,就是架设在企业网关或者用桥模式架设在主干上的一个设备,可以过滤不加密的http协议的内容,当然,主要是查病毒和木马,不涉及内容过滤。之后还有一些企业网站防护的产品,通过反向代理的方式阻挡对http服务器的攻击。2010年,杀毒软件的免费大战之后,我离开了瑞星,加入淘宝,算是回到了搜索行业。插播一个广告,我当时的老板叫马杰,混迹安全行业很多很多年,在我离职后,他下海创业,经历5年,被百度收购,产品叫《安全宝》。

离开瑞星,我去了阿里巴巴,算是重新回到了搜索行业。在阿里巴巴主要都是搜索相关的工作。

主持人:看您曾在阿里巴巴设计并主导开发淘宝及天猫若干一线数据产品,可否介绍一下?

崔仑:我是2010年加入阿里巴巴,2015年离开,将近5年的时间,在阿里把把内经历了3个部门。第一个是当时叫做淘宝研发部搜索中心,我们组的名字叫新引擎技术。我去入职的时候这个组只有一个leader,我是第1个组员,在我填写入职表格时,第2个组员也来报到了。这俩人现在一个是萝卜兔的CEO,一个是51offer的CTO。

在搜索中心主要做了2个比较大的项目,一个是淘宝的店铺内搜索,就是在淘宝店铺内的一切浏览操作,都要过这个搜索引擎。包括各种分类,过滤,按关键字搜索。在我们改进之前,这套系统用了大概150台服务器实现,替换成我们的系统之后,仅用了不到30台服务器。主要是实现了性能的提升。

之后,我们的队伍不断壮大,从三个人的团队,一直到十多人的豪华阵容,开始改进替换淘宝网的搜索引擎(淘宝都管它叫主搜索)。同样,一年之后,主搜索的性能也大大的提升。在搜索中心,每天主要是跟磁盘/内存/cpu死磕,想方设法的榨干服务器的每一点资源。但是,当时的数据量虽然很大,我们这一帮做c语言出身的人,并没有使用任何的云计算技术。每天任务最繁重的索引Build工作,虽说是在多机的集群中完成的,但调度基本靠脚本+nfs。

之后,2013年,抽调了一部分人去阿里妈妈事业部,去改进淘宝直通车的引擎。直通车的引擎跟搜索引擎非常相似,但是没有分词,内容update频率很高,可靠性要求也相对于搜索引擎更高(因为涉及到钱)。这次,我们在重新设计引擎,提升性能的同时,也让我开始接触到了云计算。首先,离线build工作在hadoop上用streaming job方式实现,build速度实现了质的提升。另外,也让我见识到了在hadoop、odps、storm等大数据处理框架的实力。就拿索引更新来说,在2013年时,广告引擎的实时更新,已经可以做到秒级。同时,也让我从侧面见识到了云平台的潜力,比如对点击日志的分析,复杂的模型,数千台服务器,运行好几个小时,计算出的结果对直通车引擎的效果提升奠定了坚实的基础。

主持人:您决定加入星图数据开始数据方面的创业是看到了什么发展机遇么?最初的想法是怎样的?

崔仑:我和星图数据的一个创始人(Melvin)中学6年是同学。他在2013年底就找我想一起出来创个业,但那时我因为个人原因,无法从阿里出来,于是就帮忙介绍之前的朋友,同事,希望能来跟他一起做。但是一直没有能够对上眼儿的。反倒是我自己,在不停的接触中,了解了星图数据,知道了他们是怎样一批人,在做怎样的事情,偶尔还会来跟星图的工程师一起讨论、解决些问题。当时,我在阿里也刚刚接触到大数据的概念,觉得这个东西挺有意思的,自己也有一些云计算的开发经验,所以一直关注着星图。

2015年初,我跟另外一个中学同学,决定一起出来做一些事情,于是立即从阿里辞职出来。但我们都没有运营公司运转的经验,于是毫无悬念的失败了。同时也发现,目前大部分火热的互联网产品,至少在初期,技术只是辅助,产品和运营才是最重要的,而我作为一个开发了10年底层应用的程序员,能够让我发挥价值的初期项目是在是太少了。这时我意识到,星图就是这样一个技术导向,有一定基础,又跟着大数据的概念,能够体现我的价值的公司。于是很快,就加入了星图数据。

主持人:目前星图数据的情况以及技术团队构成,请介绍一下。

崔仑:星图数据从创立到现在大约2年时间,目前团队有50人。我们以大数据产品为媒介,帮助每一个企业和海量信息对接,提供场景化的数据应用。现在我们的主要客户集中在传统制造企业,以及一些零售流通企业。我们现在提供的产品有三个应用方向,DaaS,供应链金融,C2B解决方案。

目前星图数据技术团队大约占7成,战斗力很强。大家在官网上看到的产品目前都使用php开发,简单而高效。后台的离线数据处理部分用到了不少目前比较流行的框架,比如hadoop /kafka/spark/spark streaming之类。我们的数据处理集群,目前有超过100台服务器,并且在未来一年内,这个数字预计还会翻番。

主持人:麻烦您简单介绍下星图数据目前提供的产品吧。并从具体产品适用场景来阐述一下。

崔仑:我们现在主要有几个业务方向,其中已经产品化的是DaaS产品线,以不同的数据应用在不同的场景解决商业问题。我们提供了3个在线DaaS产品。D-Matrix、AtomPower 、SkyScope。分别用于宏观数据分析,微观数据分析,线上渠道巡检。为决策团队,营销团队,渠道管理团队提供不同场景的数据服务。

另一个方向是供应链金融方向。就是零售商信用评级和货品估值服务,帮助零售商获得供应链融资。这个在媒体上已经有所报道,我们已经开始在和京东金融合作。

第三个方向是C2B解决方案。就是消费者驱动的产品设计以及精准至个体的回溯式营销。现在市场上有很多厂商都正在尝试C2B模式的产品设计,但是我们可以很负责任的说,我们已经和知名的多家制造业巨头合作将C2B产品落地,预计明年就会面世,大家可以期待一下。

主持人:星图的产品有什么独特之处?也就是和同类产品竞争优势有哪些?

崔仑:首先,线上零售数据领域,没有我们同类的产品。

传统的线下咨询和市场调研公司和我们一样,也会提供市场信息的线下采样数据报告,而我们提供的是线上全网实时动态数据。宏观可至市场份额,微观可至单SKU的量价额单用户的个人偏好。

另一方面,我们和新兴的互联网数据公司也不一样,我们的所有产品服务都带有行业逻辑,因为我们的创始人团队都在零售行业混迹多年,非常了解传统企业的痛点。于是我们的产品都设计成面向业务决策人员,无需单独部署的云端数据应用。

主持人:请介绍一下双十一你们做了哪些监测?从双十一的活动数据中,得出了哪些有意思的结论么?

崔仑:今年双十一当天,我们监测了全网18家主流B2C平台的销售情况数据。其实这也是我们平时监测的数据,只是在双十一当天,我们将监测频率提高,进行直播。直播时,我们的监测数据大约延迟2小时。

我们监测到今年双十一线上销售总额1229.4亿。我们也看到了一些有意思的现象。比如我们发现很多新兴互联网品牌正在崛起,发展趋势非常恐怖,很可能在不久的将来,某些新兴品牌可以和现在的知名品牌一争高下。

同时,我们发现相比2014年双十一,客单价下降了10%,这表明网购的趋势呈上升的态势,用户的消费习惯更向线上转移。

今年双十一全网销量最高的品类是手机,卖出了712万台,10年以前,手机仅仅作为一个日常使用的工具,电话短信。而现在,手机的更新换代速度很快,使其已经显示出了快速消费品的特性。712万台手机是什么概念,从这些手机里提炼黄金,能提炼出200公斤。

还有一些有趣的数据,在之前星图双十一直播发布的大图中展示了,大家可以去搜索一下。

主持人:双十一的直播仅有星图一家在做?技术与去年双十一相比有哪些提升?

崔仑:双十一的数据直播,除了天猫做了自己平台的,全网的数据直播只有我们星图数据在做,并且今年已经是第二年做这个事情了。

今年双十一,首先我们监测的平台增加,需要分析的数据量增加。2015年互联网创业非常火热,也出现了很多新晋的电商平台,我们在双十一直播时,也将这些平台纳入我们的数据源,同时,网购消费的上涨趋势我们也纳入了更多的热点品类。总体采集的数据量比去年翻了几倍。(目前我们日常采集每天5T,双十一采集的数据相对较少,每一轮大约400-500G,但是轮数很多)

另外,我们对数据的处理效率大大提升了。在今年,我们的系统进行了很大的改进,引入了很多目前比较先进的技术。比如Kafka,Spark,同时,之前使用的hadoop 系统,也进行了很大的优化,这直接导致我们的数据处理效率大大提高。去年这个时间点需要计算两小时的数据,在今年只需要10到15分钟。

最后,今年双十一对数据的采集频率变高。去年我们采集的频率大概为1天8次。今年,因为数据处理效率大大提高,虽然采集数据量翻了几倍,我们仍然能够提高采集的频率,达到了12-15次。

主持人:那么流化数据处理体系有什么样的优势呢?

崔仑:在今年,星图的数据处理架构进行了比较大的改进。主要是引入了kafka消息队列和Spark Streaming框架。整个数据处理过程,实现了流水线作业。我来介绍一下完整的数据处理流程。

首先,我们有一个url地址库,里面保存的是所有单品的url,每一轮的采集,都由这个地址库触发。这里解释一下,各平台的列表页是单独维护的,并不在常规的采集系统内,这是为了确保采集系统能够定时定量完成采集。

之后,是一个URL采集调度系统,每次启动时,从URL库中加载所有要采集的地址,并根据采集总时间,URL所属的域名进行分布打散,形成一个列表,哪个时间点,要采集哪些URL。 然后根据这个列表,按时将需要采集的URL送入Kafka中的URL队列。

Spider程序通过Kafka的URL队列消息,能够立即获取到需要采集的URL,下载页面。经过简单的转码、压缩等操作,附加上采集的时间状态等信息,将这些信息送入Kafka中的另一个Page队列。

对于Page队列的处理,有两个分支。都运行在Spark Streaming中。

其中一个分支负责生成下级的url。比如现在很多的网站大量的采用了AJAX,那么单品页很可能不包含某些关键信息,比如价格、促销等。那么在这里,需要计算生成单品的价格促销页面的url,送入Kafka的url队列中,供spider程序抓取。

另一个分支从Page队列获得网页原始信息,准实时地保存到hdfs上。

之后,运行在hadoop和spark上的数据处理ETL流程会定时启动,将采集系统获取的数据统一处理,各种统计分析,生成最终的结果。

主持人:iNebula(数据采集系统)和WarpEngine(数据处理系统)的效率提升了多少倍?

崔仑:数据采集系统,在双十一直播中,如果只从采集时间上看,提升了5倍以上。我们将网络出口进行了统一管理,充分利用了我们的网络带宽。并且在提高效率的同时,还大大精简了服务器的数量。

数据处理系统效率大约提升了8-10倍。这个原因也有很多方面。首先,最简单直接的是在星图在这一年,随着公司不停的发展,服务器数量翻了一番。另外,今年双十一的数据处理,已经100%在云计算框架下运行,得益于hadoop和spark的高效,使我们有了这样的成绩。

主持人:技术方面,为什么采用Kafka?优势是什么?

崔仑:Kafka很适合在我们的流水线中作为“线”来使用,作为各个模块之间的数据交互工具。它的吞吐率非常高。并且,Kafka还具有水平扩展能力,可以按需求增加节点,扩充容量,或进一步提高吞吐率。

同时,Kafka对于现有的流行的分布式处理系统都有非常好的兼容性,比如在Spark、Storm应用中,都只需要很少的代码就能够与Kafka完美地集成。

主持人:每日完成对5TB数据的处理背后的技术支撑是什么?

崔仑:首先,我们的技术团队非常给力,能够使内部的产品、工具快速升级迭代。同时,大家对现有的先进技术,都会去接触尝试,如果有适合我们的东西,都愿意拿到我们的系统里来。像Spark Streaming,Kafka这样的东西就是这样引入的。

有人会问为什么不用Storm,而选择Spark Streaming。Storm 处理数据更实时一些,可以做到1秒以内的延迟。但是星图目前的使用场景,都是离线数据处理,对数据延迟的要求并没有那么高。另外,在使用Spark Streaming之前,我们就有Spark集群在用于生产服务。主要是做一些情感分析,模型推演等算法相关的事情。所以,最终选择了Spark Streaming,对数据进行“准实时”处理。

主持人:对于数据挖掘领域的未来发展前景,会是怎样的,谈谈您的看法?

崔仑:我觉得大数据未来的发展方向应该是行业垂直化。在去年到现在的O2O大战下,租车、约车、美甲、按摩、家教、外卖,这些以前同城交易网站通吃的类目,都被不同的垂直APP切了下来,一个APP只做一个品类,所有的需求都按照这个品类的行业特性去订制,给用户极致的使用体验。我们认为数据挖掘领域未来也会更加垂直化。

我们做电商行业的数据挖掘,把线上大量的不同数据源汇聚到一起,然后有在零售咨询行业经验丰富的数据科学家带领分析团队,根据零售业的特性,设计模型,分析数据,得出最靠谱的结论。10多年前,百度有个电视广告,唐伯虎对着一个老外说“百度更懂中文”。我相信我们现在可以对一些线上数据挖掘公司说“我们更懂零售”,同时,也可以对传统的咨询公司说,“我们更懂互联网”。

主持人:看到您对于数据挖掘及安全等方面都有多年的技术一线经历,请结合您自己这一路技术之路上的提升谈谈技术人该如何做到高效学习和提升技能?

崔仑:我一直认为做技术是一个靠经验吃饭的活儿,没有什么速成之道。之前在阿里巴巴的时候,每年校招都很热闹,但最终能够面试通过留下的,总是那么一两个学校占了很大比例。我也经常和他们聊,他们在学校的时候,都有大量的项目实践经验,甚至本科都有实际的项目。项目经验加上学校里那种学术气氛,让他们迅速的积累了经验,进入公司能够很快上手,马上投入生产。

我觉得学习技术上,有些细节的东西,需要深入研究。比如精通C语言的人,一定非常清楚数据结构在内存里是什么样子的;做通信模块的人,一定对select/epoll的原理及优缺点非常了解;做互联网前后端的人,我相信都对HTTP协议非常了解,都能够用telnet访问一个不加密的web服务器吧。虽说有这么多方向,但这些技术其实都是相通的,不会说我花了很多时间精通了这样一个东西,以后万一跳槽或者转型就没用了。

另外,现在有很多新鲜的平台、工具。像Spark,看到网上很多人拿出来说我们用了它,但是真正自己用的时候,又发现网上的资料很少,或者说都是些太基础的,甚至仅仅是个HelloWorld。我觉得这样的新鲜事物需要拿过来自己动手试一下,这些都是别人为我们做好的工具,尝试了才知道怎么用,遇到场境,才能自然而然的想到用它们。

主持人:请结合您的切身体会谈谈一名合格的CTO或技术团队管理者应该是怎样的?

崔仑:我觉得技术团队的小伙伴们都比较单纯,所以和它们首先要以一种队友的心态去相处。作为一个团队的带头人,首先要对所有的产品线都深入了解,根据产品的使用场景,时效性要求,稳定性要求等方面,选取最适合的技术模型。其次,要能够给团队明确的指出方向。当然,不是每一次的决策都是正确的或者是最优的,失败了勇于承担责任,对于个人来说,这也是一种经验,一种技术积累。

另外,对系统的可读性可维护性还有文档不能放宽要求。很多人都能感受到,尤其是在创业公司中,人员的流动性相对于BAT来说,要高很多。每一次工作交接,都认真对待,仍然难免有遗漏,在员工离职后还需要麻烦人家讲解系统中的一些细节。

最后,还要有一些长远的考虑。虽然我们不能像那些国际巨头一样,一个系统做出来,几年都不需要重构,但看到产品半年的发展应该还是可以的,该预留的接口预留出来,不能频繁的对系统重构。

主持人:技术团队的绩效该怎么做才相对合理?能结合您过往的一些经历展开谈谈么?

崔仑:星图数据目前没有严格的绩效考核标准,我觉得目前高速发展的状态不应该再给团队成员更大的压力。小伙伴们都很拼,劳逸结合。比如双十一之前大家都很忙,各种为双十一订制的系统和工具需要开发和完善的测试。现在双十一过了,工作任务相对来说轻松一些,让大家有时间静下心来,研究一下自己感兴趣的技术。

我在来星图之前,在三家公司工作过,感觉绩效考核最严格的是阿里。原则上是强制的2-7-1分配,即2成超出预期,7成符合预期,1成未达到预期。虽说有些严苛,但是也给了大家动力,制造一种紧张竞争的氛围。但是我觉得在规模较小的公司里这样的规则并不很合适。对于正处在高速发展期的公司来说,人才是最宝贵的,并且我一直认为,相对于大团队来说,小团队的工作效率更高,凝聚力更强,相对的产出比也就更高。所以我觉得在创业公司,绩效需要人性化一些,灵活一些,以鼓励和引导为主,毕竟大家都是做了那么多年技术过来的,谁没有个犯懒的时候。

主持人:对想在技术路线上走得更远的人,您都有什么建议和忠告?推荐一些您觉得非常不错的资料或者书籍吧。

崔仑:走技术路线,我想大家都会有一个自己的目标或者说是梦想。有人研究网络安全,梦想就是当一个黑客;有人研究底层的破解调试技术,可能是梦想着能够在内存和汇编代码中游走;有人研究各种前端技术,梦想着做出最炫酷的界面。我想说的是,大家做技术这行,必须要问问自己,真的喜欢做技术吗?还是因为这个行业工作好找,薪水不错,所以硬挤进来的。

我在阿里的时候,因为有了创业的想法,曾经去某培训机构咨询过IOS/Android开发的速成班。发现他们标榜的就是只要培训班毕业了,就能找到月薪多少的工作。我觉得这是不靠谱的。没有兴趣,没有目标,为了拿工资而做技术,是没有发展前景的。所以我想说,要做技术,坚定的走这条路,首先问问自己,想要成为一个什么样的人。

对于书籍和资料,现在技术类的资料在网上非常多,但个人感觉在检索资料,尤其是代码相关的资料时,百度不太好用。百度很懂中文,但英文和代码它不太懂。试试google和bing吧。另外,我不太建议直接拿资料来看。通常,我要是初步了解某一个新鲜的技术,会先看看资料,对功能特性有些大概的了解。如果在项目中使用,会先做一些测试程序,在实践的过程中再去查资料,我感觉这样效率更高。

在网上找资料,其实基本靠搜索引擎和论坛。10年前有个技术论坛叫“大富翁论坛”,当时感觉很有意思,以delphi为主,纯做技术的讨论,让我印象深刻。但是后来delphi不行了,论坛也随着衰败了,慢慢被CSDN这样的综合技术社区取代。另外,还出现了一些像stackoverflow,  segmentfault这样名字蛋疼但是专门解决问题的论坛,很多开发过程中遇到的问题都能够找到答案。

关于书籍,其实近几年看得很少,一是线上资料越来越丰富,再一个是现在的新兴技术,书籍出版往往会落后于线上稳定版本,看书的话总是看到旧的东西。所以新技术主要还是靠网上的资料,和跟其他使用者的交流。如果看书的话,我觉得还是看些基础的,持续时间比较长的。

最后,我为刚刚走入技术领域,准备未来在技术领域一直走下去的同学推荐一本书吧——《Unix网络编程》,一般大家都管它叫UNP。我工作10年,大部分时间是和C语言还有linux打交道。我现在还清楚的记得,10年前,在tom.com的办公室,桌上放着几本公用的《宝典》。现在的网络服务器是linux的天下,不管你是做内核,做通信,做算法,做后台,通读宝典,受益终身。

互动环节:感谢崔大牛! 首先很赞您说的做技术的态度。然后我想问几个问题, 您还记得当时你们榨干机器的每一滴内存的一个例子吗?很感兴趣! 另外, 很多信息在网页上是没有的, 比如交易量, 你们是单独靠淘宝网页上那个卖出多少来计算吗? 还有每个网页结构也可能变化, 是怎么知道哪一个dom是放你们所需要的信息的? 另外,这次双十一有没有出现系统意外,大家零时救火?谢谢!
崔仑:当时我们在做搜索引擎的时候,因为淘宝的站内搜索,相对于网页搜索更新速度非常高,所以基本上全靠服务器的cpu和内存,而同时又需要做持久化的工作。所以使用了mmap,并且调整了内核参数,将数据锁定在内存中,不换出。另外,使用了各种调优工具,测试cpu cache命中率等参数,一点一点调整程序结构,作出最优的方案。
星图采集的数据不仅仅有网页内容,还会有一些其它的手段,比如分析用户的评论时间,通过模型获得交易量等网页上没有显现出来的信息。我们在公司内部有一套分析页面和选取dom或者说 xpath的工具,能让模版维护人员很方便的选取需要的html 节点,对分析系统的模版实时更新。这个目前已经是很成熟完善的技术了。今年双十一技术部门虽然值班了50多个小时,但是系统总体表现比较淡定,没有出现什么意外情况。因为大家做足了准备。
互动环节:传统制造业应该通过哪些方面和大数据对接啊?
崔仑:传统制造业外部需要链接海量的市场信息,但是海量信息价值密度非常低,需要用大数据驱动的工具帮助他们抽取信息中有价值的部分。当然这对于每个业务部门都不同,所以需要根据业务逻辑来为他们提供场景化的数据应用。
互动环节:想问下下分布式数据结构在零售上的应用。
崔仑:零售是指线上交易吗?阿里的所有交易系统,在好几年前就已经运行在分布式系统了。分布式系统对于实时处理海量的实时交易是必不可少的。
互动环节:双十一全网销量最高的品类是手机?完全没想到。
崔仑:按照我们的品类划分,和监测状况,数据分析的结果排名第一确实是手机类目。家电这个大品类的销售比手机略高。但是家电的子类目太多。
互动环节:对技术有兴趣,但是小公司业务还不需要那些大型的架构系统,就算简单了解学习了高新技术也没有实战的平台,也难有深造。这点对我们技术方向的来说怎么去衡量,属于技术职业发展的问题。
崔仑:确实,创业公司能够接触到海量数据的不多。但是随着业务发展大数据的处理必不可少。对于个人来说,可以去BAT,或者到星图这样有大数据氛围的公司尝试一下。
阿里和支付宝的交易系统都是自主开发的定制系统,云计算平台,消息流处理,都非常复杂,可以查阅一下阿里相关的资料。


想与业界大咖零距离沟通,欢迎加入CTO讲堂微信群,参与CTO讲堂!

【CTO讲堂第25期预告】

分享主题:工具类、新闻类、视频类等不同类型App的积分体系该如何搭建?

分享嘉宾:兑吧联合创始人/总裁 陈高维

嘉宾简介:陈高维,杭州兑吧网络科技有限公司联合创始人/总裁,连续创业,一直在路上。2008年读研期间创立做象牙塔考研社区,服务全国100多所211、985高校;2012年加入斯凯网络内部创业,担任产品VP主导魔品科技多款核心产品;2014年创立兑吧,首创积分运营管理平台,聚焦提升App用户活跃与留存,基于App积分商城打造了一个全新的体验式精准营销平台。

公司简介:在资本市场不是很乐观的情况下,兑吧网络刚刚完成一轮3000万人民币的A轮融资。兑吧在互联网创业者圈子也算是小有名气,他们的专注App 积分运营,帮助APP提升用户活跃与留存。目前包括百度、凤凰、网易、新浪、暴风、赶集、58、PPTV…等一大批互联网巨头在使用兑吧的服务,同时乐动力、IN、点点养车、大姨吗、遇见….等一大批互联网新贵也在使用兑吧的服务。公司成立于2014年5月,团队成员均来自阿里、斯凯等知名互联网企业,对积分系统、接口管理和数据安全拥有独特的优势。目前已有1200多家App接入了兑吧积分商城,成为移动互联网发展的创新型企业新贵。

分享时间地点:11月26日(本周四)10:30 , CTO讲堂群

加入方式:扫描二维码加“C粉儿小助手”好友,申请入群。


还不是CTO俱乐部成员的各公司技术负责人,欢迎立即加入俱乐部:cto.csdn.net 。

更多俱乐部动态,欢迎扫码关注微信号:

0
0