热门好课推荐
猜你喜欢
相关培训 相关博客
  • 这几年随着大数据分析和机器学习等等在工业界中越来越广泛的应用,越来越多的人选择在大数据平台比如ApacheSpark之上构建大规模数据处理、分析和机器学习,以便利用大量原始数据和扩展架构。如何深入理解大数据关键技术并更好的运用它们?本次课程将结合当前大数据技术的浪潮和趋势,为您介绍ApacheSpark的高级实践和原理解析,帮助您加深领会ApacheSpark的精华设计思想,以及如何与流式分
    2017-05-19 17:31:59
    阅读量:197
    评论:0
  • 作者:刘学习 |小编:阿软在IT产业发展中,包括CPU、操作系统在内的基础软硬件地位独特,不但让美国赢得了产业发展的先机,成就了产业巨头,而且因为技术、标准和生态形成的壁垒,主宰了整个产业的发展。错失这几十年的发展机遇,对于企业和国家都是痛心的。当大数据迎面而来,并有望成就一个巨大的应用和产业机会时,企业和国家都虎视眈眈,不想错再失这一难得的机遇。与传统的IT产业一样,大数据除了应用的巨大市场
    2018-02-23 00:00:00
    阅读量:2419
    评论:0
  • 阿里妹导读:阿里巴巴电商平台有上亿的用户和产品,每天产生百亿规模的用户反馈数据。比如淘宝首页的猜你喜欢场景,每天就有100亿规模的用户行为数据。如此超大规模的训练数据,给分布式机器学习带来了巨大的挑战,也引入了有趣的研究问题。2017年,阿里巴巴推荐算法团队和计算平台PAI团队合作打造了eXtremeParameterSever(XPS)机器学习平台,其中eXtreme寓意为“追求极致”,
    2017-12-14 00:00:00
    阅读量:1458
    评论:0
  • Onlinelearning的一些简单认识 Onlinelearning是机器学习中的一种方法。其目的是正确预测数据的类别,并且在每次预测后,该结果用来更新修正预测模型,用于对以后数据进行更好的预测。而不同于batchlearning,batchlearning生成的最好预测仅基于一次确定的数据训练集。一般的,一种Onlinelearning算法对于一个序
    2016-03-26 20:20:55
    阅读量:5049
    评论:0
  • 原题目叫做Theperceptionandlargemarginclassifiers,其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习(batchlearning),就是给了一堆样例后,在样例上学习出假设函数h。而在线学习就是要根据新来的样例,边学习,边给出结果。     假设样例按照到来的先后顺序依次定义为。X为样本特征,y为类别标签。我们的任务是到来一个样
    2013-12-03 09:55:14
    阅读量:7117
    评论:0
  • 短短几年时间,大数据这个词便已家喻户晓。但在大数据这个名词被命名之前,人类对数据的搜集与分析已有着悠久的历史。从人工统计分析到电脑/大型机再到今天的分布式计算平台,数据处理速度飞速提高的背后则是整体架构的不断演进。今天大数据架构最火热的莫过于hadoop,Spark和Storm这三种,而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头,也让网上逐渐开始有一种声音说Hadoop的日...
    2018-06-20 22:05:55
    阅读量:2380
    评论:0
  • OnlineLearning是工业界比较常用的机器学习算法,在很多场景下都能有很好的效果。本文主要介绍OnlineLearning的基本原理和两种常用的OnlineLearning算法:FTRL(FollowTheRegularizedLeader)[1]和BPR(BayesianProbitRegression)[2],以及OnlineLearning在美团移动端推荐重排序的应用。
    2016-09-17 07:07:21
    阅读量:6909
    评论:0
  • PipelineDBPipelineDB是利用SQL查询语句对流式数据进行处理。输出的结果存储在表格中。其优点在于仅仅在硬盘上存储连续查询(continuousqueries)的输出结果,进而可降低流式数据集的基数。原始数据(rawdata)一旦被连续查询读取消费后,就会被丢弃。因此,PipelineDB不是用来存储数据的数据仓库。通过PipelineDB的数据被看作是虚拟数据。Pi...
    2018-10-17 20:54:25
    阅读量:412
    评论:0
  • Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制(GC)。并且同时,它也支持兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求,
    2016-06-20 14:11:00
    阅读量:3639
    评论:0