2018-05-10 23:11:48 zydxnyy 阅读数 3224

  之前对于协方差一直不是非常理解,今天在做数据挖掘作业的时候又再次看到了协方差,所以就想着今天搞懂他。

  当然,还是要请教李彦宏大师。

  通过下文两篇文章,算是对协方差有了一个初步的,比较形象的了解了。

  浅谈协方差矩阵

  协方差的意义

  我们描述一个一维的数据,可以用数学期望值E(X)来表示数据的平均值,也可以用一个方差D(X)来表示数据的离散程度。

  但如果涉及到二维的数据,我们如何描述它的离散程度呢?

  当然,我们可以分别的对每一维数据进行方差计算,但是这样得出来的只是每一维数据的离散程度,能不能得到一个描述这两维之间的关系的数据呢?

  当然可以,这就是协方差的由来了。

  类似方差的计算公式,协方差的公式是通过对两维的向量的对应项求他们与各自均值之差的积(可能有点绕口,但是公式在链接中有了),在对每一项的积进行求和,来表示这两维向量之间的关系的。

  如果得到的结果为正,则表示他们之间同增同减,即正相关;如果得到的结果为负,那么表示他们之间增减各异,为负相关; 而如果得到的结果为0,表明他们之间其中一维的增减对另一维数据没有影响,不相关。

  以上是二维数据的协方差。那如果要表示多维数据的呢?对了,就是通过对每两维数据进行协方差的计算来表示(为什么我一开始想到的是对这多维数据的对应项求其与各自均值之差的积的和。。。)。那么就很自然的要用一个矩阵的形式来表示了。每一个项的横坐标与纵坐标对应要求的两维的协方差。(很懒,也不放图了)。而矩阵的对角线上的元素就是对应的横坐标(或者纵坐标)对应的向量的方差了。

  (话说怎么插入公式啊,自己手打公式好难看。。。完)



























XiX¯





  发生发生

协方差


2012-08-13 10:02:03 yumengkk 阅读数 9328
Robin Li :李彦宏提出的九个需要研究人员帮助解决的问题(SigKDD 2012-keynote)
   内容来自13日 Robin Li 在国际数据挖掘大会的演讲(如下是我自己做的简要笔记和理解和大家分享)
1、OCR:(对象、分类、识别):从图像中识别背景数字。
2、Speech recognition problem : sensing the backgrounds, 每个人不同的表达方式、语音,背景噪音去除、混合语言输入。
3、Content based image retrival:基于内容的图像检索(图像的特征抽取的不好)
4、Anti-spam in Social networks(Healthy ecosystem)
   Big theme:Box computing:(类似于话题模型)
   (5) Open data platform:开放数据平台。(收集数据也成为了大的公司的一项任务,之后会不会有数据共享呢)数据就是金矿,我们要采集他,但是收集的首先是矿石,
    之后再慢慢提炼成黄金(数据挖掘)。
   (6)Open application Platform: 关键问题 1、系统的安全和稳定;2、程序间资源的动态调动。
   (7)Open Publishing Platform: 发布、收听自己感兴趣的内容,个性化内容推荐。   
   (8)Personazation recommendation:个性化主页
9、Monetization for social:包括在线广告,内容的实时交互等。


Li 认为:移动互联网的搜索更加注重:图像和语音的输入搜索、APP的搜索和内容的搜索同等重要,因为在移动互联网时代APP等同于Information。
2019-07-11 14:22:53 OUNENGZK 阅读数 232

“人工智能技术实际上是一种非常普遍的技术,它不仅涵盖了语音识别、图像识别、自然语言理解、用户肖像,而且随着大数据、云计算的边界越来越模糊。”李彦宏描述道。人工智能、大数据和云计算之间的关系。

人工智能之所以在近几年里受到欢迎,是因为2006年提出的人工智能关键技术——“深度学习”。从那时起,人工智能已经应用了价值,在云计算和大数据日益成熟的背景下,深度学习正式进入了一个必要的停顿。

相关数据显示,未来云计算市场的规模预计将达到1万亿美元,这将成为一场“海啸”,重塑公司近十年来考虑和使用技术的方式。因此,它也吸收了微软、谷歌、亚马逊、百度等众多科技巨头的竞争。然而,在传统概念中,外界对所谓的云的理解仍然在其作为存储和计算工具的作用中。

人工智能将减少人类的整体干预和工作,因此人们认为人工智能具有所有的机器学习能力,并将发明机器人来接受人类的工作。人工智能的扩展将减少人类的作用,大数据的介入是创新的关键。

人工智能与大数据的融合,不仅使人才和技术停滞不前,同时也为天田合作技术有限公司带来了许多新的概念和选择,人工智能与大数据分离有助于我们理解平台的框架。最好的方法。通过大数据的智能学习和应用,公司可以在最短的时间内构建智能出行。

近年来,电话机器人的火灾让我们看到了人工智能的更多可能性,电话机器人好不好用?一个机器人每天打1000多部电话。它不会喊累,休息,低成本,高效率。这样的机器人怎么可能不受欢迎呢?

2019-02-25 09:53:19 fadsf15 阅读数 7485

  互联网的已经经历了PC时代和移动互联网时代,不可否认仅仅几年时间,移动互联网在某种程度上已经达到饱和。那么哪种技术可以开启下一个时代?

  三者界限愈加模糊

  “人工智能技术其实是一个非常广泛的技术,它不仅涵盖了语音识别、图像识别、自然语言理解、用户画像,它其实越来越和大数据、云计算的界限在变得模糊。”李彦宏曾这样描述人工智能、大数据、云计算的关系。

  人工智能之所以历经这么多年后才于近年大红大紫,原因归根于2006年出现的人工智能关键技术——“深度学习”,人工智能至此才有了实用价值,而深度学习正式在云计算和大数据日趋成熟的背景下才取得的实质性进展。

  相关数据显示,未来云计算市场的规模有望达到1万亿美元,在近十年后发展成重塑企业思考和使用技术方式的“海啸”,因而也吸引了不少微软、谷歌、亚马逊、百度等科技巨头的竞逐。但在传统的观念中,外界对所谓的云的认知依然停留在其充当存储与计算的工具而已。

  三者联系非常紧密

  事实上,大数据、云计算在通往人工智能方面上意义深远,而人工智能的突飞猛进、海量数据的积累,也为云计算带来的新的可能。

  但说到底,已经应用于语音识别、图像处理、计算机视觉、甚至击败了围棋九段李世石机器人领域的人工智能,如今的一系列成绩背后,是海量大数据的积累与学习,而且在没有云的时代,一切均无法想象。

  正是得益于大数据和云计算的支持,互联网才正在向物联网扩展,并进一步升级至体验更佳、解放生产力的人工智能时代。借用百度总裁张亚勤更专业的话来描述,在大数据、云计算、以及人工智能这三股力量推动之下,在未来的30年中,虚拟世界的一切将真正实现物理化。

  三股力量合力而为

  在这一发展进程中,有远见的巨头企业已经开始利用数据规模和技术优势深耕布局做好新一轮PK战准备。

  有大规模处理数据的能力,有人工智能,以及很多领域的创新可以作为工具提供给社会,所有这些能力结合起来,其实在各个行业能够发挥出它非常独特作用。

  由此可见,无论是云计算、大数据还是人工智能,都将会成为未来市场的主流。有这样一种说人工智能这台火箭,燃料为大数据,而云计算则是引擎。

  随着科技的进步,时代的发展,无论是云计算、大数据、还是人工智能,都将成为新的发展机遇。我们必须弄清楚他们的本质,抓住机遇,跟上趋势,创新发展,才能高科技的发展大潮中立于不败之地。

  大连专业妇科医院 http://www.dlfkyy.net/

2017-05-07 17:34:30 qq_25203493 阅读数 444

Python机器学习入门

ps:想了解机器学习发展历史、使命、面临的问题这些的可以看百度BOSS李彦宏新书《智能革命》,挺通俗易懂的。


机器学习的目标就是通过若干示例让机器学会完成人物,例如电子邮件分类。

工作流程绝大部分的时间花在:

1)读取和清洗数据

2)探索和理解输入数据

3)分析如何最好地将数据呈现给学习算法

4)选择正确的模型和学习算法

5)正确地评估性能

通常在训练前要对部分数据进行提炼,一个简单算法在提炼后数据上的表现,甚至能够超过一个非常复杂的算法在原始数据上的结果。提炼数据的流程叫做特征工程--feature engineering。

可以看到算法只是五个环节中的一个,1)、2)、3)都和数据有关。

推荐的问答网站:http://metaoptimize.com/qa 专注机器学习主题

http://stats.stackexchange.com 专注统计问题

http://stackoverflow.com 这个不用多说,百度过编程问题的同学应该都见过

Freenode的#machinelearning频道 互联网中转聊天频道,专门讨论机器学习主题(英文聊天室 想玩的看此文:http://blog.csdn.net/zhijiayang/article/details/50700731

http://www.TwoToReal.com 本书作者制作的即时问答网站,解答不适于上述任何网站的问题。

重点推荐的博客:http://blog.kaggle.com 机器学习比赛优胜选手介绍怎么解决问题


numpy、scipy、matplotlib简介:Python运行速度不快,为何需要密集计算的机器学习选择Python,因为计算任务由底层的C或Fortran扩展包完成。在numpy和scipy的组合中,numpy提供了对高度优化的多维数组的支持,scipy则通过这些数组提供了一套快速的数值分析方法库,matplotlib用来可视化。


学习numpy:


推荐自己敲一遍代码,下面的代码创建了一个数组a,维度是1,包含6个元素


将数组转换到一个2D矩阵b中,b是三维数组,每个维度上有两个元素


下面进行了赋值操作,Python中下标是从0开始的,因此b[1][0]就是第二行第一个元素,原来是2,现在重新赋值为77,相应地,a中的元素值也变动了,这说明b是对a的引用,而不是a的复制


想要真正的副本,可以像下面这样,c和a完全独立了


numpy array和python自带的list不同,对数组的操作是传递到每个元素上,而列表是对整个列表操作,列表是没有平方运算的



1)numpy索引访问数据:允许将数组本身当做索引使用,a中下标为2,3,4的元素,


判断条件可以传递到每个元素,遍历数组判断每个元素是否大于4,是返回True,否返回False:


去掉异常值:大于4的元素全部赋值为4


专门的修剪函数clip(),将数组值超出某个区间边界的部分修剪掉


2)处理不存在的值 如c中的np.NAN,表示非法的数据

isnan()判断是否是非法值,~表示取反,mean()是平均值函数


3)运行时行为比较

Python列表运算,numpy普通运算,numpy的dot()函数运算,三个时间比较

可以看出numpy虽然是C扩展,普通运算比列表运算耗时还要多,dot()函数是最快的



numpy速度快,但只有一个数据类型


尝试使用不同类型的元素,numpy会强制转换数据类型



学习scipy:

在numpy高效数据结构之上,scipy提供了基于这些数组的算法级应用。

为方便起见,numpy的全部命名空间都可以通过scipy访问:两者的点积运算是同一个运算


scipy工具包常用方法:




没有更多推荐了,返回首页