2017-01-31 22:32:12 wjyhumor 阅读数 306
  • 深度学习项目实战-关键点定位视频课程

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 深度学习项目实战-关键点定位课程以人脸关键点检测为背景,选择多阶段检测的网络架构,对于回归以及多label标签问题选择hdf5作为网络的输入数据源,实例演示如何制作多标签数据源并对原始数据进行数据增强。整个网络架构采用三个阶段的模式,从全局检测到单点校准,基于caffe深度学习框架实现一个既准确又的人脸关键点检测模型。对于每一阶段,详解代码中每一行的意义,带领大家一步步完成整个网络模型。

    5797 人正在学习 去看看 唐宇迪

版权声明:本文翻译整理自:https://www.nervanasys.com/demystifying-deep-reinforcement-learning/

2013年,一家位于伦敦的小公司DeepMind发表了一篇论文“Playing Atari with Deep Reinforcement Learning”,文中展示了如何训练计算机去玩Atari游戏。计算机仅仅通过观察游戏屏幕,在游戏得分增加时获得一个奖赏,就取得相当不错的游戏成绩。用同样的模型去玩另外7种不同的游戏,其中3种游戏电脑甚至超过了人类的水平。

该研究被认为是迈向通用人工智能的第一步,因为人工智能能够在各种复杂的环境下生存,而不仅仅是局限于某一个领域,比如下棋。文章发表后DeepMind很快被Google重金收购,并成为深度学习的明星公司。2年后的2015年他们改进了算法,在Nature杂志上发表了文章“Human-level control through deep reinforcement learning”。这这篇文章中,他们使用一个相同的模型去玩49种不同的游戏,半数游戏均取得了超越人类的水平。(译者注:2017年初,DeepMind利用深度增强学习等技术开发的围棋AI AlphaGo横扫人类顶尖棋手,取得了60连胜的成绩)。

目前为止,深度监督学习与非监督学习已经得到广泛的研究和应用,而深度增强学习还显得有些神秘。本文试图揭开深度增强学习神秘的面纱,理解其背后的原理。本文的针对的是有一定机器学习或神经网络基础,但还没有时间深入了解深度增强学习的读者。


增强学习

我们用一款叫做“Breakout”的游戏来说明。在这个游戏中,你将通过左右移动底部的球拍来接住并反弹球体,并击中顶部的砖块。一旦顶部的砖块被击中,它将消失,同时你的分值会增加——你获得了一个奖励(reward)。

揭开深度增强学习的神秘面纱
 

现在假设你要教会一个神经网络去玩这个游戏。神经网络的输入应该是游戏截屏,输出应该是3个动作(左、右或者发射)。这可以理解为一个分类任务,对于每个游戏截屏,需要选择一个动作,左、右或者发射。这个想法直截了当,但是你需要大量的训练数据。当然,你可以找一个游戏专家进行成千上万次的试验,从而获取游戏数据。但这不是我们人类的学习方式,我们不需要别人成千上万次的告诉我应该怎么做,我们只需要进行少量的尝试就可以学会这项游戏。

这就是增强学习要解决的任务。增强学习介于监督学习和非监督学习之间。监督学习的每一个训练样本都有标签(目标值),而非监督学习恰恰相反,没有任何标签。增强学习的标签是稀疏和延时的——即奖励(reward)。仅仅依靠这些奖励,模型就能学会在环境中进行学习并做出正确的动作。

这只是一种直观的感觉,在实践中还面临很多挑战。例如在“Breakout”游戏中,你击中了砖块获得了奖励。但在这之前,球拍可能移动了很多次,但是你不知道具体是哪次移动对这次击中的贡献最大。这被称为“信用分配问题(credit assignment problem”。

一旦你找到一种可以获得一定奖励的策略,你会选择固守这个策略呢,还是再进行其他探索,以期获得更大的奖励?还是以Breakout游戏为例,一个简单的策略是将球拍移到最左边不动,由于球落到左边的概率大于右边,你会轻易的在游戏结束前获得10分。那么问题来了,你是满足于这10分了还是想要更多? 这被称为“探索-利用困境(explore-exploit dilemma”——你是继续挖掘利用现有策略还是探索其他可能是更好的策略。

增强学习其实也是人类及其他动物学习的重要方式。父母的鼓励、学校的分数、工作的薪水都可以看作各种形式的奖励(reward)。信用分配问题和探索-利用困境在工作和生活中无处不在。所以这个模型对我们非常重要,而游戏为我们探索这个模型提供和很好的环境。


马尔科夫决策过程

现在的问题是,我们如何来形式化的表述和推导增强学习的模型。最常见的方式的把他看作一个马尔科夫决策过程。

假设你是一个个体(agent),处在一个环境(environment 中(例如Breakout游戏)。这个环境在某一时刻有一个确定的状态(state (例如球拍的位置,球的位置和角度,砖的数量和位置等等),个体可以做出一个特定的动作(action)(例如左移或者右移球拍)。这些动作可能会获得一个奖励(reward(例如积分增加,积分减少可以看作是负奖励)。这个动作使环境转移到下一个状态,然后个体再次做出一个动作,循环往复直到游戏结束。动作可能有很多个,我们选择动作的规则称为策略(policy。环境可能是随机的,这意味着下一个状态可能是随机的(比如Breakout游戏丢失一个球后,新开的球的位置和方向都是随机的)

揭开深度增强学习的神秘面纱
 

状态、动作和状态转换的规则的集合构成一个马尔科夫过程。一段过程可以构成一个序列:


揭开深度增强学习的神秘面纱

这里si表示状态,ai 表示动作,ri+1表示 执行这个动作后获得的奖励。这个序列结束于一个终止状态(例如,游戏结束画面)。马尔科夫决策过程的假设是下一个状态si+1只取决于当前的状态si及动作ai,而与之前的状态和动作无关。(译者注:以下棋为例,下一步该怎么落子,仅仅观察当前的棋局做出决定就可以了,不需要关心是怎么走到当前这个地步的)。


未来奖励的折扣

从长远考虑,我们不仅要关心暂时的奖励,还要关心未来的可能奖励,加在一起才是总的奖励。

给定一个马尔科夫决策过程,我们可以容易的计算出总的奖励:

揭开深度增强学习的神秘面纱

t时刻开始往后,未来的总奖励可以表示为:

揭开深度增强学习的神秘面纱

但是我们的环境经常是随机的,同样的动作可能不会得到同样的回报。越是往后,我们越不确定我们能获得不少奖励。所以,对于未来的奖励,通常的做法是乘上一个0-1之间的折扣因子,表示我们对未来的信心。

揭开深度增强学习的神秘面纱

这里 γ 是折扣因子,范围(0,1)

容易发现,这是一个递推式,可以写成:

揭开深度增强学习的神秘面纱

如果我们设γ=0,那么意味着我们只关心眼前利益,是短视的。如果要在当前和未来做一个平衡,我们需要把γ设为一个小数,如0.9。如果我们的环境是确定的,也就是说同样的动作会获得同样的奖励,那么可以设置γ=1.

一个好的策略应该是选择一个可以使得未来奖励最大化的动作。


Q学习

Q学习中,我们定义了一个函数 Q(s, a)表示我们在状态s下执行动作a所获得的最大的未来奖励。对于在t时刻有:

揭开深度增强学习的神秘面纱

Q(s, a)可以理解为:在状态s下执行动作a,当游戏结束的时候,我们可能获得的最大分数。之所以叫Q函数,是因为它表示了在特定状态下一个动作a的质量(quality)。

这真是个费解的定义。我们只知道当前的状态和动作,并不知道未来的动作及奖励,怎么能知道未来的分数呢?我们确实不能。不过,我们可以假设它是存在的。闭上眼睛,默念5次:Q(s, a)存在,Q(s, a)存在,Q(s, a)存在,…有感觉了吗?

如果你还不确定,那么想想Q函数的巨大作用。假设你在一个状态中纠结是采取动作a或者b,你想要在游戏结束后获得最大的分数。一旦你拥有了Q函数,问题就好办了,你直接采用Q值最高的那个动作就可以了!

揭开深度增强学习的神秘面纱

这里 π 表示策略,表示选择动作的规则。

我们如何来获取Q函数呢?对于一个转换<<i>s, a, r, s’>,类似于之前的计算未来得分的公式,我们把Q函数写成递推的形式:

揭开深度增强学习的神秘面纱

s’,  a’表示表示在状态s下执行动作a后的状态及该状态下的所有可能动作。

这就是著名的Bellman方程。很有逻辑,当前状态和动作下的未来最大奖励等于当前的奖励加上下一个状态的未来最大奖励

Q学习的核心思想就是通过Bellman方程来迭代求解Q函数。最简单的Q函数是实现一个表格,以状态为行,动作为列。Q学习的核心算法如下:

揭开深度增强学习的神秘面纱

这里α 是学习率,表示每次更新多少比例的差值,如果 α=1就是Bellman方程。

我们用来更新Q[s,a] maxa’ Q[s’,a’]只是一个近似的估计,在学习早期它可能根本就是错的。然而随着迭代次数的增加,它会变得越来越精确。通过足够次数的迭代更新,Q函数会收敛到真实的Q值。

 

深度Q网络

Breakout游戏中,环境可以用球拍的位置、球的位置及方向和砖块的存在与否来表示。但是这种直观的表示是游戏特异的,不同的游戏有不同的表示方法。我们能都找到一种通用的表示方法?容易想到,游戏截屏的像素点包含了所有的位置信息,除了速度和方向。如果把连续的几张截屏放在一起,方向和速度也都有了。

如果我们采用DeepMind在论文中使用的图像处理方法,截取最后4张视频截图,重采样为84×84256阶灰度图,那么我们会得到25684x84x4≈ 1067970个游戏状态,这意味着我们的Q值表有1067970行,这比已知宇宙中所有的原子数目还大!这样的数据量是无法接受的。我们需要找到游戏状态的低维度表示。

该深度神经网络出马了。深度神经网络特别是深度卷积神经网络擅长于提取图像的特征。我们用一个神经网络来表示Q函数,它的输入可以是截屏图像和动作,输出对应的Q值。另外一种方法是只接受截屏图像作为输入,输出所有动作的Q值。后一种是较好的方法,我们只需要前向计算一遍神经网络,就可以得出所有动作的Q值,然后选择Q值最高的动作来执行,并进行相应的Q值更新。

 揭开深度增强学习的神秘面纱


 

DeepMind使用的网络结构如下:

揭开深度增强学习的神秘面纱

这是一个典型的卷积神经网络结构,3个卷积层再连接2个全连接层。熟悉图像识别的读者可能会发现这里没有池化层(pooling layers),这是因为池化层引入了平移不变性,也就是说网络对识别对象在图像中的位置不敏感。这一特点在图像识别中非常有用,但是对于游戏来说,物体的位置信息是至关重要的。

神经网络的输入是484×84的灰度图像,输出是所有可能的动作(18个)的Q值。Q值可以是任意实数,所以这是一个回归问题,可以用简单的均方误差函数作为损失函数:

揭开深度增强学习的神秘面纱

给定一个转换 <<i> s, a, r, s’ >, 通过以下的方式更新Q值:

1、        使用当前的状态s通过神经网络计算出所有动作的Q

2、        使用下一个状态s’通过神经网络计算出  Q(s’, a’)并获取最大值max a’ Q(s’, a’).

3、        将该动作a的目标Q值设为 r + γmax a’ Q(s’, a’),对于其他动作,把目标Q值设为第1步返回的Q值,使误差为0

4、        使用反向传播来更新Q网络权重。

 

经验回放

由于训练集是有相关性的,实践中发现使用一个非线性神经网络来近似Q函数会使输出不稳定。一个重要的技巧是经验回放experience replay)。在游戏的过程中,所有的经验<<i> s, a, r, s’ >都被存储在一个经验缓存之中。训练神经网络的时候,从经验缓存中随机抽取一个小数据集(minibatch)来进行训练。这就打破了训练集之间的相关性,提高了网络的性能。


探索-利用

Q学习试图解决信用分配问题:通过奖励的及时回传,定位了获得奖励的关键决策点。但是探索-利用问题还没有解决。

在开始观察的时候,Q网络是随机初始化的,它输出的Q值也是随机的,我们选择Q值最大的动作来执行,当然也是随机的,相当于自由“探索”。当迭代次数增加,Q值开始收敛,自由探索的成分减小,我们总是选择Q值大的动作来执行,Q值小的动作没有被执行的机会。这是一种“贪婪”的算法,只选择目前的最佳方法,没有考虑全局。

解决这个问题的一个简单办法是使用 ε-贪婪探索,按照ε的概率随机探索1-ε的概率按照最高Q值“贪婪”的执行动作。DeepMindε 初始值设为1,然后逐渐减小到0.1并固定。在开始的时候进行完全的随机探索,然后探索的概率逐渐减少至一个小的固定值。


深度Q学习的算法描述

带有经验回放的Q学习算法

This gives us the final deep Q-learning algorithm with experience replay:

揭开深度增强学习的神秘面纱

DeepMind使用了很多技巧来提高模型的性能,但是已经超出本文内容的范围。

这个算法最激动人心的是它能学习任何事物。想想吧,Q函数是随机初始化的,它开始的输出完全是“垃圾”,然而我们使用这些“垃圾”(下一个状态的最大Q值)作为目标来训练神经网络,仅仅是偶尔加入一个小的奖励值,能学到有意义的结果吗?事实上,他做到了。

后记

自从深度Q学习被提出来以后,有很多改进的算法,比如Double Q-learningPrioritized Experience ReplayDueling Network Architecture and extension to continuous action space 等。可以通过查看 NIPS 2015 deep reinforcement learning workshop  ICLR 2016 (搜索reinforcement)获取最新的进展. 但是,Google拥有深度Q学习的专利权。

常言道,所谓人工智能就是那些我们还没有搞明白的东西,一旦知道了它的工作原理,就感觉不再智能了。但是深度Q学习还是继续吸引着我。观看他们解决了一个新的游戏,就像看见一个荒野中的动物,通过奖励进行自我学习。


2018-07-20 11:06:48 gao8658 阅读数 886
  • 深度学习项目实战-关键点定位视频课程

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 深度学习项目实战-关键点定位课程以人脸关键点检测为背景,选择多阶段检测的网络架构,对于回归以及多label标签问题选择hdf5作为网络的输入数据源,实例演示如何制作多标签数据源并对原始数据进行数据增强。整个网络架构采用三个阶段的模式,从全局检测到单点校准,基于caffe深度学习框架实现一个既准确又的人脸关键点检测模型。对于每一阶段,详解代码中每一行的意义,带领大家一步步完成整个网络模型。

    5797 人正在学习 去看看 唐宇迪

(1) DQN与DDPG

离散状态:

DQN是一个面向离散控制的算法,即输出的动作是离散的。对应到Atari 游戏中,只需要几个离散的键盘或手柄按键进行控制。

然而在实际中,控制问题则是连续的,高维的,比如一个具有6个关节的机械臂,每个关节的角度输出是连续值,假设范围是0°~360°,归一化后为(-1,1)。若把每个关节角取值范围离散化,比如精度到0.01,则一个关节有200个取值,那么6个关节共有20062006个取值,若进一步提升这个精度,取值的数量将成倍增加,而且动作的数量将随着自由度的增加呈指数型增长。所以根本无法用传统的DQN方法解决。

连续状态:

深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法是Lillicrap 等人利用 DQN 扩展 Q 学习算法的思路对确定性策略梯度(Deterministic Policy Gradient, DPG)方法进行改造,提出的一种基于行动者-评论家(Actor-Critic,AC)框架的算法,该算法可用于解决连续动作空间上的 DRL 问题。

(2) 离散状态空间-DQN

(2.1) Q-learn

Q和R矩阵的初始化如下面代码所示:

Python代码:

import numpy as np
GAMMA = 0.8
Q = np.zeros((6,6))
R=np.asarray([[-1,-1,-1,-1,0,-1],
   [-1,-1,-1,0,-1,100],
   [-1,-1,-1,0,-1,-1],
   [-1,0, 0, -1,0,-1],
   [0,-1,-1,0,-1,100],
   [-1,0,-1,-1,0,100]])
def getMaxQ(state):
    return max(Q[state, :])
def QLearning(state):
    curAction = None
    for action in range(6):
        if(R[state][action] == -1):
            Q[state, action]=0
        else:
            curAction = action
            Q[state,action]=R[state][action]+GAMMA * getMaxQ(curAction)
count=0
while count<1000:
    for i in range(6):
        QLearning(i)
    count+=1
print(Q/5)

参考:https://blog.csdn.net/qq_41352018/article/details/80274282

DQN

相比Q-Learn算法有几个进化:

1 Q网络输出值近似Q值,通过MSE为损失函数调节

2 store transition,保存结果,experience relay

参考:https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

(3) 连续状态-DDPG

相比DQN就是状态空间太大,每次向前推进,选action时,希望通过采样或者通过函数映射每次只取其中一部分作为action。

(3.1) PG

通过采样获取action

参考:https://blog.csdn.net/kenneth_yu/article/details/78478356

(3.2) DPG

采样产生的问题,计算量太大,DPG决定通过函数来近似采样的结果:

DPG每次选action通过一个函数输出需要的action

最终将DPG算法融合进actor-critic框架,结合Q-learning或者Gradient Q-learning这些传统的Q函数学习方法,经过训练得到一个确定性的最优行为策略函数。

(3.3) DDPG

相比DPG,直接以深度学习近似U函数和Q函数。动作函数同时融入EE。

network visulization

DDPG

对Q网络和U网络分别通过不同的损失函数和梯度下降公式优化:

Q网络通过和target Q值进行MSE进行优化:

U网络:

相当于极大似然估计,希望Q值最大化期望。然后对u中的参数theta求导。J对theta求导经过链式法则转化为

Q对U求导,U对theta求导。

补充理解:

U是确定过程,N是噪音,通过随机过程模拟采样出来。

这个图容易混淆,随机过程应只发生在noise中,而且与梯度下降过程分离,不影响性能。

behaviour policy

参考:http://wulc.me/2018/05/11/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0(3)-%20%E4%BB%8E%20Policy%20Gradient%20%E5%88%B0%20A3C/

参考:https://blog.csdn.net/kenneth_yu/article/details/78478356

参考:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

(4) 将问题转换为通过RL解决

分类问题,将类别映射为DQN的状态,类别被预测的概率为Q值,类别的target label映射为Reward值。问题同时有特点,能够源源不断对环境进行交互获取新的训练数据

回归问题,将预测值转换为DDPG预测的连续状态,回归值被预测为Q值,回归值的target label映射为Reward值。问题同时有特点,能够源源不断对环境进行交互获取新的训练数据

参考:《强化学习在阿里的技术演进与业务创新》

 

友情推荐:ABC技术研习社

为技术人打造的专属A(AI),B(Big Data),C(Cloud)技术公众号和技术交流社群。

2017-08-04 21:44:31 soulmeetliang 阅读数 2814
  • 深度学习项目实战-关键点定位视频课程

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 深度学习项目实战-关键点定位课程以人脸关键点检测为背景,选择多阶段检测的网络架构,对于回归以及多label标签问题选择hdf5作为网络的输入数据源,实例演示如何制作多标签数据源并对原始数据进行数据增强。整个网络架构采用三个阶段的模式,从全局检测到单点校准,基于caffe深度学习框架实现一个既准确又的人脸关键点检测模型。对于每一阶段,详解代码中每一行的意义,带领大家一步步完成整个网络模型。

    5797 人正在学习 去看看 唐宇迪

[机器学习入门] 李宏毅机器学习笔记-37(Deep Reinforcement Learning;深度增强学习入门)

PDF VIDEO

Deep Reinforcement Learning

深度增强学习是一套很复杂的方法,在这里只了解皮毛。

Scenario of Reinforcement Learning

有个傻傻的机器人小白(Agent)去闯荡世界(Environment),世界是非常开放的,将自己的状态(State)毫不吝啬地给小白呈现 ,而小白也会做出一些懵懵懂懂的探索动作(Action),这时候世界就会告诉小白你的所作所为是好的还是不好的(Reward)。

这里写图片描述

小白看到一杯水(State),懵懂的小白一下子将它打翻了(Action),则他会收到负面反馈(Reword)。由于环境是连续的,紧接着小白面前的就是一杯被打翻的水(State),于是试着把水擦干净(Action),得到了正面反馈(Reward)。

这里写图片描述

于是,小白要做的就是,根据前面收获的正面和负面反馈,去学习哪些能时正面反馈最大化的行为。


Learning to paly Go

这里写图片描述

这里写图片描述

可见,只有在少数的action下才有reword,这是一个难点。
下面来比较一下:Learning to paly Go - Supervised v.s. Reinforcement

这里写图片描述

在下棋这个任务里,监督学习就想从老师那里学习,看到A,落子到某处,看到B,落子到……
AlphaGo 采取的策略是先用监督学习learn的不错后,再用增强学习狂下棋。


Learning a chat-bot

原来我们的方法是:

这里写图片描述

再比较一下 Supervised v.s. Reinforcement

这里写图片描述

在增强学习中,机器人小白跟人讲话,看人脸色好,就知道自己讲对了,脸色差,就反省自己做错了。

这里写图片描述

当然不断跟人讲话会把人逼疯的,所以两个小白一直对话就好,但这样也有一个问题,下棋可以判断输赢,但是对话的脸色却是不好判断的,这是该任务的尚待解决的问题。

这里写图片描述

有一个方法是,Use some pre-defined rules to evaluate the goodness of a dialogue

这里写图片描述


More applications

在一些人也不知道对错的情况下,缺少labeled data ,这时候增强学习就比较适用。

这里写图片描述

这里写图片描述


Example: Playing Video Game

这里写图片描述

Space invader

Play yourself: http://www.2600online.com/spaceinvaders.htm l • How
about machine: https://gym.openai.com/evaluations/eval_Eduozx4HRyqgTCVk9ltw

这里写图片描述

这里写图片描述

Difficulties of Reinforcement Learning

这里写图片描述


Outline

增强学习有两大类,Policy-based是在learn一个做事的actor,而Value-based会learn不做事,只会评论的Critic。

这里写图片描述

增强学习的方法很多,在这里讲的是当时的最强方法:Asynchronous Advantage Actor-Critic (A3C)
Alpha Go 用的方法是:policy-based + value-based + model-based

Policy-based Approach

Learning an Actor

这里写图片描述

function是Pi,input是environment,output是Action。

回顾Deep learning 的是那个步骤:

这里写图片描述

Step 1: Neural Network of function

这里写图片描述

这里写图片描述

NN的好处就是比较generalized,即使没见过的场景,也可能给出合理的结果。

Step 2:goodness of function

这里写图片描述

Review: Supervised learning

这里写图片描述

在增强学习中一个Actor的好坏定义是非常类似的。

这里写图片描述

期望值衡量了actor 的好坏,那么这个期望值如何计算呢?

这里写图片描述

Step 3: pick the best function

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

Add a Baseline:

这里写图片描述

The probability of the actions not sampled will decrease.

Value-based Approach

Learning a Critic

这里写图片描述

Three kinds of Critics

这里写图片描述

这里写图片描述

How to estimate

这里写图片描述

这里写图片描述

这里写图片描述


Actor-Critic

这里写图片描述

这里写图片描述

这里写图片描述

Demo of A3C:

走迷宫:https://www.youtube.com/watch?v=nMR5mjCFZCw

这里写图片描述

开赛车: https://www.youtube.com/watch?v=0xo1Ldx3L5Q

这里写图片描述

end!

2015-06-11 21:28:55 cv_family_z 阅读数 2481
  • 深度学习项目实战-关键点定位视频课程

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 深度学习项目实战-关键点定位课程以人脸关键点检测为背景,选择多阶段检测的网络架构,对于回归以及多label标签问题选择hdf5作为网络的输入数据源,实例演示如何制作多标签数据源并对原始数据进行数据增强。整个网络架构采用三个阶段的模式,从全局检测到单点校准,基于caffe深度学习框架实现一个既准确又的人脸关键点检测模型。对于每一阶段,详解代码中每一行的意义,带领大家一步步完成整个网络模型。

    5797 人正在学习 去看看 唐宇迪

《nature》 机器学习各个分支(branch of machine learning) “深度学习”、“增强式学习”、“概率学习” 的最新的综述。等有空了 把他们翻译成中文

1.Deep learning,Yann LeCun, Yoshua Bengio & Geoffrey Hinton ,2 8 M AY 2 0 1 5 | VO L 5 2 1 | N AT U R E | 深度学习

   Abstract:Deep learning allows computational models that are composed of multiple processing layers to learn representations of data with multiple levels of abstraction. These methods have dramatically improved the state-of-the-art in speech recognition,visual object recognition, object detection and many other domains such as drug discovery and genomics. Deep learning discovers intricate structure in large data sets by using the backpropagation algorithm to indicate how a machine should change its internal parameters that are used to compute the representation in each layer from the representation in the previous layer. Deep convolutional nets have brought about breakthroughs in processing images, video, speech and audio, whereas recurrent nets have shone light on sequential data such as text and speech.

 2.Reinforcement learning improves behaviour from evaluative feedback. Michael L. Littman.2 8 M AY 2 0 1 5 | VO L 5 2 1 | N AT U R E | ,增强式学习

 Abstract:Reinforcement learning is a branch of machine learning concerned with using experience gained through interacting with the world and evaluative feedback to improve a system’s ability to make behavioural decisions. It has been called the artificial intelligence problem in a microcosm because learning algorithms must act autonomously to perform well and achieve their goals. Partly driven by the increasing availability of rich data, recent years have seen exciting advances in the theory and practice of reinforcement learning, including developments in fundamental technical areas such as generalization,planning, exploration and empirical methodology, leading to increasing applicability to real-life problems.

3.Probabilistic machine learning and artificial intelligence.Zoubin Ghahramani.2 8 M AY 2 0 1 5 | VO L 5 2 1 | N AT U R E ,“概率学习”

Abstract: How can a machine learn from experience? Probabilistic modelling provides a framework for understanding what learning is, and has therefore emerged as one of the principal theoretical and practical approaches for designing machines that learn from data acquired through experience. The probabilistic framework, which describes how to represent and manipulate uncertainty about models and predictions, has a central role in scientific data analysis, machine learning,robotics, cognitive science and artificial intelligence. This Review provides an introduction to this framework, and discusses some of the state-of-the-art advances in the field, namely, probabilistic programming, Bayesian optimization,data compression and automatic model discovery.


此外nature 上面也有一篇 “深度学习”结合“增强式学习”的paper-------human level control through deep reinforcement learning(DRL),DeepMind's Nature Paper and Earlier Related Work对该paper的前前后后发展介绍的网页:http://people.idsia.ch/~juergen/naturedeepmind.html

没有更多推荐了,返回首页