2018-06-19 19:51:10 Sun7_She 阅读数 510
  • 深度学习30天系统实训

    系列教程从深度学习核心模块神经网络开始讲起,将复杂的神经网络分模块攻克。由神经网络过度到深度学习,详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战,选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战,从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括:神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

    14364 人正在学习 去看看 唐宇迪

文中的图片来自莫烦python视频。视频内容真心很赞,一天就可以看完,有兴趣的朋友可以点击下边的链接哦

https://space.bilibili.com/243821484/#/channel/detail?cid=26359


come on, babies! 让我们一起来聊一下增强学习吧~hhhh

增强学习,简单来讲,就是做对了给奖励,做错了给惩罚,超级简单粗暴。惩罚和奖励啥的本质上也可以用梯度下降来反传。

最大的感受是,找最优解的过程中,走一步告诉你对不对,再走一步告诉你对不对,或者走完了告诉你前边走了那一堆对不对。然后更新。这个算法有一个表,这个表会告诉你选择这个优化方向的好坏程度,预测的值是根据之前的经验来的,我们也会根据每一步或者最终结果的好坏来更新这张表。

我们来一起了解一下几个经典的增强学习的算法吧~

1. Q-learning:

一张q表记录选择路径的分数。


为了更明确图片中的公式具体是怎样计算的,我直接用数字来算一遍啦

q现实 = 0+0.9*2 = 1.8

q估计 = 1

新q = 1 + alpha * (1.8-1)

然后我们就可以把图中的s1,a2对应的 1 修改为 1 + alpha * 0.8 咯。然后继续计算。。。

注意Q-learning是选择后续路径中最大的那个来计算q现实,就是说,如果s2情况下,我选择走a1,那么我的q现实也是1.8哦。

2. 这里就可以引出sarsa算法,sarsa就是走哪条路就选哪个。

体现在更新过程中就是,Q-learning记吃不记打,总是选之后价值大的。sarsa就是每次选错了就惩罚,就不大敢走,即使这条路另一个支路可能是对的,但是走错的那条路如果被惩罚多了,那后边这条路就会很难走的。


当然,为了解决这种直接封锁道路的一锤子买卖,算法中加了10%的随机选路的过程,保证即使这条路不好,算法也是有可能往这个方向再试一试的。


3. Q-learning和神经网络结合起来就有了DQN(Deep Q Network)

和神经网络结合起来再想记录参数就不能用一张表来解决啦,我们就会使用两个网络来记录结果,一个是现实网络,一个是估计网络。两个网络异步更新。现实网络是更新慢的那个,可能是存储了几步之前的网络参数,用于打乱经历相关性。

(1)网络输入:状态(s)和动作(a);输出:value

(2)网络输入:状态(s);输出:动作(a)与对应的value

dqn有记忆库,记录之前的经历来学习,打乱经历的相关性。



4. policy gradient

输入是状态,输出是动作or动作的概率。基于神经网络,让某动作更容易被选中。最大化好动作的概率。最终的结果也不是一条确定的通路,而是通过概率来选的路径。一个回合结束之后才能更新。


5. actor critic

actor:policy gradient 作出动作

critic:q-learning 预判这个动作的value

两者结合就可以实现单步更新,更有效率。而不是policy gradient那样一个回合结束才知道每一步是好还是不好。


6. ddpg

两个actor,两个critic。相互之间会互通信息。


2017-03-21 17:46:52 paomojing 阅读数 459
  • 深度学习30天系统实训

    系列教程从深度学习核心模块神经网络开始讲起,将复杂的神经网络分模块攻克。由神经网络过度到深度学习,详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战,选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战,从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括:神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

    14364 人正在学习 去看看 唐宇迪

https://zhuanlan.zhihu.com/intelligentunit
长期原创和翻译深度学习和深度增强学习等领域高质量文章的专栏

2017-08-04 21:44:31 soulmeetliang 阅读数 2583
  • 深度学习30天系统实训

    系列教程从深度学习核心模块神经网络开始讲起,将复杂的神经网络分模块攻克。由神经网络过度到深度学习,详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战,选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战,从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括:神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

    14364 人正在学习 去看看 唐宇迪

[机器学习入门] 李宏毅机器学习笔记-37(Deep Reinforcement Learning;深度增强学习入门)

PDF VIDEO

Deep Reinforcement Learning

深度增强学习是一套很复杂的方法,在这里只了解皮毛。

Scenario of Reinforcement Learning

有个傻傻的机器人小白(Agent)去闯荡世界(Environment),世界是非常开放的,将自己的状态(State)毫不吝啬地给小白呈现 ,而小白也会做出一些懵懵懂懂的探索动作(Action),这时候世界就会告诉小白你的所作所为是好的还是不好的(Reward)。

这里写图片描述

小白看到一杯水(State),懵懂的小白一下子将它打翻了(Action),则他会收到负面反馈(Reword)。由于环境是连续的,紧接着小白面前的就是一杯被打翻的水(State),于是试着把水擦干净(Action),得到了正面反馈(Reward)。

这里写图片描述

于是,小白要做的就是,根据前面收获的正面和负面反馈,去学习哪些能时正面反馈最大化的行为。


Learning to paly Go

这里写图片描述

这里写图片描述

可见,只有在少数的action下才有reword,这是一个难点。
下面来比较一下:Learning to paly Go - Supervised v.s. Reinforcement

这里写图片描述

在下棋这个任务里,监督学习就想从老师那里学习,看到A,落子到某处,看到B,落子到……
AlphaGo 采取的策略是先用监督学习learn的不错后,再用增强学习狂下棋。


Learning a chat-bot

原来我们的方法是:

这里写图片描述

再比较一下 Supervised v.s. Reinforcement

这里写图片描述

在增强学习中,机器人小白跟人讲话,看人脸色好,就知道自己讲对了,脸色差,就反省自己做错了。

这里写图片描述

当然不断跟人讲话会把人逼疯的,所以两个小白一直对话就好,但这样也有一个问题,下棋可以判断输赢,但是对话的脸色却是不好判断的,这是该任务的尚待解决的问题。

这里写图片描述

有一个方法是,Use some pre-defined rules to evaluate the goodness of a dialogue

这里写图片描述


More applications

在一些人也不知道对错的情况下,缺少labeled data ,这时候增强学习就比较适用。

这里写图片描述

这里写图片描述


Example: Playing Video Game

这里写图片描述

Space invader

Play yourself: http://www.2600online.com/spaceinvaders.htm l • How
about machine: https://gym.openai.com/evaluations/eval_Eduozx4HRyqgTCVk9ltw

这里写图片描述

这里写图片描述

Difficulties of Reinforcement Learning

这里写图片描述


Outline

增强学习有两大类,Policy-based是在learn一个做事的actor,而Value-based会learn不做事,只会评论的Critic。

这里写图片描述

增强学习的方法很多,在这里讲的是当时的最强方法:Asynchronous Advantage Actor-Critic (A3C)
Alpha Go 用的方法是:policy-based + value-based + model-based

Policy-based Approach

Learning an Actor

这里写图片描述

function是Pi,input是environment,output是Action。

回顾Deep learning 的是那个步骤:

这里写图片描述

Step 1: Neural Network of function

这里写图片描述

这里写图片描述

NN的好处就是比较generalized,即使没见过的场景,也可能给出合理的结果。

Step 2:goodness of function

这里写图片描述

Review: Supervised learning

这里写图片描述

在增强学习中一个Actor的好坏定义是非常类似的。

这里写图片描述

期望值衡量了actor 的好坏,那么这个期望值如何计算呢?

这里写图片描述

Step 3: pick the best function

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

Add a Baseline:

这里写图片描述

The probability of the actions not sampled will decrease.

Value-based Approach

Learning a Critic

这里写图片描述

Three kinds of Critics

这里写图片描述

这里写图片描述

How to estimate

这里写图片描述

这里写图片描述

这里写图片描述


Actor-Critic

这里写图片描述

这里写图片描述

这里写图片描述

Demo of A3C:

走迷宫:https://www.youtube.com/watch?v=nMR5mjCFZCw

这里写图片描述

开赛车: https://www.youtube.com/watch?v=0xo1Ldx3L5Q

这里写图片描述

end!

2015-06-11 21:28:55 cv_family_z 阅读数 2399
  • 深度学习30天系统实训

    系列教程从深度学习核心模块神经网络开始讲起,将复杂的神经网络分模块攻克。由神经网络过度到深度学习,详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战,选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战,从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括:神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

    14364 人正在学习 去看看 唐宇迪

《nature》 机器学习各个分支(branch of machine learning) “深度学习”、“增强式学习”、“概率学习” 的最新的综述。等有空了 把他们翻译成中文

1.Deep learning,Yann LeCun, Yoshua Bengio & Geoffrey Hinton ,2 8 M AY 2 0 1 5 | VO L 5 2 1 | N AT U R E | 深度学习

   Abstract:Deep learning allows computational models that are composed of multiple processing layers to learn representations of data with multiple levels of abstraction. These methods have dramatically improved the state-of-the-art in speech recognition,visual object recognition, object detection and many other domains such as drug discovery and genomics. Deep learning discovers intricate structure in large data sets by using the backpropagation algorithm to indicate how a machine should change its internal parameters that are used to compute the representation in each layer from the representation in the previous layer. Deep convolutional nets have brought about breakthroughs in processing images, video, speech and audio, whereas recurrent nets have shone light on sequential data such as text and speech.

 2.Reinforcement learning improves behaviour from evaluative feedback. Michael L. Littman.2 8 M AY 2 0 1 5 | VO L 5 2 1 | N AT U R E | ,增强式学习

 Abstract:Reinforcement learning is a branch of machine learning concerned with using experience gained through interacting with the world and evaluative feedback to improve a system’s ability to make behavioural decisions. It has been called the artificial intelligence problem in a microcosm because learning algorithms must act autonomously to perform well and achieve their goals. Partly driven by the increasing availability of rich data, recent years have seen exciting advances in the theory and practice of reinforcement learning, including developments in fundamental technical areas such as generalization,planning, exploration and empirical methodology, leading to increasing applicability to real-life problems.

3.Probabilistic machine learning and artificial intelligence.Zoubin Ghahramani.2 8 M AY 2 0 1 5 | VO L 5 2 1 | N AT U R E ,“概率学习”

Abstract: How can a machine learn from experience? Probabilistic modelling provides a framework for understanding what learning is, and has therefore emerged as one of the principal theoretical and practical approaches for designing machines that learn from data acquired through experience. The probabilistic framework, which describes how to represent and manipulate uncertainty about models and predictions, has a central role in scientific data analysis, machine learning,robotics, cognitive science and artificial intelligence. This Review provides an introduction to this framework, and discusses some of the state-of-the-art advances in the field, namely, probabilistic programming, Bayesian optimization,data compression and automatic model discovery.


此外nature 上面也有一篇 “深度学习”结合“增强式学习”的paper-------human level control through deep reinforcement learning(DRL),DeepMind's Nature Paper and Earlier Related Work对该paper的前前后后发展介绍的网页:http://people.idsia.ch/~juergen/naturedeepmind.html

2018-01-19 11:25:51 ohbxiaoxin 阅读数 136
  • 深度学习30天系统实训

    系列教程从深度学习核心模块神经网络开始讲起,将复杂的神经网络分模块攻克。由神经网络过度到深度学习,详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战,选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战,从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括:神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

    14364 人正在学习 去看看 唐宇迪

机器学习:一种实现人工智能的方法

机器学习直接来源于早期的人工智能领域,传统的算法包括决策树、聚类、贝叶斯分类、支持向量机(svm)、EM、Adaboost(加强版的doosting)等等。从学习方法上来分,机器学习算法可以分为监督学习(如分类问题)、无监督学习(如聚类问题)、半监督学习、集成学习、深度学习和强化学习。

深度学习:一种实现机器学习的技术

深度学习本来并不是一种独立的学习方法,其本身也会用到有监督和无监督的学习方法来训练深度神经网络。但由于近几年该领域发展迅猛,一些特有的学习手段相继被提出(如残差网络),因此越来越多的人将其单独看作一种学习的方法。

没有更多推荐了,返回首页