2018-06-19 19:51:10 Sun7_She 阅读数 510
  • 深度学习30天系统实训

    系列教程从深度学习核心模块神经网络开始讲起,将复杂的神经网络分模块攻克。由神经网络过度到深度学习,详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战,选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战,从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括:神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

    14362 人正在学习 去看看 唐宇迪

文中的图片来自莫烦python视频。视频内容真心很赞,一天就可以看完,有兴趣的朋友可以点击下边的链接哦

https://space.bilibili.com/243821484/#/channel/detail?cid=26359


come on, babies! 让我们一起来聊一下增强学习吧~hhhh

增强学习,简单来讲,就是做对了给奖励,做错了给惩罚,超级简单粗暴。惩罚和奖励啥的本质上也可以用梯度下降来反传。

最大的感受是,找最优解的过程中,走一步告诉你对不对,再走一步告诉你对不对,或者走完了告诉你前边走了那一堆对不对。然后更新。这个算法有一个表,这个表会告诉你选择这个优化方向的好坏程度,预测的值是根据之前的经验来的,我们也会根据每一步或者最终结果的好坏来更新这张表。

我们来一起了解一下几个经典的增强学习的算法吧~

1. Q-learning:

一张q表记录选择路径的分数。


为了更明确图片中的公式具体是怎样计算的,我直接用数字来算一遍啦

q现实 = 0+0.9*2 = 1.8

q估计 = 1

新q = 1 + alpha * (1.8-1)

然后我们就可以把图中的s1,a2对应的 1 修改为 1 + alpha * 0.8 咯。然后继续计算。。。

注意Q-learning是选择后续路径中最大的那个来计算q现实,就是说,如果s2情况下,我选择走a1,那么我的q现实也是1.8哦。

2. 这里就可以引出sarsa算法,sarsa就是走哪条路就选哪个。

体现在更新过程中就是,Q-learning记吃不记打,总是选之后价值大的。sarsa就是每次选错了就惩罚,就不大敢走,即使这条路另一个支路可能是对的,但是走错的那条路如果被惩罚多了,那后边这条路就会很难走的。


当然,为了解决这种直接封锁道路的一锤子买卖,算法中加了10%的随机选路的过程,保证即使这条路不好,算法也是有可能往这个方向再试一试的。


3. Q-learning和神经网络结合起来就有了DQN(Deep Q Network)

和神经网络结合起来再想记录参数就不能用一张表来解决啦,我们就会使用两个网络来记录结果,一个是现实网络,一个是估计网络。两个网络异步更新。现实网络是更新慢的那个,可能是存储了几步之前的网络参数,用于打乱经历相关性。

(1)网络输入:状态(s)和动作(a);输出:value

(2)网络输入:状态(s);输出:动作(a)与对应的value

dqn有记忆库,记录之前的经历来学习,打乱经历的相关性。



4. policy gradient

输入是状态,输出是动作or动作的概率。基于神经网络,让某动作更容易被选中。最大化好动作的概率。最终的结果也不是一条确定的通路,而是通过概率来选的路径。一个回合结束之后才能更新。


5. actor critic

actor:policy gradient 作出动作

critic:q-learning 预判这个动作的value

两者结合就可以实现单步更新,更有效率。而不是policy gradient那样一个回合结束才知道每一步是好还是不好。


6. ddpg

两个actor,两个critic。相互之间会互通信息。


2017-03-21 17:46:52 paomojing 阅读数 459
  • 深度学习30天系统实训

    系列教程从深度学习核心模块神经网络开始讲起,将复杂的神经网络分模块攻克。由神经网络过度到深度学习,详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战,选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战,从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括:神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

    14362 人正在学习 去看看 唐宇迪

https://zhuanlan.zhihu.com/intelligentunit
长期原创和翻译深度学习和深度增强学习等领域高质量文章的专栏

2017-08-04 21:44:31 soulmeetliang 阅读数 2583
  • 深度学习30天系统实训

    系列教程从深度学习核心模块神经网络开始讲起,将复杂的神经网络分模块攻克。由神经网络过度到深度学习,详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战,选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战,从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括:神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

    14362 人正在学习 去看看 唐宇迪

[机器学习入门] 李宏毅机器学习笔记-37(Deep Reinforcement Learning;深度增强学习入门)

PDF VIDEO

Deep Reinforcement Learning

深度增强学习是一套很复杂的方法,在这里只了解皮毛。

Scenario of Reinforcement Learning

有个傻傻的机器人小白(Agent)去闯荡世界(Environment),世界是非常开放的,将自己的状态(State)毫不吝啬地给小白呈现 ,而小白也会做出一些懵懵懂懂的探索动作(Action),这时候世界就会告诉小白你的所作所为是好的还是不好的(Reward)。

这里写图片描述

小白看到一杯水(State),懵懂的小白一下子将它打翻了(Action),则他会收到负面反馈(Reword)。由于环境是连续的,紧接着小白面前的就是一杯被打翻的水(State),于是试着把水擦干净(Action),得到了正面反馈(Reward)。

这里写图片描述

于是,小白要做的就是,根据前面收获的正面和负面反馈,去学习哪些能时正面反馈最大化的行为。


Learning to paly Go

这里写图片描述

这里写图片描述

可见,只有在少数的action下才有reword,这是一个难点。
下面来比较一下:Learning to paly Go - Supervised v.s. Reinforcement

这里写图片描述

在下棋这个任务里,监督学习就想从老师那里学习,看到A,落子到某处,看到B,落子到……
AlphaGo 采取的策略是先用监督学习learn的不错后,再用增强学习狂下棋。


Learning a chat-bot

原来我们的方法是:

这里写图片描述

再比较一下 Supervised v.s. Reinforcement

这里写图片描述

在增强学习中,机器人小白跟人讲话,看人脸色好,就知道自己讲对了,脸色差,就反省自己做错了。

这里写图片描述

当然不断跟人讲话会把人逼疯的,所以两个小白一直对话就好,但这样也有一个问题,下棋可以判断输赢,但是对话的脸色却是不好判断的,这是该任务的尚待解决的问题。

这里写图片描述

有一个方法是,Use some pre-defined rules to evaluate the goodness of a dialogue

这里写图片描述


More applications

在一些人也不知道对错的情况下,缺少labeled data ,这时候增强学习就比较适用。

这里写图片描述

这里写图片描述


Example: Playing Video Game

这里写图片描述

Space invader

Play yourself: http://www.2600online.com/spaceinvaders.htm l • How
about machine: https://gym.openai.com/evaluations/eval_Eduozx4HRyqgTCVk9ltw

这里写图片描述

这里写图片描述

Difficulties of Reinforcement Learning

这里写图片描述


Outline

增强学习有两大类,Policy-based是在learn一个做事的actor,而Value-based会learn不做事,只会评论的Critic。

这里写图片描述

增强学习的方法很多,在这里讲的是当时的最强方法:Asynchronous Advantage Actor-Critic (A3C)
Alpha Go 用的方法是:policy-based + value-based + model-based

Policy-based Approach

Learning an Actor

这里写图片描述

function是Pi,input是environment,output是Action。

回顾Deep learning 的是那个步骤:

这里写图片描述

Step 1: Neural Network of function

这里写图片描述

这里写图片描述

NN的好处就是比较generalized,即使没见过的场景,也可能给出合理的结果。

Step 2:goodness of function

这里写图片描述

Review: Supervised learning

这里写图片描述

在增强学习中一个Actor的好坏定义是非常类似的。

这里写图片描述

期望值衡量了actor 的好坏,那么这个期望值如何计算呢?

这里写图片描述

Step 3: pick the best function

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

Add a Baseline:

这里写图片描述

The probability of the actions not sampled will decrease.

Value-based Approach

Learning a Critic

这里写图片描述

Three kinds of Critics

这里写图片描述

这里写图片描述

How to estimate

这里写图片描述

这里写图片描述

这里写图片描述


Actor-Critic

这里写图片描述

这里写图片描述

这里写图片描述

Demo of A3C:

走迷宫:https://www.youtube.com/watch?v=nMR5mjCFZCw

这里写图片描述

开赛车: https://www.youtube.com/watch?v=0xo1Ldx3L5Q

这里写图片描述

end!

2018-11-24 17:57:40 wanghr323 阅读数 282
  • 深度学习30天系统实训

    系列教程从深度学习核心模块神经网络开始讲起,将复杂的神经网络分模块攻克。由神经网络过度到深度学习,详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战,选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战,从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括:神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

    14362 人正在学习 去看看 唐宇迪

 

 关于“机器学习与深度学习案例实践班”通知

各有关单位:

    为进一步推动高等院校机器学习与深度学习教学工作的开展,加强国内各高等院校同行间的交流,培养国内的师资力量,将机器学习与深度学习的最新实训内容带入课堂,特举办“机器学习与深度学习案例实践班”,具体由北京中科软培科技有限公司举办,本次培训由权威师资主讲,培训主打理论结合实践主题,课程强调动手操作;内容以代码落地为主,以理论讲解为根,以公式推导为辅。

一、培训目的

   通过课程学习,可以理解机器学习的思维方式和关键技术;了解深度学习和机器学习在当前工业界的落地应用;能够根据数据分布选择合适的算法模型并书写代码,初步胜任使用Python进行数据挖掘、机器学习、深度学习等工作。

二、主讲专家:

邹博,中国科学院副研究员,天津大学软件学院创业导师,成立中国科学院邹博人工智能研究中心(杭州站),在翔创、天识、睿客邦等公司担任技术顾问,研究方向机器学习、深度学习、计算几何,应用于大型气象设备图像与文本挖掘、股票交易与预测、量子化学医药路径寻优、传统农资产品价格预测和决策等领域。

课程为多期多地点,详情咨询课程顾问:

 

三、培训内容:

 

 

 

 

 

 

 

 

 

 

 

Python与TensorFlow

 

解释器Python2.7/3.6与IDE:Anaconda/Pycharm

列表/元组/字典/类/文件

numpy/scipy/matplotlib/panda的介绍和典型使用

scikit-learn的介绍和典型使用

TensorFlow典型应用

典型图像处理

多种数学曲线

多项式拟合

快速傅里叶变换FFT

奇异值分解SVD

Soble/Prewitt/Laplacian算子与卷积网络

 

 

 

 

代码和案例实践:

卷积与(指数)移动平均线

股票数据分析

缺失数据的处理

环境数据异常检测和分析

 

 

 

 

 

 

 

 

 

 

 

 

 

 

回归分析

 

 

 

 

 

线性回归

Logistic/Softmax回归

广义线性回归

L1/L2正则化

Ridge与LASSO

Elastic Net

梯度下降算法:BGD与SGD

特征选择与过拟合

Softmax回归的概念源头

最大熵模型

K-L散度

 

代码和案例实践:

1.股票数据的特征提取和应用

2.泰坦尼克号乘客缺失数据处理和存活率预测

3.环境检测数据异常分析和预测

4.模糊数据查询和数据校正方法

5.PCA与鸢尾花数据分类

6.二手车数据特征选择与算法模型比较

7.广告投入与销售额回归分析

8.鸢尾花数据集的分类

9.TensorFlow实现线性回归

10.TensorFlow实现Logistic回归

 

 

 

 

 

决策树和随机森林

 

熵、联合熵、条件熵、KL散度、互信息

最大似然估计与最大熵模型

ID3、C4.5、CART详解

决策树的正则化

预剪枝和后剪枝

Bagging

随机森林

不平衡数据集的处理

利用随机森林做特征选择

使用随机森林计算样本相似度

异常值检测

 

 

代码和案例实践:

1.随机森林与特征选择

2.决策树应用于回归

3.多标记的决策树回归

4.决策树和随机森林的可视化

5.葡萄酒数据集的决策树/随机森林分类

6.泰坦尼克乘客存活率估计

 

 

 

 

 

SVM

 

 

线性可分支持向量机

软间隔

损失函数的理解

核函数的原理和选择

SMO算法

支持向量回归SVR

多分类SVM

代码和案例实践:

1.原始数据和特征提取

2.调用开源库函数完成SVM

4.葡萄酒数据分类

5.数字图像的手写体识别

5.MNIST手写体识别

6.SVR用于时间序列曲线预测

7.SVM、Logistic回归、随机森林三者的横向比较

 

 

 

 

 

卷积神经网络CNN

神经网络结构,滤波器,卷积

池化,激活函数,反向传播

目标分类与识别、目标检测与追踪

AlexNet、VGGNet、GoogleLeNet

Inception-V3/V4

ResNet、DenseNet

代码和案例实践:

数字图片分类

卷积核与特征提取

以图搜图

人证合一

卷积神经网络调参经验分享

 

 

 

图像视频的定位与识别

视频关键帧处理

物体检测与定位

RCNN,Fast-RCNN,Faster-RCNN,MaskRCNN

YOLO

FaceNet

代码和案例实践:

迁移学习

人脸检测

OCR字体定位和识别

睿客识云

气象识别

 

 

 

 

 

 

循环神经网络RNN

 

RNN基本原理

LSTM、GRU

Attention

CNN+LSTM模型

Bi-LSTM双向循环神经网络结构

编码器与解码器结构

特征提取:word2vec

Seq2seq模型

 

代码和案例实践:

看图说话

视频理解

藏头诗生成

问答对话系统

OCR

循环神经网络调参经验分享

 

 

 

 

 

 

 

 

自然语言处理

语言模型Bi-Gram/Tri-Gram/N-Gram

分词

词性标注

依存句法分析

语义关系抽取

词向量

文本分类

机器翻译

文本摘要

阅读理解

问答系统

情感分析

代码和案例实践:

输入法设计

HMM分词

文本摘要的生成

智能对话系统和SeqSeq模型

阅读理解的实现与Attention

 

 

 

 

 

生成对抗网络GAN

生成与判别

生成模型:贝叶斯、HMM到深度生成模型

GAN对抗生成神经网络

DCGAN

Conditional GAN

InfoGan

Wasserstein GAN

代码和案例实践:

图片生成

看图说话

对抗生成神经网络调参经验分享

 

 

 

 

 

强化学习RL

 

为何使用增强学习

马尔科夫决策过程

贝尔曼方程、最优策略

策略迭代、值迭代

Q Learning

SarsaLamda

DQN

A3C

ELF

代码和案例实践:

OpenAI

飞翔的小鸟游戏

基于增强学习的游戏学习

DQN的实现

 

 

四、时间地点:

     2019118-22日   17日报到 (北京华清温泉宾馆)

培训对象:

    各高等院校数据科学相关专业、计算机科学技术、网络工程、软件工程、信息工程、信息管理、、统计学专业、应用数学专业、经济管理专业、市场营销专业等科研、教学带头人,骨干教师、博士生、硕士生;各高校教务处、科研处、信息中心、实验中心领导。对机器学习技术有兴趣和需求,愿意进行深入钻研的从业人员。                                                                                                           
六、报名方式及费用:

报名人员可直接回复报名回执表至邮箱。或与会务组电话联系咨询。¥RMB:4900元/人(含报名费、证书费、培训费、教材费、资料费)食宿统一安排费用自理。

  • 颁发证书:

工信部和人社部相关部门颁发-证书。该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。

北京中科软培科技有限公司

                             2018年11月

 

 

 

 

 

 

课程中部分案例的结果图片:

 

图1 无线电磁波频率场强预测

 

 

图2 气象设备海量雨量筒图片处理和识别

 

 

图3 雷达维修方案智能客服推送算法

 

 

图4 睿客识云(1)

 

图5 睿客识云(2)

 

 

图6 睿客OCR (1)

 

图7 睿客OCR(2)

 

 

图8  时间序列分析

 

 

图9视频检测与图像定位

 

 

图10 车辆跟踪和目标定位

 

 

图11  Topic Bi-LSTM+Attention模型框架

 

 

图12 风机发电设备缺陷检测

 

 

 

 

                               

 

 

 

 

 

 

 

2018-09-09 15:57:49 mr_corder 阅读数 373
  • 深度学习30天系统实训

    系列教程从深度学习核心模块神经网络开始讲起,将复杂的神经网络分模块攻克。由神经网络过度到深度学习,详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战,选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战,从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括:神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

    14362 人正在学习 去看看 唐宇迪

Deep-Q-learning

1,Q-Learning与深度学习结合思路

q-table存在一个问题,真实情况的state可能无穷多,这样q-table就会无限大,解决这个问题的办法是通过神经网络实现q-table。输入state,输出不同action的q-value。

 

Q-Learning与神经网络结合使用就是 Deep Q-Network,简称 DQN。在现实中,状态的数量极多,并且需要人工去设计特征(状态的特征),而且一旦特征设计不好,则得不到想要的结果。

神经网络正是能处理解决这个问题(状态数量太多,且状态特征难以设计),取代原来 Q 表的功能。

当神经网络与Q-Learning结合使用的时候,又会碰到几个问题:

(1).loss 要怎么计算?

增强学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。

Q-Learning正是其中的一种,所以Q值表中表示的是当前已学习到的经验。而根据公式计算出的 Q 值是智能体通过与环境交互及自身的经验总结得到的一个分数(即:目标 Q 值)。

最后使用目标 Q 值(target_q)去更新原来旧的 Q 值(q)。

而目标 Q 值与旧的 Q 值的对应关系,正好是监督学习神经网络中结果值与输出值的对应关系。

所以,loss = (target_q - q)^2

即:整个训练过程其实就是 Q 值(q)向目标 Q 值(target_q)逼近的过程。

(2).训练样本哪来?

在 DQN 中有 Experience Replay 的概念,就是经验回放。

就是先让智能体去探索环境,将经验(记忆)池累积到一定程度,在随机抽取出一批样本进行训练。

为什么要随机抽取?因为智能体去探索环境时采集到的样本是一个时间序列,样本之间具有连续性,如果每次得到样本就更新Q值,受样本分布影响,会对收敛造成影响。

Experience replay

强化学习由于state之间的相关性存在稳定性的问题,解决的办法是在训练的时候存储当前训练的状态到记忆体MM,更新参数的时候随机从MM中抽样mini-batch进行更新。

具体地,MM中存储的数据类型为 <s,a,r,s′><s,a,r,s′>,MM有最大长度的限制,以保证更新采用的数据都是最近的数据。

Exploration - Exploitation

  • Exploration:在刚开始训练的时候,为了能够看到更多可能的情况,需要对action加入一定的随机性。
  • Exploitation:随着训练的加深,逐渐降低随机性,也就是降低随机action出现的概率。

 

2,模拟流程

1.随机初始化一个状态 s,初始化记忆池,设置观察值。

2.循环遍历(是永久遍历还是只遍历一定次数这个自己设置):

  (1)根据策略选择一个行为(a)。

  (2)执行该行动(a),得到奖励(r)、执行该行为后的状态 s`和游戏是否结束 done。

  (3)保存 s, a, r, s`, done 到记忆池里。

  (4)判断记忆池里的数据是否足够(即:记忆池里的数据数量是否超过设置的观察值),如果不够,则转到(5)步。

         ① 在记忆池里随机抽取出一部分数据做为训练样本。

         ② 将所有训练样本的 s`做为神经网络的输入值,进行批量处理,得到 s`状态下每个行为的 q 值的表。

         ③ 根据公式计算出 q 值表对应的 target_q 值表。

             公式:Q(s, a) = r + Gamma * Max[Q(s`, all actions)]

         ④ 使用 q 与 target_q 训练神经网络。

  (5)判断游戏是否结束。

         ① 游戏结束,给 s 随机设置一个状态,再执行(1),(2),(3),(4)

         ① 未结束,则当前状态 s 更新为 s`(意思就是当前的状态变成 s`,以当前的 s`去action,得到r,得到执行该行为后的状态 s`和游戏是否结束 done)。

 

没有更多推荐了,返回首页