2017-05-05 21:14:41 seanliu96 阅读数 1916
• ###### 深度学习30天系统实训

系列教程从深度学习核心模块神经网络开始讲起，将复杂的神经网络分模块攻克。由神经网络过度到深度学习，详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战，选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战，从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括：神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

14741 人正在学习 去看看 唐宇迪

## Lecture I: Introduction of Deep Learning

#### Three Steps for Deep Learning

1. define a set of function(Neural Network)
2. goodness of function
3. pick the best function

#### FAQhow many layers? How many neutons for each layer?

Trial and Error + Intuition(试错＋直觉)

1. pick an initial value for w$w$
• random(good enough)
• RBM pre-train
2. compute Lw$\frac{\partial L}{\partial w}$
wwηLw$w \leftarrow w - \eta \frac{\partial L}{\partial w}$, where η$\eta$ is called “learning rate”
3. repeat Until Lw$\frac{\partial L}{\partial w}$ is approximately small

But gradient descent never guarantee global minima

#### Modularization(模块化)

Deep $\rightarrow$ Modularization

• Each basic classifier can have sufficient training examples

• Sharing by the following classifiers as module

• The modulrization is automatically learned from data

## Lecture II: Tips for Training DNN

1. Do not always blame overfitting

• Reason for overfitting: Training data and testing data can be different
• Panacea for Overfitting: Have more training data or Create more training data
2. Different approaches for different problems

3. Chossing proper loss

• square error(mse)
• (yiyi^)2$\sum {(y_i-\hat{y_i})^2}$
• cross entropy(categorical_crosssentropy)
• (yi^lnyi)$-\sum{(\hat{y_i}ln{y_i})}$
• When using softmax output layer, choose cross entropy
4. Mini-batch

• Mini-batch is Faster
1. Randomly initialize network parameters
2. Pick the 1 st batch, update parameters once
3. Pick the 2 nd batch, update parameters once
4. Until all mini-batches have been picked(one epoch finished)
5. Repeat the above process(2-5)
5. New activation function

• RBM pre-training
• Rectified Linear Unit (ReLU)
• Fast to compute
• Biological reason
• Infinite sigmoid z with different biases
• A Thinner linear network
• A special cases of Maxout
• ReLU - variant

• Popular & Simple Idea: Reduce the learning rate by some factor every few epochs

• ηt=ηt+1$\eta^t=\frac{\eta}{\sqrt{t+1}}$

• Original: wwηLw$w \leftarrow w - \eta \frac{\partial L}{\partial w}$
• Adagrad:wwηwLw,ηw=ηti=0(gi)2$w \leftarrow w - \eta_w \frac{\partial L}{\partial w}, \eta_w = \frac{\eta}{\sqrt{\sum_{i=0}^t{(g^i)^2}}}$
7. Momentum

• Movement = Negative of L/w$\partial L / \partial w$ + Momentum
8. Early Stopping

9. Weight Decay

• Original: wwηLw$w \leftarrow w - \eta \frac{\partial L}{\partial w}$
• Weight Decay: w0.99wηLw$w \leftarrow 0.99w - \eta \frac{\partial L}{\partial w}$
10. Dropout

• Training:
• Each neuron has p% to dropout
• The structure of the network is changed.
• Using the new network for training
• Testing:
• If the dropout rate at training is p%, all the weights times (1-p)%
• Dropout is a kind of ensemble

## Lecture III: Variants of Neural Networks

### Convolutional Neural Network (CNN)

• The convolution is not fully connected
• The convolution is sharing weights

### Recurrent Neural Network (RNN)

#### Long Short-term Memory (LSTM)

• Gated Recurrent Unit (GRU): simpler than LSTM

## Lecture IV: Next Wave

### Supervised Learning

#### Ultra Deep Network

• This ultra deep network have special structure

• Ultra deep network is the ensemble of many networks with different depth

• Ensemble: 6 layers, 4 layers or 2 layers

• FractalNet

• Residual Network

• Highway Network

#### Attention Model

• Attention-based Model

• Attention-based Model v2

### Reinforcement Learning

• Agent learns to take actions to maximize expected reward.
• Difficulties of Reinforcement Learning
• It may be better to sacrifice immediate reward to gain more long-term reward
• Agent’s actions affect the subsequent data it receives

### Unsupervised Learning

• Image: Realizing what the World Looks Like
• Text: Understanding the Meaning of Words
• Audio: Learning human language without supervision

2013-05-21 23:14:48 xudong0612 阅读数 26971
• ###### 深度学习30天系统实训

系列教程从深度学习核心模块神经网络开始讲起，将复杂的神经网络分模块攻克。由神经网络过度到深度学习，详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战，选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战，从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括：神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

14741 人正在学习 去看看 唐宇迪

①不充分的深度是有害的；

②大脑有一个深度架构；

③认知过程是深度的；

## 深度学习结构

### 生成性深度结构

DBN由一系列受限波尔兹曼机（RBM）单元组成。RBM是一种典型神经网络，该网络可视层和隐层单元彼此互连（层内无连接），隐单元可获取输入可视单元的高阶相关性。相比传统sigmoid信度网络，RBM权值的学习相对容易。为了获取生成性权值，预训练采用无监督贪心逐层方式来实现。在训练过程中，首先将可视向量值映射给隐单元；然后可视单元由隐层单元重建；这些新可视单元再次映射给隐单元，这样就获取了新的隐单元。通过自底向上组合多个RBM可以构建一个DBN。应用高斯—伯努利RBM或伯努利—伯努利RBM，可用隐单元的输出作为训练上层伯努利—伯努利RBM的输入，第二层伯努利和伯努利的输出作为第三层的输入等，如图2所示。

## 里程碑式的论文

### 计算机视觉

ImageNetClassification with Deep Convolutional Neural Networks, Alex Krizhevsky, IlyaSutskever, Geoffrey E Hinton, NIPS 2012.

LearningHierarchical Features for Scene Labeling, Clement Farabet, Camille Couprie,Laurent Najman and Yann LeCun, IEEE Transactions on Pattern Analysis andMachine Intelligence, 2013.

LearningConvolutional Feature Hierachies for Visual Recognition, Koray Kavukcuoglu,Pierre Sermanet, Y-Lan Boureau, Karol Gregor, Micha&euml;l Mathieu and YannLeCun, Advances in Neural Information Processing Systems (NIPS 2010), 23, 2010.

### 语音识别

Dahl,George E., et al. Large vocabulary continuous speech recognition withcontext-dependent DBN-HMMs. Acoustics, Speech and Signal Processing (ICASSP),2011 IEEE International Conference on. IEEE, 2011.

Mohamed,A-R., et al. Deep belief networks using discriminative features for phonerecognition. Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEEInternational Conference on. IEEE, 2011.

Fasel,Ian, Jeff Berry. Deep belief networks for real-time extraction of tonguecontours from ultrasound during speech. Pattern Recognition (ICPR), 2010 20thInternational Conference on. IEEE, 2010.

Deng,Li, et al. Binary coding of speech spectrograms using a deep auto-encoder.Proc. Interspeech. 2010.

### 自然语言处理

DESELAERST,HASANS, BENDERO, et al. A deep learning approach to machine transliteration[C].Proc of the 4th Workshop on Statistical Machine Translation. 2009:233-241.

## 开发工具

Theano 是一个 Python 的扩展库，用来定义、优化和模拟数学表达式计算，可以高效的解决多维数组的计算问题。利用Theano更容易的实现深度学习模型。

1. Logistic Regression - using Theano for something simple
2. Multilayer perceptron - introduction to layers
3. Deep Convolutional Network - a simplified version of LeNet5

## 参考文献

[1] http://deeplearning.net
[5] Hinton, Geoffrey E., Simon Osindero, Yee-Whye Teh. A fast learning algorithm for deep belief nets. Neural computation 18.7 (2006): 1527-1554.

[6] 孙志军, 薛磊, 许阳明, 王正. (2012). 深度学习研究综述. 计算机应用研究,29(8), 2806-2810.

2018-11-05 09:28:36 fengdu78 阅读数 27
• ###### 深度学习30天系统实训

系列教程从深度学习核心模块神经网络开始讲起，将复杂的神经网络分模块攻克。由神经网络过度到深度学习，详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战，选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战，从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括：神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

14741 人正在学习 去看看 唐宇迪

1.讲义大纲

1.1   深度学习概论（p5）

1.1.1 深度学习的三个步骤（p10）

1）定义一系列函数（p11）

1.1.2 函数的优点（p26）

1） 训练数据（p27）

2）学习目标（p28）

3）损失函数（p29）

1.1.3 选择最佳函数（p32）

1）梯度下降（p33）

2）反向传播推导（p44）

1.2   为什么使用深度（p47）

1.2.1 更多参数，更优性能（p47）

1.2.2  任何函数可以通过一个单一的隐藏层实现（p44）

1.2.3  深度学习：模块化？需要更少的数据（p52）

2.1 合适的损失函数（p69）

2.1.1 平方误差和交叉熵（p74）

2.2 Mini batch （p74）

2.2.1 更好的性能（p83）

2.3 激活函数（p86）

2.3.1 RELU（p92）

2.3.2 Maxout（p98）

2.4 调整学习率（p98）

2.5 Momentum（p108）

2.6 解决过拟合（p115）

2.6.1 更多的训练数据（p116）

2.7 早停（p119）

2.8 权重衰减（p121）

2.9 Dropout（p126）

2.10 网络架构（p138）

3.1 CNN （p149）

3.1.1 卷积（p158）

3.1.2 池化（p165）

3.1.3 平铺（p170）

3.2 RNN（p192）

3.3 LSTM（p196）

3.4 GRU（p211）

4.1 监督学习（p226）

4.1.1 超级深的网络（p226）

4.1.2 注意力模型（p235）

4.2 增强学习（p252）

4.3 无监督学习（p264）

2.讲义截图：

3.总结：

QQ群：654173748

2017-12-08 14:59:37 wy005002 阅读数 203
• ###### 深度学习30天系统实训

系列教程从深度学习核心模块神经网络开始讲起，将复杂的神经网络分模块攻克。由神经网络过度到深度学习，详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战，选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战，从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括：神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

14741 人正在学习 去看看 唐宇迪

《深度学习：21天实战Caffe》是一本深度学习入门读物。以目前已经大量用于线上系统的深度学习框架Caffe为例，由浅入深，从 Caffe 的配置、部署、使用开始学习，通过阅读 Caffe 源码理解其精髓，加强对深度学习理论的理解，最终达到熟练运用 Caffe 解决实际问题的目的。和国外机器学习、深度学习大部头著作相比，《深度学习：21天实战Caffe》偏重动手实践，将难以捉摸的枯燥理论用浅显易懂的形式表达，透过代码揭开其神秘面纱，更多地贴近实际应用。

2018-06-29 17:56:00 cluster1893 阅读数 1461
• ###### 深度学习30天系统实训

系列教程从深度学习核心模块神经网络开始讲起，将复杂的神经网络分模块攻克。由神经网络过度到深度学习，详解深度学习中核心网络卷积神经网络与递归神经网络。选择深度学习当下流行框架Tensorflow进行案例实战，选择经典的计算机视觉与自然语言处理经典案例以及绚丽的AI黑科技实战，从零开始带大家一步步掌握深度学习的原理以及实战技巧。课程具体内容包括：神经网络基础知识点、神经网络架构、tensorflow训练mnist数据集、卷积神经网络、CNN实战与验证码识别、自然语言处理word2vec、word2vec实战与对抗生成网络、LSTM情感分析与黑科技概述。

14741 人正在学习 去看看 唐宇迪

# 读《一天搞懂深度学习》ppt笔记

## tips

20层的是过拟合。

### 对训练过程：

#### （2）需要mini batch

- 每轮整个数据集迭代结束后，对数据进行一次打乱，即shuffle

### 对测试数据：

L1正则化其实就是这个

#### dropput

dropout和maxout在一起可以工作的更好