2019-03-09 12:40:13 ys_1991 阅读数 148
  • 机器学习&深度学习系统实战!

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 数学原理推导与案例实战紧密结合,由机器学习经典算法过度到深度学习的世界,结合深度学习两大主流框架Caffe与Tensorflow,选择经典项目实战人脸检测与验证码识别。原理推导,形象解读,案例实战缺一不可!具体课程内容涉及回归算法原理推导、决策树与随机森林、实战样本不均衡数据解决方案、支持向量机、Xgboost集成算法、神经网络基础、神经网络整体架构、卷积神经网络、深度学习框架--Tensorflow实战、案例实战--验证码识别、案例实战--人脸检测。 专属会员卡优惠链接:http://edu.csdn.net/lecturer/1079

    39692 人正在学习 去看看 唐宇迪

一.AI&ML&DL
1.机器学习是一种实现人工智能的方法,深度学习受到了人工神经网络的影响,驱动了机器学习的发展,是机器学习的一个子集。

二.AL&DL的区别
1.数据量
深度学习比较适合数据量比较大的情况,而传统的机器学习的话在小数据量的情况下效果会好一点
2.硬件依赖
深度学习算法需要进行大量的矩阵运算,需要高端的硬件设备,像GPU
3.特征工程
在机器学习方法中,几乎所有的特征都需要通过行业专家在确定,然后手工就特征进行编码。然而深度学习算法试图自己从数据中学习特征
4.解决问题的方式
传统的机器学习会将问题进行拆分,逐个解决然后进行合并,而深度学习则不需拆分,集中解决
5.执行时间
深度学习因为有大量的参数需要训练,所需的时间会更长
6.可解释性
深度学习模型虽然有时候能达到不错的效果,但是结果却很难解释,传统的机器学习像决策树这些的解释性会更强

三.如何选择合适的模型
1.对数据的认知
1.了解数据
查看总结统计和数据可视化的结果
百分比可以帮助你识别大多数数据的范围
平均数和中位数可以描述集中趋势
相关系数可以指出强的关联性
2. 数据可视化
箱形图可以识别出异常值
密度图和直方图可以显示出数据的散布情况
散点图可以描述二元关系
3.数据清洗
处理缺失值。缺失的数据对于某些模型的影响比对其它模型更大。即使是对于那些被用于处理缺失数据的模型来说,它们也可能对缺失数据很敏感(某些变量的缺失数据可能导致预测性能变差)
4.选择处理异常值的方法
有些模型对异常值的敏感性比其它模型要低。通常而言,树模型对于异常值的存在不太敏感。然而回归模型、或者任何试图使用方程的模型都会受到异常值的严重影响。

2.对问题进行分类
所有的问题可以分为监督学习,无监督学习和强化学习
强化学习算法针对每个数据点做出决策,在机器人学中比较常见,传感器每读取一个数据,算法必须决定机器人下一步该做什么。
[1]依据输入数据进行分类,如果我们的数据有标签,这就是一个监督学习问题;如果数据没有标签就是无监督学习;如果我们想通过与环境交互来优化目标函数,这是强化学习。
[2]根据输出结果分类:如果模型输出结果是一个数值,这是回归问题;如果输出结果是一个类别,这是分类问题;如果输出结果是一组输入数据,那这是聚类问题

3.考虑要满足的约束条件
[1]能够存储数据的容量有多大
[2]模型训练和预测的时间

4.寻找算法
[1]模型是否满足业务目标
[2]模型需要多少数据预处理工作
[3]模型有多准确
[4]模型的可解释性如何
[5]模型运行的速度有多快:构造模型需要多久?模型做出预测需要多长时间?
[6]模型的可伸缩性如何

四.各种算法的比较
1.线性回归
可以预测一个正在运行过程的未来值,但是如果特征之间存在多重共线性时就会不太稳定,不能拟合非线性数据
[1]多重共线性的检测
回归系数的正负号与预先估计的相反
相关系数:两个特征之间的相关系数如果高于0.8,可以认为存在共线性
容忍度与方差扩大因子(VIF):一般认为容忍度小于0.1时,共线性严重;VIF等于容忍度的倒数
[2]多重共线性的解决
PCA :保留主要特征,忽略次要特征
增加样本数量
训练模型时加入L2正则,可以避免模型参数过于发散无法收敛的情况
改变特征的表现形式,像取对数等等
逐步回归分析
a.基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。具体方法
分为两步:
第一步,先将被解释变量y对每个解释变量作简单回归:
第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:
1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。
3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题

2.KNN
优点
[1]对数据没有假设,准确度高
[2]可用于非线性分类
[3]既可以用来做分类,也可以用来做回归
缺点
[1]计算量大,需要大量内存
[2]样本类别不均衡问题

3.LR(逻辑回归)
优点
[1]将线性回归的不确定范围的连续值映射到了(0,1)范围内,成了一个概率预测问题,对需要求分类概率的场景适用
[2]参数代表每个特征对输出的影响,可解释性强。
实施简单,非常高效(计算量小、存储占用低),可以在大数据场景中使用。
[3]可扩展,可以使用online learning的方式更新轻松更新参数,不需要重新训练整个模型。
缺点
[1]容易欠拟合,分类精度不高。(概率范围比较小,导致很多区间的变量变化对结果没有什么影响)
[2]因为它本质上是一个线性的分类器,对于非线性特征需要进行转换。
[3]特征空间很大时,性能不好。容易欠拟合,精度不高

3.决策树
优点
[1]比较适合处理有缺失属性的样本,能够处理不相关的特征
[2]可解释性强
[3]短时间对大型数据可以做出不错的预测
缺点
[1]不支持在线学习,当新的样本出现需要重新构建决策树
[2]容易发生过拟合,可以使用随机森林
[3]忽略了特征之间的相关性
[4]对于各类别样本数量不一致的情况,信息增益偏向于那些有更多特征的数值

4.随机森林
优点
[1]可以处理高维数据,不用进行特征选择(特征子集是随机选择)
[2]模型的泛化能力较强
[3]训练模型时速度快,成并行化方式,即树之间相互独立
[4]模型可以处理不平衡数据,平衡误差
[5]最终训练结果,可以对特征排序,选择比较重要的特征
[6]对缺失值、异常值不敏感
[7]模型训练结果准确度高
缺点
[1]随机森林在某些噪音较大的分类或回归问题上会过拟合
[2]取值划分较多的属性会对随机森林产生更大的影响
适用场景
[1]数据维度相对低(几十维),准确率要求比较高

5.SVM
一种在模式识别和分类问题中被广泛应用的监督机器学习技术——当你的数据恰好有两类时
优点
[1]可以解决小样本情况下的机器学习问题
[1]可以解决特征空间很大的情况
[2]可以解决非线性问题
[3]无需依赖整个数据
处理时提前对数据进行归一化
缺点
[1]当观测样本很多时,效率不高
[2]对于非线性问题很难找到一个合适的核函数
[3]对缺失数据敏感

6.NB
对于给出的待分类项,求出在这个特征空间上属于每个类别的概率,选出概率最大的类别作为结果
优点
[1]有比较坚实的数学基础,分类比较稳定
[2]算法比较简单,常用于文本分类
[3]对小规模的数据表现比较好,可以处理多分类问题,进行增量训练
缺点
[1]需要计算先验概率
[2]假设特征之间相互独立

7.adboost
每个模型都是基于上一次模型的错误率来建立的,过分关注分错的样本,而对正确分类的样本减少关注度,逐次迭代之后,可以得到一个相对较好的模型
优点
[1]adaboost是一种有很高精度的分类器。
[2]可以使用各种方法构建子分类器,Adaboost算法提供的是框架。
[3]当使用简单分类器时,计算出的结果是可以理解的,并且弱分类器的构造极其简单。
[4]不用做特征筛选。
[5]不容易发生overfitting
缺点
对异常值比较敏感

8.xgboost
[1]高准确率高效率高并发,支持自定义损失函数,既可以用来分类又可以用来回归
[2]可以像随机森林一样输出特征重要性,因为速度快,适合作为高维特征选择的一大利器
[3]在目标函数中加入正则项,控制了模型的复杂程度,可以避免过拟合
[4]支持列抽样,也就是随机选择特征,增强了模型的稳定性
[5]对缺失值不敏感,可以学习到包含缺失值的特征的分裂方向

  1. 人工神经网络的优缺点
    优点:
    [1]分类的准确度高;
    [2]并行分布处理能力强,分布存储及学习能力强,
    [3]对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系;
    缺点:
    [1]神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值;
    [2]不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;
    [3]学习时间过长,甚至可能达不到学习的目的。

五.回归&分类&聚类算法
1.回归
[1]线性回归
[2]Ridge回归
适用于模型容易出现过拟合,或者特征之间存在多重共线性的情况
[3]LassO回归
Lasso 的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0 的回归系数,得到可以解释的模型
[4]KNN
[5]决策树(目标值为连续值)
[6]SVR(找到一个回归平面,让一个集合的所有数据到该平面的距离最近)
2.分类
[1]LR
[2]Softmax
[3]KNN
[4]决策树
[5]SVM
[6]NB
3.聚类
[1]层次聚类
首先我们将每个数据点视为一个单一的簇,然后选择一个测量两个簇之间距离的度量标准
在每次迭代中,我们将两个具有最小average linkage的簇合并成为一个簇
重复以上步骤直到所有的数据点合并成一个簇,然后选择我们需要多少个簇
[2]划分聚类
K-Means
2.1.K值如何确定
1)最简单的方法 K=sqrt(n/2)
1)手肘法,核心指标是SSE(误差平方和)
手肘法的核心思想是:随着聚类数k的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和SSE自然会逐
渐变小。并且,当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达真实聚
类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓,也就是
说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数
2)间隔统计量Gap statistic公式计算
3)轮廓系数法
轮廓系数考虑了样本的簇内凝聚度和簇间分离度,轮廓系数越接近1,表示聚类效果越好
4)适用Canopy先进行粗略的聚类,得到K的值
就是对数据进行不断遍历,T2<dis<T1的可以作为中心名单,dis<T2的认为与canopy太近了,以后不会作为中心点,从list中删除
2.2.初始质心的选择
1)多次运行,每次使用一组不同的随机初始质心,然后选取具有最小SSE(误差的平方和)的簇集。
2)先使用层次聚类进行聚类。从层次聚类中提取K个簇,并用这些簇的质心作为初始质心。该方法通常很有效,但仅对下列情况有效:(1)样本相对较小,例如数百到数千(层次聚类开销较大);(2)K相对于样本大小较小
3)K-Means++。随机地选择第一个点,或取所有点的质心作为第一个点。然后,对于每个后继初始质心,选择离已经选取过的初始质心最远的点。具体步骤如下:
Step 1:从数据集中随机选取一个样本点作为初始聚类中心C1;
Step 2:首先计算每个样本与当前已有聚类中心之间的最短距离(即最近的聚类中心的距离),用D(x)表示;接着计算每个样本点被选为下一个聚类中心的概率(某个样本D(x)的平方/所有样本距离的平方和)。最后,按照轮盘法选择出下一个聚类中心;
Step 3:重复第2步直到选择出K个聚类中心

[3]密度聚类(DBSCAN)
首先确定半径r和minPoints. 从一个没有被访问过的任意数据点开始,以这个点为中心,r为半径的圆内包含的点的数量是否大于或等于minPoints,如果大于或等于minPoints则改点被标记为central point,反之则会被标记为noise point。
重复以上步骤,如果一个noise point存在于某个central point为半径的圆内,则这个点被标记为边缘点,反之仍为noise point。直到所有的点都被访问过。
优点:不需要知道簇的数量
缺点:需要确定距离r和minPoints

[4]谱聚类
谱聚类算法建立在谱图理论基础上,可以在任意形状的样本空间上聚类且收敛于全局最优解
谱聚类算法将数据集中的每个对象看作是图的顶点V,将顶点间的相似度量化作为相应顶点连接边E的权值,这样就得到一个基于相似度的无向加权图G(V, E),于是聚类问题就可以转化为图的划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大,子图之间的相似度最小
具体的实现方法如下:
1) 构建表示对象集的相似度矩阵W;
2) 通过计算相似度矩阵或拉普拉斯矩阵的前k个特征值与特征向量,构建特征向量空间;
3) 利用K-means或其它经典聚类算法对特征向量空间中的特征向量进行聚类

六.生成模型和判别模型
1.生成模型:先由数据学习联合概率分布P(x,y)和先验概率分布P(x),然后求出条件概率分布P(y|x)=P(x,y)/P(x)作为预测的模型,即得到生成模型:
2.判别模型:判别方法由数据直接学习决策函数f(x)或者条件概率分布P(y|x)作为预测的。判别模型利用正负例和分类标签,关注在判别模型的边缘分布。寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。

2019-02-10 00:10:29 weixin_40548136 阅读数 363
  • 机器学习&深度学习系统实战!

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 数学原理推导与案例实战紧密结合,由机器学习经典算法过度到深度学习的世界,结合深度学习两大主流框架Caffe与Tensorflow,选择经典项目实战人脸检测与验证码识别。原理推导,形象解读,案例实战缺一不可!具体课程内容涉及回归算法原理推导、决策树与随机森林、实战样本不均衡数据解决方案、支持向量机、Xgboost集成算法、神经网络基础、神经网络整体架构、卷积神经网络、深度学习框架--Tensorflow实战、案例实战--验证码识别、案例实战--人脸检测。 专属会员卡优惠链接:http://edu.csdn.net/lecturer/1079

    39692 人正在学习 去看看 唐宇迪

1.论文

loss

The Lovasz Hinge: A Novel Convex Surrogate for Submodular Losses
The Lovasz-Softmax loss: A tractable surrogate for the optimization of the ´ intersection-over-union

对象检测

R-CNN论文翻译Rich feature hierarchies for accurate object detection and semantic segmentation
Concurrent Spatial and Channel ‘Squeeze & Excitation’ in Fully Convolutional Networks(附代码)

2.深度学习

深度学习入门(一)感知机与激活函数
深度学习(二)损失函数与梯度
深度学习入门(三)构建简单的两层神经网络
深度学习入门(四)梯度更新算法的选择(附执行代码)
吴恩达课程学习笔记–第二课 第一周:深度学习的实践层面
吴恩达深度学习 第二课 第三周:超参数调试、Batch正则化和程序框架
吴恩达深度学习 第三门课 结构化机器学习项目(笔记)
吴恩达深度学习 第三门课 残差网络 谷歌Inception模型 迁移学习
吴恩达深度学习 第三门课 第三周 目标检测
吴恩达深度学习 第四课 第四周 人脸识别和神经风格转换
吴恩达深度学习 第五门课 第一周 序列模型(sequence models)
吴恩达深度学习 第五课 第二周 自然语言处理与词嵌入
吴恩达深度学习 第五课 第三周 序列模型和注意力机制

深度学习练习题

吴恩达深度学习练习 第五课第一周 Building a Recurrent Neural Network 基于numpy
吴恩达深度学习练习 第五课第二周 注意力机制机器翻译 基于Keras
吴恩达深度学习 第五课第三周 课后练习 Trigger word detection

3.机器学习

1.机器学习实战(1) k-近邻算法(kNN)和决策树
2.机器学习实战(2) 基于概率论的分类方法:朴素贝叶斯 python3
3.机器学习实战(3) Logistic回归 逻辑回归 基于python3
4.待更新
5.机器学习实战(5) AdaBoost元算法 基于python3
6.机器学习实战(6) 预测数值型数据:回归
7.机器学习实战(7) 树回归
8.机器学习实战(8) 利用K-means聚类算法对未标注数据分组
9.机器学习实战(9) 使用Apriori算法进行关联分析
10.机器学习实战(10) FP-growth 基于python3
11.机器学习实战(11) 利用PCA来简化数据 基于python3
12.机器学习实战(12) 利用SVD简化数据 基于python3

未完待续…

2018-07-07 00:07:56 weixin_32393347 阅读数 832
  • 机器学习&深度学习系统实战!

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 数学原理推导与案例实战紧密结合,由机器学习经典算法过度到深度学习的世界,结合深度学习两大主流框架Caffe与Tensorflow,选择经典项目实战人脸检测与验证码识别。原理推导,形象解读,案例实战缺一不可!具体课程内容涉及回归算法原理推导、决策树与随机森林、实战样本不均衡数据解决方案、支持向量机、Xgboost集成算法、神经网络基础、神经网络整体架构、卷积神经网络、深度学习框架--Tensorflow实战、案例实战--验证码识别、案例实战--人脸检测。 专属会员卡优惠链接:http://edu.csdn.net/lecturer/1079

    39692 人正在学习 去看看 唐宇迪

学习机器学习和深度学习的方法和步骤
相信很多人都在找学习机器学习和深度学习的步骤和教程。作为过来人和大家一起交流一下。
我自己制作的一个思维导图希望对大家有帮助。
这里写图片描述

2017-06-15 16:15:13 u011421866 阅读数 4113
  • 机器学习&深度学习系统实战!

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 数学原理推导与案例实战紧密结合,由机器学习经典算法过度到深度学习的世界,结合深度学习两大主流框架Caffe与Tensorflow,选择经典项目实战人脸检测与验证码识别。原理推导,形象解读,案例实战缺一不可!具体课程内容涉及回归算法原理推导、决策树与随机森林、实战样本不均衡数据解决方案、支持向量机、Xgboost集成算法、神经网络基础、神经网络整体架构、卷积神经网络、深度学习框架--Tensorflow实战、案例实战--验证码识别、案例实战--人脸检测。 专属会员卡优惠链接:http://edu.csdn.net/lecturer/1079

    39692 人正在学习 去看看 唐宇迪

今天我们来聊一聊,机器学习与深度学习的模型设计。

运用机器学习算法进行研究,其实就是寻找目标函数的过程。通过构建机器学习模型(形成函数集),用训练数据做驱动,寻找与训练数据匹配,并且在测试数据中表现优异的函数。所以构建机器学习模型就显得十分的重要了。以线性回归为例子,大家可以看一下下面的图。
取自李宏毅老师的课程ppt
在寻找目标函数时,假如函数集范围太小,正如图左所示只是一次式项,那么很有可能目标函数不在函数集里面,也就说bias(偏差)比较大,远离了目标函数(也就是图中的靶心),这是我们经常说的欠拟合。而如果我们尽量把函数集设大一点(函数集尽可能的大就有希望能够包含目标函数),这样bias会变小,但是也带来了坏处,模型对噪音数据会特别敏感,一不小心就会出现过拟合的情况。因为我们本身并不知道目标函数到底长什么样,所以我们就要不断测试修改模型,希望能达到好的效果。下面是一点tips,大家可以参考一下。
欠拟合:1 增加特征 2 调整为更加复杂的模型
过拟合:1 增加数据量 2 正则化

上面说的是传统机器学习中模型的设计,那么在深度学习中,我们又该如何设计?首先大家要理解一点,为什么要“deep”?下面大家继续看图。

同样是取自李宏毅老师的课堂PPT
大家仔细看图就会发现,1.随着隐藏层的增加,错误率在减低。2. 7X2K 对应的错误率是17.1% ,而与之参数量相当的1X16K 对应的错误率却是22.1% 。 理论上说,只要一层隐藏层里面神经元够多,那么这个模型足以接近任何函数。也就是说,我们没必要把神经网络弄deep,但是大家看图就会发现,deep 要比 一层效果好。其实这就包含了拆分与共享的思想,看图。

统一处理 单层隐藏层

拆分 共享 多层隐藏层
原来我也觉得深度学习应该会需要大量的数据,事实上并不是,我使用mnist数做过实验,在数据量较少时,多层神经网络的效果要比单层神经网络要好,意不意外?惊不惊喜?所以当你数据较少又想用深度学习来处理数据时,不妨多搭几层。

最后还要谈一下 no free lunch理论,no free lunch理论指的是没有最好的算法,只有最适合的算法。深度学习的模型有许多种,大家在选择是一定要根据自己问题来选择模型,比如说CNN对处理图像信息就非常的有用,而RNN对处理序列非常在行。所以大家还是要对每种算法都要了解清楚,选择合适自己的算法。

好的 ,今天就聊到这里,这篇差不多写了一个小时。想跟我交流的同学,欢迎大家在文章下面留言,如何你觉得我的文章还可以请点赞并关注我,谢谢。

2018-11-24 17:57:40 wanghr323 阅读数 282
  • 机器学习&深度学习系统实战!

    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 数学原理推导与案例实战紧密结合,由机器学习经典算法过度到深度学习的世界,结合深度学习两大主流框架Caffe与Tensorflow,选择经典项目实战人脸检测与验证码识别。原理推导,形象解读,案例实战缺一不可!具体课程内容涉及回归算法原理推导、决策树与随机森林、实战样本不均衡数据解决方案、支持向量机、Xgboost集成算法、神经网络基础、神经网络整体架构、卷积神经网络、深度学习框架--Tensorflow实战、案例实战--验证码识别、案例实战--人脸检测。 专属会员卡优惠链接:http://edu.csdn.net/lecturer/1079

    39692 人正在学习 去看看 唐宇迪

 

 关于“机器学习与深度学习案例实践班”通知

各有关单位:

    为进一步推动高等院校机器学习与深度学习教学工作的开展,加强国内各高等院校同行间的交流,培养国内的师资力量,将机器学习与深度学习的最新实训内容带入课堂,特举办“机器学习与深度学习案例实践班”,具体由北京中科软培科技有限公司举办,本次培训由权威师资主讲,培训主打理论结合实践主题,课程强调动手操作;内容以代码落地为主,以理论讲解为根,以公式推导为辅。

一、培训目的

   通过课程学习,可以理解机器学习的思维方式和关键技术;了解深度学习和机器学习在当前工业界的落地应用;能够根据数据分布选择合适的算法模型并书写代码,初步胜任使用Python进行数据挖掘、机器学习、深度学习等工作。

二、主讲专家:

邹博,中国科学院副研究员,天津大学软件学院创业导师,成立中国科学院邹博人工智能研究中心(杭州站),在翔创、天识、睿客邦等公司担任技术顾问,研究方向机器学习、深度学习、计算几何,应用于大型气象设备图像与文本挖掘、股票交易与预测、量子化学医药路径寻优、传统农资产品价格预测和决策等领域。

课程为多期多地点,详情咨询课程顾问:

 

三、培训内容:

 

 

 

 

 

 

 

 

 

 

 

Python与TensorFlow

 

解释器Python2.7/3.6与IDE:Anaconda/Pycharm

列表/元组/字典/类/文件

numpy/scipy/matplotlib/panda的介绍和典型使用

scikit-learn的介绍和典型使用

TensorFlow典型应用

典型图像处理

多种数学曲线

多项式拟合

快速傅里叶变换FFT

奇异值分解SVD

Soble/Prewitt/Laplacian算子与卷积网络

 

 

 

 

代码和案例实践:

卷积与(指数)移动平均线

股票数据分析

缺失数据的处理

环境数据异常检测和分析

 

 

 

 

 

 

 

 

 

 

 

 

 

 

回归分析

 

 

 

 

 

线性回归

Logistic/Softmax回归

广义线性回归

L1/L2正则化

Ridge与LASSO

Elastic Net

梯度下降算法:BGD与SGD

特征选择与过拟合

Softmax回归的概念源头

最大熵模型

K-L散度

 

代码和案例实践:

1.股票数据的特征提取和应用

2.泰坦尼克号乘客缺失数据处理和存活率预测

3.环境检测数据异常分析和预测

4.模糊数据查询和数据校正方法

5.PCA与鸢尾花数据分类

6.二手车数据特征选择与算法模型比较

7.广告投入与销售额回归分析

8.鸢尾花数据集的分类

9.TensorFlow实现线性回归

10.TensorFlow实现Logistic回归

 

 

 

 

 

决策树和随机森林

 

熵、联合熵、条件熵、KL散度、互信息

最大似然估计与最大熵模型

ID3、C4.5、CART详解

决策树的正则化

预剪枝和后剪枝

Bagging

随机森林

不平衡数据集的处理

利用随机森林做特征选择

使用随机森林计算样本相似度

异常值检测

 

 

代码和案例实践:

1.随机森林与特征选择

2.决策树应用于回归

3.多标记的决策树回归

4.决策树和随机森林的可视化

5.葡萄酒数据集的决策树/随机森林分类

6.泰坦尼克乘客存活率估计

 

 

 

 

 

SVM

 

 

线性可分支持向量机

软间隔

损失函数的理解

核函数的原理和选择

SMO算法

支持向量回归SVR

多分类SVM

代码和案例实践:

1.原始数据和特征提取

2.调用开源库函数完成SVM

4.葡萄酒数据分类

5.数字图像的手写体识别

5.MNIST手写体识别

6.SVR用于时间序列曲线预测

7.SVM、Logistic回归、随机森林三者的横向比较

 

 

 

 

 

卷积神经网络CNN

神经网络结构,滤波器,卷积

池化,激活函数,反向传播

目标分类与识别、目标检测与追踪

AlexNet、VGGNet、GoogleLeNet

Inception-V3/V4

ResNet、DenseNet

代码和案例实践:

数字图片分类

卷积核与特征提取

以图搜图

人证合一

卷积神经网络调参经验分享

 

 

 

图像视频的定位与识别

视频关键帧处理

物体检测与定位

RCNN,Fast-RCNN,Faster-RCNN,MaskRCNN

YOLO

FaceNet

代码和案例实践:

迁移学习

人脸检测

OCR字体定位和识别

睿客识云

气象识别

 

 

 

 

 

 

循环神经网络RNN

 

RNN基本原理

LSTM、GRU

Attention

CNN+LSTM模型

Bi-LSTM双向循环神经网络结构

编码器与解码器结构

特征提取:word2vec

Seq2seq模型

 

代码和案例实践:

看图说话

视频理解

藏头诗生成

问答对话系统

OCR

循环神经网络调参经验分享

 

 

 

 

 

 

 

 

自然语言处理

语言模型Bi-Gram/Tri-Gram/N-Gram

分词

词性标注

依存句法分析

语义关系抽取

词向量

文本分类

机器翻译

文本摘要

阅读理解

问答系统

情感分析

代码和案例实践:

输入法设计

HMM分词

文本摘要的生成

智能对话系统和SeqSeq模型

阅读理解的实现与Attention

 

 

 

 

 

生成对抗网络GAN

生成与判别

生成模型:贝叶斯、HMM到深度生成模型

GAN对抗生成神经网络

DCGAN

Conditional GAN

InfoGan

Wasserstein GAN

代码和案例实践:

图片生成

看图说话

对抗生成神经网络调参经验分享

 

 

 

 

 

强化学习RL

 

为何使用增强学习

马尔科夫决策过程

贝尔曼方程、最优策略

策略迭代、值迭代

Q Learning

SarsaLamda

DQN

A3C

ELF

代码和案例实践:

OpenAI

飞翔的小鸟游戏

基于增强学习的游戏学习

DQN的实现

 

 

四、时间地点:

     2019118-22日   17日报到 (北京华清温泉宾馆)

培训对象:

    各高等院校数据科学相关专业、计算机科学技术、网络工程、软件工程、信息工程、信息管理、、统计学专业、应用数学专业、经济管理专业、市场营销专业等科研、教学带头人,骨干教师、博士生、硕士生;各高校教务处、科研处、信息中心、实验中心领导。对机器学习技术有兴趣和需求,愿意进行深入钻研的从业人员。                                                                                                           
六、报名方式及费用:

报名人员可直接回复报名回执表至邮箱。或与会务组电话联系咨询。¥RMB:4900元/人(含报名费、证书费、培训费、教材费、资料费)食宿统一安排费用自理。

  • 颁发证书:

工信部和人社部相关部门颁发-证书。该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。

北京中科软培科技有限公司

                             2018年11月

 

 

 

 

 

 

课程中部分案例的结果图片:

 

图1 无线电磁波频率场强预测

 

 

图2 气象设备海量雨量筒图片处理和识别

 

 

图3 雷达维修方案智能客服推送算法

 

 

图4 睿客识云(1)

 

图5 睿客识云(2)

 

 

图6 睿客OCR (1)

 

图7 睿客OCR(2)

 

 

图8  时间序列分析

 

 

图9视频检测与图像定位

 

 

图10 车辆跟踪和目标定位

 

 

图11  Topic Bi-LSTM+Attention模型框架

 

 

图12 风机发电设备缺陷检测

 

 

 

 

                               

 

 

 

 

 

 

 

没有更多推荐了,返回首页