2018-12-01 18:12:53 ningbo2016 阅读数 257
  • AI时代,机器学习该如何入门?

    机器学习入门视频教程,该课程会告诉大家如何入门机器学习,掌握机器学习必要的基础知识,了解机器学习路径。对于机器学习,很多人的观点是:机器学习技术是今后所有技术人员都绕不过的一个门槛。 那么,普通程序员该学习机器学作为一名对机器学习心有向往的程序员,我该以什么样的姿势开始呢?不妨看看该课程。

    7368 人正在学习 去看看 CSDN讲师

西瓜书买来有段时间了,一直翻来翻去在前几章,这样下去估计到毕业的时候也就在那几章,要立flag了,看起来,课后习题做起来,就这样吧。
第一章 习题
1.1
表1.1中若只包含编号1和4的两个样例,试给出相应的版本空间
先给出相应的概念:
假设空间是所有可能假设组成的空间,这个假设空间可能会很大,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在一哥训练集一致的假设集合,称之为版本空间。
书上原图
假设空间“(色泽=?)^(根蒂=?) ^(敲声=?)”,这样假设空间的大小就确定了,444+1=65,题目要求去除2,3,只保留1和4,这样正例就只有1,版本空间是包含全部正例切不能含有任何反例,表中一个正例中有3个属性,(3个取1个)+(3个中取2个)+(3个中取3个)=7种,即表明有7个假设与训练集一致,都可以是版本空间。
1.2 还没想明白,以后再填坑。。。

2019-04-21 21:13:41 lxfHaHaHa 阅读数 246
  • AI时代,机器学习该如何入门?

    机器学习入门视频教程,该课程会告诉大家如何入门机器学习,掌握机器学习必要的基础知识,了解机器学习路径。对于机器学习,很多人的观点是:机器学习技术是今后所有技术人员都绕不过的一个门槛。 那么,普通程序员该学习机器学作为一名对机器学习心有向往的程序员,我该以什么样的姿势开始呢?不妨看看该课程。

    7368 人正在学习 去看看 CSDN讲师

西瓜书 课后习题 个人理解
总目录:https://blog.csdn.net/lxfHaHaHa/article/details/89439640

1.1 表1.1中若只包含编号为1,4的两个样例,试给出相应的版本空间

先把样表给写出来,只取 1 和 4 两条数据

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 稍蜷 沉闷

这里要理解三个概念:样本空间假设空间版本空间

  • 样本空间:所获得的数据集。
  • 假设空间:所有可能性的集合。如有 nn 个属性,第 ii 种属性有 xix_i 种选择,那么假设空间的数量就是1n(xi+1)+1\prod _{1}^{n}(x_i+1)+1种可能,前面的 (xi+1)(x_i+1) 是因为每个属性还存在*(该)属性的泛化取值)这种可能,最后要 +1+1 是因为存在空集,即没有正例这种情况。
  • 版本空间:随样本而定,满足这些样本空间成立的最小集合,即(样本空间 \leq 版本空间 \leq 假设空间)。

然后开始做题:

假设空间: 三个属性(色泽 | 根蒂 | 敲声),每个属性分别有两种可能,那么假设空间的数量为2+12+12+1+1=28(2+1) *(2+1)*(2+1)+1=28种。如下:

  • 1.色泽=青绿 根蒂=蜷缩 敲声=浊响
  • 2.色泽=青绿 根蒂=蜷缩 敲声=沉闷
  • 3.色泽=青绿 根蒂=稍蜷 敲声=浊响
  • 4.色泽=青绿 根蒂=稍蜷 敲声=沉闷
  • 5.色泽=乌黑 根蒂=蜷缩 敲声=浊响
  • 6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷
  • 7.色泽=乌黑 根蒂=稍蜷 敲声=浊响
  • 8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷
  • 9.色泽=青绿 根蒂=蜷缩 敲声= *
  • 10.色泽=青绿 根蒂=稍蜷 敲声= *
  • 11.色泽=乌黑 根蒂=蜷缩 敲声= *
  • 12.色泽=乌黑 根蒂=稍蜷 敲声= *
  • 13.色泽=青绿 根蒂= * 敲声=浊响
  • 14.色泽=青绿 根蒂= * 敲声=沉闷
  • 15.色泽=乌黑 根蒂= * 敲声=浊响
  • 16.色泽=乌黑 根蒂= * 敲声=沉闷
  • 17.色泽= * 根蒂=蜷缩 敲声=浊响
  • 18.色泽= * 根蒂=蜷缩 敲声=沉闷
  • 19.色泽= * 根蒂=稍蜷 敲声=浊响
  • 20.色泽= * 根蒂=稍蜷 敲声=沉闷
  • 21.色泽=青绿 根蒂=* 敲声= *
  • 22.色泽=乌黑 根蒂=* 敲声= *
  • 23.色泽= * 根蒂=蜷缩 敲声= *
  • 24.色泽= * 根蒂=稍蜷 敲声= *
  • 25.色泽= * 根蒂= * 敲声=浊响
  • 26.色泽= * 根蒂= * 敲声=沉闷
  • 27.色泽= * 根蒂= * 敲声= *
  • 28.空集 Ø

然后开始满足样本空间里的每一条数据:

  1. 根据编号1的数据可以删除2−8,10−12,14−16,18−20,22,24,26,28
  2. 根据编号2的数据可以删除27

最后剩下的数据,就是版本空间

  • 1.色泽=青绿 根蒂=蜷缩 敲声=浊响
  • 9.色泽=青绿 根蒂=蜷缩 敲声= *
  • 13.色泽=青绿 根蒂=* 敲声=浊响
  • 17.色泽= * 根蒂=蜷缩 敲声=浊响
  • 21.色泽=青绿 根蒂=* 敲声= *
  • 23.色泽= * 根蒂=蜷缩 敲声= *
  • 25.色泽= * 根蒂= * 敲声=浊响

1.2 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。

表1.1有4个样例,3种属性,假设空间有344+1=493*4*4+1=49种假设。

在不考虑冗余的情况下:显然k最大为49,从其中任取k个数量的可能组成析合范式,共有k=149C49k=249\sum \limits_{k=1}^{49} C_{49}^{k}=2^{49}种可能性,但是其中包含很多冗余可能(即各个析合范式存在交集可能)

在考虑冗余的情况下:指数级遍历,想想就头疼,,

2019-04-21 21:10:50 lxfHaHaHa 阅读数 199
  • AI时代,机器学习该如何入门?

    机器学习入门视频教程,该课程会告诉大家如何入门机器学习,掌握机器学习必要的基础知识,了解机器学习路径。对于机器学习,很多人的观点是:机器学习技术是今后所有技术人员都绕不过的一个门槛。 那么,普通程序员该学习机器学作为一名对机器学习心有向往的程序员,我该以什么样的姿势开始呢?不妨看看该课程。

    7368 人正在学习 去看看 CSDN讲师

研究生生涯,机器学习从入门到放弃,2333。拿西瓜书入门,争取每一讲后面的习题都能整理下。
附上资料:地址(仅供学习交流所用,侵权则删) 密码:59ym

  1. 李宏毅 机器学习入门ppt — 300多页讲述机器学习大概(推荐先看这个,有个整体概念)
  2. 西瓜书 机器学习 周志华 — 高清pdf,无封面,带书签,不可复制搜索
  3. 李航 统计学 — 机器学习必看

参考 四去六进一大佬的博客完成,https://blog.csdn.net/icefire_tyh/article/details/52064910

目录如下:

序号 章节 地址
1 第一章 绪论(P19) https://blog.csdn.net/lxfHaHaHa/article/details/89439702
2

我会好好学的。。嗯,会的 = =(根据我的学习进度更新)

2017-10-17 10:20:30 VictoriaW 阅读数 3410
  • AI时代,机器学习该如何入门?

    机器学习入门视频教程,该课程会告诉大家如何入门机器学习,掌握机器学习必要的基础知识,了解机器学习路径。对于机器学习,很多人的观点是:机器学习技术是今后所有技术人员都绕不过的一个门槛。 那么,普通程序员该学习机器学作为一名对机器学习心有向往的程序员,我该以什么样的姿势开始呢?不妨看看该课程。

    7368 人正在学习 去看看 CSDN讲师

7.1 试使用极大似然法估计西瓜数据集3.0中前3个属性的类条件概率。
解答:
假设类别C为随机变量,则它总共有两种取值:好瓜和坏瓜。前3个属性分别为色泽、根蒂和敲声,分别用随机变量R、 S、 T表示,并且可取值分别为{绿}{}{}.
则使用极大似然法得到的类条件概率估计表达式为

P(R=r|C=c)=|Dc,r||Dc|

P(S=s|C=c)=|Dc,s||Dc|

P(T=t|C=c)=|Dc,t||Dc|

其中|Dc|表示训练集中类别为c的样本数。|Dc,r|表示训练集中类别为c并且色泽为r的样本数,那么类似的,|Dc,s|表示训练集中类别为c并且根蒂为s的样本数,|Dc,t|表示训练集中类别为c并且敲声为t的样本数。

现在只需要对西瓜数据集3.0(P84)计数就能得到结果:

  • 好瓜:

D=8,D=9

  • 色泽:
D,绿=3D,绿=3 P(绿|)=38,P(绿|)=39
D,=4D,=2 P(|)=48,P(|)=29
D,=1D,=4 P(|)=18,P(|)=49
  • 根蒂:
D,=5D,=3 P(|)=58,P(|)=39
D,=3D,=4 P(|)=38,P(|)=49
D,=0D,=2 P(|)=08,P(|)=29
  • 敲声:
D,=6D,=4 P(|)=68,P(|)=49
D,=2D,=3 P(|)=28,P(|)=39
D,=0D,=2 P(|)=08,P(|)=29

7.2 试证明:条件独立性假设不成立时,朴素贝叶斯分类器仍有可能产生最优贝叶斯分类器。
解答:
参考:
On the optimality of the simple Bayesian classifier under zero-one loss. 1997.
On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes. 2002.
The Optimality of Naive Bayes. 2004.

7.3 试编程实现拉普拉斯修正的朴素贝叶斯分类器,并以西瓜数据集3.0为训练集,对p.151 “测1”样本进行判别。
解答:
西瓜书《机器学习》课后答案——chapter7_7.3

7.4 实践中使用式(7.15)决定分类类别时,若数据维度非常高,则概率连乘di=1P(xi|c)的结果通常会非常接近于0从而导致下溢。试述防止下溢的可能方案。
解答:
只要找到合适的和(7.15)的优化目标函数单调性一致的函数即可。比如,可以对目标函数取对数,得到

logP(c)+i=1dlogP(xi|c).

7.5 试证明:二分类任务中两类数据满足高斯分布并且方差相同时,线性判别分析产生贝叶斯最优分类器。
解答:线性判别分析(二)——Bayes最优分类器的角度看LDA

7.6 编程实现AODE分类器,并以西瓜数据集3.0为训练集,对p.151的“测1”样本进行判别。
解答:
西瓜书《机器学习》课后答案——chapter7_7.3

7.7 给定d个二值属性的二分类任务,假设对于任何先验概率项的估计至少需要30个样例,则在朴素贝叶斯分类器(7.15)中估计先验概率项P(c)需要30×2=60个样例。试估计在AODE(7.23)中估计先验概率P(c,xi)所需要的样例数(分别考虑最好和最坏情形)。

并不知道这个题目想干嘛,为什么还有最好情况和最坏情况。

7.8 考虑图7.3,试证明:在同父结构中,若X1的取值已知,则X3X4独立,若X1的取值未知,则X3X4不独立;在顺序结构中,如果X取值已知,则YZ独立,如果X取值未知,则YZ不独立。(大写表示随机变量,小写表示具体取值)
解答:
Bayes网络假设联合概率分布

P(x1,x2,,xn)=i=1nP(xi|pa(xi)).

同父结构(X3X4的父亲节点都是X1):

  • X1取值未知时,

    P(x3,x4)=x1P(x3,x4,x1)=x1P(x3|x1)P(x4|x1)P(x1)P(x3)P(x4)

    所以x3x4不独立。

  • X1=x1时,

    P(x3,x4|x1)=P(x1,x3,x4)P(x1)=P(x3|x1)P(x4|x1)P(x1)P(x1)=P(x3|x1)P(x4|x1)

    所以x3x4独立。

顺序结构(Z是X的父节点,X是Y的父节点):

  • 当X未知时,

    P(y,z)=xP(x,y,z)=xP(x|z)P(y|x)P(z)P(y)P(z)

    所以y和z不独立。

  • 当X=x时,

    P(y,z|x)=P(x,y,z)P(x)=P(x|z)P(y|x)P(z)P(x)=P(x,z)P(y|x)P(x)=P(y|x)P(z|x)

    所以y和z独立。

7.9 以西瓜数据集2.0为例,基于BIC准则构建一个贝叶斯网。

7.10 以西瓜数据集2.0中属性“脐部”为隐变量,试基于EM算法构建一个贝叶斯网。

2018-11-05 16:13:50 weixin_43260483 阅读数 167
  • AI时代,机器学习该如何入门?

    机器学习入门视频教程,该课程会告诉大家如何入门机器学习,掌握机器学习必要的基础知识,了解机器学习路径。对于机器学习,很多人的观点是:机器学习技术是今后所有技术人员都绕不过的一个门槛。 那么,普通程序员该学习机器学作为一名对机器学习心有向往的程序员,我该以什么样的姿势开始呢?不妨看看该课程。

    7368 人正在学习 去看看 CSDN讲师

第一章
1.版本空间:
(1)色泽=青绿 根蒂=蜷缩 敲声=浊响
(2)色泽=青绿 根蒂=蜷缩 敲声=*
(3)色泽=青绿 根蒂=* 敲声=浊响
(4)色泽=* 根蒂=蜷缩 敲声=浊响
(5)色泽=青绿 根蒂=* 敲声=*
(6)色泽=* 根蒂=蜷缩 敲声=*
(7)色泽=* 根蒂=* 敲声=浊响
2.析合范式即多个合取式的析取。
表1.1包含3种属性,它的假设空间大小为3×4×4+1=49
考虑冗余情况:
具体假设 2×3×3=18种
一个属性泛化假设 2×3+3×3+2×3=21种
两个属性泛化假设 2+3+3=8种
三个属性泛化假设 1种
不考虑冗余、空集的情况下k最大取值为48,考虑冗余的情况下k最大取值为18
k=1时,共48种
k=18时,共1种
k取中间值,比较复杂。
3.(1)最简单的设计:训练样本一致特征越多越好,即一致性比例越高越好,为归纳偏好。考虑归纳偏好应尽量与问题相匹配,所以可使归纳偏好与噪声分布相匹配。
(2)通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。
5.消息推送,如广告推荐;网站排名;图片搜索。

没有更多推荐了,返回首页