精华内容
下载资源
问答
  • 机器学习试题

    2019-07-30 14:29:25
    机器学习中做特征选择时,可能用到的方法有?   A.卡方 B.信息增益 C.平均互信息 D.期望交叉熵   正确答案:ABCD   解析:   卡方是传统的常见的数理统计学上的特征,信息增益...

    1. 习题1(SPSS基础)

    SPSS的界面中,以下是主窗口是( )

    A.语法编辑窗

    B.数据编辑窗口

    C.结果输出窗口

    D.脚本编辑窗口

     

    正确答案:B

     

    解析:SPSS是属于数据分析软件,当然主窗口是在数据编辑上。

     

    2. 习题2(分类与聚类)

    以下哪些方法不可以直接来对文本分类?

    A.Kmeans

    B.决策树

    C.支持向量机

    D.KNN

     

    正确答案: A

     

    解析:

     

    聚类是无监督的,它之所以不能称为分类是因为它之前并没有类别标签,因此只能聚类。

     

    复习一下K-means算法,主要分为赋值阶段和更新阶段。算法步骤:

     

    (1)随机选择K个点作为初始的质心

     

    (2)将每个点指配到最近的质心

     

    (3)重新计算簇的质心,直到质心不再发生变化 。

     

    K均值容易陷入局部最小值,无法表示类的形状,大小和宽度,是一种硬分类算法,针对它的这些缺点,提出了二分K均值和软K均值。

    其他3个都是常见的分类方法。

    3. 习题3(特征选择)

    机器学习中做特征选择时,可能用到的方法有?

     

    A.卡方

    B.信息增益

    C.平均互信息

    D.期望交叉熵

     

    正确答案:ABCD

     

    解析:

     

    卡方是传统的常见的数理统计学上的特征,信息增益在决策树中运用的特别多,互信息在新词发现上有用到,而交叉熵最常见的就是损失函数。

     

    具体的,可以参考《卡方详解》、《信息增益详解》、《期望交叉熵详解》、《互信息详解》。另外,还有其他特征可以选择,详见《特征选择汇总》。

     

    4. 习题4(分类与聚类)

    以下描述错误的是:

    A.SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)

    B.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

    C.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

    D.聚类分析可以看作是一种非监督的分类。

     

    正确答案:ABC

     

    解析:

     

    A. SVM的策略是最大间隔分类器。

     

    B. 簇内的相似性越大,簇间的差别越大,聚类的效果就越好。你想啊,分类或者聚类效果的好坏其实就看同一类中的样本相似度,当然是越高越好,说明你分类越准确。

     

    C. 训练误差减少与测试误差逐渐增大,是明显的过拟合的特征。

     

    5. 习题5(先验概率)

    统计模式分类问题中,当先验概率未知时,可以使用()

    A.最小最大损失准则

    B.最小误判概率准则

    C.最小损失准则

    D.N-P判决

     

    正确答案:AD

     

    解析:

     

    A. 考虑p(wi)p(wi)变化的条件下,是风险最小

     

    B. 最小误判概率准则, 就是判断p(w1|x)和p(w2|x)p(w1|x)和p(w2|x)哪个大,x为特征向量,w1和w2w1和w2为两分类,根据贝叶斯公式,需要用到先验知识。

     

    C. 最小损失准则,在B的基础之上,还要求出p(w1|x)和p(w2|x)p(w1|x)和p(w2|x)的期望损失,因为B需要先验概率,所以C也需要先验概率。

     

    D. N-P判决,即限定一类错误率条件下使另一类错误率为最小的两类别决策,即在一类错误率固定的条件下,求另一类错误率的极小值的问题,直接计算p(x|w1)和p(x|w2)p(x|w1)和p(x|w2)的比值,不需要用到贝叶斯公式。

     

    6. 习题6(Nave Bayes)

    Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是

    A. 各类别的先验概率P(C)是相等的

    B. 以0为均值,sqr(2)/2为标准差的正态分布

    C. 特征变量X的各个维度是类别条件独立随机变量

    D. P(X|C) 是高斯分布

     

    正确答案:C

     

    朴素贝叶斯的条件就是每个变量相互独立

     

    7. 习题7(HMM基础)

    在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计( )

    A. EM算法

    B. 维特比算法

    C. 前向后向算法

    D. 极大似然估计

     

    正确答案:D

     

    解析:EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法

    维特比算法: 用动态规划解决HMM的预测问题,不是参数估计

    前向后向:用来算概率

    极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数

    故应选D

     

     

    展开全文
  • 2010年春硕士研究生 机器学习 试题 下列各每个大 10分共8道大卷面总分 80分 注意在给出算法时非标准自己设计的部分应给出说明特别是自己设置的参数及变 量的意义要说明 1.下面是一个例子集其中三个正例一个...
  • 最新版机器学习复习资料,某大学机器学习、数据挖掘考试真题,适合平时练习、期末考试复习使用,题型超全
  • 2018山东大学机器学习试题(回忆版) 仅供参考学习,个别题目描述不是很细致 希望可以帮助到刚刚接触机器学习的同学们~
  • 机器学习笔试选择及答案 1. 在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大?
  • 机器学习-机器学习试题(一)

    万次阅读 2018-04-21 11:20:21
    前言在网上找的一些试题及延伸的一些问题,以选择为主,主要是关于基础理论知识,同时给出自己联想到的一些问题。当然基础问题应当包含算法本身的过程和某些...问题延伸:机器学习算法中哪些应用了L1,哪些应用了L...

    前言

    在网上找的一些试题及延伸的一些问题,以选择题为主,主要是关于基础理论知识,同时给出自己联想到的一些问题。当然基础问题应当包含算法本身的过程和某些推导过程。比如:LR、SVM的推导。

    试题

    试题1: 已知坐标轴中两点A(2,2)B(1,2),求这两点的曼哈顿距离(L1距离)。

     答案:7 。向量AB(-3,4),L1 是向量中非零元素的绝对值和。

    问题延伸:机器学习算法中哪些应用了L1,哪些应用了L2.

    参考链接正则化技术


    试题2SVM中的核技巧(Kernal trick)的作用包括以下哪项?

    A. 特征升维
    B. 特征降维
    C. 防止过拟合

    答案:C 

    核技巧使用核函数将样本从原特征空间映射到更高维的空间,使得样本在更高维的空间中线性可分。

    问题延伸:SVM的核函数本质及推导过程。


    试题3: 在数据预处理阶段,我们常常对数值特征进行归一化或标准化(standardization, normalization)处理。这种处理方式理论上不会对下列哪个模型产生很大影响?

     A. k-Means
     B. k-NN
     C. 决策树

    答案:C

    k-Means和k-NN都需要使用距离。而决策树对于数值特征,只在乎其大小排序,而非绝对大小。不管是标准化或者归一化,都不会影响数值之间的相对大小。关于决策树如何对数值特征进行划分

    问题延伸:机器学习那些算法是进行归一化处理或标准化。


    试题4:下面哪个情形不适合作为K-Means迭代终止的条件?

      A. 前后两次迭代中,每个聚类中的成员不变
      B. 前后两次迭代中,每个聚类中样本的个数不变
      C. 前后两次迭代中,每个聚类的中心点不变

    答案:B

    A和C是等价的,因为中心点是聚类中成员各坐标的均值

    问题延伸:K-means的k值选择及更新,迭代终止的两个条件。


    试题5关于欠拟合(under-fitting),下面哪个说法是正确的?

      A. 训练误差较大,测试误差较小
      B. 训练误差较小,测试误差较大
      C. 训练误差较大,测试误差较大

    答案:C

    当欠拟合发生时,模型还没有充分学习训练集中基本有效信息,导致训练误差太大。测试误差也会较大,因为测试集中的基本信息(分布)是

    与训练集相一致的。

    延伸问题:模型状态?怎样判定?工具是什么?

    展开全文
  • 机器学习-机器学习试题(二)

    千次阅读 2018-04-22 19:20:03
    前言在网上找的一些试题及延伸的一些问题,以选择为主,主要是关于基础理论知识,同时给出自己联想到的一些问题。当然基础问题应当包含算法本身的过程和某些推导过程。比如:LR、SVM的推导。试题这次分享的试题...

    前言

    在网上找的一些试题及延伸的一些问题,以选择题为主,主要是关于基础理论知识,同时给出自己联想到的一些问题。当然基础问题应当包含算法本身的过程和某些推导过程。比如:LR、SVM的推导。

    试题

    这次分享的试题较为简单,都是基础概念,无太多的延伸问题。

    1. 下面哪个统计量可能大于1?

       A. logloss
       B. ROC AUC
      C. 皮尔逊相关系数

    答案:A

    logloss:

       

    取极限值。0 1 的分类问题,真值是为1,但预测为0,这样代入logloss其值为正无穷大。

    常见损失函数总结

    2. 混淆矩阵可以不能用来评估下面哪类模型的表现?


      A. 二元分类器
       B. 多元分类器
       C. 聚类算法

    答案:C

    混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。与上一题中的ROC AUC紧密相连。

    3. 下列哪个模型没有用到梯度?


       A. GradientBoost
       B. AdaBoost
       C. XGBoost

    答案:B

    4. 正则化(regularization)的作用不包括以下哪个?

       A. 防止过拟合
       B. 去除噪点
       C. 降低模型复杂度

    答案:B

    5. 卷积神经网络(Convolutional Neural Network)中通常包含卷积层和全链接层,它们的主要作用分别是


       A. 进行分类、提取特征
       B. 提取特征、进行分类
       C. 提取特征、提取特征

    答案:B


    展开全文
  • 有40题机器学习自测,马上可以看看你的机器学习知识能打几分?顺便还能查漏补缺相关术语,以及SVM, 隐马尔科夫, 特征选择, 神经网络, 线性回归等众多知识点. 以下是试题, 附答案: Q1:在一个n...

    一直苦于没有办法自测一下机器学习知识掌握程度,最近看到一篇Ankit Gupta写的博客Solutions for Skilltest Machine Learning : Revealed。有40题机器学习自测题,马上可以看看你的机器学习知识能打几分?顺便还能查漏补缺相关术语,以及SVM, 隐马尔科夫, 特征选择, 神经网络, 线性回归等众多知识点.

    以下是试题, 附答案:

    Q1:在一个n维的空间中, 最好的检测outlier(离群点)的方法是:

    A. 作正态分布概率图

    B. 作盒形图

    C. 马氏距离

    D. 作散点图

    答案:C

    马氏距离是基于卡方分布的,度量多元outlier离群点的统计方法。更多请详见:这里和”各种距离“。

     

    Q2:对数几率回归(logistics regression)和一般回归分析有什么区别?:

    A. 对数几率回归是设计用来预测事件可能性的

    B. 对数几率回归可以用来度量模型拟合程度

    C. 对数几率回归可以用来估计回归系数

    D. 以上所有

    答案:D

    A: 这个在我们第八期#8提到过,对数几率回归其实是设计用来解决分类问题的

    B: 对数几率回归可以用来检验模型对数据的拟合度

    C: 虽然对数几率回归是用来解决分类问题的,但是模型建立好后,就可以根据独立的特征,估计相关的回归系数。就我认为,这只是估计回归系数,不能直接用来做回归模型。

     

    Q3:bootstrap数据是什么意思?(提示:考“bootstrap”和“boosting”区别)

    A. 有放回地从总共M个特征中抽样m个特征

    B. 无放回地从总共M个特征中抽样m个特征

    C. 有放回地从总共N个样本中抽样n个样本

    D. 无放回地从总共N个样本中抽样n个样本

    答案:C

    需要集成学习基础知识,详情请见:bootstrap, boosting, bagging 几种方法的联系

     

    Q4:“过拟合”只在监督学习中出现,在非监督学习中,没有“过拟合”,这是:

    A. 对的

    B. 错的

    答案:B

    我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数(adjusted rand score

     

    Q5:对于k折交叉验证, 以下对k的说法正确的是 :

    A. k越大, 不一定越好, 选择大的k会加大评估时间

    B. 选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)

    C. 在选择k时, 要最小化数据集之间的方差

    D. 以上所有

    答案:D

    k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差别不大的原则. 比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差.

    如果不明白bias和variance的概念, 务必参考下面链接:

     

    Q6:回归模型中存在多重共线性, 你如何解决这个问题?

    A. 去除这两个共线性变量

    B. 我们可以先去除一个共线性变量

    C. 计算VIF(方差膨胀因子), 采取相应措施

    D. 为了避免损失信息, 我们可以使用一些正则化方法, 比如, 岭回归和lasso回归.

    以下哪些是对的:

    A. 1

    B. 2

    C. 2和3

    D. 2, 3和4

    答案: D

    解决多重公线性, 可以使用相关矩阵去去除相关性高于75%的变量 (有主观成分). 也可以VIF, 如果VIF值<=4说明相关性不是很高, VIF值>=10说明相关性较高.

    我们也可以用 岭回归和lasso回归的带有惩罚正则项的方法. 我们也可以在一些变量上加随机噪声, 使得变量之间变得不同, 但是这个方法要小心使用, 可能会影响预测效果.

     

    Q7:模型的高bias是什么意思, 我们如何降低它 ?

    A. 在特征空间中减少特征

    B. 在特征空间中增加特征

    C. 增加数据点

    D. B和C

    E. 以上所有

    答案: B

    bias太高说明模型太简单了, 数据维数不够, 无法准确预测数据, 所以, 升维吧 !

    如果不明白bias和variance的概念, 务必参考下面链接:

     

    Q8:训练决策树模型, 属性节点的分裂, 具有最大信息增益的图是下图的哪一个: 

    q8_image123

    A. Outlook

    B. Humidity

    C. Windy

    D. Temperature

    答案: A

    信息增益, 增加平均子集纯度, 详细研究, 请戳下面链接:

     

    Q9:对于信息增益, 决策树分裂节点, 下面说法正确的是: 

    A. 纯度高的节点需要更多的信息去区分

    B. 信息增益可以用”1比特-熵”获得

    C. 如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的

    A. 1

    B. 2

    C.2和3

    D. 所有以上

    答案: C

    详细研究, 请戳下面链接:

     

    Q10:如果SVM模型欠拟合, 以下方法哪些可以改进模型 : 

    A. 增大惩罚参数C的值

    B. 减小惩罚参数C的值

    C. 减小核系数(gamma参数)

    答案: A

    如果SVM模型欠拟合, 我们可以调高参数C的值, 使得模型复杂度上升.

    LibSVM中,SVM的目标函数是:

    1de6d986ed0b17cd90615544918461ec_r

    而, gamma参数是你选择径向基函数作为kernel后,该函数自带的一个参数.隐含地决定了数据映射到新的特征空间后的分布.
    gamma参数与C参数无关. gamma参数越高, 模型越复杂.
     
     

    Q11:下图是同一个SVM模型, 但是使用了不同的径向基核函数的gamma参数, 依次是g1, g2, g3 , 下面大小比较正确的是 : 

    q11_image2

    A. g1 > g2 > g3

    B. g1 = g2 = g3

    C. g1 < g2 < g3

    D. g1 >= g2 >= g3

    E. g1 <= g2 <= g3

    答案: C

    参考Q10题

     

    Q12:假设我们要解决一个二类分类问题, 我们已经建立好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值,  那么现在关于模型说法, 正确的是 : 

    A. 模型分类的召回率会降低或不变

    B. 模型分类的召回率会升高

    C. 模型分类准确率会升高或不变

    D. 模型分类准确率会降低

    A. 1

    B. 2

    C.1和3

    D. 2和4

    E. 以上都不是

    答案: C

    这篇文章讲述了阈值对准确率和召回率影响 :

    Confidence Splitting Criterions Can Improve Precision And Recall in Random Forest Classifiers

     

    Q13:”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是 : 

    A. 模型预测准确率已经很高了, 我们不需要做什么了

    B. 模型预测准确率不高, 我们需要做点什么改进模型

    C. 无法下结论

    D. 以上都不对

    答案: B

    99%的预测准确率可能说明, 你预测的没有点进去的人很准确 (因为有99%的人是不会点进去的, 这很好预测). 不能说明你的模型对点进去的人预测准确, 所以, 对于这样的非平衡数据集, 我们要把注意力放在小部分的数据上, 即那些点击进去的人.

    详细可以参考这篇文章: article

     

    Q14:使用k=1的knn算法, 下图二类分类问题, “+” 和 “o” 分别代表两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少 : 

    14-2-768x608

    A. 0%

    B. 100%

    C.  0% 到  100%

    D. 以上都不是

    答案: B

    knn算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 我们就把这个样本分成A类. 显然, k=1 的knn在上图不是一个好选择, 分类的错误率始终是100%

     

    Q15:我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以 : 

    A.  增加树的深度

    B.  增加学习率 (learning rate)

    C.  减少树的深度

    D. 减少树的数量

    答案: C

    • 增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.
    • 决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)
    • 决策树只有一棵树, 不是随机森林.
     

    Q16:对于神经网络的说法, 下面正确的是 : 

    1. 增加神经网络层数, 可能会增加测试数据集的分类错误率
    2. 减少神经网络层数, 总是能减小测试数据集的分类错误率
    3. 增加神经网络层数, 总是能减小训练数据集的分类错误率

    A. 1

    B. 1 和 3

    C. 1 和 2

    D. 2

    答案: A

    深度神经网络的成功, 已经证明, 增加神经网络层数, 可以增加模型范化能力, 即, 训练数据集和测试数据集都表现得更好. 但是, 在这篇文献中, 作者提到, 更多的层数, 也不一定能保证有更好的表现. 所以, 不能绝对地说层数多的好坏, 只能选A

     

    Q17:假如我们使用非线性可分的SVM目标函数作为最优化对象, 我们怎么保证模型线性可分 : 

    A. 设C=1

    B. 设C=0

    C. 设C=无穷大

    D. 以上都不对

    答案: C

    C无穷大保证了所有的线性不可分都是可以忍受的.

     

    Q18:训练完SVM模型后, 不是支持向量的那些样本我们可以丢掉, 也可以继续分类: 

    A. 正确

    B. 错误

    答案: A

    SVM模型中, 真正影响决策边界的是支持向量

     

    Q19:以下哪些算法, 可以用神经网络去构造: 

    1. KNN
    2. 线性回归
    3. 对数几率回归

    A. 1和 2

    B. 2 和 3

    C. 1, 2 和 3

    D. 以上都不是

    答案: B

    1. KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙
    2. 最简单的神经网络, 感知器, 其实就是线性回归的训练
    3. 我们可以用一层的神经网络构造对数几率回归

     

    Q20:请选择下面可以应用隐马尔科夫(HMM)模型的选项: 

    A. 基因序列数据集

    B. 电影浏览数据集

    C. 股票市场数据集

    D. 所有以上

    答案: D

    只要是和时间序列问题有关的 , 都可以试试HMM

     

    Q21:我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练 : 

    A. 我们随机抽取一些样本, 在这些少量样本之上训练

    B. 我们可以试用在线机器学习算法

    C. 我们应用PCA算法降维, 减少特征数

    D. B 和 C

    E. A 和 B

    F. 以上所有

    答案: F

    Q22:我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 :

    1. 使用前向特征选择方法
    2. 使用后向特征排除方法
    3. 我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征.
    4. 查看相关性表, 去除相关性最高的一些特征

    A. 1 和 2

    B. 2, 3和4

    C. 1, 2和4

    D. All

    答案: D

    1. 前向特征选择方法和后向特征排除方法是我们特征选择的常用方法
    2. 如果前向特征选择方法和后向特征排除方法在大数据上不适用, 可以用这里第三种方法.
    3. 用相关性的度量去删除多余特征, 也是一个好方法

    所有D是正确的

     

    Q23:对于 随机森林和GradientBoosting Trees, 下面说法正确的是:

    1. 在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的.
    2. 这两个模型都使用随机特征子集, 来生成许多单个的树.
    3. 我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的, GradientBoosting Trees训练模型的表现总是比随机森林好

    A. 2

    B. 1 and 2

    C. 1, 3 and 4

    D. 2 and 4

    答案: A

    1. 随机森林是基于bagging的, 而Gradient Boosting trees是基于boosting的, 所有说反了,在随机森林的单个树中, 树和树之间是没有依赖的, 而GradientBoosting Trees中的单个树之间是有依赖关系.
    2. 这两个模型都使用随机特征子集, 来生成许多单个的树.

    所有A是正确的

     

    Q24:对于PCA(主成分分析)转化过的特征 ,  朴素贝叶斯的”不依赖假设”总是成立, 因为所有主要成分是正交的, 这个说法是 :

    A. 正确的

    B. 错误的

    答案: B.

    这个说法是错误的, 首先, “不依赖”和”不相关”是两回事, 其次, 转化过的特征, 也可能是相关的.

     

    Q25:对于PCA说法正确的是 :

    1. 我们必须在使用PCA前规范化数据
    2. 我们应该选择使得模型有最大variance的主成分
    3. 我们应该选择使得模型有最小variance的主成分
    4. 我们可以使用PCA在低维度上做数据可视化

    A. 1, 2 and 4

    B. 2 and 4

    C. 3 and 4

    D. 1 and 3

    E. 1, 3 and 4

    答案: A

    • PCA对数据尺度很敏感, 打个比方, 如果单位是从km变为cm, 这样的数据尺度对PCA最后的结果可能很有影响(从不怎么重要的成分变为很重要的成分).
    • 我们总是应该选择使得模型有最大variance的主成分
    • 有时在低维度上左图是需要PCA的降维帮助的

     

    Q26:对于下图, 最好的主成分选择是多少 ? :

    q26_image4

    A. 7

    B. 30

    C. 35

    D. Can’t Say

    答案: B

    • 主成分选择使variance越大越好, 在这个前提下, 主成分越少越好。
     

    Q27:数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是 :

    A. 单个模型之间有高相关性

    B. 单个模型之间有低相关性

    C. 在集成学习中使用“平均权重”而不是“投票”会比较好

    D. 单个模型都是用的一个算法

    答案: B

    • Kaggle Ensemble Guide
    • 5 Easy questions on Ensemble Modeling everyone should know

    •  

      Q28:在有监督学习中, 我们如何使用聚类方法? :

      A. 我们可以先创建聚类类别, 然后在每个类别上用监督学习分别进行学习

      B. 我们可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习

      C. 在进行监督学习之前, 我们不能新建聚类类别

      D. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习

      A. 2 和 4

      B. 1 和 2

      C. 3 和 4

      D. 1 和 3

      答案: B

      我们可以为每个聚类构建不同的模型, 提高预测准确率。

      “类别id”作为一个特征项去训练, 可以有效地总结了数据特征。

      所以B是正确的

       

      Q29:以下说法正确的是 :

      A. 一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的

      B. 如果增加模型复杂度, 那么模型的测试错误率总是会降低

      C. 如果增加模型复杂度, 那么模型的训练错误率总是会降低

      D. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习

      A. 1

      B. 2

      C. 3

      D. 1 and 3

      答案: C

      考的是过拟合和欠拟合的问题。

       

      Q30:对应GradientBoosting tree算法, 以下说法正确的是 :

      A. 当增加最小样本分裂个数,我们可以抵制过拟合

      B. 当增加最小样本分裂个数,会导致过拟合

      C. 当我们减少训练单个学习器的样本个数,我们可以降低variance

      D. 当我们减少训练单个学习器的样本个数,我们可以降低bias

      A. 2 和 4

      B. 2 和 3

      C. 1 和 3

      D. 1 和 4

      答案: C

      • 最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”,这个参数应该用交叉验证来调节。
      • 第二点是靠bias和variance概念的。

       

      Q31:以下哪个图是KNN算法的训练边界 :

      q31_image5

      A) B

      B) A

      C) D

      D) C

      E) 都不是

      答案: B

      KNN算法肯定不是线性的边界, 所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类,所以边界一定是坑坑洼洼的。

       

      Q32:如果一个训练好的模型在测试集上有100%的准确率, 这是不是意味着在一个新的数据集上,也会有同样好的表现? :

      A. 是的,这说明这个模型的范化能力已经足以支持新的数据集合了

      B. 不对,依然后其他因素模型没有考虑到,比如噪音数据

      答案: B
      没有一个模型是可以总是适应新数据的。我们不可能可到100%准确率。

      Q33:下面的交叉验证方法 :

      i. 有放回的Bootstrap方法

      ii. 留一个测试样本的交叉验证

      iii. 5折交叉验证

      iv. 重复两次的5折教程验证

      当样本是1000时,下面执行时间的顺序,正确的是:

      A. i > ii > iii > iv

      B. ii > iv > iii > i

      C. iv > i > ii > iii

      D. ii > iii > iv > i

      答案: B

      • Boostrap方法是传统地随机抽样,验证一次的验证方法,只需要训练1次模型,所以时间最少。
      • 留一个测试样本的交叉验证,需要n次训练过程(n是样本个数),这里,要训练1000个模型。
      • 5折交叉验证需要训练5个模型。
      • 重复2次的5折交叉验证,需要训练10个模型。

      所有B是正确的

       

      Q34. Removed

       

      Q35:变量选择是用来选择最好的判别器子集, 如果要考虑模型效率,我们应该做哪些变量选择的考虑? :

      1. 多个变量其实有相同的用处
      2. 变量对于模型的解释有多大作用
      3. 特征携带的信息
      4. 交叉验证

      A. 1 和 4

      B. 1, 2 和 3

      C. 1,3 和 4

      D. 以上所有

      答案: C

      注意, 这题的题眼是考虑模型效率,所以不要考虑选项2.

       

      Q36:对于线性回归模型,包括附加变量在内,以下的可能正确的是 :

      1. R-Squared 和 Adjusted R-squared都是递增的
      2. R-Squared 是常量的,Adjusted R-squared是递增的
      3. R-Squared 是递减的, Adjusted R-squared 也是递减的
      4. R-Squared 是递减的, Adjusted R-squared是递增的

      A. 1 和 2

      B. 1 和 3

      C. 2 和 4

      D. 以上都不是

      答案: D

      R-squared不能决定系数估计和预测偏差,这就是为什么我们要估计残差图。但是,R-squared有R-squared 和 predicted R-squared 所没有的问题。
      每次你为模型加入预测器,R-squared递增或不变.

      详细请看这个链接:discussion.

       

      Q37:对于下面三个模型的训练情况, 下面说法正确的是 :

      q37_image6

      1. 第一张图的训练错误与其余两张图相比,是最大的
      2. 最后一张图的训练效果最好,因为训练错误最小
      3. 第二张图比第一和第三张图鲁棒性更强,是三个里面表现最好的模型
      4. 第三张图相对前两张图过拟合了
      5. 三个图表现一样,因为我们还没有测试数据集

      A. 1 和 3

      B. 1 和 3

      C. 1, 3 和 4

      D. 5

      答案: C

       

      Q38:对于线性回归,我们应该有以下哪些假设? :

      1. 找到利群点很重要, 因为线性回归对利群点很敏感
      2. 线性回归要求所有变量必须符合正态分布
      3. 线性回归假设数据没有多重线性相关性

      A. 1 和 2

      B. 2 和 3

      C. 1,2 和 3

      D. 以上都不是

      答案: D

      • 利群点要着重考虑, 第一点是对的
      • 不是必须的, 当然, 如果是正态分布, 训练效果会更好
      • 有少量的多重线性相关性是可以的, 但是我们要尽量避免

       

      Q39:当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论: 

      1. Var1和Var2是非常相关的
      2. 因为Var和Var2是非常相关的, 我们可以去除其中一个
      3. Var3和Var1的1.23相关系数是不可能的

      A. 1 and 3

      B. 1 and 2

      C. 1,2 and 3

      D. 1

      答案: C

      • Var1和Var2相关系数是负的, 所以这是多重线性相关, 我们可以考虑去除其中一个.
      • 一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的
      • 相关性系数范围应该是 [-1,1]

       

      Q40:如果在一个高度非线性并且复杂的一些变量中, 一个树模型可能比一般的回归模型效果更好. 只是:

      A. 对的

      B. 错的

      答案: A

       

      翻译自参考文献:

      Solutions for Skilltest Machine Learning : Revealed

      本文章属于“David 9的博客”原创,如需转载,请联系微信david9ml,或邮箱:yanchao727@gmail.com

    展开全文
  • 机器学习复习模拟

    万次阅读 2020-02-21 13:04:53
    解析:机器学习中,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集随机分为 k 个包,每次将其中一个包作为测试集,剩下 k-1 个包作为训练集进行训练。 k 折交叉验证的的 k 值不能太大,...
  • (1)试着寻找最简单的假设(2)正则化(3)early stopping: 在每一个epoch结束的时候,计算验证集的accurancy,记录到目前为止最好的交叉验证accuracy,当连续10次epoch没达到最好的准确率的时候,可以认为...
  • 机器学习(丁宇新)2017年,资源包括课件,往年考试试题,各章节讲义重点,作业答案以及电子版课本、个人总结的考试重点,以及各种重要习题总结。
  • 北航 计算机学院 机器学习 期末考试往年试题复习总结
  • 机器学习复习

    2020-01-13 17:16:28
    机器学习复习 ○、考什么 填空410 判断210 简答2*6 计算10+18(除第三章外的各章作业) 一、最小二乘 二、极大似然 三、贝叶斯方法 四、贝叶斯推理 五、分类 六、聚类 七、降维 附:各章作业 ...
  • 机器学习复习资料2

    2019-03-12 17:03:37
    机器学习相关的复习题,可供考试复习使用,二分类及多分类问题等
  • 机器学习期末试题

    2014-12-11 09:02:27
    机器学习相关习题,中国科技大学期末期末试题
  • 机器学习期末考试

    千次阅读 2021-06-05 00:28:12
    机器学习期末考试 一、机器学习链接 1、机器学习期末复习试卷_zhouyan2000的博客-CSDN博客_机器学习期末考试} ...6、机器学习试题_AI_盲的博客-CSDN博客_机器学习试卷 7、机器学习 【含答案和解析】_
  • 东北大学 人工智能与机器学习课程课件ppt和期末试题及答案。课程是唐立新院士开课的,讲课的主要是小老师。
  • 某高校机器学习的期末考试复习资料,适合研究生阶段的复习及自我测试,有实体及答案
  • Cornell University机器学习考试试题与答案
  • 山东大学机器学习复习

    千次阅读 2019-02-22 20:28:12
    这是我在复习时整理的笔记,过一遍就稳了,建议还是把PPT过一遍,老师考的都是基础,大部分都在PPT上,特别是要多看SVM,这是考试的重点。 题型回顾 ... 机器学习复习整理.pdf 提取码:6j8l ...
  • 机器学习期末试题.rar

    2020-05-13 09:03:23
    北京航空航天大学机器学习研究生课程近两年试题。19年主要考察的内容有:1,贝叶斯决策,基于最小风险和最小方差的决策,ppt例题 2,id3和c4.5的区别,预剪枝和后剪枝的基本思想和优缺点 3,svm的基本思想,模型...
  • 北航研究生课程《机器学习》考试试题2020年秋季回忆 总的来说,题量适中,题型变化有但不大,但还是有没复习到的题目。 本文仅供参考与学习,不做任何目的,也方便日后自己学习,所以答案就不给出了,自己去搜索,...
  • 机器学习练习与解答 小刚去应聘某互联网公司的算法工程师 面试官问他回归和分类有什么相同点和不同点 他说了以下言论请逐条判断是否准确 1回归和分类都是有监督学习问题 [ 单选] [ 必答题] 对 错 参考答案 对 ...
  • 24份机器学习面试题目大总结,最全面最精华。花费3天时间总结。
  • 机器学习机器学习概述

    万次阅读 2019-12-16 22:37:25
    第一个视频主要讲了什么是机器学习机器学习能做些什么事情。 机器学习是目前信息技术中最激动人心的方向之一。在这门课中,你将学习到这门技术的前沿,并可以自己实现学习机器学习的算法。 你或许每天都在不知不觉...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 15,110
精华内容 6,044
关键字:

机器学习试题