精华内容
下载资源
问答
  • 机器学习与统计学

    2020-08-05 13:32:37
    答:因为统计检验正确性的保证是需要有数据分布假设作为前提,而机器学习模型很多时候不在于数据分布而在乎优化问题,故此机器学习不需要也不能进行统计学中的t检验或者F检验。 为什么样本量大的时候适合采用机器...

    为什么机器学习很多时候不对模型的系数进行t检验以及F检验呢?
    答:因为统计检验正确性的保证是需要有数据分布假设作为前提,而机器学习模型很多时候不在于数据分布而在乎优化问题,故此机器学习不需要也不能进行统计学中的t检验或者F检验。

    为什么样本量大的时候适合采用机器学习的方法?
    答:传统统计学在处理小样本数据的时候需要数据的分布假设,但是这个假设往往并不是数据的真实分布,但在小样本的时候我们只能无可奈何地依靠假设。而样本量大的时候,样本的分布几乎是总体分布,那么直接对样本进行fitting也就相当于对总体进行fitting,我们就不需要对总体分布进行假设了,可以直接看做是个优化问题,而优化问题又是机器学习的基础。

    展开全文
  • 【导读】统计学机器学习的真正差别。统计学机器学习在很多情况下是被混淆的,大部分人其实并不能很好的区分二者。介于此,本文详解的讲解了二者实际的差异,非常有指导意义。 很多人并不能很好的区分统计学和...

    【导读】统计学和机器学习的真正差别。统计学和机器学习在很多情况下是被混淆的,大部分人其实并不能很好的区分二者。介于此,本文详解的讲解了二者实际的差异,非常有指导意义。

        很多人并不能很好的区分统计学和机器学习,因为之间确实有太多的相同之处。目前流行的一种说法是,机器学习和统计学之间的主要区别在于它们的目的:机器学习模型旨在使最准确的预测成为可能;统计模型被设计用于推断变量之间的关系。

    这种说法在技术上来说没有问题,但它没有给出特别明确或令人满意的答案。说机器学习是关于准确的预测,而统计模型设计用于推理几乎是无意义的陈述,除非你精通这些概念。

    因为统计数据和统计模型是不一样的。统计学是数据的数学研究,没有数据就无法进行统计;统计模型是数据的模型,用于推断数据中的关系或创建能够预测未来值的模型。通常,这两者是相辅相成的。

    实际上,我们需要讨论两件事:首先,统计数据与机器学习有何不同?其次,统计模型与机器学习有何不同。所以今天,我们就来详细解读一下二者的区别。

    统计学模型与机器学习在线性回归上的差异

     

    可能因为统计建模和机器学习中使用的方法的相似性,使人们认为它们是同一个东西。可以理解,但根本不是这样。

    最明显的例子是线性回归,这可能是造成这种误解的主要原因。线性回归是一种统计方法,我们训练线性回归量并获得与统计回归模型相同的结果,旨在最小化数据点之间的平方误差。

    在一个案例中,我们做了“训练”模型的事情,其中涉及使用数据的一个子集。我们不知道模型将如何执行,直到在训练期间能够“测试”出此数据不存在的、被称为测试集的其他数据。在这种情况下,机器学习的目的是在测试集上获得最佳性能。

    对于统计模型,我们只要找出可以最小化所有数据的均方误差(假设数据是一个线性回归量,加上一些随机噪声,本质上通常是高斯噪声),无需训练,也无需测试。

    一般来说,特别是在研究中(例如下面的传感器示例),模型的要点是表征数据与结果变量之间的关系,而不是对未来数据进行预测。我们将此过程称为统计推断,而不是预测。但我们仍然可以使用此模型进行预测,但评估模型的方式不涉及测试集,而是涉及评估模型参数的重要性和稳健性。

    (受监督的)机器学习的目的是获得可以进行可重复预测的模型。我们通常不关心模型是否可解释,机器学习只看重结果。而统计建模更多的是发现变量之间的关系和这些关系的重要性,同时也适合预测。

    举例说明这两个程序之间差异。一名环境科学家主要研究传感器数据。如果试图证明传感器能够响应某种刺激(例如气体浓度),就会使用统计模型来确定信号响应是否具有统计显着性。

    他会尝试理解这种关系并测试其可重复性,以便能够准确地表征传感器响应并根据这些数据做出推断。可能测试的一些事情包括实际上,响应是否是线性的?响应是否可以归因于气体浓度而不是传感器中的随机噪声?等等。

    而同时,我们还可以获得20个不同传感器的阵列,可以用来尝试预测新近表征的传感器的响应。我们不认为一个预测传感器结果的20个不同变量的模型具备多少可解释性。由于化学动力学和物理变量与气体浓度之间的关系引起的非线性,这个模型可能会比神经网络更深奥。我希望这个模型有意义,但只要我能做出准确的预测就已经很不错了。

    如果试图证明数据变量之间的关系达到一定程度的统计显著性,那么发论文的时候应该会使用统计模型而不是机器学习。这是因为我们更关心变量之间的关系,而不是做出预测。做出预测仍然很重要,但是大多数机器学习算法缺乏可解释性使得难以证明数据内的关系(这实际上是学术研究中的一个大问题,研究人员使用他们不理解和获得的算法似是而非的推论)。

    这两种方法的目标不同,尽管使用的方法类似。机器学习算法的评估使用测试集来验证其准确性。统计模型可以使用置信区间,显着性检验和其他检验对回归参数进行分析,以评估模型的合法性。由于这些方法产生相同的结果,因此很容易理解为什么人们可能认为它们是相同的。

    统计与机器学习在线性回归上的差异

    有一个误解存在了10年:仅基于它们都利用相同的基本概率概念这一事实,来混淆这两个术语是不合理的。

     

    有人一种说法是,根据这个事实做出机器学习只是美化统计的陈述,我们也可以做出以下陈述:

    • 物理学只是美化数学

    • 动物学只是美化邮票收藏

    • 建筑只是美化沙子城堡建筑

     

    这些陈述(尤其是第三个)非常荒谬,所有这些陈述都基于这种混淆基于类似想法的术语的想法(用于架构示例的双关语)。

    实际上,物理学是建立在数学基础之上的,它是数学应用于理解现实中存在的物理现象。物理学还包括统计学的各个方面,现代统计学的形式通常是由一个由Zermelo-Frankel集理论与测量理论相结合的框架构建,以产生概率空间。它们之间都有很多共同之处,因为都来自相似的起源,并应用类似的想法,来达成合乎逻辑的结论。同样,建筑和沙堡建筑也有很多共同点啊,但这两个显然不是一个概念。

    还有两个与机器学习和统计相关的常见误解我们需要纠正一下,一个是混淆了数据科学和统计学;另一个是混淆了机器学习和人工智能。这些是AI与机器学习不同,数据科学与统计学不同。这些是相当无争议的问题所以它会很快。

    数据科学 vs 统计学

    数据科学本质上是应用于数据的计算和统计方法,这些方法可以是小型或大型数据集,也可以是探索性数据分析。数据被检查和可视化,以帮助科学家更好地理解数据,并从中做出推论。数据科学还包括数据争用和预处理等内容,因此还在某种程度上涉及到计算机科学,例如编码,在数据库,Web服务器等之间建立连接和pipe等。不一定非得使用计算机来进行统计,但如果没有计算机,就没法真正进行数据科学。所以,数据科学使用统计数据,但二者也显然不一样。

    机器学习 vs 人工智能

    机器学习跟人工智能不同。事实上,机器学习是人工智能的一个子集,这是非常明显的,因为我们正在“训练”一台机器,根据以前的数据对某些类型的数据做出可推广的推断。

    机器学习是基于统计学的

    在我们讨论统计和机器学习的不同之前,让我们首先讨论相似之处。我们已经在前几节中对此进行了一些讨论。

    机器学习建立在统计框架之上。这应该是显而易见的,因为机器学习涉及数据,并且必须使用统计框架来描述数据。然而,统计力学也扩展到大量粒子的热力学,也建立在统计框架之上。压力的概念实际上是一个统计量,温度也是一个统计量。如果你觉得这听起来很荒谬可笑,但事实上确实如此。这就是为什么你无法描述分子的温度或压力,这是荒谬的。温度是分子碰撞产生的平均能量的表现。对于足够大量的分子,我们可以描述像房子或户外的温度。

    你会承认热力学和统计学是一样的吗?不,热力学使用统计数据来帮助我们以运输现象的形式理解工作和热量的相互作用。

    实际上,热力学是建立在除了统计之外的更多项目之上的。同样,机器学习也利用了大量其他数学和计算机科学领域,例如:

    • ML理论来自数学和统计学等领域

    • ML算法来自优化,矩阵代数,微积分等领域

    • ML实现来自计算机科学与工程概念(例如内核技巧,特征散列)

    当你开始使用Python进行编码,剔除sklearn库并开始使用这些算法时,很多这些概念都被抽象出来,因此很难看出这些差异。

    统计学习理论:机器学习的统计基础

    统计学与机器学习之间的主要区别在于统计学仅基于概率空间。从集合论中推导出整个统计数据,它讨论了我们如何将数字组合成类别,称为集合,然后对此集合强加一个度量,以确保所有这些的总和值为1,我们称之为概率空间。

    除了这些集合和度量的概念之外,统计数据不对宇宙做任何其他假设。这就是为什么当我们用非常严格的数学术语指定概率空间时,我们指定了3个东西。

    概率空间,我们这样表示,(Ω,F,P)由三部分组成:

    • 样本空间Ω,它是所有可能结果的集合

    • 一组事件F,其中每个事件是包含零个或多个结果的集合

    • 为事件分配概率P; 也就是说,从事件到概率的函数

    机器学习基于统计学习理论。它仍然基于概率空间的这种公理概念。该理论是在20世纪60年代发展起来的,并扩展到传统统计学。

    机器学习有几种类型,这里我们主要讲监督学习,因为它是最容易解释的。

     

    根据监督学习的统计学习理论,一组数据,我们将其表示为S={(xᵢ,yᵢ)}。这是一个有n个数据点的数据集,每个数据点由我们称之为功能的其他一些值描述,这些值由x提供,并且这些特征由某个函数映射以给出值y。

     

    假如说我们已经有了这些数据,我们的目标是找到将x值映射到y值的函数。可以描述此映射的所有可能函数的集合,称为假设空间。

     

    要找到这个函数,我们必须让算法“学会”一些方法来找出解决问题的最佳方法,这个过程由损失函数实现。因此,对于我们所拥有的每个假设(建议函数),需要通过查看其对所有数据的预期风险值来评估该函数的执行情况。

     

    预期风险基本上是损失函数乘以数据概率分布的总和。如果我们知道映射的联合概率分布,就很容易找到最佳函数。然而,这通常是未知的,因此我们最好的选择是猜测,然后凭经验确定损失函数是否更好。我们称之为经验风险。

     

    然后,我们可以比较不同的函数,并寻找给出最小预期风险的假设,即假设给出数据上所有假设的最小值(称为下限)。

     

    然而,该算法具有作弊的倾向,可以通过过度拟合数据来最小化其损失函数。这就是为什么在学习基于训练集数据的函数之后,该函数需要在测试数据集上进行验证,验证用的数据数据不会出现在训练集中。

     

    显然,这不是统计学看重的点,因为统计学并不需要最小化经验风险。选择最小化经验风险的函数的学习算法称为经验风险最小化。

    举例

    以线性回归的简单情况为例。在传统意义上,我们尝试将某些数据之间的错误最小化,以便找到可用于描述数据的函数。在这种情况下,常使用均方误差。我们将它调整为正负误差不会相互抵消。然后我们可以以封闭形式的方式求解回归系数。

    如果将损失函数作为均方误差来执行统计学习理论所支持的经验风险最小化,最终得到的是与传统线性回归分析相同的结果。

    这是因为两种情况是等价的,就像在同一数据上执行最大似然估计也会得到相同的结果一样。最大似然可以用不同的方式来实现同一目标,但没有人会说最大似然与线性回归相同,对吧。

    另一个需要注意的是,在传统的统计方法中,并没有训练和测试集的概念。而是用度量来检查模型的执行方式。虽然评估程序不同,但两种方法都能够在统计上给出鲁棒的结果。

    更进一步,传统的统计方法提供了最优解,因为解决方案具有封闭形式,它没有测试任何其它假设并收敛到解决方案。而机器学习方法则是尝试了一堆不同的模型,收敛到最终假设。

    如果我们使用了不同的损失函数,结果就不会收敛。例如,如果我们使用铰链损耗(使用标准梯度下降不可微分,那么就需要其他技术,如近端梯度下降来解决问题),那么结果将不会相同。

    当然,可以通过考虑模型的偏差来进行最终比较,比如要求机器学习算法测试线性模型,以及多项式模型,指数模型等,以查看这些假设是否更适合我们的先验损失函数。

    这类似于增加相关的假设空间。在传统的统计意义上,我们选择一个模型就可以评估其准确性,但不能自动选择100个不同模型中的最佳模型。因为模型中总有一些偏差源于最初的算法选择。这是必要的,因为找到对数据集最佳的任意函数是NP难问题。

    结论

    没有统计学就不会存在机器学习,但机器学习在当代非常有用,因为自信息爆炸以来人类,已经产生了大量数据。

    在“到底应该选择机器学习还是统计模型”的问题上,很大程度上取决于目的是什么。如果只是想创建一种能够高精度地预测住房价格的算法,或者使用数据来确定某人是否可能感染某些类型的疾病,那么机器学习可能是更好的方法;如果试图证明变量之间的关系或从数据推断,统计模型可能是更好的方法。

     

     

    还有就是,即使没有强大的统计学背景,也仍然可以掌握机器学习并应用在实际问题中。但基本的统计思想还是要有的,以防止模型过度拟合和给出似是而非的推论。

     

    这里推荐几个不错的课程,可以让你对机器学习和统计学有更清晰的认识:

    9.520/6.860: Statistical Learning Theory and Applications

    http://www.mit.edu/~9.520/fall18/

    该课程是以统计学家的角度来阐述机器学习

     

    ECE 543: Statistical Learning Theory

    http://maxim.ece.illinois.edu/teaching/spring18/index.html

     

    参考链接:

    1.https://mp.weixin.qq.com/s/LURIDnFhbw1TpfrgU8Nmmg

    2.https://towardsdatascience.com/the-actual-difference-between-statistics-and-machine-learning-64b49f07ea3

     

    展开全文
  • 在2015年,开始接触机器学习时,我没有只关注它的算法栈本身,更多关注的是它与统计学在使用上的区别,尤其是在处理分类与回归的问题上,两门学科都能解决,那么难免要问一问为什么他们要解决相同的问题,区别又在...

    我觉得其中的一个区别是,使用场景和处理数据的理念不同。

    在2015年,开始接触机器学习时,我没有只关注它的算法栈本身,更多关注的是它与统计学在使用上的区别,尤其是在处理分类与回归的问题上,两门学科都能解决,那么难免要问一问为什么他们要解决相同的问题,区别又在哪里?随着阅读大量书籍和机器学习的论文,逐渐理解了两者在处理数据理念上的不同。

    在工业界中,被使用最多的一个统计学的分支是参数统计,其假设总体分布已知,需要预测的是条件均值和方差。模型选择与特征选择的指标之一是P值,但要得到准确的P值,有几个重要的假设:残差近似服从正态分布 。残差的方差齐性。残差之间相互独立等条件。如果使用者不去对这些假设进行验证就直接去使用模型,而且在使用过程中又无法做AB Test,那么预测结果的使用就会很危险。

    而在机器学习中,不事先假设总体的分布,也不需要对残差做任何假设(自然就没有了P值)。某些算法即存在于机器学习也存在于统计学中,甚至损失函数都相同。但是在模型选择与特征选择时,用验证集替换了P值,就是这一个小的改变,使得机器学习可以在不满足假设条件的数据上进行模型和特征的选择。当然统计学中也有很多方法去处理数据,使之尽可能的满足假设条件,但这需要许多额外的操作、较强的数理统计功底和数据处理经验。因此在数据不满足假设条件时,机器学习降低了使用者的建模难度。机器学习是统计学在应对现代复杂数据时的一个有力补充。

    附上吴喜之老师的在其著作中提到的关于P值和统计显著性检验的一些看法,共大家参考。

     

    展开全文
  • 统计学机器学习之间是否泾渭分明一直学界争论的焦点。 有的学者认为机器学习只是统计学披了一层光鲜的外衣。而另一些讨论则认为涉及使用逻辑回归或者广义线性模型(GLM)的可以称作机器学习;否则就不是。 还有...
    2020-02-04 14:53

    导语:没意义

    机器学习与统计学的争论,有意义吗?

    (雷锋网(公众号:雷锋网)出品)

    统计学和机器学习之间是否泾渭分明一直学界争论的焦点。 

    有的学者认为机器学习只是统计学披了一层光鲜的外衣。而另一些讨论则认为涉及使用逻辑回归或者广义线性模型(GLM)的可以称作机器学习;否则就不是。

    还有一些观点认为:是否执行元分析或许是区分两个领域的一个标准。 

    但,争论两者之间的边界,真的有意义吗?如果对这个问题进行严肃地思考,或许我们会发现,答案是否定的。 

    麻省理工Sam Finlayson 博士指出“过去关于机器学习和统计学之间的讨论很大程度上没有切中要害,因为这些讨论要么忽略了历史背景、要么‘回归方法’归属模棱两可”,因此这种争论事实上毫无意义。 

    1、历史背景的忽略:“机器学习”术语的诞生并不是为了区分统计学

    机器学习与统计学的争论,有意义吗?

    达特茅斯会议期间合影 数千年来,研究者们一直梦想建造“智能”设备,但“人工智能”一词却是到1956年才出现。John McCarthy 在当时的达特茅斯会议上提出这个术语,并将人工智能定义为:制造智能机器的科学和工程。 

    至此之后,人工之智能术语使用并流行到了今天。 

    而McCarthy能在会议上说服参会者使用这一术语很大程度上因为这个定义本身就是非常模糊的。

    在那个年代,致力于“智能”的科学家们的研究视角还未转向“数据驱动”,而是专注于自动机理论、形式逻辑和控制论等东西。

    也就 是说McCarthy当时想要创造一个术语来容纳所有这些范式,而不是倾向于任何特定的方法。 

    正是在这种情况下,Arthur Samuel(达特茅斯会议的与会者之一)在1959年提出了“机器学习”一词,并将其定义为一种研究领域,即不进行显式编程就可让计算机进行学习的研究领域。 

    之所以有此定义是因为Samuels和他的同事们希望通过让计算机拥有识别能力,并随着时间的推移不断改进这种能力来使得计算机变得更加“智能”。 

    在今天看来,这种研究方法似乎并不陌生,但先驱们却花费了数十年才让其成为AI研究的主导范式。 

    从当时研究者的意图来看,机器学习是为了描述计算机的设计过程而创建的,该过程利用统计方法来改善性能。 也就是说该术语是旨在与构建智能机器的非数据驱动方法形成对比,不是为了与统计学形成对比。

    毕竟统计学重点使用数据驱动的方法为人类提供有效信息。 

    另一个被普遍认可的机器学习的定义来自于Tom M.Mitchell 在 1997年出版的教科书,他在书中提到:“机器学习领域涉及如何让计算机程序通过经验而自动改进的一类问题”。

    另外,书中还有一个半正式定义: 对于某类任务 T 和性能度量 P,计算机程序从经验 E 中学习,然后它在任务 T 中的性能 P 随着经验 E 的提高而提高。

    2、关于谁“拥有”回归的争论没有抓住重点

    机器学习与统计学的争论,有意义吗?

     当前许多人试图在统计方法和机器方法之间用二分法强硬的划定界限,但这显然是一种独裁的专制。

    有的人特别执着的认为:回归驱动的研究方法是统计学专属,无论如何不能称作机器学习。 

    此类观点其实比目前“逻辑回归等于计量经济学”的观点还要愚蠢,两者同样挑起了激烈的争论。

     六十年来机器学习社区一直在致力于“更好的计算机”,而并不关心是奇妙的方法还是统计数据哪个更优。

    这也是为什么大多数教授在机器学习课程教学的时候,花大精力来教授广义线性模型及其变体。

    所以说统计学在机器学习和人工智能的研究背景下是非常有意义的,机器学习术语涉及不同的方法,并致力于让“程序”变得智能。 坦率地说,任何段位的统计学家都不能断言“脱离实际研究背景的统计学方法是有用的”。 

    回归方法归属之争其实在很大程度上同时低估了机器学习和统计,原因大致可以归纳为以下四个: 

    1.限制了经典统计方法在构建计算机程序方面所能发挥的核心作用;
    2.忽略了机器学习对统计学的影响,实际上人工智能和计算机学科很大程度促进了统计学的复兴。例如Judea Pearl的因果关系开辟了新的统计学范式;
    3.统计学和机器学习之间“强硬”的二分法在一定程度上弱化了建模决策中的重要信息,并且这种分类有时候毫无意义。
    4.当前机器学习和统计学的顶级研究学者大多同时属于这两个领域。

    其实,当前有很多研究都突出了统计学家与机器学习研究人员的丰富互动,例如著名学者Rob Tibshirani和Trevor Hastie没有纠结于方法论的边界线,而是利用机器学习研究人员开发的工具,从而帮助完善统计学领域的研究。并不是说Hastie和Tibs发明了新方法,而是意味着这些方法已经影响了统计学家和机器学习研究人员的日常工作。

    3、许多“争论”在开始之前就已注定失败

    机器学习与统计学的争论,有意义吗?

    目标的不同导致了方法和文化的差异,这也是为什么“机器学习”一词的含义自诞生以来发生了如此大的变化。

    语言中的脱节让许多“争论”在开始之前就已注定失败。

    如上文所述,机器学习这一研究领域之所以得以创立,便是由于计算机科学家试图创建和理解智能计算机系统,至今依旧如此。 

    主要的机器学习应用包括语音识别、计算机视觉、机器人/自动系统、计算广告、监控、聊天机器人等等。在尝试解决这些问题的过程中,机器学习研究者基本总是先从尝试经典的统计学方法开始,例如相对简单的广义线性模型(GLM)。 

    当然,长年累月,计算机科学家也不断提出了新的方法,让机器学习这一工具日益强大。 

    与其他任意背景下的进化一样,用于机器学习的统计学方法,其进化史也是在“物竞天择”的压力下所形成的。 与统计学家相比,机器学习研究者往往很少关注:理解算法背后所执行的所有具体动作。这一点其实非常重要,并且越来越重要。 

     机器学习与统计学的争论,有意义吗?

    雷锋网制图

    他们通常最关注的是模型误差。这样就导致机器学习研究者开发的方法往往会更加灵活,甚至不惜以牺牲可解释性为代价来实现更高的灵活性。 这种离散式的进化,就很容易让机器学习和完全基于方法的统计学研究之间的界限变得模糊。

    此外,也导致不少统计学家并不了解机器学习的历史。因此毫不惊讶地,他们会热衷于采用任何其他的术语来定义机器学习领域,即便这种做法毫无必要。 出于同样的道理,基于“使用”的严格划分现在变得非常复杂,实际上现在很多机器学习从业者,即便当他们仅仅是在应用机器学习方法来做纯粹的数据分析,而不是驱动计算机程序时,他们依旧会称他们是在做机器学习。

    虽然从严格的历史意义上而言,这种说法并不对,但是我认为也无需指责这种做法,因为这可能是出于习惯、文化背景或者“认为这种说法听起来来很酷”的综合影响。 

    所以在现实中,人们用到“机器学习”这个术语时,往往指的与机器学习本身非常不同的其他事情。 人们可能用它来表达:“我正在用统计学方法来让我设计的程序学习”或者“我正在设计可以部署到自动化系统中的数据分析”。

    又或者表达的意思是:“我正在使用一个最初由机器学习社区开发的方法,如随机森林,来做统计学数据分析”。 而更普遍的情况是,他们使用这个词是在说:“我自己是一个机器学习研究者,我就是在使用数据做机器学习研究,我怎么高兴就怎么说。” 

    实际上,这一术语的不同用法并不令人惊讶也不成问题,因而这仅仅是由于语言的进化而导致的结果。然而当另一群人——数据科学家群起而辩“一个特定的项目是否能纯粹地冠之以机器学习或者统计学,二者选其一”时,就非常滑稽了。

    在我看来,“数据科学家”这一术语原本就是由机器学习和统计学交汇而成的。 而当这一争论发生时,大家往往都带着各不相同、定义模糊、并且表达不清的假设参与争论,一开场便是争论这些词的意思。而随后他们几乎不会花时间去了解这些词的出处或者听对方真正要表达的是什么,而仅仅是相互之间隔空喊话,声音大然而却并不清晰。 

    4、这整场“争论”差不多就是在浪费时间

    现在,让我们将这些真实的问题摆在桌面上来谈:如今有很多机器学习研究者(或者至少是机器学习爱好者)对统计学的理解尚有不足。有一部分人确实就是一位机器学习研究者,然而也有许多专业的统计学家有时候也会认为自己是机器学习研究者。 

    而更严重的现实情况是,机器学习研究的发展走得如此之快,并且常常在文化上与统计学领域脱节得如此之远,以至于我认为对于即便是非常杰出的机器学习研究者而言,对统计学的某些部分“重新发现”或者“重新发明”都非常普遍。

    这是个问题,也是种浪费! 最后,由于大量第三方应用研究者非常喜欢用“机器学习”这个术语:为了让论文显得更时髦而在论文中大量应用这一术语,即便现实中他们所谓的“机器学习”既不是构建自动化系统也没有使用机器学习领域提出的方法。 

    (雷锋网)我认为,所有这些问题的解决方法,就是让人们更多地意识到:大多数机器学习的数据方法实际上就存在于统计学中。无论这些方法是用到了数据分析中还是设计智能系统中,我们的首要任务是培养对统计学原理的深刻理解,而不是执拗于机器学习和统计学领域的划分是正确还是错误。 

    关于很多工作是机器学习还是统计学的无休止的争论,最终只会分散人们的注意力,让他们无法花更多精力来进行“如何通过正确匹配问题和特定的工具来很好地完成工作”的必要对话和交流——相对而言,这才是更重要的事。 与此同时,人们固执己见地对统计学和机器学习方法错误的二分法,会让很多研究者进一步养成没有必要就不使用复杂方法的习惯,仅仅是为了让自己感觉像是在做“真正的机器学习”。 

    这也会直接导致,人们会为了让自己的工作在方法论上听起来更时髦,就肆无忌惮地把自己的工作称作机器学习。 

    统计计算的黄金时代,正在推动机器学习和统计学领域变得空前的紧密。当然,机器学习研究诞生于计算机科学体系,而当代的统计学家越来越多地依赖于计算机科学界几十年来开创的算法和软件栈。他们也越来越多地发现机器学习研究者所提出的方法的用处,例如高维度回归,这一点尤其体现在计算生物学领域。 

    另一方面,机器学习社区也越来越多地关注可解释性、公平性、可验证的鲁棒性等主题,这也让很多研究者优先考虑让机器学习输出的数值更直接地与传统的统计值一致。至少,即便是在尽可能地使用最复杂的架构来部署系统时,人们也普遍意识到,使用经典的统计学来测量和评估机器学习模型的性能很有必要。 

    5、总结


    总而言之,学界关于机器学习和统计学的争论是错误的,人们对于相关术语的使用也是超载的,方法论的二分法也并不正确,机器学习研究者越来越多地关注统计学,而统计学家们也越来越依赖于计算机科学和机器学习社区。 

    根本就不存在回归和兼并阴谋论。 

    现在出现了很多炒作现象,但并不能改变的一个事实是:当其他人使用的术语与你不同时,那是因为他们来自不同的背景、有着不同的目标,而不是因为他们不诚实或者愚蠢。

    展开全文
  • 流行的看法相反,机器学习实际上已经存在了几十年。由于其庞大的计算要求和当时存在的计算能力的限制,最初被避开了。然而,由于信息爆炸引起的数据占优势,机器学习近年来出现了崛起。 那么,如果机器学习和统计...
  • 机器学习与统计学的区别与联系

    千次阅读 2020-02-25 07:51:01
    实际上我们需要从两方面来论述:第一,统计与机器学习有何不同;第二,统计模型与机器学习有何不同? 论述一: 最明显的例子是线性回归,这可能是造成这种误解的主要原因。线性回归是一种统计方法,通过这种方法...
  • 相关系数是表征随机变量XY直接线性关系紧密程度的量。 1)若 ∣ ρ ∣ = 1 |\rho| =1 ∣ ρ ∣ = 1 ,则X,Y之间以概率1存在着线性关系。 2)若 ∣ ρ ∣ = > 0 |\rho| =>0 ∣ ρ ∣ = > 0 ,越接近0,X,Y之间的...
  • 机器学习是计算机科学和统计学的边缘交叉领域,R关于机器学习的扩展包大概包括以下几个方面: 神经网络(Neural Networks) : 单隐含层神经网络在nnet 包(R基础包一同发布)中实现。RSNNS 包提供斯图加特神经网络...
  • 机器学习&统计学相关书籍

    千次阅读 2017-01-11 10:05:22
    1. 《统计学完全教程》 All of statistics 卡耐基梅隆 沃塞曼 2. 第四版《概率论数理统计》 莫里斯。德格鲁特(Morris H.DeGroot)和马克。舍维什(Mark J.Shervish) 3. 《线性代数导论》 ...5. 《机器学习基础之预
  • 常见分布 正态分布: 标准正态分布: 对数正态分布: 均匀分布: 指数分布: ... t分布:,t分布是正态总体的一个样本的样本均值样本标准差的特定函数。当自由度较大(如)时,t分布...
  • 数据挖掘、机器学习、深度学习之间的概念,还是有很大区别的,数据挖掘,也可以叫数据深层采集,数据勘探,利用各种技术统计方法,将大量的历史数据,进行整理分析,归纳整合。 数据挖掘为找寻隐藏在数据中的...
  • 统计学入门,机器学习,深度学习基础知识,统计学与机算机相关知识
  • 时间序列数据挖掘机器学习+统计学+kdd1718论文机器学习下的时间序列RNN功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定...
  • 统计学与机器学习

    2018-10-29 14:12:50
    我觉得我这边比较感兴趣的一件事,同时兼顾统计学机器学习的部分,就是在样本空间的大小上,比较有结合点。 另外就是,从统计学数据分布的角度来讲,数据的分布应该是什么样才能实现一个泛化能力比较强的分类器。...
  • 常见距离相似度度量 欧氏距离 定义在两个向量(两个点)上:点和点的欧氏距离为: 闵可夫斯基距离 Minkowski distance, 两个向量(点)的阶距离: 当时就是曼哈顿距离,当时就是欧
  • 本课件主要内容包括: 最大期望算法EM EM算法的推导 混合模型的应用 混合模型的EM算法 隐狄利克雷分配LDA LDA中文档的生成模型 使用LDA的示例 完整课件下载地址: ...更多精彩文章请关注微信号: ......
  • 1.8.2 统计学与机器学习 随着统计学机器学习的发展,这两个学科成为一个统一体。统计检验被用来验证机器学习模型和评估机器学习算法,机器学习技术标准统计技术可以有机结合。 ...
  • 一个机器学习算法模型一般包含多个统计学的总体分布
  • 根据学习的目的划分 Clustering regression classification correlation analysis 根据输入数据是否有lable: 有监督学习Supervised需要大量人工的标注,成本较高,但效果比无监督Unsupervised的好折衷===>...
  • 统计学与机器学习之间孰优孰劣在学术界也是个争论不休的话题,思考这个问题是源于今天老师突然问了我: 在信息抽取领域中“基于统计的方法”和“基于机器学习的方法“有什么区别? 一时语塞。。。 花了不少时间去...
  • 1.1机器学习与深度学习 定义 ”机器学习“就是通过算法使得机器能从大量历史数据中学习规律,从而对新样本斑鸻只能识别或对未来做出预测。 ”深度学习”是机器学习的一个分支和新的研究领域,本质在于利用海量的训练...
  • 如果说这个时代有两头“风口上的猪”,在我的视野中我觉得是统计学机器学习这两大学科。本人本科统计学专业,主要研究统计学机器学习两个方向,通过本科的几年积累,对这两门学科有着自己认为还算正确的理解,...
  • 观察结果: ...蓝色红色靶心区域的位置关系:靠近红色靶心的属于偏差较小的情况,远离靶心的属于偏差较大的情况。 离散程度:反映各变量远离其中心值的程度。 常用指标:极差 方差 ...
  •  明晰了数据科学家所具有的不同角色,以及数据科学与机器学习、深度学习、人工智能、统计学等领域的区别。这些概念的区别也一直是人工智能领域热烈讨论的一个话题,Quora、多个技术博客都曾有过解答。机器之心之前...
  • 机器学习与因果推断

    2021-03-09 22:04:52
    机器学习与因果推断 最近读了洪永淼教授和汪景阳教授的论文–《大数据、机器学习与统计学:挑战与机遇》
  • RSS(残差平方和)R2(相关系数平方)选择法:遍历所有可能的组合,选出使RSS最小(残差平方和越小拟合程度越好),R2最大的模型(相关系数平方越接近1越好) R2:复判定系数(multiple coefficient of ...
  • 在这篇文章中,数据科学家分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习、深度学习、人工智能、统计学等领域的区别。这些概念的区别也一直是人工智能领域热烈讨论的一个...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,171
精华内容 468
关键字:

机器学习与统计学