精华内容
下载资源
问答
  • 机器学习 统计学
    2021-11-05 10:35:50

    一.统计学是什么?

    统计学是一门从事数据采集、整理和分析的方法论科学,其目的是探索数据内在的规律性,以达到对研究总体的科学认识。

    二、机器学习是什么?

    机器学习(Machine Learning)是计算机科学的子领域,也是人工智能的一个分支和实现方式。

    机器学习主要的理论基础涉及概率论、数理统计、线性代数、数学分析、数值逼近、最优化理论和计算复杂理论等,其核心要素是数据、算法和模型。

    三、深度学习是什么?

    深度学习是机器学习的一种方法,深度学习的典型应用是选择数据训练模型,然后用模型做出预测。

    四、数据挖掘是什么?

    数据挖掘使用机器学习、统计学和数据库等方法在相对大量的数据集中发现模式和知识,它涉及数据预处理、模型与推断、可视化等。

    他们之间的联系是什么呢?

    比如机器学习和深度学习。因为机器学习是AI的分支技术,而深度学习是机器学习的技术之一。从人工智能到机器学习,再到深度学习,它们之间是一种包含和被包含的关系。

    再比如统计学、数据挖掘和机器学习。数据挖掘的很多算法都来自机器学习和统计学,而机器学习中有些算法借鉴了统计学理论。所以它们之间属于一种互相交织的关系。

    更多相关内容
  • stats handout 机器学习统计学公式和总结,快速上手掌握机器学习算法中涉及到的统计学公式和原理
  • 统计学入门,机器学习,深度学习基础知识,统计学与机算机相关知识
  • 大数据文摘出品来源:medium编译:周家乐、狗小白、蒋宝尚统计学机器学习之间的界定一直很模糊。无论是业界还是学界一直认为机器学习只是统计学批了一层光鲜的外衣。而机器学习支撑的人工智能也...

    大数据文摘出品

    来源:medium

    编译:周家乐、狗小白、蒋宝尚

    统计学和机器学习之间的界定一直很模糊。

    无论是业界还是学界一直认为机器学习只是统计学批了一层光鲜的外衣。

    而机器学习支撑的人工智能也被称为“统计学的外延”

    例如,诺奖得主托马斯·萨金特曾经说过人工智能其实就是统计学,只不过用了一个很华丽的辞藻。

    041e6c8f76cfecc2e2200f286134f2cf.png

    萨金特在世界科技创新论坛上表示,人工智能其实就是统计学

    当然也有一些不同的声音。但是这一观点的正反双方在争吵中充斥着一堆看似高深实则含糊的论述,着实让人摸不着头脑。

    一位名叫Matthew Stewart的哈佛大学博士生从统计与机器学习的不同;统计模型与机器学习的不同,这两个角度论证了机器学习和统计学并不是互为代名词。

    机器学习和统计的主要区别在于它们的目的

    0aa80eddf9cbc9a61af98a7489dfc311.png

    与大部分人所想的正相反,机器学习其实已经存在几十年了。当初只是因为那时的计算能力无法满足它对大量计算的需求,而渐渐被人遗弃。然而,近年来,由于信息爆炸所带来的数据和算力优势,机器学习正快速复苏。

    言归正传,如果说机器学习和统计学是互为代名词,那为什么我们没有看到每所大学的统计学系都关门大吉而转投'机器学习'系呢?因为它们是不一样的!

    我经常听到一些关于这个话题的含糊论述,最常见的是这样的说法:

    "机器学习和统计的主要区别在于它们的目的。机器学习模型旨在使最准确的预测成为可能。统计模型是为推断变量之间的关系而设计的。

    虽然技术上来说这是正确的,但这样的论述并没有给出特别清晰和令人满意的答案。机器学习和统计之间的一个主要区别确实是它们的目的。

    然而,说机器学习是关于准确的预测,而统计模型是为推理而设计,几乎是毫无意义的说法,除非你真的精通这些概念。

    22a40a4af820453c4cb43e75eadca119.png

    首先,我们必须明白,统计和统计建模是不一样的。统计是对数据的数学研究。除非有数据,否则无法进行统计。统计模型是数据的模型,主要用于推断数据中不同内容的关系,或创建能够预测未来值的模型。通常情况下,这两者是相辅相成的。

    因此,实际上我们需要从两方面来论述:第一,统计与机器学习有何不同;第二,统计模型与机器学习有何不同?

    说的更直白些就是,有很多统计模型可以做出预测,但预测效果比较差强人意。

    而机器学习通常会牺牲可解释性以获得强大的预测能力。例如,从线性回归到神经网络,尽管解释性变差,但是预测能力却大幅提高。

    从宏观角度来看,这是一个很好的答案。至少对大多数人来说已经足够好。然而,在有些情况下,这种说法容易让我们对机器学习和统计建模之间的差异产生误解。让我们看一下线性回归的例子。

    统计模型与机器学习在线性回归上的差异

    33433357dba848d0b8ae95599ba04a66.png

    或许是因为统计建模和机器学习中使用方法的相似性,使人们认为它们是同一个东西。对这我可以理解,但事实上不是这样。

    最明显的例子是线性回归,这可能是造成这种误解的主要原因。线性回归是一种统计方法,通过这种方法我们既可以训练一个线性回归器,又可以通过最小二乘法拟合一个统计回归模型。

    可以看到,在这个案例中,前者做的事儿叫"训练"模型,它只用到了数据的一个子集,而训练得到的模型究竟表现如何需要通过数据的另一个子集测试集测试之后才能知道。在这个例子中,机器学习的最终目的是在测试集上获得最佳性能。

    对于后者,我们则事先假设数据是一个具有高斯噪声的线性回归量,然后试图找到一条线,最大限度地减少了所有数据的均方误差。不需要训练或测试集,在许多情况下,特别是在研究中(如下面的传感器示例),建模的目的是描述数据与输出变量之间的关系, 而不是对未来数据进行预测。我们称此过程为统计推断,而不是预测。尽管我们可以使用此模型进行预测,这也可能是你所想的,但评估模型的方法不再是测试集,而是评估模型参数的显著性和健壮性。

    机器学习(这里特指有监督学习)的目的是获得一个可反复预测的模型。我们通常不关心模型是否可以解释。机器学习只在乎结果。就好比对公司而言,你的价值只用你的表现来衡量。而统计建模更多的是为了寻找变量之间的关系和确定关系的显著性,恰巧迎合了预测。

    下面我举一个自己的例子,来说明两者的区别。我是一名环境科学家。工作的主要内容是和传感器数据打交道。如果我试图证明传感器能够对某种刺激(如气体浓度)做出反应, 那么我将使用统计模型来确定信号响应是否具有统计显著性。我会尝试理解这种关系,并测试其可重复性,以便能够准确地描述传感器的响应,并根据这些数据做出推断。我还可能测试,响应是否是线性的?响应是否归因于气体浓度而不是传感器中的随机噪声?等等。

    而同时,我也可以拿着从20个不同传感器得到的数据, 去尝试预测一个可由他们表征的传感器的响应。如果你对传感器了解不多,这可能会显得有些奇怪,但目前这确实是环境科学的一个重要研究领域。

    用一个包含20个不同变量的模型来表征传感器的输出显然是一种预测,而且我也没期待模型是可解释的。要知道,由于化学动力学产生的非线性以及物理变量与气体浓度之间的关系等等因素,可能会使这个模型非常深奥,就像神经网络那样难以解释。尽管我希望这个模型能让人看懂, 但其实只要它能做出准确的预测,我就相当高兴了。

    如果我试图证明数据变量之间的关系在某种程度上具有统计显著性,以便我可以在科学论文中发表,我将使用统计模型而不是机器学习。这是因为我更关心变量之间的关系,而不是做出预测。做出预测可能仍然很重要,但是大多数机器学习算法缺乏可解释性,这使得很难证明数据中存在的关系。

    bc52051461a0604cc15e5c75c819a269.png

    很明显,这两种方法在目标上是不同的,尽管使用了相似的方法来达到目标。机器学习算法的评估使用测试集来验证其准确性。然而,对于统计模型,通过置信区间、显著性检验和其他检验对回归参数进行分析,可以用来评估模型的合法性。因为这些方法产生相同的结果,所以很容易理解为什么人们会假设它们是相同的。

    统计与机器学习在线性回归上的差异

    有一个误解存在了10年:仅基于它们都利用相同的基本概率概念这一事实,来混淆这两个术语是不合理的。

    8caeb6087faffba728d901f0f1bf9494.png

    然而,仅仅基于这两个术语都利用了概率里相同的基本概念这一事实而将他们混为一谈是不合理的。就好比,如果我们仅仅把机器学习当作皮了一层光鲜外衣的统计,我们也可以这样说:

    • 物理只是数学的一种更好听的说法。

    • 动物学只是邮票收藏的一种更好听的说法。

    • 建筑学只是沙堡建筑的一种更好听的说法。

    这些说法(尤其是最后一个)非常荒谬,完全混淆了两个类似想法的术语。

    实际上,物理是建立在数学基础上的,理解现实中的物理现象是数学的应用。物理学还包括统计学的各个方面,而现代统计学通常是建立在Zermelo-Frankel集合论与测量理论相结合的框架中,以产生概率空间。它们有很多共同点,因为它们来自相似的起源,并运用相似的思想得出一个逻辑结论。同样,建筑学和沙堡建筑可能有很多共同点,但即使我不是一个建筑师,也不能给出一个清晰的解释,但也看得出它们显然不一样。

    在我们进一步讨论之前,需要简要澄清另外两个与机器学习和统计有关的常见误解。这就是人工智能不同于机器学习,数据科学不同于统计学。这些都是没有争议的问题,所以很快就能说清楚。

    数据科学本质上是应用于数据的计算和统计方法,包括小数据集或大数据集。它也包括诸如探索性数据分析之类的东西,例如对数据进行检查和可视化,以帮助科学家更好地理解数据,并从中做出推论。数据科学还包括诸如数据包装和预处理之类的东西,因此涉及到一定程度的计算机科学,因为它涉及编码和建立数据库、Web服务器之间的连接和流水线等等。

    要进行统计,你并不一定得依靠电脑,但如果是数据科学缺了电脑就没法操作了。这就再次说明了虽然数据科学借助统计学,这两者不是一个概念。

    同理,机器学习也并非人工智能;事实上,机器学习是人工智能的一个分支。这一点挺明显的,因为我们基于以往的数据“教”(训练)机器对特定类型的数据进行概括性的预测。

    机器学习是基于统计学

    在我们讨论统计学和机器学习之间的区别前,我们先来说说其相似性,其实文章的前半段已经对此有过一些探讨了。

    机器学习基于统计的框架,因为机器学习涉及数据,而数据必须基于统计学框架来进行描述,所以这点十分明显。然而,扩展至针对大量粒子的热力学的统计机制,同样也建立在统计学框架之下。

    压力的概念其实是数据,温度也是一种数据。你可能觉得这听起来不合理,但这是真的。这就是为什么你不能描述一个分子的温度或压力,这不合理。温度是分子相撞产生的平均能量的显示。而例如房屋或室外这种拥有大量分子的,我们能用温度来描述也就合理了。

    你会认为热力学和统计学是一个东西吗?当然不会,热力学借助统计学来帮助我们理解运动的相互作用以及转移现象中产生的热。

    事实上,热力学基于多种学科而非仅仅统计学。类似地,机器学习基于许多其他领域的内容,比如数学和计算机科学。举例来说:

    机器学习的理论来源于数学和统计学

    机器学习算法基于优化理论、矩阵代数和微积分

    机器学习的实现来源于计算机科学和工程学概念,比如核映射、特征散列等。

    当一个人开始用Python开始编程,突然从Sklearn程序库里找出并使用这些算法,许多上述的概念都比较抽象,因此很难看出其中的区别。这样的情况下,这种抽象定义也就致使了对机器学习真正包含的内容一定程度上的无知。

    统计学习理论——机器学习的统计学基础

    统计学和机器学习之间最主要的区别在于统计学完全基于概率空间。你可以从集合论中推导出全部的统计学内容,集合论讨论了我们如何将数据归类(这些类被称为“集”),然后对这个集进行某种测量保证其总和为1.我们将这种方法成为概率空间。

    统计学除了对这些集合和测量有所定义之外没有其他假设。这就是为什么我们对概率空间的定义非常严谨的原因。一个概率空间,其数学符号写作(Ω,F,P),包含三部分:

    • 一个样本空间,Ω,也就是所有可能结果的集合。

    • 一个事件集合,F,每个事件都包含0或者其它值。

    • 对每个事件发生的可能性赋予概率,P,这是一个从事件到概率的函数。

    机器学习基于统计学习理论,统计学习理论也依旧基于对概率空间的公理化语言。这个理论基于传统的统计学理论,并发展于19世纪60年代。

    机器学习分为多个类别,这篇文章我仅着眼于监督学习理论,因为它最容易解释(虽然因其充斥数学概念依然显得晦涩难懂)。

    统计学习理论中的监督学习,给了我们一个数据集,我们将其标为S= {(xᵢ,yᵢ)},也就是说我们有一个包含N个数据点的数据集,每个数据点由被称为“特征”的其它值描述,这些特征用x描述,这些特征通过特定函数来描绘以返回我们想要的y值。

    已知这个数据集,问如何找到将x值映射到y值的函数。我们将所有可能的描述映射过程的函数集合称为假设空间。

    为了找到这个函数,我们需要给算法一些方法来“学习”如何最好地着手处理这个问题,而这由一个被称为“损失函数”的概念来提供。因此,对我们所有的每个假设(也即提议的函数),我们要通过比较所有数据下其预期风险的值来衡量这个函数的表现。

    预期风险本质上就是损失函数之和乘以数据的概率分布。如果我们知道这个映射的联合概率分布,找到最优函数就很简单了。但是这个联合概率分布通常是未知的,因此我们最好的方式就是猜测一个最优函数,再实证验证损失函数是否得到优化。我们将这种称为实证风险。

    之后,我们就可以比较不同函数,找出最小预期风险的那个假设,也就是所有函数中得出最小下确界值的那个假设。

    然而,为了最小化损失函数,算法有通过过度拟合来作弊的倾向。这也是为什么要通过训练集“学习”函数,之后在训练集之外的数据集,测试集里对函数进行验证。

    我们如何定义机器学习的本质引出了过度拟合的问题,也对需要区分训练集和测试集作出了解释。而我们在统计学中无需试图最小化实证风险,过度拟合不是统计学的固有特征。最小化统计学中无需视图程向于一个从函数中选取最小化实证风险的学习算法被称为实证风险最小化

    例证

    以线性回归做一个简单例子。在传统概念中,我们试图最小化数据中的误差找到能够描述数据的函数,这种情况下,我们通常使用均值方差。使用平方数是为了不让正值和负值互相抵消。然后我们可以使用闭合表达式来求出回归系数。

    如果我们将损失函数计为均值方差,并基于统计学习理论进行最小化实证风险,碰巧就能得到传统线性回归分析同样的结果。

    这个巧合是因为两个情况是相同的,对同样的数据以相同的方式求解最大概率自然会得出相同的结果。最大化概率有不同的方法来实现同样的目标,但没人会去争论说最大化概率与线性回归是一个东西。这个最简单的例子显然没能区分开这些方法。

    这里要指出的第二点在于,传统的统计方法中没有训练集和测试集的概念,但我们会使用不同的指标来帮助验证模型。验证过程虽然不同,但两种方法都能够给我们统计稳健的结果。

    另外要指出的一点在于,传统统计方法给了我们一个闭合形式下的最优解,它没有对其它可能的函数进行测试来收敛出一个结果。相对的,机器学习方法尝试了一批不同的模型,最后结合回归算法的结果,收敛出一个最终的假设。

    如果我们用一个不同的损失函数,结果可能并不收敛。例如,如果我们用了铰链损失(使用标准梯度下降时不太好区分,因此需要使用类似近梯度下降等其它方法),那么结果就不会相同了。

    最后可以对模型偏差进行区分。你可以用机器学习算法来测试线性模型以及多项式模型,指数模型等,来检验这些假设是否相对我们的先验损失函数对数据集给出更好的拟合度。在传统统计学概念中,我们选择一个模型,评估其准确性,但无法自动从100个不同的模型中摘出最优的那个。显然,由于最开始选择的算法不同,找出的模型总会存在一些偏误。选择算法是非常必要的,因为为数据集找出最优的方程是一个NP-hard问题。

    那么哪个方法更优呢?

    这个问题其实很蠢。没有统计学,机器学习根本没法存在,但由于当代信息爆炸人类能接触到的大量数据,机器学习是非常有用的。

    对比机器学习和统计模型还要更难一些,你需要视乎你的目标而定究竟选择哪种。如果你只是想要创建一个高度准确的预测房价的算法,或者从数据中找出哪类人更容易得某种疾病,机器学习可能是更好的选择。如果你希望找出变量之间的关系或从数据中得出推论,选择统计模型会更好。

    11908d0561565f6e8e823daa50710c57.png

    图中文字:

    这是你的机器学习系统?

    对的,你从这头把数据都倒进这一大堆或者线性代数里,然后从那头里拿答案就好了。

    答案错了咋整?

    那就搅搅,搅到看起来对了为止。

    如果你统计学基础不够扎实,你依然可以学习机器学习并使用它——机器学习程序库里的抽象概念能够让你以业余者的身份来轻松使用它们,但你还是得对统计概念有所了解,从而避免模型过度拟合或得出些貌似合理的推论。

    相关报道:

    https://towardsdatascience.com/the-actual-difference-between-statistics-and-machine-learning-64b49f07ea3?gi=412e8f93e22e

    转自:大数据文摘

    8e8884fdae570e8a7d993c7800b95480.gif

    点击这里,阅读更多数据文章!

    展开全文
  • MatLab机器学习统计学最新官方指导手册,覆盖最全的统计学相关知识以及官方权威的机器学习的工具箱使用教程。适合学生/教师/金工人员;欢迎大家下载与转发。
  • 统计软件中常用以下公式计算: 峰度主要有以下两种:扁平分布和尖峰分布 四、机器学习中的方差和偏差 观察下面这组图: 红色的靶心区域:学习算法完美的正确预测值。 蓝色点:每个数据集所训练出的模型对样本的预测...

    一、什么是统计学

    • 是一门收集、整理和分析统计数据的方法科学
    • 其目的是探索数据内在的数据规律性,以达到对客观事物的科学认识
    • 统计学研究随机现象,以推断为特征,“由部分及全体”的思想贯穿于统计学的始终

    二、统计学的分类

    统计学可分为描述统计学推断统计学

    描述统计学(Descriptive Statistics)

    • 研究如何取得反映客观现象的数据
    • 并通过图表形式对所收集的数据进行加工处理和显示
    • 进而通过综合概括与分析得出反映客观现象的规律性数量特征。

    推断统计学(Inferential Statistics)

    • 研究如何根据样本数据去推断总体数量特征的方法
    • 它是对样本数据进行描述的基础上
    • 对统计总体的未知数量特征做出以概率形式表述的推断

    三、数据描述的数值方法

    在统计学中,数据描述的数值方法,主要从集中趋势、离散程度、分布的形状,三个方面去描述。

     

    1.集中趋势

    • 集中趋势:一组数据向其中心值靠拢的倾向和程度
    • 集中趋势测度:寻找数据的水平代表值或中心值。
    • 常用的集中趋势测度指标:均值、中位数、众数

    (1)均值

    • 定义:是指在一组数据中所有数据之和再除以数据的个数
    • 它是 反映数据集中趋势的一项指标
    • 数学表达式:

    (2)中位数

    • 又称为中值,对于有限的数集,可以通过把所有观察值按高低排序后找出正中间的一个数字作为中位数
    • :如果观察值有偶数个,通常去最中间的两个数值的平均数作为中位数。

    (3)众数(Mode)

    • 定义:是一组数据中出现次数最多的数值,叫众数
    • 注1:一组数据中,可能会存在多个众数,也可能不存在众数
    • 注2:众数不仅适用于数值型数据,对于非数值型数据也同样适用

    2.离散程度

    比较下面两组数据:A:1 2 5 8 9  B:3 4 5 6 7 两组数的均值都为5。

    描述集中趋势的统计量不够,需要有描述数据的离散程度的统计量。

    • 离散程度:反映各变量远离其中心值的程度。
    • 常用指标:极差 方差

    (1)极差

    极差:最大值-最小值,简单地描述数据的范围大小。还以上面A、B两组数为例:

    A的极差为:9-1=8 ,B的极差为:7-3=4

    同样的5个数,A的极差比B的极差要大,所以也比B的分散。

    (2)方差

    定义:描述一组数据离散程度的度量。用来计算机每个变量与总体均值之间的差异。

    表达式:S^2= ∑(X- u) ^2 / (n-1)

    注:Xi表示数据集中在第i个数据的观察值,u表示数据集的均值。

    3.分布的形状

    (1)偏态(skewness)

    • 偏态:数据分布的不对称性称作偏态。
    • 偏态系数:对数据分布的不对称性(即偏斜程度)的测度。
    • 偏态系数有多种计算方法,在统计软件中通常采用以下公式:

                        

    偏态主要有下面三种:左偏分布(也称负偏分布)、对称分布、右偏分布(也称正偏分布) 

    (2)峰度(Kurtosis)

    • 峰度:数据分布的扁平或尖峰程度
    • 峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。
    • 统计软件中常用以下公式计算:

                

    峰度主要有以下两种:扁平分布尖峰分布

    四、机器学习中的方差和偏差

    观察下面这组图:

    红色的靶心区域:学习算法完美的正确预测值。

    蓝色点:每个数据集所训练出的模型对样本的预测值。

    观察结果:

    离散层度:两幅图中蓝色点比较集中,另外两幅中比较分散,它们描述的是方差情况。比较集中的属于方差小的,比较分散的属于方差大的情况。

    蓝色与红色靶心区域的位置关系:靠近红色靶心的属于偏差较小的情况,远离靶心的属于偏差较大的情况。

    泛化误差

    以回归任务为例,学习算法的平方预测误差期望为:

    x:测试样本,f(x,D):由训练集D学得的模型f对x的预测输出

     

    使用样本数相同的不同训练集产生的方差为:

                                           

    方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响

    偏差:期望预测与真实标记的误差被称为偏差(bias)。为了方便起见,我们直接去偏差的平方:

                                              

    偏差度量了学习算法的期望预测与真实结果的偏离程序,即刻画了学习算法本身的拟合能力

    噪声:真实标记与数据集中的实际标记间的偏差:

                                           

    噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度

    (1)欠拟合的情况:偏差大,方差小

        给定一个学习任务,在训练初期,

    • 由于训练不足,学习器的拟合能力不够强,偏差比较大
    • 也是由于拟合能力不强,数据集的扰动也无法使学习器产生显著变化。

    (2)过拟合情况:偏差小,方差大

        随着训练程度的加深:

    • 学习器的拟合能力逐渐增强,训练数据的扰动也能够渐渐被学习器学到
    • 充分训练后,学习器的拟合能力非常强
    • 训练数据的轻微扰动都会导致学习器发生显著变化
    • 当训练数据本身的、非全局的特征被学习器学到了,则将发生

    展开全文
  • 泛化能力、过拟合、经验风险(ERM)、结构风险...结构风险:只注重训练集的学习方法   经验风险在某种足够合理的数学意义上一致收敛于期望风险   奥卡姆剃刀原理:如无必要,勿增实体。切勿浪费较多的东西去做...

    泛化能力、过拟合、经验风险(ERM)、结构风险(SRM)、

    假设空间:模型在数学上的“适用场合”

           使风险上界最小函数子集中挑选出使经验风险最小的函数,这个函数的子集就是假设空间

     

    经验风险:训练集数据集是的风险

    结构风险:只注重训练集的学习方法

     

    经验风险在某种足够合理的数学意义上一致收敛于期望风险

     

    奥卡姆剃刀原理:如无必要,勿增实体。切勿浪费较多的东西去做,用最少的东西,同样可以做好事情。

     

    泛化能力:模型在未知数据上的表现,针对的是学习方法,用于衡量某种学习方法学习到的模型在整个样本空间上的表现。

     

    数据集Data Set :数据的集合

    样本Sample :数据集中每一条单独的数据

    样本的 属性 Attribute/特征 Feature :每个样本具有的

    特征值Feature Value :特征具有的值

     

    特征空间Feature Space 和 样本空间 Sample Space:

           特征和样本所张成的空间

           特征和样本“可能存在的空间”

     

    标签空间Label Space : 表述了模型的输出“可能存在的空间”

     

    类别空间 : 分类器的标签空间

     

     

    三类数据集:

     1、训练集 Training Set :

                  总的数据集中用来训练模型的部分

                  为了提高及合理评估模型的泛化能力,一般只取数据集汇总的一部分样本充当训练集

    2、测试集 Test Set :

                  测试和评估模型的泛化能力的部分

                  测试集通常不会用与充当训练集,测试集对于模型是未知的

    3、交叉验证集 Cross-Validation Set(CV Set):

                  用来调整模型具体的参数

                  进行交叉验证可以知道过拟合程度

     

     

    三种常见的交叉验证:

    1、S-fold Cross Validation:S折交叉验证,应用最多

                  将数据分成S份,一共做S次试验

                  在第i次试验中,使用D-Di作为训练集,Dj作为测试集对模型进行训练和测试

                  最终选择平均测试误差最小的模型

    2、留一交叉验证 Leave-one-out Cross Validation:S折交叉验证的特殊情况,S = N

    3、简易交叉验证:较为简单

                  简单的将数据进行随机分组,最后达到训练集约占原数据70%程度

                  选择模型是使用测试误差作为标准

    交叉验证流程图:

     

     

     

    统计学的数学概念:

     

    均值:

           平均数是表示一组数据集中趋势的量数,在一组数据中所有数据之和再除以这组数据的个数。

           反映数据集中趋势的一项指标,表明资料中各观测值相对集中较多的中心位置。

           统计平均数是用于反映现象总体的一般水平,或分布的集中趋势。

          

    算术平均数 arithmeticmean:

    一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。

           公式:

     

           几何平均数geometric mean:

    n个观察值连乘积的n次方根就是几何平均数。

          

     

           加权平均数weighted average:

           不同比重数据的平均数,

          

    f1f2fk叫做权(weight)

     

     

    标准差:

           标准差是方差的算术平方根。

           标准差能反映一个数据集的离散程度,反映组内个体间的离散程度。

    标准计算公式:

    假设有一组数值X₁,X₂,X₃,......Xn(皆为实数),其平均值(算术平均值)为μ,

     

     

    方差:

           概率论和统计方差衡量随机变量或一组数据时离散程度的度量。

    用来度量随机变量和其数学期望(即均值)之间的偏离程度。

     为总体方差,  为变量,  为总体均值,  为总体例数。

          

           样本方差计算公式:S^{2}=\frac{\sum \left (\bar{X}-\mu \right )^{2}}{\left (n-1 \right )}

        S^2为样本方差,X为变量,  为样本均值,n为样本例数。

    展开全文
  • 机器学习统计学

    2022-06-07 11:19:13
    本次我们学习与机器学习相关的统计学相关知识,主要包括统计量、中心极限定理、均值假设检验、AB 实验方法等内容。根据现状,很多从事机器学习工作相关的人并没有太多统计学的知识储备。不得不说,缺乏统计学的知识...
  • 大数据_机器学习统计学_挑战与机遇.pdf
  • 【伯乐在线导读】:前段时间,作者在 stats.stackexchange.com(译注:国外的一个系列问答网站,其中Stack Overflow是其中一个子站)看到一个很有意思...人工智能、机器学习统计学和数据挖掘有什么区别? 是否可...
  • 机器学习统计学

    2020-08-05 13:32:37
    答:因为统计检验正确性的保证是需要有数据分布假设作为前提,而机器学习模型很多时候不在于数据分布而在乎优化问题,故此机器学习不需要也不能进行统计学中的t检验或者F检验。 为什么样本量大的时候适合采用机器...
  • 这将证明统计学知识对于成功解决预测建模问题至关重要。 问题架构 数据理解 数据清洗 数据选择 数据准备 模型评估 模型配置 模型选择 模型表达 模型预测 1. ...
  • 机器学习统计学的区别与联系

    千次阅读 2020-02-25 07:51:01
    器学习基于统计的框架,因为机器学习涉及数据,而数据必须基于统计学框架来进行描述,所以这点十分明显。然而,扩展至针对大量粒子的热力学的统计机制,同样也建立在统计学框架之下。 压力的概念其实是数据,温度...
  • 试论数据挖掘与机器学习统计学、数据库的关系.pdf
  • 机器学习就是现代统计学

    千次阅读 2019-05-20 23:59:26
    机器学习在一定程度上正是数学和工程的完美结合,毕竟用数学里面的概率论、随机分析等工具研究AI早已不是什么新鲜事情。例如机器学习的四个基本原则性的问题,即泛化性、稳定性、可计算性和可解释性就可以用数学...
  • 【伯乐在线导读】:前段时间,作者在 stats.stackexchange.com(译注:国外的一个系列问答网站,其中Stack Overflow是其中一个子站)看到一个很有意思的问题,...人工智能、机器学习统计学和数据挖掘有什么区别
  • 基于julia语言的数据分析好书,涉及统计学机器学习,数据分析及其可视化等相关内容
  • 人工智能-机器学习-地质统计学软件开发.pdf
  • 人工智能-机器学习-地质统计学软件开发与应用.pdf
  • 今天我们就来看看,在日常生活中有哪些最常见的机器学习用例(有时我们甚至没有意识到这些例子涉及机器学习)。本文涵盖了以下常见的机器学习用例: 1. 机器学习在智能手机中的用例 你知道吗,智能手机中的大多数...
  • 统计学机器学习之间的界定一直很模糊。 无论是业界还是学界一直认为机器学习只是统计学批了一层光鲜的外衣。 而机器学习支撑的人工智能也被称为“统计学的外延” 例如,诺奖得主托马斯·萨金特曾经说过人工智能...
  • 机器学习。是人工智能的一个子集,它赋予计算机一定的独立思考能力。这之所以能够实现,是因为给它大量的数据,由算法处理这些数据,然后从中学习,以便作出预测和决定,这个过程并没有专门的编程。机器能够高效地从...
  • 机器学习统计学的区别

    万次阅读 2018-06-05 20:48:54
    机器学习统计学有很多联系,的确这两个专业有很多共性,但本文尝试列举一些差异,供大家参考和对比,也欢迎大家补充。 机器学习 统计学 定义 机器学习是一门多领域交叉学科,涉及概率论、统计学、...
  • 统计学机器学习到底有什么区别.pdf
  • 138页的内容,完整记录了学周志华西瓜书《机器学习》16个篇章的学习和体会。
  • 机器学习统计学的本质差异

    千次阅读 2019-06-21 11:24:00
    那么,如果机器学习和统计是彼此的同义词,为什么我们没有看到每所大学的每个统计部门都关闭或转变为"机器学习"部门?因为他们不一样! 我经常听到关于这个主题的几个含糊的陈述,最常见的是这些话: "机器学习和...
  • 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的...
  • 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 45,643
精华内容 18,257
关键字:

机器学习 统计学