精华内容
下载资源
问答
  • MIMICIII 数据库患者住院次数分布
    千次阅读
    2018-11-14 21:41:54

    数据库中三个病人ID

    最近在用MIMICIII数据库提取一些数据,突然意识到一个问题,提取出的数据很多患者都是多次入院的。因此,特地去查看下数据库中到底有多少患者住了多少次的医院。
    在MIMICIII数据库中,存在这三个病人ID,分别为:subject_id, hadm_id, icustay_id。这三个不同的ID分别代表了不同的意义:

    subject_id:

    在数据库的官方文档是这样描述的:

    SUBJECT_ID is a unique identifier which specifies an individual patient.

    因此subject_id代表了每一个患者,在数据库中,一个subject_id就收入了一个患者。

    hadm_id

    数据库的官方文档,对于hamd_id的定义为:

    HADM_ID, which represents a single patient’s admission to the hospital.

    hadm_id相当于国内医院的住院号,每一次的住院就会自动给你生成一个住院号,一个患者可能会拥有多个住院号。

    icustay_id

    这个标识符用于患者在ICU中停留,在官方文档的解释是:

    ICUSTAY_ID is unique to a patient ICU stay.

    当然,一个患者一次住院可以有多次进入ICU。但是同时也存在这一个ICU转入另一个ICU单元时,icustay_id不变的情况:

    As an ICUSTAY_ID groups all ICU admissions within 24 hours of each other, it is possible for a patient to be transferred from one type of ICU to another and have the same ICUSTAY_ID.

    理解这三个不同的标识符很重要,详情可以仔细阅读MIMICIII数据库的官方文档。

    数据库患者住院次数的分布

    在这里,我们主要使用SQL查询语句进行查询。想要知道“每个患者在这个数据库中住了多少次医院?”,我们只需要知道,“每个患者到底有多少个hamd_id”,也就是说,“在以hadm_id,作为唯一标识符的ADMISSIONS表中,查看出现了多少次的subject_id”就行了。

    使用聚合函数进行查询

    要完成上述这个目标,我们需要对ADMISSIONS表进行聚合查询。聚合函数有很多,以下五种比较常用:

    • COUNT:计算表中的记录数目
    • SUM:计算表中数值列中数据的合计值
    • AVG:计算表中数值列中数据的平均值
    • MAX:计算表中数值列中数据的最大值
    • MIN:计算表中数值列中数据的最小值

    我们所需要的是COUNT函数来计算出现多少次的subject_id。当然,仅仅使用COUNT函数,回报的就是这个表有多少行。比如:

    SELECT COUNT(*)
    FROM mimiciii.admissions
    

    执行结果为:

    count
    ------
    58976
    

    所以,我们还需要使用GROUP BY语句进行分组,查询如下:

    SELECT subject_id,count(*) as admissiontimes
    FROM mimiciii.admissions
    GROUP BY subject_id
    

    这样,我们就可以得到每个subject_id出现了多少次了。
    那么,如果我们想要得到仅仅只住了一次医院的病人怎么办?
    我们可以使用HAVING子句在分组中选择住院一次的患者:

    SELECT subject_id,COUNT(*) as admissiontimes
    FROM mimiciii.admissions
    GROUP BY subject_id
    HAVING COUNT(*) =1
    

    至于,HAVINGWHERE子句的区别,这里主要简单的提一点。
    WHERE子句是指定行所对应的条件,而HAVING子句指定组所对应的条件。

    使用R链接数据库进行绘图

    比起SQL,我更加喜欢把数据导入到R进行探索和分析。这个过程最容易联想到的是,从SQL的软件中将查询好的表格导出,然后用R将表格进行导入。其实不用那么麻烦,在R中提供了外接数据库的包,这里我使用的是PostgreSQL,因此我在R中配置的也是这个数据的包。由于我嫌麻烦,所以直接写了一个函数,方便直接调用进行查询,具体代码如下:

    #载入数据库的包
    library(RPostgreSQL)
    library(DBI)
    #连接数据库,并将其封装为一个函数
    query <-function(query)
    {
    drv<-dbDriver("PostgreSQL")
    con<-dbConnect(drv,host="localhost",port="5432",dbname="mimic",
                   user="",password="")  ## 这里删除了用户名和密码
    on.exit(
              {
                        dbDisconnect(con)
              }
    )
    dbGetQuery(con,query)
    }
    

    这样我就可以调用函数直接导入数据:

    ## MIMIC数据库中患者入院次数的统计
    ### 将SQL语句传入pt_sql的向量中
    pt_sql <- "SELECT subject_id,count(*) as admissiontimes
    FROM mimiciii.admissions
    GROUP BY subject_id"
    ### 进行查询
    pt_times <- query(pt_sql) 
    ### 生成表格
    x <- table(pt_times$admissiontimes)
    ###绘制条形图
    barplot(x)
    

    得到的结果挺让我惊讶的。
    在这里插入图片描述
    居然最多的患者住了42次医院?!
    好了,这次就这样,如有错误,请大家多多指正。

    更多相关内容
  • 为研究矿井采空区水库震动环境下稳定性和安全度的变化情况,以李家壕煤矿分析落锤法测定煤坚固性系数的过程及方法原理的基础上,通过粒度分布函数及级配曲线研究了冲击粉碎次数对颗粒煤粒度分布特征的影响,并...
  • 2019/2/16 1 用 Excel 制作 次数分布表 ( 图 ) 实验一 2019/2/16 2 1. 学会利用 Excel 制作次数分布表 2. 学会利用 Excel 制作次数分布图 实验目的与意义 2019/2/16 3 以 150 尾鲢鱼的体长数据为例 用 Excel 制作...
  • 共享Ipad 4 中文原理图+元件分布图。高清晰度,值得拥有,淘宝上购买需要100RMB。 Ipad 4 中文原理图 元件分布图.part1.rar (9 MB, 下载次数: 53 ) Ipad 4 中文原理图 元件分布图.part2.rar (9 MB, 下载次数: ...
  • 论文研究-对数正态分布下未来区间内故障次数的单样预测.pdf, 基于产品寿命评估与预测理论, 研究了对数正态分布下未来区间内故障次数的单样预测问题. 引入胜算比, 给出了...
  • 索赔次数服从泊松负二项分布的风险模型的破产概率,牛银菊,邓丽,对带有退保及随机投资收益的风险模型进行研究, 其中索赔次数服从泊松负二项分布, 且退保次数是保费收取次数的一个p-稀疏过程, 运用�
  • 通过科学试验的观察、测定和记载,可得到大量的数据资料,这些资料必须按照一定的程序进行整理和分析,才能透过数据表现看到蕴藏数据的客观规律。资料整理和分析时试验工作的重要组成部分。 一、总体及其样本 ...

    通过科学试验的观察、测定和记载,可得到大量的数据资料,这些资料必须按照一定的程序进行整理和分析,才能透过数据表现看到蕴藏在数据中的客观规律。资料整理和分析时试验工作的重要组成部分。

    一、总体及其样本

    具有共同性质的个体所组成的集团,称为总体(population)。总体根据事物的属性人为规定。

    总体所包含的个体数目可能是无穷多个,这种总体称为无限总体(infinite population);包含有限个个体,有限总体(finite population)。

    总体可以是根据属性人为定义,因此可能是抽象的。

    同一总体的各个体间在性状或特性表现上有差异,因而总体内个体间呈现不同或者呈现变异。

    每一个体的某一性状、特性的测定数值叫做观察值(observation)。观察值集合起来,称为变数(variable),变数中的每一成员称为变量(variate)。总体内个体间尽管属性相同但仍然受一些随机因素的影响造成观察值或表现上的变异,所以变数又称为随机变数(random variable)

    由总体的全部观察值而算得的总体特征数,如总体平均数等,称为参数。参数是反映某类事物的总体规律性的数值,科学研究的目的在于对求得的总体参数的了解。但总体所包含的个体太多,不能逐一测定或观察。一般只能从总体中抽取若干个个体来研究。这些个体的集合称为样本(sample)。

    测定样本中的各个体而得的样本特征数,如平均数等,称为统计数(statistic)。统计数是总体相应参数的估计值(estimate)。

    要从样本估计总体的特征参数,需要考虑样本的代表性,样本越能近似地代表总体就越好。这样的样本,一般是随机地从总体中抽取,这样就可以无偏地估计总体。

    从总体中随机抽取的样本称为随机样本(random sample)。样本中包含的个体数称为样本容量或样本含量(sample size)。随机样本的容量越大,越能代表总体。

    二、次数分布

    (1)试验资料的性质与分类

    因所研究的性状、特性不同而有不同的性质,可分为数量性状资料和质量性状资料。

    a、数量性状资料

    数量性状(quantitative trait)的度量有计数和量测两种方式,其所得变数不同。

    i、不连续性或间断性变数(discontinuous or discrete variable)

    指用计数方法获得的数据,其各个观察值必须以整数表示,在两个相邻的整数间不容许有带有小数的数值存在。由于两个整数间是不连续的故称不连续性或间断性变数。

    ii、 连续性变数(continuous  variable)

    指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可有微量数值差异的第三个数值存在。其小数位数的多少,因称量的精度而异。这种变数称为连续性变数。

    b、质量性状资料

    质量性状(qualitative trait)指能观察而不能量测的形状,即属性性状。获取方法:

    i、统计次数法    于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状个体数目,按类别计其次数或相对次数。这类资料也称为次数(频数)资料。

    ii、给予每类性状以相对数量的方法(给方法)白色为0,红色为1。这类变异所得资料,处理方法同间断性变数资料。

    (2)次数分布表

    把观察值按数值大小或数据的类别进行分组,制成关于观察值不同组别或不同分类单位的次数分布表,可看出资料中不同表现的观察值与其频率间的规律性,看出资料频率分布的初步情况,从而对资料得到一个初步概念。次数分布表的制作方法因变数种类不同略有差异。

    a、间断性变数资料的整理

    分组计数

    b、连续性变数资料的整理

    i、数据排序(sort)对数据从小到大(升序)或从大到小排列(降序)。

    ii、求极差(range)所有数据中最大观察值和最小观察值的差数,整个样本的变异幅度。

    iii、确定组数和组距(class interval)根据极差分为若干组,每组距离相等,称为组距。组数和组距互相决定,组距小组数多,组距大组数少。决定组数时须考虑到资料整理的目的,组数过多或过少,都不能反映次数与观察值间的关系,不能反映资料的规律性。如果组数过多,则往往过于分散,看不到资料的集中情况,且不便于以后的继续分析。

    确定组数和组距的大小应考虑:观察值个数的多少,极差的大小,便于计算,能反映出资料的真实面貌等方面。

    组数确定后,须确定组距。组距=极差/组数。

    iv、选定组限(class limit)和组中点值(组值,class value) 每组应有明确的界限,才能使各个观察值划入一定的组内,为此必须选定适当的组中点值及组限。组值最好为整数或与观察值的位数相同,便于后续计算。组限要明确,最好比原始资料的数字多一位小数,可使观察值归组时不致含糊不清。组距确定后,首先要选定第一组的中点值,这一点选定后,则该组组限确定,其余各组的中点值和组限也确定。第一组的中点值以最接近最小观察值为好,可避免第一组内次数过多,能正确地反映资料的规律性。

    每组有两个组限,数值小的为下限(lower limit),数值大的为上限(upper limit)。

    v、把原始资料的各个观察值按分组数列的各组组限归组  

    可按原始资料中各观察值的次序,逐个把数值归于各组。由于第一组的中点值接近于最小观察值,故第一组的下限小于最小观察值,实际上差不多增加了1/2组;最后一组的中点值接近于最大值,又增加了1/2组,故实际的组数比原来确定的要多一个组。

    c、属性变数资料的整理

    整理前,把资料按各种质量属性上的具体表现,分别归入相应的组中,可得到属性分布的规律性认识。

    (3)次数分布图

    方柱形图(histogram):连续性变数

    多边形图(polygon):连续性变数

    条形图(bar diagram):间断性变数和属性变数资料

    饼图(pie diagram):间断性变数和属性变数资料

    三、平均数(代表集中性)

    平均数是数据的代表值,表示资料中观察值的中心位置,并且可作为资料的代表而与另一组资料相比较,借以明确两者之间相差的情况。

    平均数种类:算术平均数、中数、众数、几何平均数

    几何平均数(geometric mean)      G=\sqrt[n]{y_{1}y_{2}y_3...y_n}

    调和平均数       \frac{1}{H}=\frac{1}{n}\sum_{i=1}^n \frac{1}{y_i}

    a、算术平均数特性

               \bar{y}=\frac{\sum f_iy_i }{\sum f_i}    ( y_i 为组中值 )

    i、样本各观察值与平均数的差数(离均差,deviation from mean)的总和等于0. \sum_{i=1}^n ( y_i-\bar{y})=0

    ii、样本各观察值与其平均数的差数平方的总和,较各个观察值与任意其他数值的差数平方的总和为小,离均差平方和总和最小。

                 Q=\sum_{i=1}^n ( y_i-a)^2     a=\bar{y} 时 ,Q最小。

       b、总体平均数   \mu = \frac{1}{N} \sum_{i=1}^n y_i

    研究的总体是无限总体,总体参数无法用观察或计算得到,可用样本参数估计。

    四、变异数

    每个样本有一批观察值,除了平均数作为样本的平均表现外,还可考虑样本内各个观察值的变异情况,才能通过样本的观察数据更好地描述样本,乃至描述样本所代表的总体,须有度量变异的统计数。变异程度的指标:极差、方差、标准差、变异系数。

    a、极差(range),全矩,R,资料中最大观察值与最小观察值的差数

    极差大,变异范围较大,平均数代表性差;极差小,变异幅度小,平均数代表性较好。

    极差虽可对资料的变异有所说明,但它只是两个极端数据决定的,没有充分利用资料的全部信息,而且易于受到资料中不正常的极端值的影响。用它代表整个样本的变异度是有缺陷的。

    b、方差

    为了正确反映资料的变异度,较合理的方法是根据样本全部观察值来度量资料的变异度。

    平均数作为比较标准较为合理,但也应同时考虑观察值偏离平均数的情况。

    每个观察值均有一个偏离平均数的度量指标——离均差。

                 样本  SS=\sum_{i=1}^n ( y_i-\bar{y})^2

                总体SS=\sum_{i=1}^n ( y_i-\mu )^2

    由于各样本所包含的观察值数目不同,为方便比较,用观察值数目来除平方和,得到平均离均差平方,简称均方或方差(variance)。样本均方(mean square),s^2,是总体方差(\sigma ^2)的无偏估计值

                            s^2=\frac{ \sum _{1}^{n} ( y_i-\bar{y})^2}{n-1}     \sigma ^2=\frac{ \sum _{1}^{n} ( y_i-\mu )^2}{N}

    c、标准差:方差正平方根值,表示资料的变异度,单位与观察值度量单位相同,是总体标准差的估计值。

    i、自由度n-1意义:因为掌握的是样本资料,不知 \mu 的数值,不得不应样本平均数 \bar{y} 代替 \mu。 \bar{y} 与 \mu 有差异,根据算术平均数特性 ii 可知,\sum ( y_i-\bar{y})^2 < \sum ( y_i-\mu )^2。因此\sum ( y_i-\bar{y})^2/n 算出的标准差将偏小,用n-1代替,可免除偏小的弊病。数理统计上可证明用自由度作除数计算标准差的无偏性。

    ii、自由度统计意义:DF,\nu,样本内独立而能自由变动的离均差个数。样本自由度等于观察值个数(n)减去约束条件的个数(k),\nu=n-k

    在应用上,小样本一定要用自由度来估计标准差;大样本 n 和 n-1 相差微小,也可不用自由度,直接用 n 作除数。但样本大小的界限没有统一规定,所以一般样本资料在估计标准差时,皆用自由度。

    iii、标准差计算方法

    直接法:计算简单,易引起计算误差

    矫正数法

    加权法:

    d、变异系数

    标准差和观察值的单位相同,表示一个样本的变异。若两个样本的变异度,则因单位不同或均数不同,不能用标准差进行直接比较。可计算样本的标准差对均数的百分比,称为变异系数(coefficient of variation)。

    CV=\frac{s}{\bar{y}}   是一个不带单位的纯数,可比较二个事物的变异度大小。受标准差和平均数的影响。在使用变异系数时,同时列举平均数和标准差,否则可能会引起误解。

    五、理论总体的平均数和标准差

    某些总体可从理论上推测其构成成分的概率,则可从理论上推测无限总体的平均数和方差。设总体的第i个构成成分的概率为 p_i,平均数为 \mu _i ,则总体平均数和方差分别为:  \mu =\sum (p_i\mu _i)       \sigma ^2 =\sum [p_i(\mu _i-\mu )^2]

    展开全文
  • 次数分布表和直方图

    千次阅读 2014-08-22 11:54:25
    对数据“分组”,也就是分成3组,每组都一个楼层买衣服,每个楼层上面都标有该层衣服的“组值”,方便用户挑选这个档位的衣服。   下面对数据分组,按照什么标准分组呢?是价格范围。 统计学,称...

    大笑

    假如一个卖服装的大楼有3层,现有7家专卖店,每家专卖店都卖一种衣服。

    原始数据如下:

    专卖店   价格  

    361度    88

    安踏       125

    李宁        120

    真维斯    50

    卡帕        88

    耐克        151

    以纯        170

     

    那么从这样的数据上是看不出什么的偷笑

    对数据“分组”,也就是分成3组,每组都在一个楼层买衣服,每个楼层上面都标有该层衣服的“组中值”,方便用户挑选这个档位的衣服。

     

    下面对数据分组,按照什么标准分组呢?是价格范围。

    统计学中,称这样的分区为“组”。

    而每个组内的中间的数称为“组中值”。

    每个组内的对象的出现个数称为“次数”或“频数”.Frequency.

     

    楼层                                                   其层内的专卖店                           组中值

    3层(150-200)耐克 以纯175
    2层(100-150)安踏 李宁125
    1层(0-100)361 卡帕 真维斯50

     

    一楼有3家,二楼有2家,三楼也有2家。

     

    有了次数的概念,就可以求得“相对次数”,即改组内的对象占所有样本对象的比例。

     

    相对次数=所属组数据次数/数据总数

     

    这样,一楼的专卖店的“相对次数”是3/(2+2+3)=42.8%.二楼和三楼的相对次数为:2/(2+2+3)=28.6%

     

    这样,将所有的次数以及相对次数整理成一个“次数分布表”(Frequency distribution table)

     

    组中值次数相对次数
    0-10017530.428
    100-15012520.286
    150-2005520.286
    合计 71.000

     

    次数分布表全是数字,所以将其画成图,就更容易让人看懂了!

    所谓的“直方图”(Histogram)也叫“柱状图”,是一种统计报告图,由一系列高度不等的柱状条纹表示数据分布情况。

    直方图的横轴一般是“变量”,纵轴一般是次数,或者相对次数。

    由专卖店的次数分布表制成的直方图如下:

     

    长条的宽度称为“组距”,长条的中央是“组中值”。

    次数分布表和直方图,就是为了让人能直观地掌握全局数据的状态而设计的。再见

    展开全文
  • 作者 | Farhad Malik译者 | Monanfei责编 | 夕颜出品 | AI科技大本营(ID: rgznai100) 为什么正态分布如此特殊?为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论?...机器学习的世界...

    https://www.toutiao.com/a6709997655394615815/

     

    机器学习中,正态分布为何如此重要?

     

    作者 | Farhad Malik译者 | Monanfei责编 | 夕颜出品 | AI科技大本营(ID: rgznai100)

    为什么正态分布如此特殊?为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论?我决定写一篇文章,用一种简单易懂的方式来介绍正态分布。

    在机器学习的世界中,以概率分布为核心的研究大都聚焦于正态分布。本文将阐述正态分布的概率,并解释它的应用为何如此的广泛,尤其是在数据科学和机器学习领域,它几乎无处不在。

    我将会从基础概念出发,解释有关正态分布的一切,并揭示它为何如此重要。

     

    文章结构

     

    本文的主要内容如下:

    1. 概率分布是什么
    2. 正态分布意味着什么
    3. 正态分布的变量有哪些
    4. 如何使用 Python 来检验数据的分布
    5. 如何使用 Python 参数化生产一个正态分布
    6. 正态分布的问题

     

    简短的背景介绍

     

    1. 首先,正态分布又名高斯分布
    2. 它以数学天才 Carl Friedrich Gauss 命名
    正态分布又名高斯分布
    1. 越简单的模型越是常用,因为它们能够被很好的解释和理解。正态分布非常简单,这就是它是如此的常用的原因。
    因此,理解正态分布非常有必要。

     

    什么是概率分布?

     

    首先介绍一下相关概念。

    考虑一个预测模型,该模型可以是我们的数据科学研究中的一个组件。

     

    • 如果我们想精确预测一个变量的值,那么我们首先要做的就是理解该变量的潜在特性。
    • 首先我们要知道该变量的可能取值,还要知道这些值是连续的还是离散的。简单来讲,如果我们要预测一个骰子的取值,那么第一步就是明白它的取值是1 到 6(离散)。
    • 第二步就是确定每个可能取值(事件)发生的概率。如果某个取值永远都不会出现,那么该值的概率就是 0 。
    事件的概率越大,该事件越容易出现。
    • 在实际操作中,我们可以大量重复进行某个实验,并记录该实验对应的输出变量的结果。
    • 我们可以将这些取值分为不同的集合类,在每一类中,我们记录属于该类结果的次数。例如,我们可以投10000次骰子,每次都有6种可能的取值,我们可以将类别数设为6,然后我们就可以开始对每一类出现的次数进行计数了。
    • 我们可以画出上述结果的曲线,该曲线就是概率分布曲线。目标变量每个取值的可能性就由其概率分布决定。
    • 一旦我们知道了变量的概率分布,我们就可以开始估计事件出现的概率了,我们甚至可以使用一些概率公式。至此,我们就可更好的理解变量的特性了。概率分布取决于样本的一些特征,例如平均值,标准偏差,偏度和峰度。
    • 如果将所有概率值求和,那么求和结果将会是100%

     

    世界上存在着很多不同的概率分布,而最广泛使用的就是正态分布了。

     

    初遇正态分布

     

    我们可以画出正态分布的概率分布曲线,可以看到该曲线是一个钟型的曲线。如果变量的均值,模和中值相等,那么该变量就呈现正态分布。

     

    如下图所示,为正态分布的概率分布曲线:

     

    机器学习中,正态分布为何如此重要?

     

     

    理解和估计变量的概率分布非常重要。

    下面列出的变量的分布都比较接近正态分布:

     

    1. 人群的身高
    2. 成年人的血压
    3. 传播中的粒子的位置
    4. 测量误差
    5. 回归中的残差
    6. 人群的鞋码
    7. 一天中雇员回家的总耗时
    8. 教育指标

     

    此外,生活中有大量的变量都是具有 x % 置信度的正态变量,其中,x<100。

     

    什么是正态分布?

     

    正态分布只依赖于数据集的两个特征:样本的均值和方差。

    均值——样本所有取值的平均

    方差——该指标衡量了样本总体偏离均值的程度

    正态分布的这种统计特性使得问题变得异常简单,任何具有正态分布的变量,都可以进行高精度分预测。

    值得注意的是,大自然中发现的变量,大多近似服从正态分布。

     

    正态分布很容易解释,这是因为:

    1. 正态分布的均值,模和中位数是相等的。
    2. 我们只需要用均值和标准差就能解释整个分布。

     

    正态分布是我们熟悉的正常行为

     

    为何如此多的变量都大致服从正态分布?

     

    这个现象可以由如下定理理解释:当在大量随机变量上重复很多次实验时,它们的分布总和将非常接近正态分布。

     

    由于人的身高是一个随机变量,并且基于其他随机变量,例如一个人消耗的营养量,他们所处的环境,他们的遗传等等,这些变量的分布总和最终是非常接近正态的。

     

    这就是中心极限定理

     

    本文的核心:

    我们从上文的分析得出,正态分布是许多随机分布的总和。 如果我们绘制正态分布密度函数,那么它的曲线将具有以下特征:

     

    机器学习中,正态分布为何如此重要?

     

    如上图所示,该钟形曲线有均值为 100,标准差为1:

     

    • 均值是曲线的中心。 这是曲线的最高点,因为大多数点都是均值。
    • 曲线两侧的点数相等。 曲线的中心具有最多的点数。
    • 曲线下的总面积是变量所有取值的总概率。
    • 因此总曲线面积为 100%

     

    机器学习中,正态分布为何如此重要?

     

     

    更进一步,如上图所示:

     

    • 约 68.2% 的点在 -1 到 1 个标准偏差范围内。
    • 约 95.5% 的点在 -2 到 2 个标准偏差范围内。
    • 约 99.7% 的点在 -3 至 3 个标准偏差范围内。

     

    这使我们可以轻松估计变量的变化性,并给出相应置信水平,它的可能取值是多少。例如,在上面的灰色钟形曲线中,变量值在 99-101 之间的可能性为 68.2%。

    正态概率分布函数

    正态概率分布函数的形式如下:

     

    机器学习中,正态分布为何如此重要?

     

     

    概率密度函数基本上可以看作是连续随机变量取值的概率。

    正态分布是钟形曲线,其中mean = mode = median。
    • 如果使用概率密度函数绘制变量的概率分布曲线,则给定范围的曲线下的面积,表示目标变量在该范围内取值的概率。
    • 概率分布曲线基于概率分布函数,而概率分布函数本身是根据诸如平均值或标准差等多个参数计算的。
    • 我们可以使用概率分布函数来查找随机变量取值范围内的值的相对概率。 例如,我们可以记录股票的每日收益,将它们分组到适当的集合类中,然后计算股票在未来获得20-40%收益的概率。

     

    标准差越大,样品中的变化性越大。

    如何使用 Python 探索变量的概率分布

     

    最简单的方法是加载 data frame 中的所有特征,然后运行以下脚本(使用pandas 库):

    DataFrame.hist(bins=10)
    #Make a histogram of the DataFrame.
    

     

    该函数向我们展示了所有变量的概率分布。

     

    变量服从正态分布意味着什么?

     

    如果我们将大量具有不同分布的随机变量加起来,所得到的新变量将最终具有正态分布。这就是前文所述的中心极限定理。

     

    服从正态分布的变量总是服从正态分布。 例如,假设 A 和 B 是两个具有正态分布的变量,那么:

     

    • A x B 是正态分布

    • A + B 是正态分布

     

    因此,使用正态分布,预测变量并在一定范围内找到它的概率会变得非常简单。

     

    样本不服从正态分布怎么办?

     

    我们可以将变量的分布转换为正态分布。

    我们有多种方法将非正态分布转化为正态分布:

    1.线性变换

    一旦我们收集到变量的样本数据,我们就可以对样本进行线性变化,并计算Z得分:

     

    1. 计算平均值
    2. 计算标准偏差
    3. 对于每个 x,使用以下方法计算 Z:

     

     

    机器学习中,正态分布为何如此重要?

     

     

    2.使用 Boxcox 变换

    我们可以使用 SciPy 包将数据转换为正态分布:

     

     

    •  
    scipy.stats.boxcox(x, lmbda=None, alpha=None)
    3.使用 Yeo-Johnson 变换
    

    另外,我们可以使用 yeo-johnson 变换。 Python 的 sci-kit learn 库提供了相应的功能:

    sklearn.preprocessing.PowerTransformer(method=’yeojohnson’,standardize=True, copy=True)
    

    正态分布的问题

    由于正态分布简单且易于理解,因此它也在预测研究中被过度使用。 假设变量服从正态分布会有一些显而易见的缺陷。 例如,我们不能假设股票价格服从正态分布,因为价格不能为负。 因此,我们可以假设股票价格服从对数正态分布,以确保它永远不会低于零。

     

    我们知道股票收益可能是负数,因此收益可以假设服从正态分布。

    假设变量服从正态分布而不进行任何分析是愚蠢的。

    变量可以服从Poisson,Student-t 或 Binomial 分布,盲目地假设变量服从正态分布可能导致不准确的结果。

     

    总结

     

    本文阐述了正态分布的概念和性质,以及它如此重要的原因。

    希望能帮助到你。

    原文链接:http://bit.ly/2NyetFz

    展开全文
  • 下列方法,能够返回某个子串字符串出现次数的是.答:count耶稣是《圣经》的葡萄酒神。_____________答:×Python列表是一个可变的序列,它没有长度的限制,可以包含任意个元素答:√中国的武装斗争实质上是...
  • 讨论了负二项分布的最大试验次数并用所得到的最大试验次数给出负二项分布中未知参数p的一个较为理想的区间估计。解决了负二项分布小样本试验下未知参数p的区间估计问题。
  • 比如:print(Counter(a[0]))Counter({'sausage': 825, 'whole milk': 717, 'frankfurter': 580, 'tropical fruit': 482, 'other vegetables': 460, 'citrus fruit': 453, 'pork': 385, 'rolls/buns': 336, 'chicken'...
  • 概率论和统计学重要的分布函数

    千次阅读 2020-08-19 08:25:50
    随机变量概率空间遵循不同类型的分布,这决定了它们的特征并有助于预测。 本文内容列表: 引言 高斯/正态分布(Gaussian/Normal Distribution) 二项分布(Binomial Distribution) 伯努利分布(Bernoulli ...
  • 机器学习的“分布

    千次阅读 多人点赞 2020-04-05 22:20:33
    输入空间的一个具体的实例上抽出一些属性,将这些属性组成一组向量,这组向量被称为特征向量。当一个特征向量输入到“学习器”,“学习器”可以依据输入的特征向量返还一个期望的结果。用通俗的话讲,可以将...
  • 概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布。离散概率分布也称为概率质量函数(probability mass function)。离散概率分布的例子有伯努利分布(Bernoulli distribution)、二项分布...
  • 统计与分布之高斯分布

    千次阅读 2018-04-01 15:45:03
    欢迎大家评论区里说说自己的看法。 计数原理:又称基本计数原理,它将实现一个目标的行为抽象成 分步 和 分类 两种,正如计数原理给出的例子。计数原理通过这两种计数规则为解决现实生活大多数的计数问...
  • python画正态分布图像

    万次阅读 多人点赞 2018-01-24 18:06:08
    1.正态分布简介 正态分布(normal distribtution)又叫做高斯分布(Gaussian distribution),是一个非常重要也非常常见的连续概率分布。正态分布大家也都非常熟悉,下面做一些简单的介绍。 假设随机变量X服从一个位置...
  • 泊松分布

    千次阅读 2021-01-17 09:24:57
    一个故事:你已经做了10年的自由职业者了。到目前为止,你的平均年收入约为8万美元。今年,你觉得自己陷入了困境,决定要达到6位数。要做到这一点,你需要先计算这...这篇文章,我们将讨论用于模拟上述情况的泊松分
  •  对于任何一个学习概率论的童鞋来说,各种分布都是很头痛的一件事情,本篇主要讨论的是离散型随机变量. 伯努利分布  伯努利分布就是我们常见的0-1分布,即它的随机变量只取0或者1,各自的频率分别取1−p1−p和pp...
  • u分布(u分布和t分布)

    千次阅读 2021-01-16 09:24:40
    你好!分别是这样缩写的 B二项分布 binomial distribution P泊松分布 poisson's distribution U均匀分布 uniform distribution E指数分布 exponential distribution N正态分布 .u分布是标准正态分布,...对于z分布中...
  • 常用离散分布二项分布(Binomial Distribution)记 为 重伯努利试验成功的事件(记为 )的次数,则 服从二项分布。记 为事件 发生的概率, 的分布列为: 记 符号“~”读作“服从于”,该记号表示随机变量 服从参数...
  • 认识生活的泊松分布

    万次阅读 多人点赞 2018-08-26 17:48:46
    ● 每周一言 有些人推动生活走,有些人则被生活推着走。 导语 ...要讲泊松分布,得先讲讲二项分布,因为泊松分布是二项分布的极限形式,是由二项分布的公式推导而来。 二项分布,顾名思义,就...
  • 概率与统计的基本分布总结

    千次阅读 2018-07-10 18:56:56
     一次实验出现的所以结果次数M,将每一种结果映射到某种数值函数X(e)(e表示是某一次实验发生的结果),这种命映射的结果值称为随机变量。 2、随机变量分为离散型和连续型的。 3、分布律:只有离散型随机变量...
  • 统计学原理-----概率分布

    千次阅读 2019-11-10 19:04:36
    某个随机变量的所有概率形成的概率-事件分布就是该随机变量的概率分布,会用一个函数来表达概率分布。显然,包含了所有事件的话,分布的概率之和(连续随机变量则时概率密度函数的积分)肯定就等于1。 当随机变量为...
  • 正态分布的抽卡概率算法

    千次阅读 2021-01-17 15:58:59
    [作者:雯雯子]一、纯随机的体验卡牌游戏,抽卡是一个很...如果可以使玩家抽出次数分布符合正态分布,即绝大部分玩家都是20次左右抽出指定道具,似乎更符合体验的需求。首先来看一下,设定道具A抽出的概率为...
  • 泊松分布以及相关分布的知识整理

    万次阅读 多人点赞 2019-03-31 09:48:14
    泊松分布、泊松过程以及指数分布的整理 泊松分布与泊松过程 泊松分布是单位时间内事件发生的次数的概率。而泊松过程是是一种累积随机事件的...泊松过程,我们把想观察到的事件叫做到达(Arrival)。把单位时间...
  • 卡方分布分析与应用

    万次阅读 多人点赞 2017-11-23 18:54:53
    卡方检验(chi-square,记为χ2\chi^2检验)是统计学中常用来计数数据分析的方法,对于总体的分布不作任何假设,因此它属于非参数检验法的一种。本博文从理论到实际应用去阐述卡方检验,最后用python语言去实现卡方...
  • 本文主要是作者学习舆情分析、情感分析、人类行为动力学分析的在线笔记,主要包括两方面内容,一是幂律特性,二是讲解时间间隔分布,三是Python绘制基于时间间隔分布的幂律特性图,四提供了另一种方法。基础性文章,...
  • 概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布。 离散概率分布也称为概率质量函数(probability mass function)。离散概率分布的例子有伯努利分布(Bernoulli distribution)、二项...
  • (2)分组:按观察值分组 (3)统计次数,并整理成次数分布表(调用countif函数) excel界面的工具栏点击“插入” 选择“函数” 选择“统计” 选择“countif”点击 “确定”。 countif对话框,分布选定...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 193,814
精华内容 77,525
关键字:

在次数分布中