精华内容
下载资源
问答
  • 基于连续变量两组分纠缠交换方案,对完成纠缠交换的两组分系统通过非对称调制和单端噪声引入两种方式,建立协方差矩阵,对最终输出的两组分纠缠量子态间的EPR导引特性进行分析和比较。研究量子系统中两组分EPR导引特性...
  • 前言 我们在分析两组变量之间的相关性时,比如和,最原始的方法就是直接计算X和Y的协方差矩阵,矩阵有m*n个值。有了协方差矩阵就得到了两两变量之间的相关性,比如c_ij就是变量X_i和Y_j的相关性。 这种分析方法只...
        

    前言

        我们在分析两组变量之间的相关性时,比如640?wx_fmt=other&wxfrom=5&wx_lazy=1640?wx_fmt=other&wxfrom=5&wx_lazy=1,最原始的方法就是直接计算X和Y的协方差矩阵,矩阵有m*n个值。有了协方差矩阵就得到了两两变量之间的相关性,比如c_ij就是变量X_i和Y_j的相关性。

        这种分析方法只考虑了c_ij变量X_i和Y_j变量单个维度之间的相关性,没有考虑X和Y内部之间的相关性。另外协方差矩阵的形式也比较繁琐。


    典型相关分析

        采用类似主成分分析的思想,分别找出两组变量各自的线性组合,然后讨论线性组合之间的相关关心。

        分别在两组变量中找出第一对线性组合,使他们具有最大相关性;接着再分别在两组变量中找出第二对线性组合,使他们具有第二大的相关性,并且它们分别于本组内的第一线性组合不相关。以此类推找出其他线性组合,如下面提取两对线性组合,其中 u_1 u_2互相独立,v_1 v_2互相独立,u_1 v_1相关。

    640?wx_fmt=other&wxfrom=5&wx_lazy=1

    假设提取了r次,则最后提取了r组变量,

    0?wx_fmt=other

    则实现通过线性组合来表示原变量,并且用他们之间的相关性来表示原变量的相关性。


    本质是什么

        典型相关分析的本质是从两组变量中选取若干个有代表性的变量线性组合,用这些线性组合的相关性来表示原来两组变量的相关性。


    求解线性组合

        以第一组线性组合为例,这里要求解的就是包含的系数。

    0?wx_fmt=other

    矩阵形式为,

    0?wx_fmt=other

    只考虑方差为1时的线性函数,这时其实就存在一个约束条件,0?wx_fmt=other,我们求常向量0?wx_fmt=other,使得相关系数0?wx_fmt=other达到最大。方差分别为,

    0?wx_fmt=other

    则u_1 v_1的协方差为,

    0?wx_fmt=other

    另外我们还有,

    0?wx_fmt=other

    两者的相关系数为,

    0?wx_fmt=other

    我们要做的是寻找a_1 b_1使相关系数最大,同时要考虑前面说到的约束条件D(u_1) = D(v_1) = 1,它能防止结果重复出现,则相关系数变为,

    0?wx_fmt=other

    求条件极值一般可以引入拉格朗日乘数来求极大值,求解出a_1^T b_1^T。

    对于其他组的线性组合也同样根据上述过程得到解。


    线性组合数量

        根据线性组合相关性大小不断提取线性组合,最大的为第一组,次大的为第二组,以此类推直到 r<min(m,n) 组提取完。


    怎么分析

        比如第一组线性组合中,可以计算两组变量与u1和v1的相关系数,如果某若干个变量与u1相关系数较大,则u1代表该若干变量的总指标,可以自己根据变量取个额外的名称。而同样如果v1和其他若干变量的相关系数较大的话则v1可代表该若干变量。

        接着如果u1和v1的相关系数较大的话则说明u1代表的若干变量与v1代表的若干变量是关系密切的。对于其他线性组合也一样,先找出u2和v2相关的若干变量,然后再看u2与v2之间的相关系数,判断其是否相关。



    =============广告时间===============

    公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等,可能有一款适合你的胃口。


    鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有需要的朋友可以购买。感谢各位朋友。

    为什么写《Tomcat内核设计剖析》

    =========================


    展开全文
  • 计算在没有数据的情况下在同一对象上创建的两组变量之间的相互关系。 典型相关是两个向量变量的线性函数之间的最大相关。 线性很重要,因为分析是在反映线性关系的相关矩阵上执行的。 在此之后,可以定位最大相关的...
  • 计算在没有数据的情况下在同一对象上创建的两组变量之间的相互关系。 典型相关是两个向量变量的线性函数之间的最大相关。 线性很重要,因为分析是在反映线性关系的相关矩阵上执行的。 在此之后,可以定位最大相关的...
  • 连续变量的统计推断

    2020-08-03 19:19:40
    连续变量的统计推断1 t检验1.1 t检验概述1.2 成组设计两样本均数的比较 1 t检验 1.1 t检验概述 在针对连续变量的统计推断方法中,最常用的有t检验和方差分析两种,其中t检验是最基本的检验方法。 对于X‾\overline{X...

    在这里插入图片描述

    1 t检验

    1.1 t检验概述

    在针对连续变量的统计推断方法中,最常用的有t检验和方差分析两种,其中t检验是最基本的检验方法。

    对于X\overline{X} - μ 仅看这一个数字很难判断出这种差异究竟是大是小。为此需要找到某种方式对这一差值进行标准化。标准化的思路是将该差值除以某种表示离散程度的指标。标准化变换:
    在这里插入图片描述
    其中,样本均数X\overline{X}的分布规律为正态分布n(μ,σ2/N),则U服从标准正态分布N(0,1)。
    U检验看上去虽然很好,却实际上毫无用处,因为σX\overline{X}在 计算中需要使用总体标准差,但在实际工作中和总体均数一样也常常未知,能够使用的仅仅是样尔标准差s。

    如果用样本标准量来代替总体标准差来进行计算,即sX\overline{X} = s / 根号n ,则由于样本标准差s会随样本而变。相应的标化统计量的变异程度要大于 U,它的密度曲线看上去有些像标准正态分布但是尖一些而且尾巴长一些,这种分布称为t分布,相应的标化后统计量也就被称为t统计量。显然,t统计量的分布规律是和样本量有关的,更准确地说是和自由度(v/df)有关的。自由度是信息量的度量,描述了样本数据能自由取值的个数,在t分布中由于有给定的样本均数这一限定,所以自由度为 v = n - 1。从图中可以看出,自由度增加时它的分布就逐渐接近标准正态分布了。因此,在样本量较大时,可以用标准正态分布来近似t分布。
    在这里插入图片描述
    在这里插入图片描述
    t检验仍然采用小概率反证法原理,其基本思想是:首先假设H0成立 ,然后考察在H0成立的条件下,按照现有样本量做随机抽样在相应的总体中抽到现有样本,以及比现有样本与总体的差异更大的样本的累积概率,如果相应的概率 P<=α( 检验水准),因 拒绝H0假设,接受对立的H1假设,认为现有样本井非来自于所假定的总体。

    另外,根据具体的设计方案和希望解决的问题不同,又可以将t检验分为单样本t检验、两样本t检验和配对t检验等,但它们的基本原理都是相同的。

    t检验在SPSS中基本上被集中在“比较均值”子菜单中,具体如下:

    • 单样本t检验过程:进行样本均数与已知总体均数的比较
    • 独立样本t检验过程:进行两样本均数差别的比较,及通常所说的两组资料的t检验
    • 配对样本t检验过程:进行配对资料的均数比较,即配对t检验

    1.2 成组设计两样本均数的比较

    作为参数方法,t检验也有适用的条件,但相对而言它比较稳健,对使用条件的违反有一定的耐受性。但如果使用条件被严重违反,则可以采用校正的t检验,或者换用非参数方法来进行分析。

    在应用t检验进行两样本均数的比较时,要求数据满足以下条件:

    • 独立性,各观察值之间是相互独立的,不能相互影响
    • 正态性,各个样本均来自于正态分布的总体
    • 方差齐性,各样本所在总体的方差相等

    2 单因素方差分析

    2.1 方差分析概述

    方差分析(ANOVA)的理论基础:将总变异分解为由研究因素所造成的部分和 由抽样误差所造成的部分,通过比较来自于不同部分的变异,借助F分布做出统计推断。后人又将线性模型的思想引入方差分析,更是为这一方法提供了近乎无穷的发展空间。

    单因素方差分析所针对的是多组均数间的比较。它的基本思想:方差分析是基于变异分解的思想进行的,在单因素方差分析中,整个样本的变异可以看成由如下两个部分构成:

    总变异 = 随机变异 + 处理因素导致的变异

    其中随机变异是永远存在的,确定处理因素导致的变异是否存在就是所要达到的研究目标,即只要能证明它不等于0,就等同于证明了处理因素的确存在影响。

    在这里插入图片描述

    方差分析的检验统计量可以简单地理解为利用随机误差作为尺度来衡量各组间的变异,即
    F = 组间变异测量指标 / 组内变异测量指标

    则在H0成立时,处理所造成的各组间均数的差异应为0(理论上应为0,但由于抽样误差不可能恰好为0),即
    μ1 = μ2 = μ3 = … … = μk

    在这里插入图片描述
    在这里插入图片描述

    单因素方差分析的应用条件

    • 观察对象是来自于所研究因素的各个水平之下的独立随机抽样(Independence)
    • 每个水平下的应变量应当服从正态分布( Normality)
    • 各水平下的总体具有相同的方差(Homoscedascity)
      其实,与t检验的应用条件大同小异,概括起来就是独立性、正态性和方差齐性。

    方差分析拒绝H0只能说明各组之间存在差异,但并不足以说明各组之间的关系。利用多重比较可以初步判断各组间的关系。

    多重比较可以分为事前计划好的比较和事后比较。前者往往借助于 Contrast,而很多种不同的方法,这些方法的核心问题都是如何控制总的一类错误的大小。

    在分组变量包含次序信息时,如果方差分析给出了各组间差异有统计学意义的结论,井且 Means-Plot 提示各组均数的某种趋势时,可以利用趋势分析探讨观察值与分组变量间间的数量依存关系。

    展开全文
  • 连续变量的描述统计与SPSS实现

    千次阅读 2020-03-09 23:29:10
    第一个问题,连续变量是什么? 一个人的年级,统计出来有1、2、3…… 一个人的年纪,统计出来有18、19、20…… 但是,虽然都是数字,只有年纪是连续变量。 为什么?顾名思义,年纪是连续的,18 - 19之间可以无限划分...

    第一个问题,连续变量是什么?

    一个人的年级,统计出来有1、2、3……
    一个人的年纪,统计出来有18、19、20……

    但是,虽然都是数字,只有年纪是连续变量。

    为什么?顾名思义,年纪是连续的,18 - 19之间可以无限划分,而年级不行,你只能位于这几个数之间的一个,而不能在他们中间。

    所以我们定义连续变量为:在一定区间内可以任意取值的变量。

    下面进入正题,连续变量的描述统计。

    概述

    对于统计学和SPSS来说,描述统计很直观,非常适合入门,它的作用就是进行描述

    描述一组数据,最普及的当然是平均数了,它属于集中趋势的量数,那么在数据工作中,我们可以从以下几个方面对数据进行描述:

    • 集中趋势 central tendency
    • 离散趋势 dispersion tendency
    • 分布特征 distribution tendency

    下面一个个介绍

    集中量数

    它用来体现一组数据的一般水平,集中意为数据们向某一点集中,众数据奔它而来。
    这一点并不固定,我们会根据数据的不同分布状况进行选择,比如:

    • 算术平均数:观察值总和与总频数之商;这是最常用的指标,但不适合对严重偏态分布的变量进行描述。譬如一个很常用的比分:一名CEO 的薪资为50w,10名员工薪资为3000,他们的算数平均数能代表该公司的平均薪资水平吗?显然不能。
    • 中位数:将全体数据从大到小排列,在数列中处于中间位置的数。
    • 众数:出现次数最多的数。
    • 还有截尾均数、几何均数、调和均数,其中截尾均数用得相对较多,截尾截尾,截去头尾,再求算术平均数;它能够有效防止极端值影响,一个很广泛的场景是:比赛计算得分时,去掉最高分和最低分,再求算术平均数。

    差异量数

    差异量数用来描述数据分布的变异性,能够量化描述数据的延伸、聚集状态,也就是我们常说的分散还是集中。
    集中量数和差异量数密不可分,在推断统计中,我们会同时用这两组数据来进行分析。
    常用的差异量数有以下几种:

    • 全距 range:最大值与最小值之差,很简单,不过也没什么用hhh
    • 百分位数、四分位数、四分位距一起说
      • 百分位数用来表示位置,如P99,就是将观察值分为两部分,理论上有99%的观察值比它小,1%比它大,是非常靠前的位置了。
      • 四分位数就是3个特定的百分位数,P25/P50/P75,可以发现,在同一组数据中,这三个四分位数是按上面的顺序升序排列的。(也可这样表示:Q1=P25;Q2=P50;Q3=P75)
      • 四分位距就是中间50%的数据的全距,也就是P75-P25。
    • 标准差和方差:这是一种算起来麻烦但是应用非常广泛的量数,大概仅次于算数平均数。标准差描述的是分布中每一个个体与均值之间的距离,也就是说,这组数据离中心偏离了多远。
    • 变异系数:当你要比较两组数据离散程度大小的时候,很多时候不能直接比较,主要为以下两种情况:
      • 测量尺度相差太大;比如蚂蚁的体重和大象的体重,显然不是一个量级,大象一点点的变化,在蚂蚁身上都会显得非常大,直接用标准差是不合适的;
      • 数据量纲不同;比如想要比较人的身高和体重离散程度大小,cm和kg如何比较呢?
      • 所以我们推出了变异系数CV(Coefficient of Variation),它的公式很简单,就是**(标准差/平均值)**,用除法消除了量纲,又按照均数大小进行了标准化。

    分布特征

    最常见的分布就是正态分布了,我们知道正态分布的形态,那么偏离的那些如何描述呢?于是偏度系数、峰度系数也被推出来,描述当前数据偏离正态分布的程度。
    这些用得比较少,我们只介绍一下其含义:

    • 偏度:分布不对称的方向和程度,记为g1;他是与正态分布比较而言的。
      • g1>0时,呈正偏态分布,长尾在右边
      • g1=0时,对称
      • g1<0时,呈负偏态分布,长尾在左边
    • 峰度:分布的尖峭程度或峰凸程度,记为g2;仍然是与正态分布相比较而言的统计量。
      • g2>0,峰的形状比较尖
      • g2=0,正态峰
      • g2<0,峰的形状比正态分布要平坦

    SPSS实现

    在SPSS中呢,想要知道这些数据都是非常非常方便的!

    • 他们在哪里?

    • 在“描述统计”子菜单中
      在这里插入图片描述

    • 频率:这里能够产生原始数据的频数表以及百分位数等各种统计数据;
      在这里插入图片描述

    • 最简单的,把你需要统计的变量移到右边的“变量”框内再按“确定”就可以了;

    • 右边的“统计”提供了百分位值、集中量数、差异量数、分布等的选项,勾选了就可以在输出中显示啦;“图表”可以勾选你需要显示的条形图、饼图等噢;默认是全部不勾选的,欢迎diy~

    • 描述:它用于一般性的统计描述,不能作图,可选项也没有那么多,但是简单高效,使用频率非常高,一般用于正态分布。

    • 探索:都是描述统计,为什么explore听起来高级一点?因为他是用于连续性资料分布状况不清时进行探索式分析。除了常用统计量,还可以做截尾均数、极端值列表等,当然也可以画图,功能非常强大。

    其实SPSS对新手真的非常友好,基本就是“所见即所得”,新手可以直接点开一个数据集,尝试各种功能,相信能够进步非常快~

    展开全文
  • 医学中最常设计的试验就是病例对照研究,以探究某一干预措施是否有改善性。需要根据基线的情况,选择相应的...因为基线齐,说明两组干预前组间差异不明显,直接用T检验对比干预后的结果。 long_after <- filter(dat

    医学中最常设计的试验就是病例对照研究,以探究某一干预措施是否有改善性。需要根据基线的情况,选择相应的方法。

    试验数据如下:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    (声明:该数据是随机自动生成的,虚拟的,该计算结果不代表任何真实的事情,该数据不适用于现实世界。)
    数据由试验组长病程10名,试验组短病程10名,对照组10名组成,干预手段为减肥。

    一、两组病例对照研究常用的三种方法
    (1)T检验法,将结果进行T检验。
    因为基线齐,说明两组干预前组间差异不明显,直接用T检验对比干预后的结果。

    long_after <- filter(data, 病程=='长病程' & 干预=='减肥后')
    short_after <- filter(data, 病程=='短病程' & 干预=='减肥后')
    t.test(short_after$血清蛋白含量, long_after$血清蛋白含量, var=T,paired=F)
    

    独立样本T检验得出P=0.5106
    (2)倍差法,将干预前后差值进行T检验。
    先用 干预后 减去 干预前, 得出差值d,然后用差值进行T检验。
    倍差值法独立样本T检验得出P=0.3641
    (3)协方差法,线性回归分析的一种。
    协方差分析法,是把方差分析和回归分析结合起来的一种方法。一般的T检验只考虑了干预方式的影响,但是没有把其他的影响变量纳入进去。而协方差法可以把多个影响变量的效应给处理掉。
    这里运用协方差法计算两组差异的思路,就是将干预前的血清蛋白含量作为影响变量X之一。
    ****协方差分析法是参数统计的一种,所以其运用条件同方差分析。要求是连续型数值,且影响变量之间无交互效应。
    ****协方差分析中,变量必须是连续型数值,所以性别这种分类变量不能用于协方差分析。可以尝试下多因素Logic回归。

    fit <- aov(data$干预后含量 ~  data$干预前含量  + data$病程 )
    summary(fit)
    

    算出如下:
    在这里插入图片描述
    说明长病程和短病程在干预后的差异P值=0.9132 (貌似这个值最大)

    #把年龄因素的影响去掉
    fit <- aov(data$干预后含量 ~  data$干预前含量 + data$年龄 + data$病程 )
    summary(fit)
    

    在这里插入图片描述
    可以看出,年龄对Y无显著影响,校正了年龄、初始血清蛋白含量以后,得出P值=0.7097
    有意思的来了,将年龄和干预前含量交换位置:
    在这里插入图片描述
    干预前的含量对血清含量有显著影响(p=0.0425),校正干预前含量、年龄等因素后,该干预手段对长短病程的患者无显著影响(p=0.7097)。
    (4)Welch Ttest
    Welch Ttest算出P=0.5115

    小彩蛋:其实一开始没有把干预前的基线给算出来,因为主要是想对比这三种常用的方法(可能有的同学常用的只有第一种)。现在来揭晓答案:干预前的长病程组p=0.1162,短病程组p=0.3109,两组无显著差异(shapiro),符合正太分布。两组方差检验(Ftest)P=0.8348,默认方差齐。因此,在这个实验数据中,答案其实就是基线齐。

    二:总结
    可以看出,三种方法对比,独立样本T检验(P=0.5106),倍差值法(P=0.3041),协方差法(P=0.9132)。
    因此,在基线齐的时候,选择倍差法要比独立T检验会好点,因为值更小,容易出结果。student T test 和Welch T test 的值均比倍差值法要大。
    但是协方差法适用范围更大点,因为它排除了年龄等干扰因素,相对而言应用更广泛,其结果更加可信。

    因此,我推荐:
    在基线齐的时候,运用倍差值法进行两组差异检验;在基线不齐的时候,运用协方差法进行两组差异检验(把基线的差异给校正掉)。
    如果想校正年龄、血压等其他可能存在的影响因素,直接用协方差法。

    如果基线不齐,可以用倍差法吗?如果用倍差法,就会引出一个问题,即该干预手段对基线不同的两组的影响作用是一样的吗?
    举例:中风偏瘫患者,在急性期用神经保护剂,效果更高,而在恢复期,效果就一般般。那么对于基线不齐的两组(一组是急性期,一组是恢复期),那么神经保护剂的治疗效果是不同的,因此这个时候用倍差法去计算两组的干预效应,是不对的。
    因此,如果你能根据现有文献,证明该干预手段对两组影响作用一样,那么可以在基线不齐的时候使用倍差法,但是基线不齐最好的还是协方差分析法。但是协方差分析法又有个问题,就是两组数据要符合正态分布,因为协方差分析法是参数检验。

    展开全文
  • 连续变量的统计描述 分类变量的统计描述 正太分布 二项分布 参数估计与可信区间 假设检验     二、连续变量的统计描述   1、统计方法  1.1 频数表  组数:不宜过多或过少,保证大多数...
  • R语言笔记-连续变量组间差异比较

    千次阅读 2020-10-22 21:50:31
    文章目录独立样本t检验方差齐性检验 (两组):``var.test()``独立样本t检验:``t.test()``非独立样本t检验单因素方差分析 (ANOVA)正态性检验:``tapply(,shapiro.test)``方差齐性检验 (多组)Bartlett检验:``...
  • 单因素完全随机实验是单因素实验设计的一种,特点如下:实验中只有一个自变量,自变量一般有两个或以上水平如果自变量有3个水平,实验就有3组如果每组被试为5名,则总被试量为3*5=15随机抽取15名被试,并随即分配到3...
  • 图4 点图示例:数据点的集群和数据点离群值 箱形图/盒式图(box plots):箱形图可用于呈现分成组的连续变量,因其可显示每组数据的集中趋势、分布和离群值。 图5 箱形图示例:每月平均温度 散点图(scatter plots):...
  • 每组数据的原始分数转换为Z分数后成为一组新的Z分数数据,这组新的数据,它的平均值是0,标准差是1,注意是Z分数的平均值是0,标准差是1,不是原始数据的平均值和标准差,所以当给出任何一组连续的随机变量的数据时...
  • C语言连续申请变量内存问题

    千次阅读 2017-10-23 14:04:38
    当我们连续申请两个全局变量的时候,那么他们的内存也是连续的,当我们改变第一个变量的数据类型的时候,如果原来申请的内存的大小不够用来存储新的数据类型,那么程序就会在原来内存的基础上,紧接着原来的内存向后...
  • 这时如果将两组数据的X值放在一列里,则Y1和Y2会出现不连续的情况,绘出的曲线发生间断。 解决的办法是: 每组数据的X值都放在各自的X列中,绘出的每条曲线就都是连续的了。具体的操作如图1所示。 图1 改变数据列的...
  • Mann-Whitney检验 曼-惠特尼U检验又称“曼-惠特尼秩和检验”,是由H.B.Mann和D.R.Whitney于1947年提出的。它假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是...比较两个独立组别最常用的非参数检验是M
  • 9、spss做交叉表检验和对应分析

    千次阅读 2015-04-15 15:35:34
    我们知道,对于两组连续变量,我们可以通过假设检验来判断他们的分布是否相同,差异时候存在。不知道大家想过没有,如果我们想讨论两个分类变量的分布是否相同呢?这里我们首先来讨论这个问题。 首先举个例子,假设...
  • 使用R进行描述性统计分析(连续变量) 对于描述性统计来说,R可以实现的方法有很多,基础自带的有summary()函数,还有其他packages,如Hmisc包,pastecs包,psych包提供了计算更多内容的函数。 基础函数 在R中,...
  • 介绍如何生成两组符合正态分布的随机数,介绍如何生成服从一般分布(如指数分布)的随机数,包括数学上如何推导
  • 连续整数求和

    2019-11-27 21:39:25
    给定一个正整数N,试求有...解释:5 = 5 = 2 + 3,共有两组连续整数([5],[2,3])求和后为 5。 一、思路 因为是找连续的正整数序列,因此我们可以这样先定义一个start=1,end=2,然后类似滑动窗口的概念,我们通过让增...
  • 10、spss做最优尺度分析

    千次阅读 2015-04-15 15:37:52
    上一节我们讨论了对于两组分类变量,如何通过主成分分析法进行降维,从而在一个二维的平面上直观的表现出两组变量的类别之间有什么关联。这一节我们就来讨论要怎么通过最优尺度分析来解决多组分类变量之间的关联分析...
  • 评分卡之变量分箱

    2020-08-12 00:00:00
    1.分箱是计算woe前重要的特征工程,能有效避免模型过拟合,提高模型鲁棒性2.分箱的本质是把连续变量离散化3.变量分箱分为有监督分箱和无监督分箱两种4.有监督分箱主要包括卡方分箱和Bes...
  • 缘起已知两组数据的样本量,均数和标准差,如何求得合并组的均数和标准差;你问的这么迫切,应该比较急吧!如何计算合并数据的效应量合并后均数 Xc= (x1*n1+x2*n2)/(n1+n2),其中x,n分别为各自组的个数和均数;合并...
  • 初次接触变量分箱是在做评分卡模型的时候,SAS软件里有一段宏可以直接进行连续变量的最优分箱,但如果搬到Python的话,又如何实现同样或者说类似的操作呢,今天就在这里简单介绍一个办法——卡方分箱算法。...
  • Ubuntu设置环境变量

    千次阅读 2013-03-28 15:18:41
    Ubuntu Linux系统环境变量配置文件: /etc/profile : 在登录时,操作系统定制用户环境时使用的第一个文件 ,此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行。 /etc /environment : 在登录时...
  • 变量分析 cheat sheet

    2021-01-07 13:41:16
    连续变量 目的:验证单变量是否满足正态分布 思路:Shapiro-Wilk test + Q-Q plot 例子: x<-rnorm(10,0,2) shapiro.test(x) Shapiro-Wilk normality test data: x W = 0....
  • 六、变量消除 原文:Variable elimination 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 接下来,我们将注意力转向图模型中的推断问题。 给定概率模型(如贝叶斯网络或 MRF),我们有兴趣...
  • C语言变量

    千次阅读 2012-09-16 16:28:30
    从O开始数,能比较清楚地看出每6个数字组成一组——因此6就是基数。注意,你应该从O开始一起数到比基数小1的数(因为基数是6,所以你应该从O数到5)。当你数到5后,接着应该开始数两位数。如果你思考一下,你就会发现...
  • 随机变量的数学特征

    千次阅读 2018-04-14 13:14:34
    变异系数:比较两组的变化程度可以计算变异系数,即标准差除以均值。期望1.离散型离散型随机变量X的取值为 , 为X对应取值的概率,可理解为数据 出现的频率 ,则:并且保证该级数绝对收敛,对于随机变量的取值来...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,051
精华内容 4,420
关键字:

两组连续变量比较