精华内容
下载资源
问答
  • 先做出假设(原假设),同时写出假设的对立面(备择假设),对于这个假设找出相关的统计量。算一下这个假设下,应该服从什么分布。根据这个分布找一下接收域和拒绝域。如果落在拒绝域里面,就判断原假设是错误的。...

    如题:2019年10月

    分析:新东西……。

    这个题就是考概念,方差已知求均值的统计量应该为u检验,详见4正态总体均值的假设检验1,所以答案选A。

    1、假设检验的思想??

    先做出假设(原假设),同时写出假设的对立面(备择假设),对于这个假设找出相关的统计量。算一下这个假设下,应该服从什么分布。根据这个分布找一下接收域和拒绝域。如果落在拒绝域里面,就判断原假设是错误的。基本思想是“小概率事件”原理,也就是小概率事件在一次试验中基本上不会发生。所以基础,就是找出拒绝域(小概率事件)。显然,“小概率事件”的概率越小,否定原假设H0就越有说服力,常记这个概率值为α(0<α<1),称为检验的显著性水平。对于不同的问题,检验的显著性水平α不一定相同,一般认为,事件发生的概率小于0.1、0.05或0.01等,即“小概率事件”   。拒绝域的面积就等于检验水平  \alpha,1-  \alpha就是接收域的面积。由此也可以看出,置信区间对应的接收域

    适用范围:

    只对总体里的未知参数作出假设检验,而不对分布作出假设,也就是参数检验

    只对一个假设提出检验,判断它是否成立,而不同时研究其他假设,也就是显著性检验

    2、什么是\alpha,什么又是\beta???

    都是概率,\alpha是拒真的概率,明明是对的,把它给否了

                      \beta是取伪的概率,明明是错的,认为它是对的

    注:假设检验可能犯的两种错误。

    ①当假设H0正确时,小概率事件也有可能发生,此时我们会拒绝假设H0。因而犯了“弃真”的错误,称此为第一类错误,犯第一类错误的概率恰好就是“小概率事件”发生的概率α,即

    ②当假设H0不正确,但一次抽样检验未发生不合理结果时,这时我们会接受H0,因而犯了“取伪”的错误,称此为第二类错误,记β为犯第二类错误的概率,即 P{接受H0/H0不真}=β

    般只有当样本容量n增大时,才有可能使两者变小。在实际应用中,一般原则是:控制犯第一类错误的概率,即给定α,然后通过增大样本容量n来减小B。这种着重对第一类错误的概率α加以控制的假设检验称为显著性检验

    3、假设检验的基本步骤:

    区间估计的选取原则,详见扩展,区间估计

    4、正态总体均值的假设检验

    1、方差已知时,单个正态总体均值检验,也称为u检验

    注:统计量U是如何根据置信区间得出的呢???

    置信区间代表的接收域,而U_{\frac{\alpha}{ 2}}表示的是临界值。当P{|U|>U_{\frac{\alpha}{ 2}}}=\alpha,这个表示拒绝域,小概率事件。当|U|\leqU_{\frac{\alpha}{ 2}}表示置信区间,根据置信区间的公式,可以表示出U_{\frac{\alpha}{ 2}}=\frac{\bar{x}-\upsilon _{0}}{\frac{\sigma }{\sqrt{n}}}这个就是统计量也就是假设值的临界值。

     

    2、方差未知时,单个正态总体的均值检验,也称t检验

     

    3、σ^2未知,单个正态总体方差的检验,也称为:X^{2}检验

    总结:

     

    扩展:区间估计:由样本值求出未知参数的\theta估计范围;

    1、置信区间的概念:

    2、置信区间的意义:

    3、单个正态总体参数的置信区间

    • 设总体X~N(μ,σ^2) 其中σ^2已知,而μ未知,对给定的置信水平1-α, 得到μ的置信区间,用u统计量

    注:α为显著性水平,1-α为置信度

    • 当σ未知时,对给定的置信水平1-α, 得到μ的置信区间,用t统计量

    • σ^2的置信区间,只讨论在μ未知的条件下的置信区间,服从自为度为(n-1)的卡方分布

    总结:很重要:

    展开全文
  • 卡方检验,U检验,t检验,F检验

    千次阅读 2019-08-17 16:08:27
    卡方检验:主要用于等级资料 。 t检验:适用于计量资料、正态分布、方差...U检验:检验应用条件与t检验基本一致,只是当大样本时用U检验,而小样本时则用t检验,t 检验可以代替U检验。t检验和就是统计量为t,u的假...

    卡方检验:主要用于等级资料 。

    t检验:适用于计量资料、正态分布、方差具有齐性的两组间小样本比较。包括配对资料间、样本与均数间、两样本均数间比较三种,三者的计算公式不能混淆。也可以这样理解主要是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。

    U检验:检验应用条件与t检验基本一致,只是当大样本时用U检验,而小样本时则用t检验t 检验可以代替U检验。t检验和就是统计量为t,u的假设检验,两者均是常见的假设检验方法。当样本含量n较大时,样本均数符合正态分布,故可用u检验进行分析。当样本含量n小时,若观察值x符合正态分布,则用t检验(因此时样本均数符合t分布),当x为未知分布时应采用秩和检验。

    F检验:则用于方差分析。即对两个或两个以上样本率(构成比)进行差别比较的统计方法。

    展开全文
  • 目录导引非参数统计基本概念1.1 假设检验1.2 经验分布1.2.1 经验分布1.2.2 生存函数1.3 检验的相对效率1.4 分位数1.5 秩与秩检验统计量1.6 U统计量 这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。...


    这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。

    1 非参数统计基本概念

    1.1 假设检验

    1.1.1 假设检验基本原理

    一句话理解:考察样本数据是否支持我们对总体的某种猜测

    搞明白假设检验需要搞明白三个问题:

    • 1、如何选择原假设和备择假设

    (1)我们通常将样本显示出的特点作为对总体的猜想,优先将其选作备择假设
    (2) H 0 H_0 H0是相对于 H 1 H_1 H1给出的
    (3)常见的备择假设:变量相关、多组样本位置参数不同

    • 2、 p p p值和显著性水平的作用是什么

    (1)假设检验的关键是检验统计量 T = T ( X 1 , X 2 , . . . , X n ) T=T(X_1,X_2,...,X_n) T=T(X1,X2,...,Xn)及其在 H 0 H_0 H0下的分布情况
    (2) p = P { ∣ T ∣ > t 0 } p=P\{|T|>t_0\} p=P{T>t0}越小,说明拒绝原假设犯错误的代价越小,即第一类错误概率

    • 3、两类错误

    (1)拒真错误 | decline H 0 H_0 H0 while H 0 H_0 H0 is true
    (2)取伪错误 | accept H 0 H_0 H0 while H 1 H_1 H1 is true

    1.1.2 Power Function

    势函数刻画了检验统计量 T T T 落入拒绝域的概率,我们先规范假设检验问题如下再一并给出势函数定义

    H 0 : θ ∈ Θ 0 v . s . H 1 : θ ∈ Θ 1 , Θ 0 ∩ Θ 1 = ∅ H_0:\theta \in \Theta_0 \quad v.s. \quad H_1:\theta \in \Theta_1,\quad \Theta_0 \cap \Theta1 = \empty H0:θΘ0v.s.H1:θΘ1,Θ0Θ1=
    g T n ( θ ) = P { T n ∈ W } , θ = Θ 1 ∪ Θ 2 g_{T_n}(\theta)=P\{T_n\in W\}, \quad \theta=\Theta_1 \cup \Theta_2 gTn(θ)=P{TnW},θ=Θ1Θ2

    θ ∈ Θ 0 \theta \in \Theta_0 θΘ0时, g T n ( θ ) g_{T_n}(\theta) gTn(θ)反映了犯第一类错误的概率。
    θ ∈ Θ 1 \theta \in \Theta_1 θΘ1时, g T n ( θ ) g_{T_n}(\theta) gTn(θ)反映了不犯第二类错误的概率。

    举个例子,考虑 H 0 : λ ⩾ 1 ↔ H 1 : λ < 1 H_0:\lambda \geqslant1\leftrightarrow H_1:\lambda < 1 H0:λ1H1:λ<1,以 ∑ i = 1 n x i \sum_{i=1}^n x_i i=1nxi为充分统计量,构造拒绝域 { ∑ i = 1 n x i < C } \{\sum_{i=1}^n x_i<C\} {i=1nxi<C}.则可以得到第一类错误和第二类错误的概率表达式,分别都是 λ \lambda λ的函数

    • α ( λ ) = P { ∑ i = 1 n x i < C ∣ λ ∈ H 0 } \alpha(\lambda) = P\{\sum_{i=1}^n x_i<C | \lambda\in H_0\} α(λ)=P{i=1nxi<CλH0}
    • β ( λ ) = 1 − P { ∑ i = 1 n x i < C ∣ λ ∈ H 1 } \beta(\lambda) = 1-P\{\sum_{i=1}^n x_i<C | \lambda\in H_1\} β(λ)=1P{i=1nxi<CλH1}

    1.1.3 无偏检验概念

    一个检验不犯第二类错误的概率不小于犯第一类错误的概率:

    P { T ∈ W } = { ⩽ α , θ ∈ Θ 0 ⩾ α , θ ∈ Θ 1 P\{T\in W\}=\left \{ \begin{aligned} \leqslant \alpha, \theta \in \Theta_0\\ \geqslant \alpha, \theta \in \Theta_1 \end{aligned} \right. P{TW}={α,θΘ0α,θΘ1

    举一个例子,对于分布函数 p ( x ) = 1 θ e − x θ , 0 < x p(x)=\frac{1}{\theta}e^{-\frac{x}{\theta}},0<x p(x)=θ1eθx,0<x
    考虑假设检验 H 0 : θ = 2 ↔ H 1 : θ > 2 H_0:\theta=2 \leftrightarrow H_1:\theta > 2 H0:θ=2H1:θ>2
    设置拒绝域 W : { ( x 1 , x 2 ) : 9.5 < x 1 + x 2 } W:\{(x1, x2):9.5<x1+x2\} W:{(x1,x2):9.5<x1+x2}
    那么有落入拒绝域的概率为:
    P { ( x 1 , x 2 ) ∈ W } = 1 − P { x 1 + x 2 ⩽ 9.5 } = 1 − ∫ 0 9.5 ∫ 0 9.5 − x 2 1 θ 2 e − x 1 + x 2 θ d x 1 d x 2 = θ + 9.5 θ e − 9.5 θ P\{(x1, x2)\in W\}=1-P\{x_1+x_2\leqslant 9.5\} \\ =1-\int_{0}^{9.5}\int_{0}^{9.5-x_2}\frac{1}{\theta^2}e^{-\frac{x_1+x_2}{\theta}}dx_1dx_2=\frac{\theta+9.5}{\theta}e^{\frac{-9.5}{\theta}} P{(x1,x2)W}=1P{x1+x29.5}=109.509.5x2θ21eθx1+x2dx1dx2=θθ+9.5eθ9.5
    带入 H 0 H_0 H0得到 α = 0.0497 ≈ 0.05 \alpha=0.0497\approx 0.05 α=0.04970.05,另外一头的 β ⩾ 0.05 \beta\geqslant 0.05 β0.05

    1.1.4 Neyman-Pearson 引理

    1.2 经验分布

    1.2.1 经验分布

    经验分布函数

    F ^ n ( x ) = 1 n ∑ i = 1 n I ( X i ⩽ x ) \hat F_n(x)=\frac{1}{n}\sum_{i=1}^nI(X_i\leqslant x) F^n(x)=n1i=1nI(Xix)

    经验分布函数的性质

    (1) E ( F ^ n ( x ) ) = F ( x ) , V a r ( F ^ n ( x ) ) = F ( x ) ( 1 − F ( x ) ) n E(\hat F_n(x))=F(x),Var(\hat F_n(x))=\frac{F(x)(1-F(x))}{n} E(F^n(x))=F(x),Var(F^n(x))=nF(x)(1F(x))
    (2) M S E = V a r + b i a s 2 = V a r → 0 ( n → ∞ ) MSE=Var+bias^2=Var\to 0(n \to \infty) MSE=Var+bias2=Var0(n),而 F ^ n ( x ) ⟶ P F ( x ) \hat F_n(x)\stackrel{P}{\longrightarrow} F(x) F^n(x)PF(x)
    (3) sup ⁡ x ∣ F ^ n ( x ) − F ( x ) ∣ → a . s . 0 \sup\limits_{x} | \hat F_n(x)-F(x)| \stackrel{a.s.}{\to} 0 xsupF^n(x)F(x)a.s.0
    (4)DKW: ∀ ϵ > 0 , P { sup ⁡ x ∣ F ^ n ( x ) − F ( x ) ∣ > ϵ } ⩽ 2 e − 2 n ϵ 2 \forall \epsilon >0,P\{\sup\limits_{x} | \hat F_n(x)-F(x)|>\epsilon\}\leqslant 2e^{-2n\epsilon^2} ϵ>0,P{xsupF^n(x)F(x)>ϵ}2e2nϵ2

    其中,关于DKW不等式,可以得到对于任意分布函数的一个置信区间,只需要令
    ϵ n 2 = l n ( 2 α ) / ( 2 n ) L ( x ) = max ⁡ { F ^ n ( x ) − ϵ n , 0 } U ( x ) = min ⁡ { F ^ n ( x ) + ϵ n , 1 } \begin{aligned} \epsilon_n^2&=ln(\frac{2}{\alpha})/(2n) \\ L(x) &= \max \{\hat F_n(x)-\epsilon_n, 0\} \\ U(x) &=\min \{\hat F_n(x)+\epsilon_n, 1\} \end{aligned} ϵn2L(x)U(x)=ln(α2)/(2n)=max{F^n(x)ϵn,0}=min{F^n(x)+ϵn,1}
    就可以证明 [ L ( x ) , U ( x ) ] [L(x),U(x)] [L(x),U(x)]是一个 F ( x ) F(x) F(x) 1 − α 1-\alpha 1α置信区间
    P { L ( x ) ⩽ F ( x ) ⩽ U ( x ) } ⩾ 1 − α P\{L(x)\leqslant F(x) \leqslant U(x)\}\geqslant 1-\alpha P{L(x)F(x)U(x)}1α

    1.2.2 生存函数

    生存函数定义
    t t t时刻存活的概率,与分布函数相斥

    S ( t ) = P ( T > t ) = 1 − F ( t ) S(t)=P(T>t)=1-F(t) S(t)=P(T>t)=1F(t)

    危险函数定义
    t t t时刻存活的瞬时死亡率,为对数生存函数的负导数

    h ( t ) = f ( t ) 1 − F ( t ) = − d d t l n ( S ( t ) ) h(t)=\frac{f(t)}{1-F(t)}=-\frac{d}{dt}ln(S(t)) h(t)=1F(t)f(t)=dtdln(S(t))

    生存函数的估计

    S n ( t ) = 1 − F n ( t ) = 1 − 1 n ∑ i = 1 n I ( t i ⩽ t ) S_n(t)=1-F_n(t)=1-\frac{1}{n}\sum_{i=1}^nI(t_i\leqslant t) Sn(t)=1Fn(t)=1n1i=1nI(tit)

    对数经验生存函数的方差
    ∵ v a r ( g ( x ) ) ≈ [ g ′ ( x ) ] 2 v a r ( x ) a n d F n ( t ) ≈ F ( t ) ∴ v a r { l n [ 1 − F n ( t ) ] } ≈ v a r [ 1 − F n ( t ) ] [ 1 − F ( t ) ] 2 = 1 n F ( t ) [ 1 − F ( t ) ] [ 1 − F ( t ) ] 2 = F ( t ) n [ 1 − F ( t ) ] \begin{aligned} \because var(g(x)) &\approx [g'(x)]^2var(x)\quad and \quad F_n(t) \approx F(t) \\ \therefore var\{ln[1-F_n(t)]\} &\approx \frac{var[1-F_n(t)]}{[1-F(t)]^2} \\ &=\frac{1}{n}\frac{F(t)[1-F(t)]}{[1-F(t)]^2} =\frac{F(t)}{n[1-F(t)]} \end{aligned} var(g(x))var{ln[1Fn(t)]}[g(x)]2var(x)andFn(t)F(t)[1F(t)]2var[1Fn(t)]=n1[1F(t)]2F(t)[1F(t)]=n[1F(t)]F(t)

    1.3 检验的相对效率

    对于同一个假设检验问题,不同的统计量有不同的是函数,一般好的检验有较大的势。在显著性水平固定的情况下,样本量越大,势越大。比较两个检验的相对效率相当于比较两个检验在相同的势条件下,需要的样本量大小,量小者更优。

    渐进相对效率的英文是Asymptotic Relative Efficiency, Pitman ARE是一个代表

    针对原假设只取单个值的假设检验问题 H 0 : θ = θ 0 ↔ H 1 : θ ≠ θ 0 H_0:\theta=\theta_0\leftrightarrow H_1:\theta \neq \theta_0 H0:θ=θ0H1:θ=θ0,在原假设的一个邻域内,固定势 1 − β 1-\beta 1β,令备择假设 θ i \theta_i θi逼近原假设 θ 0 \theta_0 θ0,将两个统计量的样本量比值极限定义为渐进相对效率。

    取一个序列 lim ⁡ i → ∞ θ i = θ 0 , θ i ≠ θ 0 \lim\limits_{i \to \infty}{\theta_i}=\theta_0,\theta_i \neq \theta_0 ilimθi=θ0,θi=θ0,构造两种检验统计量 V , T V,T V,T在第 i i i个备择假设下需要样本量为 n i , m i n_i,m_i ni,mi.

    H 0 H_0 H0成立时, lim ⁡ i → ∞ g V n i ( θ 0 ) = lim ⁡ i → ∞ g T m i ( θ 0 ) = α \lim\limits_{i\to \infty}{g_{V_{n_i}}(\theta_0)} = \lim\limits_{i\to \infty}{g_{T_{m_i}}(\theta_0)}=\alpha ilimgVni(θ0)=ilimgTmi(θ0)=α
    H 1 H_1 H1成立时,$$

    通过一个定理,可以得到Pitman ARE的简便解法:

    1.4 分位数

    顺序统计量与分布函数
    分位数的定义

    假定 X X X服从概率密度为 f ( x ) f(x) f(x)的分布,令 0 < p < 1 0<p<1 0<p<1,满足等式 F ( m p ) = P ( X < m p ) ⩽ p , F ( m p + ) = P ( X ⩽ m p ) ⩾ p F(m_p)=P(X<m_p)\leqslant p,F(m_p+)=P(X\leqslant m_p)\geqslant p F(mp)=P(X<mp)p,F(mp+)=P(Xmp)p唯一的根 m p m_p mp称为分布 F ( x ) F(x) F(x) p p p分位数

    对于连续分布只需要

    满足等式 F ( m p ) = P ( X < m p ) = p F(m_p)=P(X<m_p)=p F(mp)=P(X<mp)=p的唯一的 m p m_p mp

    对比两个定义的差异性,离散性分布可能在 m p m_p mp上的概率非零,使得 F ( m p + ) > F ( m p ) F(m_p+)>F(m_p) F(mp+)>F(mp),找不到一个 F ( m p ) = p F(m_p)=p F(mp)=p的完美解,而连续分布显然可以。

    分位数的估计
    m p = { X ( k ) , k n + 1 = p , X ( k ) + ( X ( k + 1 ) − X ( k ) ) [ ( n + 1 ) p − k ] , k n + 1 < p < k + 1 n + 1 . m_p=\left \{ \begin{aligned} X_{(k)} \quad\quad\quad\quad\quad\quad\quad\quad &, \frac{k}{n+1}=p ,\\ X_{(k)}+(X_{(k+1)}-X_{(k)})[(n+1)p-k]&, \frac{k}{n+1}<p<\frac{k+1}{n+1}. \end{aligned} \right . mp=X(k)X(k)+(X(k+1)X(k))[(n+1)pk],n+1k=p,,n+1k<p<n+1k+1.
    注意,[(n+1)p-k]是一个连续插值

    分位数可视化应用

    • 箱线图
    • QQ图

    1.5 秩与秩检验统计量

    1.5.1 无结点秩

    R i = ∑ j = 1 n I ( X j ⩽ X i ) R_i=\sum_{j=1}^n I(X_j \leqslant X_i) Ri=j=1nI(XjXi)
    对于SRS样本 { X 1 , X 2 , . . . , X n } \{X_1,X_2,...,X_n\} {X1,X2,...,Xn},其秩 { R 1 , R 2 , . . . , R n } \{R_1,R_2,...,R_n\} {R1,R2,...,Rn}等可能地取 ( 1 , 2 , . . . , n ) (1,2,...,n) (1,2,...,n) n ! n! n!种排列中的一个。
    P ( R = ( i 1 , i 2 , . . . , i n ) ) = 1 n ! P(R=(i_1,i_2,...,i_n))=\frac{1}{n!} P(R=(i1,i2,...,in))=n!1

    期望与方差
    E ( R 1 ) = n + 1 2 V a r ( R i ) = E ( R i 2 ) − [ E ( R i ) ] 2 = n ( n + 1 ) ( 2 n + 1 ) 6 1 n − ( n + 1 ) 2 2 2 = n 2 − 1 12 c o v ( R i , R j ) = E [ R i − E ( R i ) ] [ R j − E ( R j ) ] = − n + 1 12 \begin{aligned} E(R_1)&=\frac{n+1}{2} \\ Var(R_i)&=E(R_i^2)-[E(R_i)]^2 \\ &= \frac{n(n+1)(2n+1)}{6}\frac{1}{n}-\frac{(n+1)^2}{2^2} \\ &= \frac{n^2-1}{12} \\ cov(R_i,R_j) &=E[R_i-E(R_i)][R_j-E(R_j)] \\ &=-\frac{n+1}{12} \end{aligned} E(R1)Var(Ri)cov(Ri,Rj)=2n+1=E(Ri2)[E(Ri)]2=6n(n+1)(2n+1)n122(n+1)2=12n21=E[RiE(Ri)][RjE(Rj)]=12n+1
    秩和与平方秩和
    ∑ i = 1 n α ( R i ) = ∑ r = 1 n r = n ( n + 1 ) 2 ∑ i = 1 n α ( R i ) 2 = ∑ r = 1 n r 2 = n ( n + 1 ) ( 2 n + 1 ) 6 \begin{aligned} \sum_{i=1}^n \alpha(R_i) &=\sum_{r=1}^n r \\ &=\frac{n(n+1)}{2} \\ \sum_{i=1}^n \alpha(R_i)^2 &=\sum_{r=1}^n r^2 \\ &=\frac{n(n+1)(2n+1)}{6} \end{aligned} i=1nα(Ri)i=1nα(Ri)2=r=1nr=2n(n+1)=r=1nr2=6n(n+1)(2n+1)

    1.5.2 有结点秩

    1.5.1.1 基本概念

    结长 τ \tau τ 一个数的重复个数
    结数 g g g 有重复的数的个数

    我们对于一段相同的数,这么处理他们的秩,先以 R j R_j Rj记假设不相同条件下的秩,且这组数据的第一个选手的秩为 r + 1 r+1 r+1
    α ( R j ) = 1 τ [ ( r + 1 ) + ( r + 2 ) + . . . + ( r + τ ) ] = r + τ + 1 2 \alpha(R_j)=\frac{1}{\tau}[(r+1)+(r+2)+...+(r+\tau)]=r+\frac{\tau+1}{2} α(Rj)=τ1[(r+1)+(r+2)+...+(r+τ)]=r+2τ+1

    1.5.1.2 性质

    相同一段长度的数据,如果全部相同或者如果全部不相同,他们的秩和不变,但是秩平方和不同。
    B 1 = ( r + 1 ) 2 + . . . + ( r + τ ) 2 = τ r 2 + r τ ( τ + 1 ) + τ ( τ + 1 ) ( 2 τ + 1 ) 6 B 2 = ( r + τ + 1 2 ) 2 × τ = τ r 2 + r τ ( τ + 1 ) + τ ( τ + 1 ) 2 4 B_1= (r+1)^2+...+(r+\tau)^2 = \tau r^2+r\tau(\tau + 1)+\frac{\tau(\tau+1)(2\tau+1)}{6} \\ B_2=(r+\frac{\tau+1}{2})^2\times \tau =\tau r^2+r\tau(\tau + 1)+\frac{\tau(\tau+1)^2}{4} B1=(r+1)2+...+(r+τ)2=τr2+rτ(τ+1)+6τ(τ+1)(2τ+1)B2=(r+2τ+1)2×τ=τr2+rτ(τ+1)+4τ(τ+1)2
    差值为 τ 3 − τ 12 \frac{\tau^3-\tau}{12} 12τ3τ,这是一个非常经典的数值,后面一直会见到

    一般来说,
    秩和与平方秩和满足如下:
    ∑ i = 1 n α ( R i ) = n ( n + 1 ) 2 ∑ i = 1 n α ( R i ) 2 = n ( n + 1 ) ( 2 n + 1 ) 6 − ∑ j = 1 g τ j 3 − τ j 12 \begin{aligned} \sum_{i=1}^n \alpha(R_i) &= \frac{n(n+1)}{2} \\ \sum_{i=1}^n \alpha(R_i)^2 &= \frac{n(n+1)(2n+1)}{6} - \sum_{j=1}^g \frac{\tau_j^3 - \tau_j}{12} \end{aligned} i=1nα(Ri)i=1nα(Ri)2=2n(n+1)=6n(n+1)(2n+1)j=1g12τj3τj

    还有两个重要性质

    性质1
    性质2

    1.6 U统计量

    非参数统计中得U统计量与参数统计中的充分完备统计量有着相似的地位,后者是用来找UMVUE的。

    1.6.1 单样本

    参数 θ \theta θ有如下定义

    E h ( X 1 , X 2 , . . . , X k ) = θ , ∀ θ ∈ Θ Eh(X_1,X_2,...,X_k)=\theta,\quad \forall \theta \in \Theta Eh(X1,X2,...,Xk)=θ,θΘ

    当这样的kernel存在,且 k k k是使得成立的最小样本量,参数 θ \theta θ就是 k k k阶可估参数。

    对称核的构造

    h ∗ ( X 1 , X 2 , . . . , X k ) = 1 k ! ∑ ( i 1 , i 2 , . . . , i k ) h ( X i 1 , X i 2 , . . . , X i k ) h^*(X_1,X_2,...,X_k)=\frac{1}{k!}\sum\limits_{(i_1,i_2,...,i_k)}h(X_{i_1},X_{i_2},...,X_{i_k}) h(X1,X2,...,Xk)=k!1(i1,i2,...,ik)h(Xi1,Xi2,...,Xik)

    U统计量的构造
    简单来说,就是把一个样本量大小为 n n n的样本,组合出所有的大小为 k k k的样本做 ( k n ) \left( _k^n \right ) (kn)个对称核,取平均。

    U ( X 1 , X 2 , . . . , X n ) = 1 ( k n ) ∑ ( i 1 , i 2 , . . . , i k ) h ∗ ( X i 1 , X i 2 , . . . , X i k ) U(X_1,X_2,...,X_n)=\frac{1}{\left( _k^n \right )}\sum\limits_{(i_1,i_2,...,i_k)}h^*(X_{i_1},X_{i_2},...,X_{i_k}) U(X1,X2,...,Xn)=(kn)1(i1,i2,...,ik)h(Xi1,Xi2,...,Xik)

    小练习:

    • 证明全体一阶矩存在的分布族,对于其1阶可估参数 θ = E ( X ) \theta=E(X) θ=E(X),对称核 h ( X 1 ) = X 1 h(X_1)=X_1 h(X1)=X1,其生成的U统计量为样本均值。
    • 证明全体二阶矩有限的分布族,对于其2阶可估参数 θ = E ( X − E X ) 2 \theta=E(X-EX)^2 θ=E(XEX)2,非对称核 h ( X 1 , X 2 ) = X 1 2 − X 1 X 2 h(X_1,X_2)=X_1^2-X_1X_2 h(X1,X2)=X12X1X2生成的U统计量就是样本方差。

    U统计量的性质

    期望 E ( U ( X 1 , X 2 , . . . , X n ) ) = θ E(U(X_1,X_2,...,X_n))=\theta E(U(X1,X2,...,Xn))=θ
    方差 v a r ( U ( X 1 , X 2 , . . . , X n ) ) = 1 ( k n ) ∑ c = 1 k ( c k ) ( k − c n − k ) σ c 2 var(U(X_1,X_2,...,X_n))=\frac{1}{(_k^n)} \sum_{c=1}^k(_c^k)(_{k-c}^{n-k})\sigma_c^2 var(U(X1,X2,...,Xn))=(kn)1c=1k(ck)(kcnk)σc2
    大样本量下,U统计量均方收敛到 σ 1 2 \sigma_1^2 σ12,从而U统计量是 θ \theta θ的相合估计

    备注,上面的 σ c 2 \sigma_c^2 σc2指的是:
    如果一组 { i 1 , i 2 , . . . , i k } \{i_1,i_2,...,i_k\} {i1,i2,...,ik}和另外一组 { j 1 , j 2 , . . . , j k } \{j_1,j_2,...,j_k\} {j1,j2,...,jk} c c c个元素是一样的,那么
    σ c 2 = c o v [ h ( X i 1 , X i 2 , . . . , X i k ) , h ( X j 1 , X j 2 , . . . , X j k ) ] = E ( h c ( X 1 , X 2 , . . . , X c ) − θ ) 2 \begin{aligned} \sigma_c^2 &=cov[h(X_{i_1},X_{i_2},...,X_{i_k}),h(X_{j_1},X_{j_2},...,X_{j_k})] \\ &=E(h_c(X_1,X_2,...,X_c)-\theta)^2 \end{aligned} σc2=cov[h(Xi1,Xi2,...,Xik),h(Xj1,Xj2,...,Xjk)]=E(hc(X1,X2,...,Xc)θ)2
    这里 h c ( X 1 , X 2 , . . . , X c ) = E ( x 1 , x 2 , . . . , x c , X c + 1 , . . . , X k ) h_c(X_1,X_2,...,X_c)=E(x_1,x_2,...,x_c,X_{c+1},...,X_k) hc(X1,X2,...,Xc)=E(x1,x2,...,xc,Xc+1,...,Xk)

    Hoeffding定理

    Wilcoxon检验统计量的核

    1.6.2 两样本

    问题列表

    • 为什么好的检验要有大的势
    • 为什么在显著性水平固定的情况下,样本量越大,势越大
    • 固定势,令备择假设逼近原假设怎么理解
    • 概率应该写成P()还是P{}
    • U统计量方差计算部分
    • U统计量的相合估计
    • 本章节所有的计算部分都很重要
    • 一致最优势检验
    • N-P引理的拓展
    展开全文
  • 为挖掘道路交通流中的异常模式,辅助判定路网中发生的非预期事件,Pang 等人[68]提出了带参数的基于似然比检验统计量的异常检测方法,识别明显偏离期望行为的邻近网格单元集以及时段区域. 首先统计一定时间内各网格到达...

    为挖掘道路交通流中的异常模式,辅助判定路网中发生的非预期事件,Pang 等人[68]提出了带参数的基于似然比检验统计量的异常检测方法,识别明显偏离期望行为的邻近网格单元集以及时段区域.

    首先统计一定时间内各网格到达的车辆数,根据用户特定的随机似然函数,对网格中的所有矩形区域进行 LRT 测试并排序,返回与期望行为有最大统计差异,即最高分值所在的少数矩形区域作为异常.

    该方法提供了用于发现持续异常以及新兴异常的两类统计模型,并设计了剪枝方法以减少需要检查计算 LRT 的矩形区域.文献[69]使用似然比检验统计量描述交通模式并建立统计模型,进而识别一定时间间隔内具有最大偏离预期行为的异常连续网格区域.。

    [68] Pang LXL, Chawla S, Liu W, Zheng Y. On mining anomalous patterns in road traffic streams. In: Proc. of the ADMA. 2011.237251. [doi: 10.1007/978-3-642-25856-5_18]

    [69] Pang LXL, Chawla S, Liu W, Zheng Y. On detection of emerging anomalous traffic patterns using GPS data. Data & Knowledge Engineering, 2013,87:357373. [doi: 10.1016/j.datak.2013.05.002]

    似然比检验和一般的假设检验(或称显著性检验)含义一样,但是效果更好,都是为了检验模型好坏或说是否恰当,比如:根据实际问题构造的模型中,检验模型参数是否显著(如果不显著,也就是说参数为0,就意味着该参数对应的自变量X对因变量y的几乎没有影响)。

    似然比检验构造的似然比检验统计量T,是比较全模型下极大似然估计和原模型H0下极大似然估计分别对应的似然函数,T比较大时(意味着全模型极大似然估计的似然函数>H0下的极大似然估计的似然函数,似然函数越大,未知情况越可能发生,相应的结果就越合理),这是应该拒绝原假设H0。还有一种是广义似然比检验,它对应的广义似然比检验统计量比较的就不是极大似然估计条件下的似然函数了,因为极大似然估计在非参数领域中可能不存在,即使存在也特别难求。

    在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性。
    而极大似然就相当于最大可能的意思。

    比如你一位同学和一位猎人一起外出打猎,一只野兔从前方窜过。只听一声枪响,野兔应声到下,如果要你推测,这一发命中的子弹是谁打的?你就会想,只发一枪便打中,由于猎人命中的概率一般大于你那位同学命中的概率,从而推断出这一枪应该是猎人射中的。
    这个例子所作的推断就体现了最大似然法的基本思想。

    似然函数举例:已知样本X,求参数θ

    假设我们需要调查我们学校的男生和女生的身高分布。你怎么做啊?你说那么多人不可能一个一个去问吧,肯定是抽样了。假设你在校园里随便地活捉了100个男生和100个女生。他们共200个人(也就是200个身高的样本数据,为了方便表示,下面,我说“人”的意思就是对应的身高)都在教室里面了。组成样本集X, X = x 1 , x 2 , … , x N X={x_1,x_2,…,x_N} X=x1,x2,,xN,其中 x i x_i xi表示抽到的第i个人的身高,N等于100,表示抽到的样本个数。

    假定男生的身高服从正态分布 ,女生的身高则服从另一个正态分布

    但是这两个分布的均值 u u u 和方差 ∂ 2 ∂^2 2 都不知道

    现在需要用极大似然法(MLE),通过这100个男生或100个女生的身高结果,即样本集X来估计两个正态分布的未知参数θ,问题定义相当于已知 X X X,求 θ θ θ,换言之就是求 p ( θ ∣ x ) p(θ|x) p(θx)

    因为这些男生(的身高)是服从同一个高斯分布 p ( x ∣ θ ) p(x|θ) p(xθ) 的。那么抽到男生A(的身高)的概率是 p ( x A ∣ θ ) p(xA|θ) p(xAθ),抽到男生B的概率是 p ( x B ∣ θ ) p(xB|θ) p(xBθ) ,考虑到他们是独立的,所以同时抽到男生A和男生B的概率是 p ( x A ∣ θ ) ∗ p ( x B ∣ θ ) p(xA|θ)* p(xB|θ) p(xAθ)p(xBθ)

    同理,我从分布是 p ( x ∣ θ ) p(x|θ) p(xθ)的总体样本中同时抽到这100个男生样本的概率,也就是样本集 X X X中100个样本的联合概率(即它们各自概率的乘积),用下式表示:
    L ( θ ) = L ( x 1 , ⋯   , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) , θ ∈ Θ L(\theta)=L\left(x_{1}, \cdots, x_{n} ; \theta\right)=\prod_{i=1}^{n} p\left(x_{i} ; \theta\right), \theta \in \Theta L(θ)=L(x1,,xn;θ)=i=1np(xi;θ),θΘ

    插一句,有个文章中会用这个表示p(x|θ),有的文章会用p(x;θ),不过,不管用哪种表示方法,本质都是一样的。当然,如果涉及到Bayes公式的话,用前者表示p(x|θ)更好。

    全校那么多男生中,我一抽就抽到这100个男生,而不是其他人,那说明在整个学校中,这100个人(的身高)出现的概率最大啊,这个概率就是上面这个似然函数 L ( θ ) L(θ) L(θ) ,怎么做到的呢?换言之,怎样的 θ θ θ 能让 L ( θ ) L(θ) L(θ) 最大?

    $$

    假定我们找到一个参数,能使似然函数L(θ)最大(也就是说抽到这100个男生的身高概率最大),则应该是“最可能”的参数值,相当于θ的极大似然估计量。记为:
    θ ^ = arg ⁡ max ⁡ l ( θ ) \hat{\theta}=\arg \max l(\theta) θ^=argmaxl(θ)

    这里的L(θ)是连乘的,为了便于分析,我们可以定义对数似然函数,将其变成连加的:
    H ( θ ) = ln ⁡ L ( θ ) = ln ⁡ ∏ i = 1 n p ( x i ; θ ) = ∑ i = 1 n ln ⁡ p ( x i ; θ ) H(\theta)=\ln L(\theta)=\ln \prod_{i=1}^{n} p\left(x_{i} ; \theta\right)=\sum_{i=1}^{n} \ln p\left(x_{i} ; \theta\right) H(θ)=lnL(θ)=lni=1np(xi;θ)=i=1nlnp(xi;θ)
    现在需要使θ的似然函数L(θ)极大化,然后极大值对应的θ就是我们的估计。

    对于求一个函数的极值,通过我们在本科所学的微积分知识,最直接的设想是求导,然后让导数为0,那么解这个方程得到的θ就是了(当然,前提是函数L(θ)连续可微)。但,如果θ是包含多个参数的向量那怎么处理呢?当然是求L(θ)对所有参数的偏导数,也就是梯度了,从而n个未知的参数,就有n个方程,方程组的解就是似然函数的极值点了,最终得到这n个参数的值。

    基于似然比检验的车辆异常检测

    他们把一个城市划分成统一的网格,并计算在一段时间内到达网格的车辆数量。我们的目标是识别连续的一组网格和时间间隔,他们的统计上最大的显著偏离预期的行为(即车辆的数量)。这些网格的对数似然比统计量的值落在χ2分布的尾部可能异常。

    在这里插入图片描述
    城市中个体去工作、上学或者回家等日常出行中,时间上有着较为规律的分配方式,从而具有固定重复的移动模式。

    一个区域的出行动态是区域内所有个体移动模式的聚合,因此也具有周期变化规律,并能通过区域人群行为的数量统计来刻画,比如乘坐出租车到访此区域的人群总数。

    城市生活并不是一成不变的,偶尔有一些事件发生,使得人群出现不同于寻常移动模式的行为,从而引起区域出行动态发生异常,由于事件内容不同,这种异常可能会出现这样的表现,比如,大量人群在某时间段聚集于某地区,使流入量增加,也有可能在此区域某时间段内人群到访量大幅度减少,由此可知事件本身具有时空属性。

    事件的影响可能是消极的,扰乱人们日常生活和社会的正常秩序,甚至威胁城市公共安全,因此事件检测与分析有助于了解城市异常动态,为应对突发城市状况作出决策提供参考信息,减少可能造成的损失。

    检测事件的最小时间单元,一天划分成 24 个时间段,表示为h=<h1,h2,…,h24>,依次编号为 0-23,0 表示 0:00-1:00 的时间范围,且时间段之间互相独立。

    参考

    CSDN博主「zouxy09」原文链接:https://blog.csdn.net/zouxy09/article/details/8537620

    展开全文
  • 单侧检验与双侧检验的判断与建立原假设 原假设与备择假设的建立 如何建立假设并没有固定的统一标准,假设的确定取决于要检验的问题以及检验的目的。一般来说,在考试中一般都将希望证明的命题放在备择假设,而把原有...
  • 【—–总体标准差已知时的单个正态总体...% 返回变量h,检验的p值,均值的置信区间muci,检验统计量的观测值zval [h,p,muci,zval] = ztest(x,100,2,0.05) 结果: 由h=1,p=0.0282拒绝原假设 且由置信区间的两个置信
  • 差异太高,无法由统计波动得出 步骤2:计算Z检验统计量 (Step 2: Calculating Z test statistic) Before we calculate, here are the required 在我们计算之前,这是必需的 Pre-Requisites: In-order to perform Z ...
  • 假设检验-U检验、T检验、卡方检验、F检验

    万次阅读 多人点赞 2019-06-20 16:47:41
    一、假设检验 假设检验是根据一定的假设条件,由样本推断总体的一种方法。 假设检验的基本思想是小概率反证法思想,小概率思想认为小概率事件在一次试验中基本上不可能发生,在这个方法下,我们首先对总体作出一个...
  • Mann-Whitney 统计量

    2021-04-04 21:22:07
    在笔者另一篇博客 ( https://blog.csdn.net/Raider_zreo/article/details/101380293 ) 中已经对 Wilcoxon 秩和检验有过介绍,事实上,Wilcoxon 统计量与 Mann-Whitney 统计量是等价的。Wilcoxon 秩和检验主要针对两...
  • x^2(卡方)统计量及拟合优度检验

    千次阅读 2017-07-17 00:17:00
    统计量进行显著性统计的重要内容之一 (卡方)统计量 卡方用于测定 两个分类变量之 间的相关程度 f0表示观察值频数:通常是样本或者现在已经测试的数据 fe表示期望值...
  • 统计检验中的两类错误 在进行假设检验时,分别提出原假设(Null Hypothesis)和备择假设(Alternative Hypothesis),检验结果可能出现的两类错误: 原假设实际上是正确的,而检验结果却拒绝原假设,称为第一类/...
  • 各类常用统计检验

    千次阅读 2018-11-05 10:24:37
    p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联 是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错...统计显著性(sig)就是出现目前样本这结果的机率。 ...
  • MannWhitney U-test 曼-惠特尼U检验 曼-惠特尼U检验定义 曼-惠特尼U检验实现 Wilcoxon rank-sum test威尔科克森符号秩检验 威尔科克森符号秩检验 威尔科克森符号秩检验实现 参考曼-惠特尼U检验与威尔科克森符号秩...
  • 曼-惠特尼U检验Mann–Whitney U Test

    千次阅读 2017-05-14 11:57:00
    sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) ...amp;utm_campaign=commission&amp;utm_source=cp-400000000398149&amp;utm_medium=share   医药统计项目联系QQ:231...
  • 充分统计量

    万次阅读 2016-05-11 09:20:42
    充分统计量标签: 模式分类@author lancelot-vim定义我们把任何关于样本集DD的函数都称为一个统计量,一个充分统计量就是一个关于样本集DD的函数ss(允许是向量形式的函数),其中包含了能有助于估计某种参数θ\theta...
  • 曼-惠特尼U检验(Mann-Whitney检验) How the Mann-Whitney test works Mann-Whitney检验又叫做秩和检验,是比较没有配对的两个独立样本的非参数检验。思想是这样的:假定要检验两组数据之间有没有差异。...
  • 基于构造 U统计量提出了检验对称随机变量分布对称中心的一种新的检验统计量,获得了该检验统计量在原假设与备择假设下的极限分布,并用Bootstrap方法来获得检验拒绝域的临界值,对几类重要对称分布下该检验统计量的检验...
  • 霍普金斯统计量是一种空间统计量,用于检验空间分布的变量的空间随机性,从而判断数据是否可以聚类。 计算步骤: 均匀地从D的空间中抽取n个点p1,p2,…pn,对每个点pi(1≤i≤n),找出pi在D中的最近邻,并令xi为pi与它...
  • u检验粗浅理解

    2019-04-01 10:31:00
    已知从正态母体N(u,σ2)中抽得容量为n的子样,求得子样的均值x,而且假设母体的方差σ2 为已知值,那么可利用统计量 u = (x -μ) / (σ / √n) ~ N(0,1) 检验母体期望μ是否与某一常数相符进行检...
  • 以 t 分布(未知)为基础的一类比较均数的假设检验方法,t 分布的发现使得小样本统计推断成为可能。 二、t 检验的应用条件 随机样本; 来自正态分布总体(小样本时); 两独立样本比较时,要求两总体方差相等...
  • 之后利用核密度估计的相关知识构造了一个渐近无偏的U统计量来估计该参数, 该检验统计量的值过大时接受随机变量是DRE 的假设. 在一定条件下证明了检验统计量的渐近正态性, 从而得到检验的渐近临界值. 最后确定了核...
  • 统计功效及最小样本是假设检验的进阶知识点 也是AB实验中非常常用的两个基本概念 因此,是各大厂面试官考察应聘者对假设检验的真实掌握情况 考点举例: ▶第一类错误的定义? ▶统计功效的定义,以及应用场景...
  • 各种统计检验及r语言实现

    千次阅读 2019-09-02 21:28:55
    1.单正态总体的检验 方差已知,检验均值:Z检验 z.test():BSDA包,调用格式: z.test(x, y = NULL, alternative = “two.sided”, mu = 0, sigma.x = NULL, sigma.y = NULL, conf.level = 0.95) x,y为样本数据,单...
  • 在笔者另一篇博客 ( https://blog.csdn.net/Raider_zreo/article/details/101380293 ) 中已经对 Wilcoxon 秩和检验有过介绍,事实上,Wilcoxon 统计量与 Mann-Whitney 统计量是等价的。Wilcoxon 秩和检验主要针对两...
  • 第2章 U统计量 47 2.1 基本概念 48 2.2 U统计量的渐近正态性 54 2.3 多样本U统计量 63 2.4 若干补充知识 68 第3章 秩统计量的极限理论 73 3.1 引言与例子 74 3.2 同分布情况下线性秩统计量的渐近正态性 81 ...
  • 样本估计量是样本的一个函数,在统计学中称作统计量,因此抽样分布也是指统计量的分布。以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个...
  • 在R语言中,对于嵌套(nest)模型可以使用likelihood ratio tests(似然比检验),对于非嵌套模型(Non-Nested Models) 可以使用Davidson and MacKinnon’s J-test。这两种检验在论文中经常使用如: 如下为其代码示例: ...
  • R语言的各种检验,如W检验(Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验),T检验,正态总体方差检验等函数示例。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 13,078
精华内容 5,231
关键字:

u检验统计量