精华内容
下载资源
问答
  • 目录导引非参数统计基本概念1.1 假设检验1.2 经验分布1.2.1 经验分布1.2.2 生存函数1.3 检验的相对效率1.4 分位数1.5 秩秩检验统计量1.6 U统计量 这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。...


    这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。

    1 非参数统计基本概念

    1.1 假设检验

    1.1.1 假设检验基本原理

    一句话理解:考察样本数据是否支持我们对总体的某种猜测

    搞明白假设检验需要搞明白三个问题:

    • 1、如何选择原假设和备择假设

    (1)我们通常将样本显示出的特点作为对总体的猜想,优先将其选作备择假设
    (2) H 0 H_0 H0是相对于 H 1 H_1 H1给出的
    (3)常见的备择假设:变量相关、多组样本位置参数不同

    • 2、 p p p值和显著性水平的作用是什么

    (1)假设检验的关键是检验统计量 T = T ( X 1 , X 2 , . . . , X n ) T=T(X_1,X_2,...,X_n) T=T(X1,X2,...,Xn)及其在 H 0 H_0 H0下的分布情况
    (2) p = P { ∣ T ∣ > t 0 } p=P\{|T|>t_0\} p=P{T>t0}越小,说明拒绝原假设犯错误的代价越小,即第一类错误概率

    • 3、两类错误

    (1)拒真错误 | decline H 0 H_0 H0 while H 0 H_0 H0 is true
    (2)取伪错误 | accept H 0 H_0 H0 while H 1 H_1 H1 is true

    1.1.2 Power Function

    势函数刻画了检验统计量 T T T 落入拒绝域的概率,我们先规范假设检验问题如下再一并给出势函数定义

    H 0 : θ ∈ Θ 0 v . s . H 1 : θ ∈ Θ 1 , Θ 0 ∩ Θ 1 = ∅ H_0:\theta \in \Theta_0 \quad v.s. \quad H_1:\theta \in \Theta_1,\quad \Theta_0 \cap \Theta1 = \empty H0:θΘ0v.s.H1:θΘ1,Θ0Θ1=
    g T n ( θ ) = P { T n ∈ W } , θ = Θ 1 ∪ Θ 2 g_{T_n}(\theta)=P\{T_n\in W\}, \quad \theta=\Theta_1 \cup \Theta_2 gTn(θ)=P{TnW},θ=Θ1Θ2

    θ ∈ Θ 0 \theta \in \Theta_0 θΘ0时, g T n ( θ ) g_{T_n}(\theta) gTn(θ)反映了犯第一类错误的概率。
    θ ∈ Θ 1 \theta \in \Theta_1 θΘ1时, g T n ( θ ) g_{T_n}(\theta) gTn(θ)反映了不犯第二类错误的概率。

    举个例子,考虑 H 0 : λ ⩾ 1 ↔ H 1 : λ < 1 H_0:\lambda \geqslant1\leftrightarrow H_1:\lambda < 1 H0:λ1H1:λ<1,以 ∑ i = 1 n x i \sum_{i=1}^n x_i i=1nxi为充分统计量,构造拒绝域 { ∑ i = 1 n x i < C } \{\sum_{i=1}^n x_i<C\} {i=1nxi<C}.则可以得到第一类错误和第二类错误的概率表达式,分别都是 λ \lambda λ的函数

    • α ( λ ) = P { ∑ i = 1 n x i < C ∣ λ ∈ H 0 } \alpha(\lambda) = P\{\sum_{i=1}^n x_i<C | \lambda\in H_0\} α(λ)=P{i=1nxi<CλH0}
    • β ( λ ) = 1 − P { ∑ i = 1 n x i < C ∣ λ ∈ H 1 } \beta(\lambda) = 1-P\{\sum_{i=1}^n x_i<C | \lambda\in H_1\} β(λ)=1P{i=1nxi<CλH1}

    1.1.3 无偏检验概念

    一个检验不犯第二类错误的概率不小于犯第一类错误的概率:

    P { T ∈ W } = { ⩽ α , θ ∈ Θ 0 ⩾ α , θ ∈ Θ 1 P\{T\in W\}=\left \{ \begin{aligned} \leqslant \alpha, \theta \in \Theta_0\\ \geqslant \alpha, \theta \in \Theta_1 \end{aligned} \right. P{TW}={α,θΘ0α,θΘ1

    举一个例子,对于分布函数 p ( x ) = 1 θ e − x θ , 0 < x p(x)=\frac{1}{\theta}e^{-\frac{x}{\theta}},0<x p(x)=θ1eθx,0<x
    考虑假设检验 H 0 : θ = 2 ↔ H 1 : θ > 2 H_0:\theta=2 \leftrightarrow H_1:\theta > 2 H0:θ=2H1:θ>2
    设置拒绝域 W : { ( x 1 , x 2 ) : 9.5 < x 1 + x 2 } W:\{(x1, x2):9.5<x1+x2\} W:{(x1,x2):9.5<x1+x2}
    那么有落入拒绝域的概率为:
    P { ( x 1 , x 2 ) ∈ W } = 1 − P { x 1 + x 2 ⩽ 9.5 } = 1 − ∫ 0 9.5 ∫ 0 9.5 − x 2 1 θ 2 e − x 1 + x 2 θ d x 1 d x 2 = θ + 9.5 θ e − 9.5 θ P\{(x1, x2)\in W\}=1-P\{x_1+x_2\leqslant 9.5\} \\ =1-\int_{0}^{9.5}\int_{0}^{9.5-x_2}\frac{1}{\theta^2}e^{-\frac{x_1+x_2}{\theta}}dx_1dx_2=\frac{\theta+9.5}{\theta}e^{\frac{-9.5}{\theta}} P{(x1,x2)W}=1P{x1+x29.5}=109.509.5x2θ21eθx1+x2dx1dx2=θθ+9.5eθ9.5
    带入 H 0 H_0 H0得到 α = 0.0497 ≈ 0.05 \alpha=0.0497\approx 0.05 α=0.04970.05,另外一头的 β ⩾ 0.05 \beta\geqslant 0.05 β0.05

    1.1.4 Neyman-Pearson 引理

    1.2 经验分布

    1.2.1 经验分布

    经验分布函数

    F ^ n ( x ) = 1 n ∑ i = 1 n I ( X i ⩽ x ) \hat F_n(x)=\frac{1}{n}\sum_{i=1}^nI(X_i\leqslant x) F^n(x)=n1i=1nI(Xix)

    经验分布函数的性质

    (1) E ( F ^ n ( x ) ) = F ( x ) , V a r ( F ^ n ( x ) ) = F ( x ) ( 1 − F ( x ) ) n E(\hat F_n(x))=F(x),Var(\hat F_n(x))=\frac{F(x)(1-F(x))}{n} E(F^n(x))=F(x),Var(F^n(x))=nF(x)(1F(x))
    (2) M S E = V a r + b i a s 2 = V a r → 0 ( n → ∞ ) MSE=Var+bias^2=Var\to 0(n \to \infty) MSE=Var+bias2=Var0(n),而 F ^ n ( x ) ⟶ P F ( x ) \hat F_n(x)\stackrel{P}{\longrightarrow} F(x) F^n(x)PF(x)
    (3) sup ⁡ x ∣ F ^ n ( x ) − F ( x ) ∣ → a . s . 0 \sup\limits_{x} | \hat F_n(x)-F(x)| \stackrel{a.s.}{\to} 0 xsupF^n(x)F(x)a.s.0
    (4)DKW: ∀ ϵ > 0 , P { sup ⁡ x ∣ F ^ n ( x ) − F ( x ) ∣ > ϵ } ⩽ 2 e − 2 n ϵ 2 \forall \epsilon >0,P\{\sup\limits_{x} | \hat F_n(x)-F(x)|>\epsilon\}\leqslant 2e^{-2n\epsilon^2} ϵ>0,P{xsupF^n(x)F(x)>ϵ}2e2nϵ2

    其中,关于DKW不等式,可以得到对于任意分布函数的一个置信区间,只需要令
    ϵ n 2 = l n ( 2 α ) / ( 2 n ) L ( x ) = max ⁡ { F ^ n ( x ) − ϵ n , 0 } U ( x ) = min ⁡ { F ^ n ( x ) + ϵ n , 1 } \begin{aligned} \epsilon_n^2&=ln(\frac{2}{\alpha})/(2n) \\ L(x) &= \max \{\hat F_n(x)-\epsilon_n, 0\} \\ U(x) &=\min \{\hat F_n(x)+\epsilon_n, 1\} \end{aligned} ϵn2L(x)U(x)=ln(α2)/(2n)=max{F^n(x)ϵn,0}=min{F^n(x)+ϵn,1}
    就可以证明 [ L ( x ) , U ( x ) ] [L(x),U(x)] [L(x),U(x)]是一个 F ( x ) F(x) F(x) 1 − α 1-\alpha 1α置信区间
    P { L ( x ) ⩽ F ( x ) ⩽ U ( x ) } ⩾ 1 − α P\{L(x)\leqslant F(x) \leqslant U(x)\}\geqslant 1-\alpha P{L(x)F(x)U(x)}1α

    1.2.2 生存函数

    生存函数定义
    t t t时刻存活的概率,与分布函数相斥

    S ( t ) = P ( T > t ) = 1 − F ( t ) S(t)=P(T>t)=1-F(t) S(t)=P(T>t)=1F(t)

    危险函数定义
    t t t时刻存活的瞬时死亡率,为对数生存函数的负导数

    h ( t ) = f ( t ) 1 − F ( t ) = − d d t l n ( S ( t ) ) h(t)=\frac{f(t)}{1-F(t)}=-\frac{d}{dt}ln(S(t)) h(t)=1F(t)f(t)=dtdln(S(t))

    生存函数的估计

    S n ( t ) = 1 − F n ( t ) = 1 − 1 n ∑ i = 1 n I ( t i ⩽ t ) S_n(t)=1-F_n(t)=1-\frac{1}{n}\sum_{i=1}^nI(t_i\leqslant t) Sn(t)=1Fn(t)=1n1i=1nI(tit)

    对数经验生存函数的方差
    ∵ v a r ( g ( x ) ) ≈ [ g ′ ( x ) ] 2 v a r ( x ) a n d F n ( t ) ≈ F ( t ) ∴ v a r { l n [ 1 − F n ( t ) ] } ≈ v a r [ 1 − F n ( t ) ] [ 1 − F ( t ) ] 2 = 1 n F ( t ) [ 1 − F ( t ) ] [ 1 − F ( t ) ] 2 = F ( t ) n [ 1 − F ( t ) ] \begin{aligned} \because var(g(x)) &\approx [g'(x)]^2var(x)\quad and \quad F_n(t) \approx F(t) \\ \therefore var\{ln[1-F_n(t)]\} &\approx \frac{var[1-F_n(t)]}{[1-F(t)]^2} \\ &=\frac{1}{n}\frac{F(t)[1-F(t)]}{[1-F(t)]^2} =\frac{F(t)}{n[1-F(t)]} \end{aligned} var(g(x))var{ln[1Fn(t)]}[g(x)]2var(x)andFn(t)F(t)[1F(t)]2var[1Fn(t)]=n1[1F(t)]2F(t)[1F(t)]=n[1F(t)]F(t)

    1.3 检验的相对效率

    对于同一个假设检验问题,不同的统计量有不同的是函数,一般好的检验有较大的势。在显著性水平固定的情况下,样本量越大,势越大。比较两个检验的相对效率相当于比较两个检验在相同的势条件下,需要的样本量大小,量小者更优。

    渐进相对效率的英文是Asymptotic Relative Efficiency, Pitman ARE是一个代表

    针对原假设只取单个值的假设检验问题 H 0 : θ = θ 0 ↔ H 1 : θ ≠ θ 0 H_0:\theta=\theta_0\leftrightarrow H_1:\theta \neq \theta_0 H0:θ=θ0H1:θ=θ0,在原假设的一个邻域内,固定势 1 − β 1-\beta 1β,令备择假设 θ i \theta_i θi逼近原假设 θ 0 \theta_0 θ0,将两个统计量的样本量比值极限定义为渐进相对效率。

    取一个序列 lim ⁡ i → ∞ θ i = θ 0 , θ i ≠ θ 0 \lim\limits_{i \to \infty}{\theta_i}=\theta_0,\theta_i \neq \theta_0 ilimθi=θ0,θi=θ0,构造两种检验统计量 V , T V,T V,T在第 i i i个备择假设下需要样本量为 n i , m i n_i,m_i ni,mi.

    H 0 H_0 H0成立时, lim ⁡ i → ∞ g V n i ( θ 0 ) = lim ⁡ i → ∞ g T m i ( θ 0 ) = α \lim\limits_{i\to \infty}{g_{V_{n_i}}(\theta_0)} = \lim\limits_{i\to \infty}{g_{T_{m_i}}(\theta_0)}=\alpha ilimgVni(θ0)=ilimgTmi(θ0)=α
    H 1 H_1 H1成立时,$$

    通过一个定理,可以得到Pitman ARE的简便解法:

    1.4 分位数

    顺序统计量与分布函数
    分位数的定义

    假定 X X X服从概率密度为 f ( x ) f(x) f(x)的分布,令 0 < p < 1 0<p<1 0<p<1,满足等式 F ( m p ) = P ( X < m p ) ⩽ p , F ( m p + ) = P ( X ⩽ m p ) ⩾ p F(m_p)=P(X<m_p)\leqslant p,F(m_p+)=P(X\leqslant m_p)\geqslant p F(mp)=P(X<mp)p,F(mp+)=P(Xmp)p唯一的根 m p m_p mp称为分布 F ( x ) F(x) F(x) p p p分位数

    对于连续分布只需要

    满足等式 F ( m p ) = P ( X < m p ) = p F(m_p)=P(X<m_p)=p F(mp)=P(X<mp)=p的唯一的 m p m_p mp

    对比两个定义的差异性,离散性分布可能在 m p m_p mp上的概率非零,使得 F ( m p + ) > F ( m p ) F(m_p+)>F(m_p) F(mp+)>F(mp),找不到一个 F ( m p ) = p F(m_p)=p F(mp)=p的完美解,而连续分布显然可以。

    分位数的估计
    m p = { X ( k ) , k n + 1 = p , X ( k ) + ( X ( k + 1 ) − X ( k ) ) [ ( n + 1 ) p − k ] , k n + 1 < p < k + 1 n + 1 . m_p=\left \{ \begin{aligned} X_{(k)} \quad\quad\quad\quad\quad\quad\quad\quad &, \frac{k}{n+1}=p ,\\ X_{(k)}+(X_{(k+1)}-X_{(k)})[(n+1)p-k]&, \frac{k}{n+1}<p<\frac{k+1}{n+1}. \end{aligned} \right . mp=X(k)X(k)+(X(k+1)X(k))[(n+1)pk],n+1k=p,,n+1k<p<n+1k+1.
    注意,[(n+1)p-k]是一个连续插值

    分位数可视化应用

    • 箱线图
    • QQ图

    1.5 秩与秩检验统计量

    1.5.1 无结点秩

    R i = ∑ j = 1 n I ( X j ⩽ X i ) R_i=\sum_{j=1}^n I(X_j \leqslant X_i) Ri=j=1nI(XjXi)
    对于SRS样本 { X 1 , X 2 , . . . , X n } \{X_1,X_2,...,X_n\} {X1,X2,...,Xn},其秩 { R 1 , R 2 , . . . , R n } \{R_1,R_2,...,R_n\} {R1,R2,...,Rn}等可能地取 ( 1 , 2 , . . . , n ) (1,2,...,n) (1,2,...,n) n ! n! n!种排列中的一个。
    P ( R = ( i 1 , i 2 , . . . , i n ) ) = 1 n ! P(R=(i_1,i_2,...,i_n))=\frac{1}{n!} P(R=(i1,i2,...,in))=n!1

    期望与方差
    E ( R 1 ) = n + 1 2 V a r ( R i ) = E ( R i 2 ) − [ E ( R i ) ] 2 = n ( n + 1 ) ( 2 n + 1 ) 6 1 n − ( n + 1 ) 2 2 2 = n 2 − 1 12 c o v ( R i , R j ) = E [ R i − E ( R i ) ] [ R j − E ( R j ) ] = − n + 1 12 \begin{aligned} E(R_1)&=\frac{n+1}{2} \\ Var(R_i)&=E(R_i^2)-[E(R_i)]^2 \\ &= \frac{n(n+1)(2n+1)}{6}\frac{1}{n}-\frac{(n+1)^2}{2^2} \\ &= \frac{n^2-1}{12} \\ cov(R_i,R_j) &=E[R_i-E(R_i)][R_j-E(R_j)] \\ &=-\frac{n+1}{12} \end{aligned} E(R1)Var(Ri)cov(Ri,Rj)=2n+1=E(Ri2)[E(Ri)]2=6n(n+1)(2n+1)n122(n+1)2=12n21=E[RiE(Ri)][RjE(Rj)]=12n+1
    秩和与平方秩和
    ∑ i = 1 n α ( R i ) = ∑ r = 1 n r = n ( n + 1 ) 2 ∑ i = 1 n α ( R i ) 2 = ∑ r = 1 n r 2 = n ( n + 1 ) ( 2 n + 1 ) 6 \begin{aligned} \sum_{i=1}^n \alpha(R_i) &=\sum_{r=1}^n r \\ &=\frac{n(n+1)}{2} \\ \sum_{i=1}^n \alpha(R_i)^2 &=\sum_{r=1}^n r^2 \\ &=\frac{n(n+1)(2n+1)}{6} \end{aligned} i=1nα(Ri)i=1nα(Ri)2=r=1nr=2n(n+1)=r=1nr2=6n(n+1)(2n+1)

    1.5.2 有结点秩

    1.5.1.1 基本概念

    结长 τ \tau τ 一个数的重复个数
    结数 g g g 有重复的数的个数

    我们对于一段相同的数,这么处理他们的秩,先以 R j R_j Rj记假设不相同条件下的秩,且这组数据的第一个选手的秩为 r + 1 r+1 r+1
    α ( R j ) = 1 τ [ ( r + 1 ) + ( r + 2 ) + . . . + ( r + τ ) ] = r + τ + 1 2 \alpha(R_j)=\frac{1}{\tau}[(r+1)+(r+2)+...+(r+\tau)]=r+\frac{\tau+1}{2} α(Rj)=τ1[(r+1)+(r+2)+...+(r+τ)]=r+2τ+1

    1.5.1.2 性质

    相同一段长度的数据,如果全部相同或者如果全部不相同,他们的秩和不变,但是秩平方和不同。
    B 1 = ( r + 1 ) 2 + . . . + ( r + τ ) 2 = τ r 2 + r τ ( τ + 1 ) + τ ( τ + 1 ) ( 2 τ + 1 ) 6 B 2 = ( r + τ + 1 2 ) 2 × τ = τ r 2 + r τ ( τ + 1 ) + τ ( τ + 1 ) 2 4 B_1= (r+1)^2+...+(r+\tau)^2 = \tau r^2+r\tau(\tau + 1)+\frac{\tau(\tau+1)(2\tau+1)}{6} \\ B_2=(r+\frac{\tau+1}{2})^2\times \tau =\tau r^2+r\tau(\tau + 1)+\frac{\tau(\tau+1)^2}{4} B1=(r+1)2+...+(r+τ)2=τr2+rτ(τ+1)+6τ(τ+1)(2τ+1)B2=(r+2τ+1)2×τ=τr2+rτ(τ+1)+4τ(τ+1)2
    差值为 τ 3 − τ 12 \frac{\tau^3-\tau}{12} 12τ3τ,这是一个非常经典的数值,后面一直会见到

    一般来说,
    秩和与平方秩和满足如下:
    ∑ i = 1 n α ( R i ) = n ( n + 1 ) 2 ∑ i = 1 n α ( R i ) 2 = n ( n + 1 ) ( 2 n + 1 ) 6 − ∑ j = 1 g τ j 3 − τ j 12 \begin{aligned} \sum_{i=1}^n \alpha(R_i) &= \frac{n(n+1)}{2} \\ \sum_{i=1}^n \alpha(R_i)^2 &= \frac{n(n+1)(2n+1)}{6} - \sum_{j=1}^g \frac{\tau_j^3 - \tau_j}{12} \end{aligned} i=1nα(Ri)i=1nα(Ri)2=2n(n+1)=6n(n+1)(2n+1)j=1g12τj3τj

    还有两个重要性质

    性质1
    性质2

    1.6 U统计量

    非参数统计中得U统计量与参数统计中的充分完备统计量有着相似的地位,后者是用来找UMVUE的。

    1.6.1 单样本

    参数 θ \theta θ有如下定义

    E h ( X 1 , X 2 , . . . , X k ) = θ , ∀ θ ∈ Θ Eh(X_1,X_2,...,X_k)=\theta,\quad \forall \theta \in \Theta Eh(X1,X2,...,Xk)=θ,θΘ

    当这样的kernel存在,且 k k k是使得成立的最小样本量,参数 θ \theta θ就是 k k k阶可估参数。

    对称核的构造

    h ∗ ( X 1 , X 2 , . . . , X k ) = 1 k ! ∑ ( i 1 , i 2 , . . . , i k ) h ( X i 1 , X i 2 , . . . , X i k ) h^*(X_1,X_2,...,X_k)=\frac{1}{k!}\sum\limits_{(i_1,i_2,...,i_k)}h(X_{i_1},X_{i_2},...,X_{i_k}) h(X1,X2,...,Xk)=k!1(i1,i2,...,ik)h(Xi1,Xi2,...,Xik)

    U统计量的构造
    简单来说,就是把一个样本量大小为 n n n的样本,组合出所有的大小为 k k k的样本做 ( k n ) \left( _k^n \right ) (kn)个对称核,取平均。

    U ( X 1 , X 2 , . . . , X n ) = 1 ( k n ) ∑ ( i 1 , i 2 , . . . , i k ) h ∗ ( X i 1 , X i 2 , . . . , X i k ) U(X_1,X_2,...,X_n)=\frac{1}{\left( _k^n \right )}\sum\limits_{(i_1,i_2,...,i_k)}h^*(X_{i_1},X_{i_2},...,X_{i_k}) U(X1,X2,...,Xn)=(kn)1(i1,i2,...,ik)h(Xi1,Xi2,...,Xik)

    小练习:

    • 证明全体一阶矩存在的分布族,对于其1阶可估参数 θ = E ( X ) \theta=E(X) θ=E(X),对称核 h ( X 1 ) = X 1 h(X_1)=X_1 h(X1)=X1,其生成的U统计量为样本均值。
    • 证明全体二阶矩有限的分布族,对于其2阶可估参数 θ = E ( X − E X ) 2 \theta=E(X-EX)^2 θ=E(XEX)2,非对称核 h ( X 1 , X 2 ) = X 1 2 − X 1 X 2 h(X_1,X_2)=X_1^2-X_1X_2 h(X1,X2)=X12X1X2生成的U统计量就是样本方差。

    U统计量的性质

    期望 E ( U ( X 1 , X 2 , . . . , X n ) ) = θ E(U(X_1,X_2,...,X_n))=\theta E(U(X1,X2,...,Xn))=θ
    方差 v a r ( U ( X 1 , X 2 , . . . , X n ) ) = 1 ( k n ) ∑ c = 1 k ( c k ) ( k − c n − k ) σ c 2 var(U(X_1,X_2,...,X_n))=\frac{1}{(_k^n)} \sum_{c=1}^k(_c^k)(_{k-c}^{n-k})\sigma_c^2 var(U(X1,X2,...,Xn))=(kn)1c=1k(ck)(kcnk)σc2
    大样本量下,U统计量均方收敛到 σ 1 2 \sigma_1^2 σ12,从而U统计量是 θ \theta θ的相合估计

    备注,上面的 σ c 2 \sigma_c^2 σc2指的是:
    如果一组 { i 1 , i 2 , . . . , i k } \{i_1,i_2,...,i_k\} {i1,i2,...,ik}和另外一组 { j 1 , j 2 , . . . , j k } \{j_1,j_2,...,j_k\} {j1,j2,...,jk} c c c个元素是一样的,那么
    σ c 2 = c o v [ h ( X i 1 , X i 2 , . . . , X i k ) , h ( X j 1 , X j 2 , . . . , X j k ) ] = E ( h c ( X 1 , X 2 , . . . , X c ) − θ ) 2 \begin{aligned} \sigma_c^2 &=cov[h(X_{i_1},X_{i_2},...,X_{i_k}),h(X_{j_1},X_{j_2},...,X_{j_k})] \\ &=E(h_c(X_1,X_2,...,X_c)-\theta)^2 \end{aligned} σc2=cov[h(Xi1,Xi2,...,Xik),h(Xj1,Xj2,...,Xjk)]=E(hc(X1,X2,...,Xc)θ)2
    这里 h c ( X 1 , X 2 , . . . , X c ) = E ( x 1 , x 2 , . . . , x c , X c + 1 , . . . , X k ) h_c(X_1,X_2,...,X_c)=E(x_1,x_2,...,x_c,X_{c+1},...,X_k) hc(X1,X2,...,Xc)=E(x1,x2,...,xc,Xc+1,...,Xk)

    Hoeffding定理

    Wilcoxon检验统计量的核

    1.6.2 两样本

    问题列表

    • 为什么好的检验要有大的势
    • 为什么在显著性水平固定的情况下,样本量越大,势越大
    • 固定势,令备择假设逼近原假设怎么理解
    • 概率应该写成P()还是P{}
    • U统计量方差计算部分
    • U统计量的相合估计
    • 本章节所有的计算部分都很重要
    • 一致最优势检验
    • N-P引理的拓展
    展开全文
  • 文章目录内容介绍参数数据非参数数据排名数据使用排序数据 内容介绍 统计统计方法领域的很大一部分专门用于已知分布情况的数据。 我们已经知道或能够很容易地识别数据分布的数据样本...参数数据与非参数数据的区别。

    内容介绍

    统计和统计方法领域的很大一部分专门用于已知分布情况的数据。

    我们已经知道或能够很容易地识别数据分布的数据样本称为参数数据。通常,参数用于指从常用的高斯分布中提取的数据。其中分布未知或不易识别的数据称为非参数数据。

    在使用非参数数据的情况下,可以使用专门的非参数统计方法来丢弃有关分布的所有信息。因此,这些方法通常被称为无分布方法.

    在本教程中,您将发现非参数统计及其在应用机器学习中的作用。

    阅读本文后您将了解:

    • 参数数据与非参数数据的区别。
    • 如何对数据进行排序,以丢弃有关数据分布的所有信息。
    • 可用于排序数据的统计方法示例。

    启动你的项目用我的新书机器学习统计,包括一步一步的教程而Python源代码所有示例的文件。

    我们开始吧。本教程分为四个部分:参数数据、非参数数据、排名数据、使用排序数据

    在这里插入图片描述

    参数数据

    参数数据是从已知数据分布中抽取的数据样本。

    这意味着我们已经知道了分布,或者我们已经确定了分布,并且我们知道了分布的参数。通常,参数是从高斯分布中提取的实值数据的缩写.这是一个有用的速记,但严格地说,这并不完全准确。

    如果我们有参数数据,我们可以使用参数方法。继续用参数意义上的高斯的速记。如果我们有参数数据,我们可以利用为假设高斯分布的数据而开发的整套统计方法,例如:

    • 摘要统计。
    • 变量之间的相关性。
    • 比较均值的显着性检验。

    一般来说,我们更喜欢使用参数数据,甚至使用数据准备方法来使数据参数化,比如数据转换,这样我们就可以利用这些被充分理解的统计方法。

    非参数数据

    不符合已知或充分理解的分布的数据称为非参数数据。

    由于许多原因,数据可能是非参数的,例如:

    • 数据不是实值的,而是序号、间隔或其他形式.
    • 数据是实值的,但不符合人们充分理解的形状。
    • 数据几乎是参数化的,但包含异常值、多峰、移位或其他特性。

    有一套方法,我们可以用于非参数数据,称为非参数统计方法。事实上,大多数参数方法都有一个等价的非参数版本。

    一般说来,非参数方法的结果不如它们的参数方法强大,这是因为它们必须被推广以适用于所有类型的数据。我们仍然可以使用它们来进行推理,并对发现和结果进行断言,但它们将不像用参数方法进行类似的断言那样具有相同的权重。有关分发的信息将被丢弃。

    在序数或区间数据的情况下,非参数统计是唯一可以使用的统计信息类型。对于实值数据,当您试图对不符合熟悉的高斯分布的数据进行声明时,应用机器学习需要使用非参数统计方法。

    排名数据

    在应用非参数统计方法之前,必须将数据转换为秩格式。

    因此,期望以秩格式表示数据的统计方法有时被称为秩统计,如秩相关和秩统计假设检验。

    排名数据和它的名字完全一样。程序如下:

    按升序排序示例中的所有数据。
    为数据样本中的每个唯一值指定一个从1到N的整数秩。
    例如,假设我们有以下数据示例,作为一列表示:

    0.020
    0.184
    0.431
    0.550
    0.620
    

    我们可以将其分类如下:

    0.020
    0.184
    0.431
    0.550
    0.620
    

    然后给每个值分配一个等级,从1开始:

    1 = 0.021055
    2 = 0.404622
    3 = 0.488733
    4 = 0.618510
    5 = 0.832803
    

    然后,我们可以将此过程应用于另一个数据样本,并开始使用非参数统计方法。

    对于特殊情况,如处理领带、使用反向排序和使用分数等级分数等,这一程序有不同的地方,但一般属性仍然有效。

    SciPy库提供曲轴数据()函数对数值数据进行排序,该函数支持排序上的一些变化。

    下面的示例演示了如何对数字数据集进行排序。

    from numpy.random import rand
    from numpy.random import seed
    from scipy.stats import rankdata
    
    seed(1)
    
    data = rand(1000)
    
    print(data[:10])
    
    ranked = rankdata(data)
    
    print(ranked[:10])
    

    运行该示例首先从均匀分布中生成1000个随机数的样本,然后对数据样本进行排序并打印结果。

    [4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01
     1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01
     3.96767474e-01 5.38816734e-01]
    [408. 721.   1. 300. 151.  93. 186. 342. 385. 535.]
    

    使用排序数据

    有一些统计工具可以用来检查样本数据是否适合给定的分布。

    正态性检验

    例如,如果我们将非参数数据作为非高斯数据,那么您可以使用统计方法来量化数据样本的高斯程度,如果数据不能通过这些测试,则使用非参数方法。

    所谓常态测试的统计方法有三个例子:

    • Shapiro-Wilk test.
    • Kolmogorov-Smirnov test.
    • Anderson-Darling test

    一旦决定使用非参数统计,就必须对数据进行排序。

    实际上,大多数用于推断的工具将自动执行样本数据的排序。然而,在执行测试之前了解如何转换样本数据是很重要的。

    在应用机器学习中,可以使用非参数统计方法解决关于数据的两种主要问题。

    变量间关系

    量化变量间相关性的方法称为关联方法。

    可以使用的两种非参数统计相关方法是:

    • Spearman 相关系数
    • Kendall 相关系数

    比较样本均值

    统计显着性检验是用来量化两个群体之间的均值是否有显著差异的方法。

    可以使用的四个非参数统计显着性检验是:

    • Mann-Whitney U Test.
    • Wilcoxon Signed-Rank Test.
    • Kruskal-Wallis H Test.
    • Friedman Test.
    展开全文
  • 数理统计参数估计

    千次阅读 2020-12-29 22:57:30
    learning why, thinking what, then forgetting how. 随着时间的流逝,知识总会被遗忘和...统计推断主要分为参数估计和假设检验,参数估计又分为点估计和区间估计。 2.1 参数的点估计 首先提出参数参数的估计量的.

    learning why, thinking what, then forgetting how.

    随着时间的流逝,知识总会被遗忘和被沉淀,我们无法选择去遗忘那一部分,但是我们可以选择去沉淀那一部分

    教材为:《数理统计(孙海燕等)》


    第二章 参数估计

    在解决实际问题中,当确定了总体的分布族后,我们要从样本来推断总体的具体分布或感兴趣的总体特征数。例如,总体的数学期望方差等。统计推断主要分为参数估计假设检验,参数估计又分为点估计区间估计


    2.1 参数的点估计

    首先提出参数参数的估计量的概念。

    • 参数:任何与总体有关的待估计量都看成参数。它可以是决定总体分布的参数θ本身,也可以是θ的实函数。不局限于参数统计范围,总体数学期望和方差等特征数也看成参数。
    • 参数的估计量:用于估计参数或其实函数的实值统计量。其值称为估计值。

    参数估计的实质:构造合适的统计量,作为参数的实函数的估计

    常见的参数估计方法:

    • 替换原理法:
      1. 频率替换法
      2. 矩估计法
    • 极大似然估计法
    • EM 算法

    2.1.1 频率替换估计

    1. 根据样本已知的频率确定一个使用的概率
    2. 将概率表示成待估计量的函数。
    3. 将待估计量反解成概率的函数。
    4. 使用已知样本频率替换总体概率。

    频率替换法所获得的估计可能不是唯一的。需要评估那个较优。

    2.1.2 矩估计

    大数定律可知,若总体矩存在,则样本矩依概率几乎必然收敛于相应的总体矩。只要总体矩存在,就可以用相应的样本矩作为总体矩的合理估计

    1. 使用待求的参数的函数表示总体原点矩总体中心矩
    2. 将待求的参数反解为总体原点矩或总体中心距的函数。
    3. 使用已知的样本原点矩或样本中心距替换总体原点矩或总体中心距。

    无论总体服从何种分布,只要总体的二阶矩存在,则样本平均值和二阶中心距就分别是总体均值和方差的矩估计

    只有总体矩存在,且总体原点绝对矩存在的阶数大于待估计参数的维数时,才能使用矩估计法来求参数的估计。

    根据不同总体矩的选择,矩估计有不唯一性,尽量选择低阶矩来估计参数。

    因为样本矩与总体分布的具体表达式无关,因此当总体的分布形式已知时,矩估计法并没有充分利用总体分布形式所提供的有关参数的信息。建立在已知总体分布形式上的估计方法就是极大似然估计法

    2.1.3 极大似然估计

    极大似然估计的直观思想:若在一次试验中,某个试验结果发生,则一般认为试验条件对这个结果的发生有利,也就是说这个结果发生的机会最大

    极大似然估计的前提一定是要假设数据总体的分布,如果不知道数据分布,是无法使用极大似然估计的。

    1. 写出联合概率分布函数作为似然函数
    2. 对似然函数取对数,并整理;
    3. 求导数,令导数为 0,得到似然方程
    4. 解似然方程,得到的参数即为参数的极大似然估计

    若考虑的参数空间不同,则极大似然估计的值会有所不同。求极大似然估计时一定要顾及参数所属的范围

    如果似然函数的偏导数不存在,或者似然方程组不存在,就只能根据原始定义采用别的方法求极大似然估计。例如穷举法求极大似然估计。

    由因子分解定理得,极大似然估计值一定是充分统计量的函数,这是极大似然估计的优点。而矩估计则不具有这样的性质。

    扩展:EM 算法(Expectation-Maximization)

    求解似然方程组可以获得极大似然估计的显式解,但是在实际中常常会遇到似然方程组难以求解的情况,此时可以求似然估计的近似解数值解。常用的求解方法有(1)Newton 法;(2)Fisher 法;(3)EM 算法等。

    前提:EM 算法和极大似然估计的前提是一样的,都要假设数据总体的分布,如果不知道数据分布,是无法使用 EM 算法的。

    问题描述:有些问题中的参数分为隐含参数模型参数,且参数之间相互依赖,单个参数易求得,而直接求出所有参数十分困难。因此可以采用迭代的方法,随机初始化一个参数,之后每次迭代求出一个参数,最终会收敛到一个解。

    算法流程

    1. 随机初始化模型参数的初始值
    2. 迭代:
      • E 步:计算隐含参数的条件概率期望
      • M 步:计算模型参数的极大似然解
    3. 迭代 E-M 步骤直到算法收敛

    算法理解:EM 算法可以理解为坐标上升法,类似梯度下降法。梯度下降法的目的是最小化代价函数,坐标上升法的目的是最优化似然函数。如下图所示,为迭代优化的路径,因为优化的函数不能直接求导,因此无法直接使用梯度下降法(或许两部的梯度下降法会有效),E-M 算法每次固定一个变量对另外的变量求极值,逐步逼近极值。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qAiY6g0v-1609253314429)(./img_statistics/em.jpg)]

    算法分析:E-M 算法可以保证收敛到一个稳定点,但是却不能保证收敛到全局的极大值点,因此它是局部最优的算法。当然,如果我们的优化目标是凸的,则 E-M 算法可以保证收敛到全局极大值,这点和梯度下降法这样的迭代算法相同。

    更详细的步骤参见EM 算法详解:人人都懂 EM 算法


    2.2 估计量的评优准则

    对同一参数用不同估计方法可能得到不同的估计,即使使用相同的估计方法也可能得到不同的估计,甚至任何统计量都可以作为参数的估计。需要讨论估计量的优良性,以下主要讨论均方误差准则无偏性准则,以及满足最小均方误差和无偏的一致最小方差无偏估计

    2.2.1 均方误差准则

    评估估计好坏的一个直观标准就是绝对误差 ∣ T ( x ) − q ( θ ) ∣ | T(x) - q(θ)| T(x)q(θ。使用数学期望消除随机因素产生的影响,使用平方以获得良好的数学性质,使用均方误差(MSE)作为评估估计好坏的标准:

    M S E θ ( T ( X ) ) = E θ [ T ( x ) − q ( θ ) ] 2 = V a r θ ( T ( X ) ) + ( E θ [ T ( x ) − q ( θ ) ] ) 2 MSE_θ( T(X) ) = E_θ [ T(x) - q(θ) ]^2 = Var_θ( T(X) ) + (E_θ [ T(x) - q(θ) ])^2 MSEθ(T(X))=Eθ[T(x)q(θ)]2=Varθ(T(X))+(Eθ[T(x)q(θ)])2

    均方误差等于方差加偏差

    总体方差的两个估计量:样本方差和样本二阶中心距。样本方差无偏,但是均方误差较大;样本二阶中心距均方误差较小,但是有偏。

    对于待估计参数,均方误差最小的估计是不存在的,因为均方误差最小总是无限趋向于完全准确估计。即所考虑的估计类的范围太大了,因此可以提出额外的合理要求,在缩小的估计类范围内寻求最优估计。最常见的合理要求就是无偏性准则

    2.2.2 无偏估计

    无偏估计即偏差为零,其均方误差等于方差

    E θ [ T ( x ) ] = q ( θ ) E_θ [ T(x) ] = q(θ) Eθ[T(x)]=q(θ)

    E θ ( T ( X ) ) = V a r θ ( T ( X ) ) E_θ( T(X) ) = Var_θ( T(X) ) Eθ(T(X))=Varθ(T(X))

    无偏估计的性质

    1. 无偏估计要求对于所有的参数 θ,估计都是无偏的。
    2. 无偏估计可能不存在
    3. 若无偏估计存在,则一般是不唯一的。
    4. 在均方误差准则下,无偏估计不一定是好的估计。无偏但是方差很大
    5. 函数变换下,无偏性可能消失。

    2.2.3 一致最小方差无偏估计

    一致最小方差无偏估计(UMVUE):在无偏估计中,方差最小的估计。

    建立在充分统计量基础上,寻找一致最小方差无偏估计的方法:利用无偏估计量对充分统计量取条件期望,可以降低无偏估计量的方差

    提出完全统计量的概念, E θ ( g ( T ) ) = 0 E_θ(g(T)) = 0 Eθ(g(T))=0,则 T 为完全统计量。

    完全充分统计量

    p ( x 1 , x 2 , … … , x n ; θ ) = c ( θ ) h ( x 1 , x 2 , … … , x n ) e x p { ∑ k = 1 m w k ( θ ) T k ( x 1 , x 2 , … … , x n ) ) } p(x_1, x_2, ……, x_n; θ) = c(θ)h(x_1, x_2, ……, x_n) exp\{ \sum^m_{k=1} w_k(θ)T_k(x_1, x_2, ……, x_n)) \} p(x1,x2,,xn;θ)=c(θ)h(x1,x2,,xn)exp{k=1mwk(θ)Tk(x1,x2,,xn))}

    如果 w(θ) 值域包含内点,则统计量 T 是完全充分的。

    Lehmann-Scheffe 定理提供了两种寻求可估函数 q(θ) 的一致最小方差无偏估计 T(x) 的方法,前提条件是必须知道完全充分统计量 S(x):

    1. q(θ) 的无偏估计 φ(x) 关于 S(x) 的条件数学期望 T ( x ) = E θ ( φ ( x ) ∣ S ( x ) ) T(x) = E_θ(φ(x) | S(x)) T(x)=Eθ(φ(x)S(x)),即为一致最小方差无偏估计。
    2. 使用 S(x) 的函数 h(S(x)) 将完全充分统计量无偏化,就可以得到一致最小方差无偏估计。

    实际的求解一致最小方差无偏估计的方法:

    1. 求解完全充分统计量,分解后w(θ) 值域包含内点
    2. 求解完全充分统计量是否无偏
    3. 构造函数使其无偏化

    2.3 信息不等式

    无偏估计方差的下界是多少?一致最小方差无偏估计的方差是否可以达到方差的下界?提出Fisher 信息量信息不等式

    Fisher 信息量为

    I ( θ ) = ( E θ [ ∂ ∂ θ l n p ( x ; θ ) ] ) 2 = − E θ [ ∂ 2 ∂ θ 2 l n p ( x ; θ ) ] I(θ) = (E_θ[\frac {\partial} {\partial θ} lnp(x;θ)])^2 = - E_θ[\frac {\partial^2} {\partial θ^2} lnp(x;θ)] I(θ)=(Eθ[θlnp(x;θ)])2=Eθ[θ22lnp(x;θ)]

    n I ( θ ) = I n ( θ ) nI(θ) = I_n(θ) nI(θ)=In(θ),而信息不等式给出了方差的下界

    V a r θ ( q ^ ) ≥ [ q ′ ( θ ) ] 2 n I ( θ ) Var_θ(\hat q) ≥ \frac {[q^{'}(θ)]^2} {nI(θ)} Varθ(q^)nI(θ)[q(θ)]2

    若信息不等式取到等号,则达到了方差的下界,为有效估计,否则可以计算有效率 [ q ′ ( θ ) ] 2 n I ( θ ) / V a r θ ( q ^ ) \frac {[q^{'}(θ)]^2} {nI(θ)} / Var_θ(\hat q) nI(θ)[q(θ)]2/Varθ(q^)

    一致最小方差无偏估计不一定是有效的,但是有效估计一定是一致最小方差无偏估计


    考试题型

    1. 均方误差
    2. 频率替换估计
    3. 矩估计
    4. 极大似然估计
    5. 一致最小方差无偏估计
    6. 凑无偏估计
    7. Fisher 信息量
    8. 判断一致最小方差无偏估计是否有效

    历年考题

    2019

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2016

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2015

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2014

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • 非参数估计的基本原理直方图方法 1. 前言 在很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。 在此背景下,采用非参数估计,即不对...

    非参数估计的基本原理与直方图方法

    1. 前言

    在很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。
    在此背景下,采用非参数估计,即不对概率密度函数的形式作任何假设,而是直接用样本估计出整个函数。当然,这种估计只能用数值方法取得,无法得到完美的封闭函数形式。
    从另一个角度来看,概率密度函数的参数估计实际是在指定的一类函数中选择一个函数作为对未知函数的估计,而非参数估计则可以是看作是从所有可能的函数中进行的一种选择。

    2. 直方图方法

    非参数概率密度估计的最简单方法:

    1. 把样本 x x x的每个分量在其取值范围内分成 k k k个等间隔的小窗。如果 x x x d d d维向量,则这种分割就会得到 k d k^d kd个小体积或者小舱,每个小舱的体积记作 V V V
    2. 统计落入每个小舱内的样本数目 q i q_i qi
    3. 把每个小舱内的概率密度看作是常数,并用 q i N V \frac{q_i}{NV} NVqi作为其估计值,其中 N N N为样本总数。

    3. 非参数估计的基本原理

    已知样本集 X = { x 1 , . . . , x N } X=\{x_1,...,x_N\} X={x1,...,xN}中的样本是从服从密度函数 ρ ( x ) \rho(x) ρ(x)的总体中独立抽取出来的,求 ρ ( x ) \rho(x) ρ(x)得估计 ρ ( x ) ^ \hat{\rho(x)} ρ(x)^。与参数估计相同,这里不考虑类别,即假设样本都是来自同一个类别,对不同类别只需要分别进行估计即可。
    考虑在样本所在空间得某个小区域 R R R,某个随机向量落入这个小区域得概率是:
    P R = ∫ R ρ ( x ) d x (1) P_R=\int_{R} \rho(x) dx \tag 1 PR=Rρ(x)dx(1)
    根据二项分布,在样本集 X X X中恰好有 k k k个落入小区域 R R R得概率是:
    P R = C N k P R k ( 1 − P R ) N − k (2) P_R=C_N^k P_R^k(1-P_R)^{N-k} \tag 2 PR=CNkPRk(1PR)Nk(2)
    其中 C N k C_N^k CNk表示在 N N N个样本中取 k k k个的组合数。 k k k的期望值是:
    E [ k ] = N P R (3) E[k]=NP_R \tag 3 E[k]=NPR(3)
    而且 k k k的众数(概率最大的取值)是:
    m = [ ( N + 1 ) P R ] (4) m=[(N+1)P_R] \tag 4 m=[(N+1)PR](4)
    其中 [   ] [ \ ] [ ]表示取整数。因此,当小区域中实际落入了 k k k个样本时, P R P_R PR的一个很好的估计是:
    P R ^ = k N (5) \hat{P_R} = \frac{k}{N} \tag 5 PR^=Nk(5)
    ρ ( x ) \rho(x) ρ(x)连续、且小区域 R R R的体积 V V V足够小时,可以假定在该小区域范围内 ρ ( x ) \rho(x) ρ(x)是常数,则式 ( 2 ) (2) (2)可近似为:
    P R = ∫ R ρ ( x ) d x = ρ ( x ) V (6) P_R=\int_R \rho(x) dx = \rho(x) V \tag 6 PR=Rρ(x)dx=ρ(x)V(6)
    用式 ( 5 ) (5) (5)代入 ( 6 ) (6) (6),可得在小区域 R R R的范围内:
    ρ ( x ) ^ = k N V (7) \hat{\rho(x)}=\frac{k}{NV} \tag 7 ρ(x)^=NVk(7)
    这就是在上面的直方图中使用的对小舱内概率密度的估计。

    1. 如果小舱选择过大,则假设 ρ ( x ) \rho(x) ρ(x)在小舱内为常数的做法就显得粗糙,导致最终估计出的密度函数也非常粗糙;
    2. 如果小舱过小,则有些小舱内可能就会没有样本或者很少样本,导致估计出的概率密度函数很不连续。

    所以,小舱的选择应该与样本总数相适应。理论上讲,假定样本总数是 n n n,小舱的体积为 V n V_n Vn,在 x x x附近位置上落入小舱的样本个数是 k n k_n kn,那么当样本趋于无穷多时 ρ ( x ) ^ \hat{\rho(x)} ρ(x)^收敛于 ρ ( x ) \rho(x) ρ(x)的条件是:
    ( 1 ) V n = 0 ( n → ∞ ) , ( 2 ) k n = ∞ ( n → ∞ ) , ( 3 ) k n n = 0 ( n → ∞ ) (1) V_n = 0 (n \rightarrow \infty),(2)k_n = \infty(n \rightarrow \infty),(3) \frac{k_n}{n} = 0(n \rightarrow \infty) (1)Vn=0(n)(2)kn=(n)(3)nkn=0(n)
    直观的解释是:随着样本数的增加,小舱体积应该尽可能小(1),同时又必须保证小舱内有充分多的样本(2),但每个小舱内的样本数又必须是总样本数中很小的一部分(3)

    展开全文
  • 1、参数检验和非参数检验的区别 定义不同: 参数检验:假定数据服从某分布(一般为正态分布),通过样本参数的估计量(x±s)对总体参数(μ)进行检验,比如t检验、u检验、方差分析。 非参数检验:不需要假定...
  • 今天介绍的工具是torchsummary,可以用来统计PyTorch每层的参数情况。一来可以用于参数剪枝优化,二来可以用于了解模型的参数分布。 安装: pip install torchsummary 使用: from torchvision.models.alexnet...
  • 文章目录1 参数检验与非参数检验2 非参数检验方法2.1 单样本总体分布检验2.1.1 卡方检验2.1.2 二项分布检验2.1.3 游程检验2.1.4 Kolmogorov—Smirnov检验2.2 两独立样本差异性检验2.2.1 Kolmogorov—Smirnov检验...
  • bert参数统计

    2021-11-08 14:13:21
    统计bert参数的时候,一共要考虑5部分。 1)第一部分:输入层包含三项 token embedding 词表大小*768 position emb max_len(512*768) segment emb 两个取值0,1(2*768) 2)第二部分:多头注意力
  • 参数一般是确定但未知的,统计量是变化但可知的。统计统计量是统计理论中用来对数据进行分析、检验的变量。宏观量是大量微观量的统计平均值,具有统计平均的意义,对于单个微观粒子,宏观量是没有意义的.相对于...
  • 以LeNet为例: import torch from torchsummary import summary
  • 【ML】什么是参数模型和非参数模型

    千次阅读 2020-12-18 11:20:11
    今天来总结一下参数模型和非参数模型。 一、前言 参数模型(parametric model)和非参数模型(non-parametric model)作为数理统计学中的概念,现在也常用于机器学习领域。 在统计学中,参数模型通常假设总体(样本、数据...
  • 统计量 相对于参数,是描述样本特征的特定数据,常用的有样本均值,样本标准差,样本方差,样本比例等,统计量是根据样本数据计算出来的量,是样本的函数 三.总体,样本,参数统计量的关系 可以从图中看出,样本...
  • shell 参数统计

    2021-12-05 11:26:07
    shell 参数统计
  • 这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。 3 两独立样本数据的位置和尺度推断 3.1 Brown-Mood 中位数检验 3.2 Wilcoxon-Mann-Whitney 秩和检验 3.3 Mood 方差...
  • 描述性统计参数估计和假设检验

    万次阅读 多人点赞 2021-04-03 01:15:43
    描述性统计所提取的统计的信息称为统计量,包括频数频率,反映集中趋势的均值、中位数、众数和分位数,反映离散程度的极差、方差和标准差,反映分布形状(相对于正态分布)的偏度和峰度。 变量分为类别变量和数值...
  • “医统无忧智能统计软件”是一个免费医学统计分析软件,主要用于完成两组间基线数据t检验、非参数比较和卡方检验。 在临床科研中,两组间基线数据的比较是最常见的统计分析需求。绝大部分的科研文章中的第一个表格...
  • 本文将涉及到数理统计的最后一个模块——参数估计,后续将更新的模块是多项式计算、数据插值和曲线拟合。在讲述使用matlab来实现参数估计之前,有必要去了解一些基本原理。1.离散型随机变量的极大似然估计法:(1) ...
  • 什么是参数模型(LR)与非参数模型(SVM)? 在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上构建的模型称为参数模型;非参数模型...
  • 4.4.5 二值变量下的 Cochran 检验 4.5 均衡的不完全随机区组设计 4.5.1 数据类型 4.5.2 Durbin 不完全区组分析法 这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。 这...
  • 浅析R语言多组定量资料非参数检验的多组比较及簇状柱形图显著性字母标记之分面分组的图形艺术R语言多组定量资料非参数检验的多组比较非参数检验的应用本流程是在刘永鑫老师提供的代码资料指导下完成...
  • Mann-Whitney检验 曼-惠特尼U检验又称“曼-惠特尼秩和检验”,是由H.B.Mann和D.R.Whitney于1947年提出的。它假设两个样本分别来自除了总体均值以外完全相同的两个总体,目的是...比较两个独立组别最常用的非参数检验是M
  • ,t值和P值都用来判断统计上是否显著的指标。p值就是拒绝原假设的最小alpha值嘛,把统计量写出来,带进去算出来之后,根据统计量的分布来算p值啊,举个例子,比如.问一个题目,怎么分辨统计量用哪个的。为什么!!!...
  • MySQL中的统计数据

    万次阅读 2021-09-06 21:16:28
    基于索引统计数据的成本计算 有时候使用索引执行查询时会有许多单点区间,例如使用in语句就很容易产生非常多的单点区间,比如下边这个查询(下边查询语句中的…表示还有很多参数): select * from t_emp where ...
  • 参数估计的MATLAB实现

    千次阅读 2021-04-22 06:25:43
    1、1,参数估计MATLAB实现,点估计,区间估计,2,点估计,区间估计,矩估计,最大似然估计,参数估计,点估计,参数估计主要内容,3,点估计,Matlab统计工具箱给出了常用概率分布中参数的点估计(采用最大似然估计法)区间估计,...
  • 从字节或字符串数组中得到一个字符串,统计该字符串中字母 a 的出现次数。 public class Test2 { public static void main(String[] args) { // TODO 自动生成的方法存根 char e[]= {'h','o','a','s','a'};/...
  • 版权: 本文由【墨理三生】原创、在CSDN首发、如需转载,请联系博主 ❤️ 如果文章对你有帮助、欢迎一键三连 Pytorch中计算自己模型的FLOPs | yolov5s 网络模型参数量、计算量统计 文章目录 FLOPS 基础概念理解 ...
  • numpy统计分布方法

    2020-12-24 17:29:50
    numpy统计分布方法 最小值和最大值 min():获取整个数组中最小的值 max():获取整个数组中最大的值 axis参数: 如果没有axis参数则获取整个数组的最小值或最大值,返回的为一个值。 如果axis=0(1),则获取对应...
  • LOGISTIC模型参数估计及预测实例.pdf

    千次阅读 2021-01-17 18:45:58
    LOGISTIC模型参数估计及预测实例维普资讯ELogistic模型参数估计及预测实例 13Logistic模型参数估计及预测实例’杨昭军 义民 o2l,/7、(湖南税务高专 411100) (西北工业大学)摘 ...
  • 贝叶斯统计与建模

    2021-01-29 13:15:50
    贝叶斯统计是基于贝叶斯定理的数据分析和参数估计方法,其独特性在于统计模型中的观测和未观测参数是基于联合概率分布的,即先验分布和数据分布。 典型的贝叶斯工作流程包括三个主要步骤(参见下图 1):通过先验...
  • 参数估计假设验证

    千次阅读 2021-01-14 11:07:50
    假设检验是用来判断样本样本、样本总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。 2、推断的角度不同:在参数估计中,总体参数在估计前未知,参数估计是利用样本信息对总体参数作出估计。假设检验...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 784,708
精华内容 313,883
关键字:

参数统计与非参数统计