精华内容
下载资源
问答
  • 二项式分布的格式
    千次阅读
    2021-04-18 14:19:00

    二项分布

    1. 求n次独立重复试验中事件A恰好发生k次的概率P。

    命令:pdf 或 binopdf 格式:pdf (‘bino’, k, n, p) 或 binopdf (k, n, p)

    说明:该命令的功能是计算二项分布中事件A恰好发生k次的概率。pdf为通用函数,bino表示二项分布,binopdf为专用函数,n为试验总次数,k为n次试验中,事件A发生的次数,p为每次试验事件A发生的概率。

    2. 在n次独立重复试验中,事件A至少发生k次的概率P_s。

    命令:cdf 或 binocdf 格式:cdf (‘bino’, k, n, p) 或 binocdf (k, n, p)

    说明:该命令的功能是返回随机变量X≤k的概率之和(即累积概率值)。其中cdf为通用函数,binocdf为专用函数,n为试验总次数,k为n次试验中,事件A发生的次数,p为每次试验事件A发生的概率。

    所以,至少发生k次的概率为 P_s = 1- cdf (‘bino’, k-1, n, p) 或 P_s = 1- binocdf (k-1, n, p)

    例8-1 某机床出次品的概率为0.01,求生产100件产品中: (1)恰有1件次品的概率; (2)至少有1件次品的概率。

    解:此问题可看作是100次独立重复试验,每次试验出次品的概率为0.01。

    (1)恰有1件次品的概率 在Matlab命令窗口键入:

    p=pdf(‘bino’,1,100,0.01) %利用通用函数计算恰好发生k次的概率

    p = 0.3697

    或在Matlab命令窗口键入:

    p=binopdf(1,100,0.01) %利用专用函数计算恰好发生k次的概率

    p = 0.3697

    (2)至少有1件次品的概率 在Matlab命令窗口键入:

    p=1-cdf(‘bino’,0,100,0.01) % cdf是用来计算X≤k的累积概率值的通用函数,这里是计算X≥1的概率值。

    p = 0.6340

    或在Matlab命令窗口键入:

    p=1-binocdf(0,100,0.01) p = 0.6340

    更多相关内容
  • [LaTex]分数和二项式

    千次阅读 2020-07-09 22:41:00
    Fractions and binomial coefficients are common mathematical elements with similar characteristics - one number goes...在表达式中使用分数和二项式系数很简单直观的。 The binomial coefficient is defined by

    分数和二项式系数是具有相似特征的常见数学元素 —— 一个数字位于另一个数字之上。 本文介绍了如何在LATEX中对它们进行排版。

    引言

    在表达式中使用分数和二项式系数很简单直观的。

    The binomial coefficient is defined by the next expression:
    
    \[
        \binom{n}{k} = \frac{n!}{k!(n-k)!}
    \]

    为了使这些命令起作用,必须在文件的序言中添加如下一行来导入包amsmath:

    \usepackage{amsmath}
    

    显示分数

    分数的外观可能会根据上下文而变化

    Fractions can be used alongside the text, for 
    example \( \frac{1}{2} \), and in a mathematical 
    display style like the one below:
    
    \[\frac{1}{2}\]

    您可能已经猜到了,命令\ frac {1} {2}是显示分数的命令。 第一对大括号内的文本是分子,第二对大括号内的文本是分母。

    同样,分数的文本大小会根据其周围的文本而变化。 您可以根据需要手动设置。

    When displaying fractions in-line, for example \(\frac{3x}{2}\) 
    you can set a different display style: 
    \( \displaystyle \frac{3x}{2} \).
    
    This is also true the other way around
    
    \[ f(x)=\frac{P(x)}{Q(x)} \ \ \textrm{and} 
    \ \ f(x)=\textstyle\frac{P(x)}{Q(x)} \]

    命令 \displaystyle 将格式化分数,就好像它处于数学显示模式一样。 另一方面,\textstyle 将更改分数的样式,就好像它是文本的一部分一样。

    连续分数

    分数的用法非常灵活,可以嵌套它们以获得更复杂的表达式。

    The fractions can be nested
    
    \[ \frac{1+\frac{a}{b}}{1+\frac{1}{1+\frac{1}{a}}} \]
    
    Now a wild example
    
    \[
      a_0+\cfrac{1}{a_1+\cfrac{1}{a_2+\cfrac{1}{a_3+\cdots}}}
    \]

    上一个示例中显示的第二个小数部分使用了软件包amsmath提供的命令\cfrac {} {}(请参见介绍),该命令显示嵌套的小数部分而不更改字体大小。 对连续分数特别有用。

    二项式系数

    二项式系数是数学表达式中的常见元素,在LATEX中显示它们的命令与分数非常相似。

    The binomial coefficient is defined by the next expression:
    
    \[
        \binom{n}{k} = \frac{n!}{k!(n-k)!}
    \]
    
    And of course this command can be included in the normal 
    text flow \(\binom{n}{k}\).

    如您所见,命令 \binom {} {} 将使用括号内传递的参数来打印二项式系数。

    参考指南

    与连续分数的稍有不同并且更复杂的示例

    Final example
    
    \newcommand*{\contfrac}[2]{%
    {
      \rlap{$\dfrac{1}{\phantom{#1}}$}%
      \genfrac{}{}{0pt}{0}{}{#1+#2}%
    }
    }
    \[
      a_0 +
      \contfrac{a_1}{
      \contfrac{a_2}{
      \contfrac{a_3}{
      \genfrac{}{}{0pt}{0}{}{\ddots}
      }}}
    \]

     

    完整的源码:

    \documentclass{article}
    \usepackage[utf8]{inputenc}
    \usepackage{geometry}
    \geometry{textwidth=7cm}
    \usepackage{amsmath}
    
    \title{Fractions and Binomials}
    \author{An example from Overleaf}
    
    \begin{document}
    
    \maketitle
    %Introductory example
    %--------------------------------------------------------------------
    Given two polynomials $P(x)$ and $Q(x)$, a rational expression can be defined as the ratio of the two polynomials
    $f(x)=\frac{P(x)}{Q(x)}$. These expressions are also called polynomial fractions.
    %--------------------------------------------------------------------
    
    \vspace{1cm}
    
    Fractions can be used alongside the text, for example \( \frac{1}{2} \), and in a mathematical display style like the one below:
    
    \[\frac{1}{2}\]
    
    \vspace{1cm}
    
    
    When displaying fractions in-line, for example \(\frac{3x}{2}\) you can set a different display style: \( \displaystyle \frac{3x}{2} \).
    
    This is also true the other way around
    
    \[ f(x)=\frac{P(x)}{Q(x)} \ \ \textrm{and} \ \ f(x)=\textstyle\frac{P(x)}{Q(x)} \]
    
    \vspace{1cm}
    
    The fractions can be nested
    
    \[ \frac{1+\frac{a}{b}}{1+\frac{1}{1+\frac{1}{a}}} \]
    
    
    Now a wild example
    
    \[
      a_0+\cfrac{1}{a_1+\cfrac{1}{a_2+\cfrac{1}{a_3+\cdots}}}
    \]
    
    \newpage
    %Combinatorial coefficients
    The binomial coefficient is defined by the next expression:
    
    \[
        \binom{n}{k} = \frac{n!}{k!(n-k)!}
    \]
    
    And of course this command can be included in the normal text flow \(\binom{n}{k}\).
    
    \vspace{1cm}
    
    %Final examaple
    Final example
    
    \newcommand*{\contfrac}[2]{%
      {
        \rlap{$\dfrac{1}{\phantom{#1}}$}%
        \genfrac{}{}{0pt}{0}{}{#1+#2}%
      }
    }
    \[
      a_0 +
      \contfrac{a_1}{
        \contfrac{a_2}{
          \contfrac{a_3}{
            \genfrac{}{}{0pt}{0}{}{\ddots}
      }}}
    \]
    
    
    
    
    
    \end{document}
    

    翻译如下文章:

    原文:https://www.overleaf.com/learn/latex/Fractions_and_Binomials

    展开全文
  • 在讲义的第一部分中,Ng首先讲解了什么叫做监督学习,其次讲了用最小二乘法求解的线性模型,用sigmod函数表示响应函数的logistics回归,接着,利用这两种模型,推出了一种应用十分广泛的指数分布族,在指数分布族的...

    作为一名机器学习的爱好者,最近在跟着Andrew Ng 的 Machine Learning 学习。在讲义的第一部分中,Ng首先讲解了什么叫做监督学习,其次讲了用最小二乘法求解的线性模型,用sigmod函数表示响应函数的logistics回归,接着,利用这两种模型,推出了一种应用十分广泛的指数分布族,在指数分布族的基础上,进行模型的假设,创建了GLM模型,利用这种模型,创建了多项式分布的模型求解(softmax regression),在这中间,还穿插讲了极大似然估计,高斯分布、伯努利分布的cost function函数选择的概率解释,一种新的求解线性模型的算法—局部加权平均法,以及求解函数最值的两种方法:梯度下降法和牛顿法。
    但这样存储在脑中的这些东西显得太过杂乱,希望对脑中这些知识进行梳理,能够和同样喜欢机器学习的人交流学习。

    1
    整理目录为
    这里写图片描述
    2
    3
    4
    5
    6
    7
    8
    9
    由于在CSDN编辑器上边敲公式太繁琐,因此直接在word里边编辑的,后来转换为图片格式上传了上来。

    展开全文
  • 二项分布4. 正态分布5. 其他连续分布5.1 卡方分布5.2 t分布5.3 F分布6. 变量的关系6.1 联合概率分布6.2变量的独立性6.3 变量的相关性6.4 上证指数与深证成指相关性分析 统计分析是可以帮助人们认清、刻画不确定性的...


    统计分析是可以帮助人们认清、刻画不确定性的方法。总体是某一特定事物可能发生结果的集合, 随机变量(Random Variable) 则是一个不确定事件结果是数值函数(Function)。也就是说,把不确定事件的结果用数值来表述,即得到随机变量。随机变量又分为 离散型随机变量(Discrete Random Variable)连续型随机变量(Continuous Radom Variable)

    1. 概率与概率分布

    概率(Probability)是用于刻画事物不确定性的一种测度(Measure),根据概率的大小,我们可以判断不确定性的高低。

    1.1离散型随机变量

    1.1.1概率质量函数(PMF)

    假设X是一个离散型随机变量,其所有可能取值为集合{ak},k=1,2,…,我们定义X的概率质量函数(Probability Mass Function) 为:
    f X ( a k ) = P { X = a k } , k = 1 , 2 , ⋯ \displaystyle {f_X}\relax{(a_k)}=P\{X=a_k\} , k=1,2,\cdots fX(ak)=P{X=ak},k=1,2,
    概率质量函数可以量化地表达随机变量X取每个数值可能性的大小

    1.1.2 累计分布密度函数(CDF)

    对于离散型随机变量,累计分布函数可以用概率质量函数累加来获得:
    F X ( a ) = P { X ≤ a } = ∑ i : a i ≤ a f X ( a i ) \displaystyle {F_X}\relax{(a)}=P\{X\leq a\}=\sum_{i:a_i\leq a}{f_X}\relax{(a_i)} FX(a)=P{Xa}=i:aiafX(ai)

    1.1.3 Python的实现

    在Python中我们可以通过Numpy包的random模块中的choice()函数来生成服从待定的概率质量函数的随机数。
    choice()函数:

    • choice(a, size=None, replace=True, p=None)
      参数a: 随机变量可能的取值序列。
      参数size: 我们要生成随机数数组的大小。
      参数replace: 决定了生成随机数时是否是有放回的。
      参数p:为一个与x等长的向量,指定了每种结果出现的可能性。

    计算频数分布使用value_counts()函数

    # 以数组形式
    import numpy as np
    import pandas as pd
    
    RandomNumber=np.random.choice([1,2,3,4,5],\
    size=100, replace=True,\
    p=[0.1,0.1,0.3,0.3,0.2])
    pd.Series(RandomNumber).value_counts() # 计算频数分布value_counts()函数
    pd.Series(RandomNumber).value_counts()/100  #计算概率分布
    

    结果呈现:
    在这里插入图片描述

    • 增大size参数,即生成随机数的数目,得到的结果则会更接近设定的概率。

    1.2 连续型随机变量

    若随机变量X是连续的,我们则不再能通过概率质量函数来刻画随机变量只随机性,对任意ak都有 P { X = a k } = 0 \displaystyle P\{X=a_k\}=0 P{X=ak}=0
    连续型随机变量没有PMF。对于连续型随机变量,累积分布函数

    F X ( a ) = P { X ≤ a } \displaystyle {F_X}\relax{(a)}=P\{X\leq a\} FX(a)=P{Xa}可以表达为:

    F X ( a ) = ∫ − ∞ a f X ( x ) d x \displaystyle {F_X}\relax{(a)}=\int _{-\infty}^{a}{f_X}\relax{(x)}dx FX(a)=afX(x)dx

    其中 f X = d F X ( x ) d x \displaystyle {f_X}=\frac{dF_X(x)}{dx} fX=dxdFX(x),被称作概率密度函数
    (Probability Density Function)(PDF)
    ,X的取值落在某个区间的概

    率可以用概率密度函数在这个区间上的积分来求得。

    算法逻辑:

    • 使用stats模块kde包中的gaussian_kde()可以估计数据的概率密度,在其中传入我们要统计的Series类型的变量名即可,得到的是一个“scipy.stats.kde.gaussian_kde”类型的对象,我们暂先给其命名为density。
    • 然后设定好分割区间,设为数组格式,暂将该对象命名为bins。
    • 注意,这次与以往绘图不同,这次是以研究的对象数据为行进行绘图。
    • 使用上边得到的数据类型density,以 density(bins)格式的语法可以得到一个以设定的分割区间为界限的概率密度数组,让将density(bins)这个对象作为行传入plot即可。
    • 如果要绘制累计分布函数图,则只需在上边的density(bins)对象后再调用一下cumsum()函数,对数组数据进行累加后在传入即可。

    以2020年沪深300指数(399300.SZ)的收益率(日涨跌幅)数据为例:

    # 调取数据
    import numpy as np
    import tushare as ts
    import pandas as pd
    token = 'Your Token'   # 输入你的接口密匙,获取方式及相关权限见Tushare官网。
    pro = ts.pro_api(token)
    df = pro.index_daily(ts_code='399300.SZ')  
    df['trade_date'] = pd.to_datetime(df['trade_date'])  
    df.set_index(['trade_date'], inplace=True)  # 将日期列作为行索引
    df = df.sort_index() 
    
    # 实现概率分布
    import matplotlib.pyplot as plt
    from scipy import stats
    density = stats.kde.gaussian_kde(df.pct_chg['2020']) #研究数据格式化
    bins=np.arange(-5,5,0.02)  # 设定分割区间
    
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    plt.subplot(211)
    plt.plot(bins,density(bins))
    plt.title('沪深300指数2020年收益率序列概率密度曲线图')
    plt.subplot(212)
    plt.plot(bins,density(bins).cumsum())
    plt.title('沪深300指数2020年收益率序列累积分布函数图')
    plt.show()
    

    结果展示如下:
    在这里插入图片描述


    2. 期望值与方差

    可以用样本数据的平均值来刻画样本的中心位置,期望(Expectation)是随机变量所有可能取的结果的均值,用来呈现总体的中心位置。对于离散型随机变量,期望是该随机变量所有可能结果的取值与其概率的乘积之和:
    E ( X ) = ∑ k a k f X ( a k ) = ∑ k a k P { X = a k } \displaystyle E\relax{(X)}=\sum_ka_kf_X\relax{(a_k)}=\sum_ka_kP\{X=a_k\} E(X)=kakfX(ak)=kakP{X=ak}
    方差(Variance)则是:
    V a r ( X ) = E [ X − E ] 2 = ∑ k [ a k − E ( X ) 2 ] P { X = a k } \displaystyle Var\relax{(X)}=E\left[X-E\right]^2=\sum_k\left[a_k-E(X)^2\right]P\{X=a_k\} Var(X)=E[XE]2=k[akE(X)2]P{X=ak}
    对于一类特殊的离散型随机变量:伯努利(Bernoulli Random Variable)随机变量,伯努利随机变量X只能取到两个值,0或者1,对应的概率质量函数为:
    f X ( a ) = P ( X = a ) = { p , a = 1 1 − p , a = 0 \displaystyle f_X\relax{(a)}=P\relax{(X=a)}=\begin{cases}p,&a=1 \\1-p,&a=0\end{cases} fX(a)=P(X=a)={p,1p,a=1a=0

    伯努利随机变量的期望值 E ( X ) = p \displaystyle E(X)=p E(X)=p

    方差为 V a r ( X ) = ( 1 − p ) ⋅ p \displaystyle Var(X)=(1-p)·p Var(X)=(1p)p

    若随机变量X为连续型随机变量,其概率密度函数为 f X \displaystyle f_X fX,则期望为: E ( X ) = ∫ − ∞ ∞ a f X ( a ) d a \displaystyle E(X)=\int_{-\infty}^{\infty}af_X\relax{(a)}d\relax{a} E(X)=afX(a)da

    方差为: V a r ( X ) = ∫ − ∞ ∞ [ a − E ( X ) ] 2 f X ( a ) d a \displaystyle Var\relax{(X)}=\int_{-\infty}^{\infty}\left[a-E\relax{(X)}\right]^2f_X\relax{(a)}d\relax{a} Var(X)=[aE(X)]2fX(a)da
    随机变量可能的取值有很多(比如连续型随机变量的取值为无穷),但其观测值(实际值)个数有限,因此现实中随机变量的概率分布、期望、方差等特征值通常是不可知的,推断统计就是透过其观测值的集合——样本数据来刻画这些特征的。


    3. 二项分布

    3.1二项分布概述及其与伯努利分布的差别

    研究伯努利分布时,我们关注的期望是进行一次试验结果的期望值,这样的结果有两种情况,所以伯努利分布也称“两点分布”。
    而研究二项分布时,我们关注的是n次试验的结果,这样的结果有多种组合。
    为直观说明,假设二点分布结果0的概率为0.4,结果为1的概率为0.6;
    二项分布结果为0的概率为0.4,结果为1的概率为0.6,且进行十次。
    则:

    n = 10
    p1 = 0.6
    p2 = 0.6
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    plt.subplot(221)
    plt.bar(['0','1'], [1-p1,p1], width=0.5)
    plt.title("二点分布PMF")
    plt.subplot(222)
    plt.plot(['0','0','1','1',' '], [0, 0.4, 0.4, 1.0,1.0])
    plt.title("二点分布CDF")
    plt.subplot(223)
    b = [stats.binom.pmf(i,10,0.6) for i in range(0,11)]
    plt.bar([str(i) for i in range(0,n+1)],b)
    plt.title('二项分布PMF')
    plt.subplot(224)
    plt.title("二项分布CDF")
    c = [str(i//2) for i in range(0,2*(n+1))]
    c.append('')
    d = [stats.binom.cdf(i//2,10,0.6) for i in range(0,22)]
    d.insert(0,0)
    plt.plot(c,d)
    plt.show()
    

    展示结果:
    在这里插入图片描述

    当np≥10,n(1-p)≥10都满足时,二项分布可以近似为正态分布。

    3.2 Numpy生成二项分布随机数

    在Numpy库中可以使用binomial()函数来生成二项分布随机数。
    形式为:binomial(n, p, size=None)
    参数n是进行伯努利试验的次数,参数p是伯努利变量取值为1的概率,size是生成随机数的数量。

    np.random.binomial(100, 0.5, 20)
    

    在这里插入图片描述

    3.3 二项分布的PMF与CDF

    3.3.1 PMF及其图像绘制

    # 求100次试验,20次成功的概率,p=0.5
    stats.binom.pmf(20,100,0.5)
    # 求100次试验,50次成功的概率,p=0.5
    stats.binom.pmf(50,100,0.5)
    

    在这里插入图片描述
    图像绘制

    #传入时n+1是因为10次实验有十一种可能的结果组合。
    n=10   # 十次试验
    p=0.5  
    plt.rcParams['font.sans-serif'] = ['SimHei']
    b = [stats.binom.pmf(i, n, p) for i in range(0,n+1)]
    plt.bar([str(i) for i in range(0,len(b))],b)
    plt.title('X~B({},{})二项分布PMF'.format(n,p))
    plt.show()
    

    在这里插入图片描述

    3.3.2 CDF及其图像绘制

    可以直接用pmf()函数解决这个问题。

    #stats.binom.pmf函数很神奇,传入的第一个参数是数字(指定伯努利试验成功的次数),生成结果就也是一个数字。如果传入的第一个参数是数组,则会将会以该数组的shape输出其中每个数字成功次数的条件下,对应的概率。
    dd = stats.binom.pmf(np.arange(0, 21, 1), 100, 0.5)
    dd
    

    在这里插入图片描述

    # 然后对数组求和即求出小于等于20次发生这一事件的概率
    dd.sum()
    

    在这里插入图片描述
    此外,也可以用binom中的cdf()函数来直接解决这个问题

    # 依然100次试验成功20次,每次p=0.5
    stats.binom.cdf(20,100,0.5)
    

    在这里插入图片描述
    图像绘制

    n=10   # 十次试验
    p=0.5
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.title('X~B({},{})二项分布CDF'.format(n,p))
    c = [str(i//2) for i in range(0, 2*(n+1))]
    c.append('')
    d = [stats.binom.cdf(i//2, n, p) for i in range(0, 22)]
    d.insert(0,0)
    plt.plot(c,d)
    plt.show()
    
    

    在这里插入图片描述

    3.3.3 二项分布在金融市场的应用

    二项分布常常用于描述金融市场中只有两个结果的重复事件。
    如研究平安银行股票2020年数据:

    # 导入相关模块
    import numpy as np
    import tushare as ts
    import pandas as pd
    from scipy import stats
    # 设定好接口  注意这句不能照抄,需要输入自己的接口密匙
    token = 'Your token'   # 输入你的接口密匙,获取方式及相关权限见Tushare官网。
    pro = ts.pro_api(token)
    # 获取数据
    df = pro.daily(ts_code='000001.SZ')  # daily为tushare的股票日线数据接口。
    df['trade_date'] = pd.to_datetime(df['trade_date'])  
    df.set_index(['trade_date'], inplace=True)  # 将日期列作为行索引
    df = df.sort_index() 
    ret = df.pct_chg['2020']
    
    # 估算平安银行股价上涨的概率
    p = len(ret[ret > 0]) / len(ret)
    print(p)
    
    # 估计十个交易日中,平安银行有六个交易日上涨的概率
    prob = stats.binom.pmf(6,10,p)
    print(prob)
    

    在这里插入图片描述
    在这里插入图片描述


    4. 正态分布

    4.1 正态分布概述

    正态分布(Normal Distribution)又名高斯分布(Gaussiam Distribution),是人们最常用的描述连续型随机变量的概率分布。在金融学研究中,收益率等变量的分布假定为正态分布或者对数正态分布(取对数后服从正态分布)。因为形状的原因,正态分布曲线也被经常称为钟形曲线。
    正态分布分布律: 若随机变量X满足服从一个数学期望为u, 方差为 σ 2 \displaystyle \sigma^2 σ2的正态分布,记为X ~ ( N , σ 2 ) \displaystyle(N,\sigma^2 ) (N,σ2),则X的取值范围为( − ∞ , + ∞ \displaystyle -\infty,+\infty ,+),其概率密度为:

    f X ( x ) = 1 2 π σ e x p [ − ( x − u ) 2 2 σ 2 ] \displaystyle f_X\relax{(x)}=\frac{1}{\sqrt{2\pi\sigma}}exp\left[\frac{-(x-u)^2}{2\sigma^2}\right] fX(x)=2πσ 1exp[2σ2(xu)2]
    均值越大图像越靠右,方差越小图像越瘦高
    服从正态分布的变量X满足其线性变换aX+b~( a u + b , a 2 σ 2 \displaystyle au+b,a^2\sigma^2 au+b,a2σ2)。
    若令a = 1 σ \displaystyle\frac{1}{\sigma} σ1,b = − u σ \displaystyle\frac{-u}{\sigma} σu,即可得到标准正态分布,该过程即标准化,数学式记作:

    Z = X − u σ \displaystyle Z=\frac{X-u}{\sigma} Z=σXu ~ N ( 0 , 1 ) \displaystyle(0,1) (0,1)
    任何正态分布都可以进行标准化,转变成标准正态分布。

    4.2 Python正态分布相关函数

    正态分布随机数的生成函数是normal(),其语法为:
    normal(loc=0.0, scale=1.0, size=None)

    • 参数loc:表示正态分布的均值
    • 参数scale:表示正态分布的标准差,默认为1
    • 参数size:表示生成随机数的数量
    # 生成五个标准正态分布随机数
    Norm = np.random.normal(size=5)
    # 求生成的正态分布随机数的密度值
    stats.norm.pdf(Norm)
    # 求生成的正态分布随机数的累积密度值
    stats.norm.cdf(Norm)
    

    在这里插入图片描述
    绘制正态分布PDF

    # 注意这里使用的pdf和cdf函数是norm包里的
    u=0  
    sigma=1
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.title('X~N({},{})正态分布PDF'.format(u,sigma**2))
    x = np.linspace(-5,5,100000)  # 设定分割区间
    y1 = stats.norm.pdf(x,u,sigma**2)
    plt.plot(x,y1)
    plt.tight_layout()  # 自动调整子图,使之充满画布整个区域
    plt.show()
    

    图像效果:
    在这里插入图片描述

    绘制正态分布CDF

    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.title('X~N({},{})正态分布CDF'.format(u,sigma**2))
    x = np.linspace(-5,5,100000)  # 设定分割区间
    y2 = stats.norm.cdf(x,u,sigma**2)
    plt.plot(x,y2)
    plt.tight_layout()  
    plt.show()
    

    图像效果:
    在这里插入图片描述

    4.3 正态分布在金融市场的应用

    VAR(Value at Risk),即在险价值。是指在一定概率水平(α%)下,某一金融资产或金融资产组合在未来特定一段时间内的最大可能的损失,该定义可表达为: P { X t < − V a R } \displaystyle P\{X_t < -VaR\} P{Xt<VaR} = α%
    其中,随机变量Xt为金融资产或金融资产组合在持有期 Δ t \displaystyle \Delta t Δt内的损失,1-α%被叫做VaR的置信水平。
    这里用到了ppf() 函数,来获取指定分位数的累积密度值。
    假设平安银行股价2020年日收益率序列服从正态分布,下面用Python来求解当概率水平为5%时平安银行股价日收益率在2021年初个交易日的VaR:

    # 上边已经定义过ret变量了,为平安银行2020年股价日收益率数据,
    # 这里直接接着使用
    ret_mean = ret.mean()   # 求均值
    ret_variance = ret.var()  # 求方差
    # 查询累积密度值为0.05的分位数
    stats.norm.ppf(0.05, ret_mean, ret_variance**0.5)
    

    在这里插入图片描述
    也就是说,在2021年的第一个交易日,有95%概率平安银行股票的损失不会超过3.475523569%。
    (虽然当天实际跌了3.83,产生了异常值。)


    5. 其他连续分布

    5.1 卡方分布

    若Z1, Z2, … Zn,为n个服从标准正态分布的随机变量,则变量:

    X = Z 1 2 + Z 2 2 + ⋯ + Z n 2 \displaystyle X=Z_1^2+Z_2^2+\cdots+Z_n^2 X=Z12+Z22++Zn2
    服从自由度(Degree of Freedom)为n的卡方分布,

    通常表示为 X 2 \displaystyle X^2 X2~ χ 2 \displaystyle \chi^2 χ2

    因为n的取值可以不同,所以卡方分布是一族分布而不是一个单独的分布。根据X的表达式,服从卡方分布的随机变量值不可能取负值,其期望值为n,方差为2n。

    plt.plot(np.arange(0, 5, 0.002),\
    stats.chi.pdf(np.arange(0, 5, 0.002), 3))
    plt.title('卡方分布PDF(自由度为3)')
    

    生成图像如下:
    在这里插入图片描述

    卡方分布以0为起点,分布是偏斜的,即非对称的,在自由度为3的卡方分布下,大多数值都小于8,查表可知只有5%的值大于7.82%。


    5.2 t分布

    若随机变量 Z \displaystyle Z Z ~ N ( 0 , 1 ) \displaystyle N(0,1) N(0,1) Y \displaystyle Y Y ~ χ 2 ( n ) \displaystyle\chi^2(n) χ2(n),且二者相互独立,
    则变量 X = Z Y / n \displaystyle X=\frac{Z}{\sqrt{Y/n}} X=Y/n Z服从自由度为n的t分布,

    可以记作 X \displaystyle X X~ t ( n ) \displaystyle t(n) t(n)
    类似卡方分布,t分布也是整整一族,自由度n不同t分布即不同。
    t分布变量取值范围为( − ∞ , + ∞ \displaystyle -\infty,+\infty ,+),其期望值与方差存在于否,取值大小均与t分布的自由度有关。

    • t(1)分布无有限期望值。
    • t(2)有有限期望值,但方差不存在。
    • n>2时,t(n)才同时有有限的期望值和方差,其中期望值为0,方差为n/(n-2),因此自由度越大,变量的方差越小,也就是说分布的离散程度越小。

    下边使用Python绘制不同自由度下的t分布的概率分布图:

    x = np.arange(-4,4.004,0.004)
    plt.plot(x, stats.norm.pdf(x), label='Normal')
    plt.plot(x, stats.t.pdf(x,5), label='df=5')
    plt.plot(x, stats.t.pdf(x,30), label='df=30')
    plt.legend()
    

    结果如图所示:
    在这里插入图片描述
    t分布的pdf曲线是以0为中心,左右对称的单峰分布,其形态变化与自由度n的大小有关,自由度越小,分布越分散;自由度越大,变量在其均值周围的聚集程度越高,也越接近标准正态分布曲线。
    自由度为30时,t分布已经接近标准正态分布曲线。相较于标准正态分布,t分布的密度函数呈现出“尖峰厚尾”的特点。在现实中资产收益率分布往往呈现这种形态,因此t分布在对实际抽样结果的刻画上更为精确。t分布是在推断统计中常用的分布。
    ————

    5.3 F分布

    若Z,Y为两个独立的随机变量,且 Z \displaystyle Z Z~ χ 2 ( m ) \displaystyle \chi^2(m) χ2(m) Y \displaystyle Y Y~   χ 2 ( n ) \displaystyle ~\chi^2(n)  χ2(n)

    则变量 X = Z / m Y / n \displaystyle X=\frac{Z/m}{Y/n} X=Y/nZ/m服从第一自由度为m,第二自由度为n的F分布。

    记作X~ F ( m , n ) \displaystyle F(m, n) F(m,n)

    变量X是两个卡方变量(非负)之比,因此X的取值范围也为非负,其期望和方差存在于否取决于第二自由度n。

    n > 2时,才存在期望,为 n n − 2 \displaystyle \frac{n}{n-2} n2n

    n > 4时,才存在方差,为 2 n 2 ( m + n − 2 ) m ( n − 2 ) 2 ( n − 4 ) \displaystyle \frac{2n^2(m+n-2)}{m(n-2)^2(n-4)} m(n2)2(n4)2n2(m+n2)

    plt.plot(np.arange(0,5,0.002),\
    stats.f.pdf(np.arange(0,5,0.002), 4, 40))
    plt.title('F分布PDF(df1=4, df2=40)')
    

    它的概率密度函数形态如图所示
    在这里插入图片描述


    6. 变量的关系

    我们面对的多个随机变量,之间可能会有互相影响。

    6.1 联合概率分布

    多个变量之间的联合行为可以用联合概率分布(Joint Probability Distribution)来刻画。
    若变量X, Y是离散的,其所有可能取值的集合为{ak}和{bk}, k=1,2,…,
    则X,Y的联合概率质量函数(Joint Probability Mass Function)为:
    f X , Y ( a , b ) = P { X = a i 且 Y = b j } \displaystyle f_{X,Y}(a,b)=P\{X=a_i 且 Y=b_j\} fX,Y(a,b)=P{X=aiY=bj}, i,j=1,2…

    双变量X和Y的联合累积分布函数(Joint Cumulative Distribution Function)为: F X , Y ( a , b ) = P { X ≤ a 且 Y ≤ b } \displaystyle F_X,Y(a,b)=P\{X \leq a 且 Y \leq b\} FX,Y(a,b)=P{XaYb}

    • 当X和Y是离散型的:
      F ( X , Y ) ( a , b ) = ∑ i : a i ≤ a ∑ j : b j ≤ b P { X = a i 且 Y = b j } = ∑ i : a i ≤ a ∑ j : b j ≤ b f X , Y ( a i , b j ) \displaystyle F_{(X,Y)}(a,b)=\sum_{i:a_i \leq a} \sum_{j:b_j \leq b} P \{X=a_i且Y=b_j\}=\sum_{i:a_i \leq a} \sum_{j:b_j \leq b}f_{X,Y}(a_i,b_j) F(X,Y)(a,b)=i:aiaj:bjbP{X=aiY=bj}=i:aiaj:bjbfX,Y(ai,bj)
    • 当X和Y是连续型的:
      F ( X , Y ) ( a , b ) = ∫ − ∞ a ∫ − ∞ b f X , Y ( x , y ) d x d y \displaystyle F_{(X,Y)}(a,b)=\int_{-\infty}^a\int_{-\infty}^bf_{X,Y}(x,y)dxdy F(X,Y)(a,b)=abfX,Y(x,y)dxdy

    其中 f X , Y ( x , y ) d x d y \displaystyle f_{X,Y}(x,y)dxdy fX,Y(x,y)dxdy是联合概率密度函数(Joint Probability Density Function)>
    若已知X和Y的联合概率分布,则X的期望值为:
    E ( X ) = ∑ i ∑ j a i f X , Y ( a i , b j ) \displaystyle E(X)=\sum_i \sum_ja_if_{X,Y}(a_i,b_j) E(X)=ijaifX,Y(ai,bj)

    = ∑ i a i ∑ j f X , Y ( a i , b j ) \displaystyle =\sum_i a_i\sum_jf_{X,Y}(a_i,b_j) =iaijfX,Y(ai,bj)

    = ∑ i a i f X ( a i ) \displaystyle =\sum_i a_if_X(a_i) =iaifX(ai)

    其中 f X ( a i ) = ∑ j f X , Y ( a i , b i ) \displaystyle f_X(a_i)=\sum_jf_{X,Y}(a_i,b_i) fX(ai)=jfX,Y(ai,bi)为变量X的边际概率函数(Marginal Probability Function),代表的是变量X自己的概率分布,所以这里 f X ( a i ) \displaystyle f_X(a_i) fX(ai)依然满足 f X ( a k ) = P { X = a k } \displaystyle {f_X}\relax{(a_k)}=P\{X=a_k\} fX(ak)=P{X=ak}定义式。同理可得 E ( Y ) = ∑ j b j f Y ( b j ) \displaystyle E(Y)=\sum_j b_jf_Y(b_j) E(Y)=jbjfY(bj),其形式与单变量的形式无差别。方差求解亦是如此。


    6.2变量的独立性

    如果随机变量X和Y的联合累积分布函数满足:

    F ( X , Y ) ( a , b ) = F X ( a ) F Y ( b ) \displaystyle F_{(X,Y)}(a,b)=F_X(a)F_Y(b) F(X,Y)(a,b)=FX(a)FY(b)

    则称X和Y是独立的,否则二者是相依的。

    两变量的独立关系也可以表达成,

    f X , Y ( a , b ) = f X ( a ) f Y ( b ) \displaystyle f_{X,Y}(a,b)=f_X(a)f_Y(b) fX,Y(a,b)=fX(a)fY(b)

    对于离散型随机变量,此式等价于

    P { X = a 且 Y = b } = P { X = a } P { Y = b } \displaystyle P\{X=a且Y=b\}=P\{X=a\}P\{Y=b\} P{X=aY=b}=P{X=a}P{Y=b}
    变量之间的相互独立是众多统计分析的基本假设,也是变量之间的基本关系。


    6.3 变量的相关性

    随机变量X和Y的协方差(Covariance)可以衡量二者之间的关系,描述的是两随机变量与各自期望的偏差共同的变动状况,表达式为:
    C o v ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] Cov(X,Y)=E\left[(X-E(X))(Y-E(Y))\right] Cov(X,Y)=E[(XE(X))(YE(Y))]
    协方差为正说明,平均而言变量X、Y与各自期望的偏差呈同方向变动;如果为负,则为反方向变动。
    协方差有如下性质:

    • C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X) Cov(X,Y)=Cov(Y,X)
    • C o v ( a X , b Y ) = a b C o v ( Y , X ) Cov(aX,bY)=abCov(Y,X) Cov(aX,bY)=abCov(Y,X) (a,b是常数)
    • C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( Y , X 2 ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(Y,X_2) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(Y,X2)

    第二个性质说明,协方差受比例影响,并不能准确地衡量两变量相关性的大小。,不能直接衡量两变量相关性强弱。对协方差进一步处理,清除比例的影响,于是就有了相关系数(Correlation Coefficient):

    ρ X , Y = C o v ( X , Y ) σ X σ Y \displaystyle \rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y} ρX,Y=σXσYCov(X,Y)

    相关系数取值范围为[-1,+1]
    ρ=0时,说明两个变量是不相关的。
    0<ρ<1时, 说明两变量呈正向的线性关系
    -1<ρ<0时,说明两变量呈负向的线性关系。

    aX和bX的相关性:

    ρ a X , b Y = C o v ( a X , b Y ) V a r ( a X ) ( V a r ( b Y ) ) \displaystyle \rho_{aX,bY}=\frac{Cov(aX,bY)}{\sqrt{Var{(aX)}}\sqrt{(Var(bY))}} ρaX,bY=Var(aX) (Var(bY)) Cov(aX,bY)

    = a b C o v ( X , Y ) ∣ a ∣ σ X ∣ b ∣ σ Y \displaystyle=\frac{abCov(X,Y)} {|a|\sigma_X|b|\sigma_Y} =aσXbσYabCov(X,Y)

    = ± ρ X , Y \displaystyle=\pm \rho_{X,Y} =±ρX,Y

    如果变量Y是X的线性变换,满足Y=a+bX,则二者之间的相关系数为:‘
    ρ X , Y = C o v ( X , a + b X ) σ X V a r ( a + b X ) \displaystyle \rho_{X,Y}=\frac{Cov(X,a+bX)}{\sigma_X\sqrt{Var(a+bX)}} ρX,Y=σXVar(a+bX) Cov(X,a+bX)

    b V a r ( X ) ∣ b ∣ V a r ( X ) = ± 1 \displaystyle \frac{b{Var(X)}}{|b|Var(X)}=\pm1 bVar(X)bVar(X)=±1


    6.4 上证指数与深证成指相关性分析

    上证指数和深证成指是股票市场常用的反映股票市场情况的指数,我们认为两个指数的日收益率可以存在相关的关系。代码如下:

    import numpy as np
    import tushare as ts
    import pandas as pd
    token = 'Your Token'   # 输入你的接口密匙,获取方式及相关权限见Tushare官网。
    pro = ts.pro_api(token)
    # 深证成指
    SZindex = pro.index_daily(ts_code='399001.SZ')
    SZindex['trade_date'] = pd.to_datetime(SZindex['trade_date'])
    SZindex.set_index(['trade_date'], inplace=True)
    SZindex = SZindex.sort_index()
    # 上证指数
    SHindex = pro.index_daily(ts_code='000001.SH')
    SHindex['trade_date'] = pd.to_datetime(SHindex['trade_date'])
    SHindex.set_index(['trade_date'], inplace=True)
    SHindex = SHindex.sort_index()
    
    # 用2020年日收益率数据绘制散点图
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    plt.scatter(SHindex.pct_chg['2020'],SZindex.pct_chg['2020'])
    plt.title('上证指数与深证成指2020年收益率散点图')
    plt.xlabel('上证指数收益率')
    plt.ylabel('深证成指收益率')
    plt.show()
    

    生成图像展示如下:
    在这里插入图片描述

    # 计算上证综指和深证成指收益率相关系数
    SHindex.pct_chg['2020'].corr(SZindex.pct_chg['2020']) 
    

    在这里插入图片描述
    相关系数为0.9308847411746248,可以认为二者存在较强的相关性,二者呈现正向的线性关系。


    展开全文
  • 随机变量之常见分布

    千次阅读 2022-04-24 16:23:54
    0、概述 统计分析是可以帮助人们认清、刻画不确定性的方法。总体是某一特定事物可能发生结果的集合, 随机变量(Random ...常用的离散型随机变量分布包括:0-1分布、二项分布、泊松分布和二项式分布等。常用的连续...
  • 在统计学上,我们会遇到一些常见的分布,除了正态分布外,,如t检验对应的t分布,检验对应的分布,方差分析对应的F分布等。这些分布是统计学的基础,在假设检验、方差分析等领域都起着至关重要的作用。在此,我们对...
  • 边肇祺等人编写的《模式识别》习题答案,格式:pdf。
  • 浅谈先验分布和后验分布

    千次阅读 2021-07-22 01:02:19
    点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达 本文转自:机器学习算法那些事上文提到贝叶斯定理是先验分布和后验分布转换的桥梁,贝叶斯学派计算参数后...
  • R语言的各种分布函数

    万次阅读 多人点赞 2017-09-23 16:36:46
    R语言的各种分布函数: 至于具体的用法了,大家可以使用help命令,根据实际情况来进行使用 R提供工具来计算累计分布函数p(cummulative distribution function CDF),概率密度函数d和分位数函数q,另外...
  • 超硬核!数据结构学霸笔记,考试面试吹牛就靠它

    万次阅读 多人点赞 2021-03-26 11:11:21
    (仅仅取决于逻辑特性,与其在计算机内部如何表示和实现无关) 定义抽象数据类型的一种格式: ADT name{ 数据对象:<> 数据关系:<> 基本操作:<> }ADT name 算法:是对特定问题求解步骤的一种描述。 算法五个特性:...
  • 通过本节,了解有限体积法基本原理,通过中心差分、一阶迎风、混合迎风了解这些格式的优缺点 2.1离散化概述 在对CFD计算之前,需要对计算区域离散化,也就是说要对空间连续的计算区域进行划...
  • 牛逼!Java 从入门到精通,超全汇总版

    万次阅读 多人点赞 2021-05-06 19:40:33
    Elasticsearch 源码解析与优化实战 Git Git 是分布式的,SVN 是集中的 Git是分布式的,SVN是集中的 Git 复杂概念多,SVN 简单易上手 Git 分支廉价,SVN 分支昂贵 Pro Git Git 版本控制管理 计算机基础 计算机...
  • 时间序列的分布函数(Matlab…

    千次阅读 2017-03-14 10:49:47
    格式 Y=pdf(name,K,A) Y=pdf(name,K,A,B) Y=pdf(name,K,A,B,C) 说明 返回在X=K处、参数为A、B、C的概率密度值,对于不同的分布,参数个数是不同;name为分布函数名,其取值如表 name的取值 函数
  • 目录 1 综述 2 指数分布族 3广义线性模型 3.1 定义 3.2为什么引入GLM ...4.2多项分布 > softmax回归 4.2.1 softmax理解 4.2.2softmax多项分布解释 5广义线性模型的计算 1 综述 广...
  • MATLAB各种概率分布统计分析画图

    万次阅读 多人点赞 2019-09-25 10:27:09
    格式 table = tabulate(X) %X为正整数构成的向量,返回3列:第1列中包含X的值第2列为这些值的个数,第3列为这些值的频率。 例4-49 >> A=[1 2 2 5 6 38] A = 1 2 2 5 6 3 8 >> tabulate(A) V...
  • 有限体积法(7)——迎风格式

    千次阅读 2020-07-10 17:51:09
    使用迎风格式离散对流扩散方程,包含算例和Python计算代码
  • §4-3非稳态导热问题的数值解法由前可知:非稳态导热和稳态导热二者微分方程的区别在于控制方程中多了一个非稳态,其中扩散的离散方法与稳态导热一样。本节重点讨论:( 1 )非稳态离散的方法;( 2 )扩散离散...
  • 网络中的常见的各种协议--报文格式总结学习

    千次阅读 多人点赞 2020-08-18 17:54:53
    网络中的各种协议总结学习以太网帧结构IP报文格式ARP协议ICMP协议UDP用户数据包协议DNSTCP协议FTP协议HTTP协议SMTP协议POP协议 以太网帧结构 注: 当LLC-PDU中携带的是数据的时候,那么左侧的2字节表示的就是长度...
  • 如果获取不到,并且对象正在创建中,就再从级缓存earlySingletonObjects中获取,如果还是获取不到就从三级缓存singletonFactories中取(Bean调用构造函数进行实例化后,即使属性还未填充,就可以通过三级缓存向外...
  • 8.1.1 二项分布的随机数据的产生 8.1.2 正态分布的随机数据的产生 8.1.3 常见分布的随机数产生 8.2 概率密度计算 8.2.1 通用函数概率密度值 8.2.2 专用函数概率密度值 8.3 累积概率分布 8.3.1 通用...
  • 常见分类算法 监督学习包括分类和回归。其中常见的分类算法包括朴素贝叶斯分类器、决策树、K最近邻分类算法、支持向量机、神经网络和基于规则的分类算法等,同时还有用于组合单一类方法的集成学习算法,如Bagging...
  • Kimball老爷爷维度建模四部曲: 选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实 2.1.1 星型模型 星型模型主要是维表和事实表,以事实表为中心,所有维度直接关联在事实表上,呈星型分布。 2.1.2 雪花模型 雪花...
  • 常用数据分析方法总结

    千次阅读 2019-11-02 14:06:23
    描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 1.集中趋势分析 ...
  • 计算机网络题库

    万次阅读 多人点赞 2020-01-10 17:42:10
    支持共享和交换两种组网方式 答案:C 48.www.tsinghua.edu.cn这个完整名称(FQDN)里,( )是主机名. A.edu.cn   B.tsinghua  C.tsinghua.edu.cn D.www 答案:D 49.一般来说,用户上网要通过因特网...
  • R中的几种统计分布及常用模型

    千次阅读 2018-05-04 10:26:49
    简单介绍一下R中的几种统计分布及常用模型 转载自:...统计分布每一种分布有四个函数:d――density(密度函数),p――分布函数,q――分位数函数,r――随机数函数。比如,正...
  • 3 概率分布与随机函数

    千次阅读 2017-02-06 09:30:42
    随着计算机技术的快速发展,随机数在越来越多的领域得到了广泛应用,例如信息安全,网络游戏,计算机仿真和模拟计算,这一章将介绍常用的概率分布及概率计算、利用MATLAB生成随机数。  1.概率分布及概率计算  1.1 ...
  • iOS之深入解析Hash在iOS中的应用

    万次阅读 2021-10-19 15:43:24
    Redis 解决哈希冲突采用的也是拉链法,通过增量扩容解决了 Java 8 中的瞬时扩容导致的瞬时效率降低的缺点,同时拉链法的实现方式(新插入的键值对放在链表头部)带来了两个好处: 头插法可以节省插入耗时,如果插...
  • 一、中位数 定义/解释:按顺序排列的一组数据中居于中间...、方差 参考百科:方差  1)定义  方差(variance):是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量  2)应用  1、在...
  • R中的几种统计分布及常用模型 (整理)

    万次阅读 多人点赞 2017-09-17 13:58:29
    搜集自Little_Rookie博客园,以下部分格式和内容有所修正和补充,欢迎转载~ 李阳 15应用统计学 内蒙古财经大学 统计学上分布有很多,在R中基本都有描述。因能力有限,我们就挑选几个常用的、比较重要的简单介绍...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 37,611
精华内容 15,044
关键字:

二项式分布的格式