精华内容
下载资源
问答
  • 偶然发现了一个神器,用来做前期的数据处理确实很方便。 做数据分析前需要先看一下数据的概况,有一个很好用的工具pandas_profiling可以快速预览数据 只用一行代码,即可快速显示数据概况 用 pip install pandas_...

    偶然发现了一个神器,用来做前期的数据处理确实很方便。

    做数据分析前需要先看一下数据的概况,有一个很好用的工具pandas_profiling可以快速预览数据

    只用一行代码,即可快速显示数据概况

    用 pip install pandas_profiling 安装就行。

    以下是代码:

    import pandas as pd
    import pandas_profiling
    
    df = pd.read_csv('shijingshan_air_outdoors(0606_0613).csv')     # 在这里输入想要分析的数据.csv文件
    
    # windows pycharm执行代码,执行完在浏览器打开example.html
    if __name__ == '__main__':
        pfr = pandas_profiling.ProfileReport(df)
        pfr.to_file("./example.html")
    
    

    分析的结果会保存为一个HTML文件,用浏览器打开即可。

     

    参考文档:

    https://blog.csdn.net/adam_wzs/article/details/79245361

    https://blog.csdn.net/Andy_shenzl/article/details/81709409

    展开全文
  • 十一、计算两只股票方差相关性

    千次阅读 2019-05-19 21:48:21
    如何计算两只股票方差相关性 考虑一个由“沃尔玛”和“Facebook”组成的投资组合。你认为这些公司的收益会显示出高或低的协方差吗?或者,你能猜出相关性是什么吗?它是接近0还是接近1? 从2015年1月1日到今天,为...

    如何计算两只股票方差和相关性

    考虑一个由“沃尔玛”和“Facebook”组成的投资组合。你认为这些公司的收益会显示出高或低的协方差吗?或者,你能猜出相关性是什么吗?它是接近0还是接近1?

    从2015年1月1日到今天,为沃尔玛和Facebook提取数据。

    import numpy as np
    import pandas as pd
    from pandas_datareader import data as wb
    
    # 沃尔玛  Fackbook
    tickers = ['WMT', 'FB']
    sec_data = pd.DataFrame()
    for t in tickers:
        sec_data[t] = wb.DataReader(t, data_source='iex', start='2015-1-1')['close']
    
    sec_data.head()
    
    WMT FB
    date
    2015-01-02 76.1120 78.450
    2015-01-05 75.8905 77.190
    2015-01-06 76.4752 76.150
    2015-01-07 78.5043 76.150
    2015-01-08 80.1612 78.175
    # 对数收益率
    returns = np.log(sec_data / sec_data.shift(1))
    returns.head()
    
    WMT FB
    date
    2015-01-02 NaN NaN
    2015-01-05 -0.002914 -0.016192
    2015-01-06 0.007675 -0.013565
    2015-01-07 0.026187 0.000000
    2015-01-08 0.020886 0.026245

    对这两支股票,如何解释他们的平均值和标准差之间的差异?

    # 以一年为单位  平均值
    returns[['WMT', 'FB']].mean() * 250
    
    WMT    0.063984
    FB     0.195344
    dtype: float64
    
    # 标准差
    returns[['WMT', 'FB']].std() * 250 ** 0.5
    
    WMT    3.184389
    FB     4.536966
    dtype: float64
    
    # 方差
    returns[['WMT', 'FB']].var() * 250   
    
    WMT    0.040561
    FB     0.082336
    dtype: float64
    

    Covariance and Correlation

    在这里插入图片描述

    # 天
    cov_matrix = returns.cov()
    cov_matrix
    
    WMT FB
    WMT 0.000162 0.000034
    FB 0.000034 0.000329
    # 年
    cov_matrix_a = returns.cov() * 250
    cov_matrix_a
    
    WMT FB
    WMT 0.040561 0.008430
    FB 0.008430 0.082336

    # 相关性
    corr_matrix = returns.corr()
    corr_matrix
    
    WMT FB
    WMT 1.000000 0.145868
    FB 0.145868 1.000000

    沃尔玛和Facebook两只股票的协方差是0.145868,具有弱相关系

    但是这不是两种股票价格的相关系,是回报的相关系

    展开全文
  • [概统]本科二年级 概率论与数理统计 第七讲 期望、方差相关性

    [概统]本科二年级 概率论与数理统计 第七讲 期望、方差与相关性

    虽然之前就分别介绍过离散型随机变量与连续型随机变量的期望与方差,这一讲我们正式介绍期望、方差的概念与性质。

    期望及其性质

    定义7.1

    1. 假设XX是一个一元离散型随机变量,ρX\rho_X是它的分布列,则它的期望是E[X]=xρX(x)E[X]=\sum x\rho_X(x)
    2. 假设XX是一个一元连续型随机变量,fXf_X是它的概率密度,则它的期望是E[X]=xfX(x)dxE[X]=\int xf_X(x)dx
    3. 假设XX是一个一元离散型随机变量,ρXY(xy)\rho_{X|Y}(x|y)是它的条件分布列,则它的条件期望是E[XY=y]=xρXY(xy)E[X|Y=y]=\sum x\rho_{X|Y}(x|y)
    4. 假设XX是一个一元连续型随机变量,fXY(xy)f_{X|Y}(x|y)是它的概率密度,则它的条件期望是E[XY=y]=xfXY(xy)dxE[X|Y=y]=\int xf_{X|Y}(x|y)dx

    定义7.2 期望的存在性
    如果E[X]<E[X]<\infty,则称随机变量的期望存在。

    定义7.3 随机变量的函数的期望
    考虑函数Z=g(X,Y)Z = g(X,Y),我们可以定义ZZ的期望为
    E[Z]=g(x,y)f(x,y)dxdyE[Z]=\iint g(x,y)f(x,y)dxdy

    如果E[Z]<E[Z]<\infty,则称ZZ的期望存在。

    例7.1 Cauchy分布
    上一讲例7我们基于正态分布导出了Cauchy分布,现在我们讨论标准Cauchy分布的期望的存在性,考虑XfXX \sim f_X
    fX(x)=1π11+x2,xRf_X(x) = \frac{1}{\pi} \frac{1}{1+x^2},x \in \mathbb{R}

    我们计算一下它的期望:
    +xπ11+x2dx=limyyxπ11+x2dx=limyln(y2+1)2π+\int_{-\infty}^{+\infty} \frac{x}{\pi} \frac{1}{1+x^2}dx = \lim_{y \to \infty}\int_{-\infty}^{y} \frac{x}{\pi} \frac{1}{1+x^2}dx \\ = \lim_{y \to \infty} \frac{\ln (y^2+1)}{2\pi} \to +\infty

    也就是说这个期望会发散,于是标准Cauchy分布没有期望,事实上任意Cauchy分布都是没有期望的。

    定理7.1 期望与条件期望的关系

    假设XX的期望存在,则

    1. 如果XX是离散型随机变量,则E[X]=E[XY=y]ρY(y)E[X]=\sum E[X|Y=y]\rho_Y(y)
    2. 如果XX是连续型随机变量,则E[X]=E[XY=y]fY(y)dyE[X]=\int E[X|Y=y]f_Y(y)dy

    证明
    第一条就是第五讲的定理5.4,我们证明一下第二条。

    因为E[X]<E[X]<\infty,我们可以使用Fubini定理,计算
    E[X]=xfX(x)dx=xf(x,y)dydx=xf(x,y)dxdy=dyxf(x,y)dxE[X] = \int xf_X(x)dx=\int x \int f(x,y)dydx \\ = \iint xf(x,y)dxdy = \int dy \int xf(x,y)dx

    根据条件密度的定义,
    f(x,y)=fXY(xy)fY(y)f(x,y) = f_{X|Y}(x|y)f_Y(y)

    所以
    dyxf(x,y)dx=dyxfXY(xy)fY(y)dx=E[XY=y]fY(y)dy\int dy \int xf(x,y)dx = \int dy \int xf_{X|Y}(x|y)f_Y(y)dx \\ = \int E[X|Y=y]f_Y(y)dy

    定理7.2 期望的性质

    1. 常数的期望是它本身: CR,E[C]=C\forall C \in \mathbb{R},E[C]=C
    2. 期望的线性性:如果X,YX,Y的期望存在,a,bR,E[aX+bY]=aE[X]+bE[Y]\forall a,b \in \mathbb{R},E[aX+bY]=aE[X]+bE[Y]
    3. 如果X,YX,Y独立,并且XYXY的期望存在,则E[XY]=E[X]E[Y]E[XY]=E[X]E[Y]

    证明
    第二条性质的证明留给读者,这里简单叙述一下第三条性质的证明:根据定义
    E[XY]=xyf(x,y)dxdyE[XY] = \iint xy f(x,y)dxdy

    因为X,YX,Y独立,f(x,y)=fX(x)fY(y)f(x,y)=f_X(x)f_Y(y),根据Fubini定理,
    xyf(x,y)dxdy=xyfX(x)fY(y)dxdy=xfX(x)dxyfY(y)dy=E[X]E[Y] \iint xy f(x,y)dxdy = \iint xy f_X(x)f_Y(y)dxdy \\ = \int xf_X(x)dx \int yf_Y(y)dy = E[X]E[Y]

    例7.2 计算E[F(X)]
    假设XX是一个一元连续型随机变量,累积分布函数为FF,求E[F(X)]E[F(X)]

    这是一个比较有趣的题目,EE代表期望、FF代表累积分布、XX代表任意连续型随机变量,然而把这三个东西合在一起却能得到一个常数:

    Y=F(X)Y=F(X),根据累积分布函数的性质Y[0,1]Y \in [0,1]y[0,1]\forall y \in [0,1]
    P(Yy)=P(F(X)y)=P(XF1(y))=F(F1(y))=yP(Y \le y)=P(F(X) \le y) = P(X \le F^{-1}(y)) \\ =F(F^{-1}(y))=y

    也就是说YY服从[0,1][0,1]上的均匀分布,所以
    E[F(X)]=E[Y]=1/2E[F(X)]=E[Y]=1/2

    例7.3 虫族的故事续

    第五讲例5.6我们分析了高级虫族的数量,现在我们分析一下虫族的能源:

    某虫族在任意时刻开采的辉晶矿含量为XXXX服从参数为λ\lambda的指数分布,这些辉晶矿通过合光阵可以产出YY千焦机械能,其中YY服从正态分布N(μX,σ2)N(\mu X,\sigma^2)

    1. (X,Y)(X,Y)的联合分布;
    2. E[Y]E[Y]

    第一问,根据题目的含义,YX=xN(μx,σ2)Y|X=x \sim N(\mu x,\sigma^2)
    fYX(yx)=12πσe(yμx)22σ2f_{Y|X}(y|x) = \frac{1}{\sqrt{2\pi} \sigma}e^{-\frac{(y-\mu x)^2}{2\sigma^2}}

    因为XX服从参数为λ\lambda的指数分布,
    fX(x)=λeλx,x0f_X(x) = \lambda e^{-\lambda x},x \ge 0

    所以根据定义

    f(x,y)=fYX(yx)fX(x)=λ2πσeλx(yμx)22σ2,x0f(x,y) =f_{Y|X}(y|x)f_X(x)= \frac{\lambda}{\sqrt{2\pi} \sigma}e^{-\lambda x-\frac{(y-\mu x)^2}{2\sigma^2}},x \ge 0

    第二问,先计算条件期望
    E[YX=x]=μxE[Y|X=x]=\mu x

    根据定理7.1,
    E[Y]=0μxλeλx=μλE[Y]=\int_{0}^{\infty} \mu x \lambda e^{-\lambda x}=\frac{\mu}{\lambda}

    方差、协方差、相关性系数

    定义7.4 方差与二阶原点矩
    假设XX的期望存在,记Var(X)Var(X)XX的方差,如果
    Var(X)=E[(XE[X])2]Var(X) = E[(X-E[X])^2]

    如果Var(X)<Var(X)<\infty,称XX的方差存在;称E[X2]E[X^2]XX的二阶原点矩,另外Var(X)Var(X)又叫做二阶中心矩。称sd(X)sd(X)XX的标准差,简记为σX\sigma_X,如果
    sd(X)=Var(X)sd(X) = \sqrt{Var(X)}

    评注
    Var(X)=E[X22XE[X]+(E[X])2]=E[X2]2(E[X])2+(E[X])2=E[X2](E[X])2Var(X)=E[X^2-2XE[X]+(E[X])^2] \\=E[X^2]-2(E[X])^2+(E[X])^2 = E[X^2]-(E[X])^2

    定理7.3 方差的性质

    1. Var(X+c)=Var(X)Var(X+c)=Var(X)
    2. Var(aX)=a2Var(X)Var(aX)=a^2Var(X)
    3. 如果X,YX,Y独立,则Var(X+Y)=Var(X)+Var(Y)Var(X+Y)=Var(X)+Var(Y)

    证明
    第一个性质
    E[(X+c)2]=E[X2+2cX+c2]=E[X2]+2cE[X]+c2(E[X+c])2=(E[X]+c)2=(E[X])2+2cE[X]+c2Var(X+c)=E[X2](E[X])2=Var(X)E[(X+c)^2]=E[X^2+2cX+c^2]=E[X^2]+2cE[X]+c^2 \\ (E[X+c])^2=(E[X]+c)^2=(E[X])^2+2cE[X]+c^2 \\ Var(X+c)=E[X^2]-(E[X])^2=Var(X)

    第二个性质
    E[(aX)2]=E[a2X2]=a2E[X2](E[aX])2=a2(E[X])2Var(aX)=a2E[X2]a2(E[X])2=a2Var(X)E[(aX)^2]=E[a^2X^2]=a^2E[X^2] \\ (E[aX])^2 = a^2(E[X])^2 \\ Var(aX)=a^2E[X^2]-a^2(E[X])^2 =a^2Var(X)

    第三个性质,
    Var(X+Y)=E[(X+Y)2](E[X+Y])2Var(X+Y)=E[(X+Y)^2]-(E[X+Y])^2

    其中第二项为(E[X+Y])2=(E[X]+E[Y])2=(E[X])2+2E[X]E[Y]+(E[Y])2(E[X+Y])^2 = (E[X]+E[Y])^2 \\=(E[X])^2+2E[X]E[Y]+(E[Y])^2

    第一项为
    E[(X+Y)2]=E[X2+2XY+Y2]=E[X2]+2E[XY]+E[Y2]E[(X+Y)^2]=E[X^2+2XY+Y^2] \\ =E[X^2]+2E[XY]+E[Y^2]

    因为X,YX,Y独立,E[XY]=E[X]E[Y]E[XY]=E[X]E[Y],于是
    Var(X+Y)=E[X2](E[X])2+E[Y2](E[Y])2=Var(X+Y)Var(X+Y)=E[X^2]-(E[X])^2+E[Y^2]-(E[Y])^2 \\ =Var(X+Y)

    定义7.5 协方差与相关性系数
    考虑两个随机变量X,YX,Y,记Cov(X,Y)Cov(X,Y)X,YX,Y的协方差,简记为σXY\sigma_{XY},如果
    Cov(X,Y)=E[(XE[X])(YE[Y])]Cov(X,Y)=E[(X-E[X])(Y-E[Y])]

    ρ(X,Y)\rho(X,Y)表示X,YX,Y的相关性系数,如果
    ρ(X,Y)=Cov(X,Y)Var(X)Var(Y)=Cov(X,Y)sd(X)sd(Y)\rho(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}=\frac{Cov(X,Y)}{sd(X)sd(Y)}

    如果ρ(X,Y)>0\rho(X,Y)>0,称X,YX,Y正相关;如果ρ(X,Y)<0\rho(X,Y)<0,称X,YX,Y负相关;如果ρ(X,Y)=0\rho(X,Y)=0,称X,YX,Y不相关或X,YX,Y正交,因为相关性系数的分母为正,所以相关性系数的符号等于协方差的符号。

    如果X=(X1,X2)X=(X_1,X_2)是一个二元随机变量,称Cov(X)Cov(X)XX的协方差矩阵,
    Cov(X)=E[(XE[X])(XE[X])T]Cov(X)=E[(X-E[X])(X-E[X])^T]

    其中
    E[X]=[E[X1]E[X2]]E[X] =\left[\begin{matrix} E[X_1] \\ E[X_2] \end{matrix}\right]

    所以
    Cov(X)=[σX12σXYσXYσX22]Cov(X) = \left[\begin{matrix} \sigma_{X_1}^2 & \sigma_{XY} \\ \sigma_{XY} & \sigma^2_{X_2} \end{matrix}\right]

    评注
    Cov(X,Y)=E[XYE[X]YXE[Y]+E[X]E[Y]]=E[XY]E[X]E[Y]Cov(X,Y)=E[XY-E[X]Y-XE[Y]+E[X]E[Y]] \\ = E[XY]-E[X]E[Y]

    定理7.4 协方差与相关性系数的性质

    1. Cov(X,Y)=Cov(Y,X)Cov(X,Y)=Cov(Y,X)
    2. Cov(aX,bY)=abCov(X,Y)Cov(aX,bY)=abCov(X,Y)
    3. Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)
    4. ρ(X,Y)[1,1]\rho(X,Y) \in [-1,1],等于±1\pm 1的充要条件是Y=a+bY,a,bRY=a+bY,\exists a,b \in \mathbb{R}

    这四条性质留给读者证明,可以参考盛骤的第四章第三节。

    例7.4 二元正态分布
    假设(X1,X2)(X_1,X_2)服从标准二元正态分布(参考第五讲),我们可以根据(X1,X2)(X_1,X_2)构造相关性系数为ρ\rho的正态分布,定义
    Z1=X1,  Z2=ρX1+1ρ2X2Z_1 = X_1,\ \ Z_2 = \rho X_1 + \sqrt{1-\rho^2}X_2

    根据随机变量变换的规则(参考第六讲微分同胚的分布),
    fZ1,Z2(z1,z2)=12π1ρ2exp(z12+(z2ρz11ρ2)22)=12π1ρ2exp(z122ρz1z2+z222(1ρ2))f_{Z_1,Z_2}(z_1,z_2) = \frac{1}{2\pi\sqrt{1-\rho^2}} \exp \left( -\frac{z_1^2 + (\frac{z_2-\rho z_1}{\sqrt{1-\rho^2}})^2}{2} \right) \\ = \frac{1}{2\pi\sqrt{1-\rho^2}} \exp \left( -\frac{z_1^2 -2\rho z_1z_2 + z_2^2}{2(1-\rho^2)} \right)

    我们可以发现
    fZ1(z1)=+12π1ρ2exp(z122ρz1z2+z222(1ρ2))dz2=+ez1222π1ρ2exp((z2ρz1)22(1ρ2))dz2=2π(1ρ2)ez1222π1ρ2=12πez122f_{Z_1}(z_1) = \int_{-\infty}^{+\infty} \frac{1}{2\pi\sqrt{1-\rho^2}} \exp \left( -\frac{z_1^2 -2\rho z_1z_2 + z_2^2}{2(1-\rho^2)} \right) dz_2 \\ = \int_{-\infty}^{+\infty} \frac{e^{-\frac{z_1^2}{2}}}{2\pi\sqrt{1-\rho^2}}\exp \left( -\frac{(z_2-\rho z_1)^2}{2(1-\rho^2)} \right) dz_2 \\ = \frac{\sqrt{2\pi (1-\rho^2)}e^{-\frac{z_1^2}{2}}}{2\pi\sqrt{1-\rho^2}} = \frac{1}{\sqrt{2\pi}} e^{-\frac{z_1^2}{2}}

    也就是说Z1Z_1Z2Z_2的边缘密度还是标准正态的。

    例7.5 资本资产定价模型CAPM
    考虑一元线性回归Y=β0+β1X+u,uN(0,σ2)Y=\beta_0+\beta_1 X+u,u\sim N(0,\sigma^2)uuXX不相关,假设XX的期望与方差存在,求β1\beta_1,并分析β1\beta_1与相关性系数的关系。在资本资产定价模型中,YY表示某项资产的回报率,XX表示市场的风险溢价(市场回报率减去无风险利率),β1\beta_1表示资产的beta,这是对资产包含的系统性风险的度量,beta越大,说明资产包含的系统性风险越多,回报率也就越高,β0\beta_0表示资产的alpha,它表示当市场不均衡时,资产可能出现的超额回报,基于alpha与beta可以构造用于套利的alpha策略,uu表示资产的个别风险,在CAPM的观点中,个别风险不会带来回报。

    因为Cov(X,u)=0Cov(X,u)=0,既然涉及到相关性系数了,那么我们先计算一下协方差,
    Cov(X,Y)=Cov(X,β0+β1X+u)=Cov(X,β0)+β1Cov(X,X)+Cov(X,u)Cov(X,Y)=Cov(X,\beta_0+\beta_1 X+u) \\=Cov(X,\beta_0)+\beta_1Cov(X,X)+Cov(X,u)

    其中第三项为0,因为β1,β0\beta_1,\beta_0是常数,所以第一项为
    Cov(X,β0)=E[Xβ0]β0E[X]=0Cov(X,\beta_0)=E[X\beta_0]-\beta_0E[X]=0

    第二项为
    Cov(X,X)=E[X2](E[X])2=Var(X)Cov(X,X)=E[X^2]-(E[X])^2=Var(X)

    于是
    Cov(X,Y)=β1Var(X)β1=Cov(X,Y)Var(X)Cov(X,Y) =\beta_1Var(X)\Rightarrow \beta_1 = \frac{Cov(X,Y)}{Var(X)}

    相关性系数的定义是
    ρXY=Cov(X,Y)Var(X)Var(Y)Cov(X,Y)=ρXYVar(X)Var(Y)\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} \Rightarrow Cov(X,Y)=\rho_{XY}\sqrt{Var(X)Var(Y)}

    因此
    Cov(X,Y)Var(X)=ρXYVar(X)Var(Y)Var(X)=ρXYVar(Y)Var(X) \frac{Cov(X,Y)}{Var(X)} = \frac{\rho_{XY}\sqrt{Var(X)Var(Y)}}{Var(X)}=\rho_{XY}\sqrt{\frac{Var(Y)}{Var(X)}}

    也就是说
    β1=ρXYVar(Y)Var(X)\beta_1=\rho_{XY}\sqrt{\frac{Var(Y)}{Var(X)}}

    例7.6 虫族的故事续

    1. 某虫族在任意时刻有母体数目XX个,XX服从参数为λ\lambda的Poisson分布,这些母体可以产出YY个高级虫族,其中YY服从参数为X+1X+1的指数分布,计算Cov(X,Y)Cov(X,Y)
    2. 某虫族在任意时刻开采的辉晶矿含量为XXXX服从参数为λ\lambda的指数分布,这些辉晶矿通过合光阵可以产出YY千焦机械能,其中YY服从正态分布N(μX,σ2)N(\mu X,\sigma^2),计算Cov(X,Y)Cov(X,Y)

    第一问,在例5.6中我们得到了X,YX,Y的联合分布与E[Y]E[Y]
    f(x,y)=(x+1)λxe(λ+(x+1)y)x!,y0,x=0,1,E[Y]=1eλλf(x,y) = \frac{(x+1)\lambda^xe^{-(\lambda+(x+1)y)}}{x!},y \ge 0,x=0,1,\cdots \\ E[Y]=\frac{1-e^{-\lambda}}{\lambda}

    因为XX服从参数为λ\lambda的Poisson分布,E[X]=λE[X]=\lambda,要计算Cov(X,Y)Cov(X,Y),我们只需要计算E[XY]E[XY]即可,
    0+x=0+xy(x+1)λxe(λ+(x+1)y)x!dy\int_0^{+\infty}\sum_{x=0}^{+\infty} xy\frac{(x+1)\lambda^xe^{-(\lambda+(x+1)y)}}{x!}dy

    这个式子乍一看是有点复杂的,但在积分与级数都收敛的时候,他们可以交换次序,因此我们可以先计算更简单的积分的部分
    x=0+xλxx!0+(x+1)e(λ+(x+1)y)dy=x=0+xλxeλx!(x+1)=x=0+λxeλx!x=0+λxeλ(x+1)!\sum_{x=0}^{+\infty} \frac{x\lambda^x}{x!}\int_0^{+\infty}(x+1)e^{-(\lambda+(x+1)y)}dy \\ = \sum_{x=0}^{+\infty} \frac{x\lambda^xe^{-\lambda}}{x!(x+1)}= \sum_{x=0}^{+\infty} \frac{\lambda^xe^{-\lambda}}{x!}- \sum_{x=0}^{+\infty} \frac{\lambda^xe^{-\lambda}}{(x+1)!}

    最后一步是对分子上的xx做拆分,x=(x+1)1x = (x+1)-1,第一项就是Poisson分布的归一性条件,因此第一项为1,接下来讨论第二项,
    x=0+λxeλ(x+1)!=1λx=0+λx+1eλ(x+1)!=1λx=1+λxeλx!=1λ(1eλ)\sum_{x=0}^{+\infty} \frac{\lambda^xe^{-\lambda}}{(x+1)!}=\frac{1}{\lambda}\sum_{x=0}^{+\infty} \frac{\lambda^{x+1}e^{-\lambda}}{(x+1)!} = \frac{1}{\lambda}\sum_{x=1}^{+\infty} \frac{\lambda^{x}e^{-\lambda}}{x!} = \frac{1}{\lambda}(1-e^{-\lambda})

    所以
    E[XY]=11λ(1eλ)E[XY]=1-\frac{1}{\lambda}(1-e^{-\lambda})

    于是
    Cov(X,Y)=E[XY]E[X]E[Y]=11λ(1eλ)λ1λ(1eλ)=11λ(1eλ)1+eλ=eλ1λ(1eλ)Cov(X,Y)=E[XY]-E[X]E[Y] \\=1-\frac{1}{\lambda}(1-e^{-\lambda})-\lambda\frac{1}{\lambda}(1-e^{-\lambda}) \\ = 1-\frac{1}{\lambda}(1-e^{-\lambda})-1+e^{-\lambda}=e^{-\lambda}-\frac{1}{\lambda}(1-e^{-\lambda})

    第二问,在例7.3中我们得到了联合分布与E[Y]E[Y]
    f(x,y)=fYX(yx)fX(x)=λ2πσeλx(yμx)22σ2,x0E[Y]=μ/λf(x,y) =f_{Y|X}(y|x)f_X(x)= \frac{\lambda}{\sqrt{2\pi} \sigma}e^{-\lambda x-\frac{(y-\mu x)^2}{2\sigma^2}},x \ge 0 \\ E[Y] = \mu/\lambda

    因为XX服从参数为λ\lambda的指数分布,E[X]=1/λE[X]=1/\lambda,于是我们只需要计算E[XY]E[XY]
    E[XY]=+0+λxy2πσeλx(yμx)22σ2dxdyE[XY]=\int_{-\infty}^{+\infty}\int_0^{+\infty}\frac{\lambda xy}{\sqrt{2\pi} \sigma}e^{-\lambda x-\frac{(y-\mu x)^2}{2\sigma^2}}dxdy

    我们简单观察一下这个积分就会发现,先积xx并不明智,因为关于xx的表达式太复杂了,所以这个积分存在时,我们最好交换一下积分次序,先积yy
    0+λxeλx+y12πσe(yμx)22σ2dydx\int_0^{+\infty}\lambda xe^{-\lambda x}\int_{-\infty}^{+\infty}y\frac{1}{\sqrt{2\pi} \sigma}e^{-\frac{(y-\mu x)^2}{2\sigma^2}}dydx

    注意到
    +y12πσe(yμx)22σ2dy=E[YX=x]=μx\int_{-\infty}^{+\infty}y\frac{1}{\sqrt{2\pi} \sigma}e^{-\frac{(y-\mu x)^2}{2\sigma^2}}dy=E[Y|X=x]=\mu x

    于是我们再对xx积分
    0+λμx2eλxdx=μE[X2]=μ(Var(X)+(E[X])2)=2μλ2\int_0^{+\infty}\lambda \mu x^2e^{-\lambda x}dx = \mu E[X^2]=\mu(Var(X)+(E[X])^2) = \frac{2\mu}{\lambda^2}

    这样我们就可以计算协方差了
    Cov(X,Y)=E[XY]E[X]E[Y]=2μλ2μλ2=μλ2Cov(X,Y)=E[XY]-E[X]E[Y]=\frac{2\mu}{\lambda^2}-\frac{\mu}{\lambda^2}=\frac{\mu}{\lambda^2}

    例7.8 Markowitz投资组合理论
    假设资产AA的收益率均值为μA\mu_A,波动率(即标准差)为σA\sigma_A,资产BB的收益率均值为μB\mu_B,波动率为σB\sigma_B,二者收益率相关性系数为ρ\rho,是否存在用资产AA与资产BB构造的投资组合,使得组合收益率等于rr时风险最小?

    假设这个资产组合中AA的权重为ww,则BB的权重为1w1-w,于是资产组合收益率均值为wμA+(1w)μBw\mu_A+(1-w)\mu_B,记XX表示资产AA的收益率,YY表示资产BB的收益率,则资产组合收益率的方差为
    Var(wX+(1w)Y)=E[(wX+(1w)Y)2](E[wX+(1w)Y])2Var(wX+(1-w)Y) \\=E[(wX+(1-w)Y)^2]-(E[wX+(1-w)Y])^2

    第一项为
    E[(wX+(1w)Y)2]=E[w2X2+2w(1w)XY+(1w)2Y2]=w2E[X2]+2w(1w)E[XY]+(1w)2E[Y2]E[(wX+(1-w)Y)^2]=E[w^2X^2+2w(1-w)XY+(1-w)^2Y^2] \\ = w^2E[X^2]+2w(1-w)E[XY]+(1-w)^2E[Y^2]

    第二项为
    (E[wX+(1w)Y])2=(wE[X]+(1w)E[Y])2=w2(E[X])2+2w(1w)E[X]E[Y]+(1w)2(E[Y])2(E[wX+(1-w)Y])^2=(wE[X]+(1-w)E[Y])^2 \\ = w^2(E[X])^2+2w(1-w)E[X]E[Y]+(1-w)^2(E[Y])^2

    所以
    Var(wX+(1w)Y)=w2Var(X)+2w(1w)Cov(X,Y)+(1w)2Var(Y)Var(wX+(1-w)Y) \\=w^2Var(X)+2w(1-w)Cov(X,Y)+(1-w)^2Var(Y)

    也就是说投资组合收益率的方差为
    w2σA2+2w(1w)ρσAσB+(1w)2σB2w^2\sigma_A^2+2w(1-w)\rho \sigma_A\sigma_B+(1-w)^2\sigma_B^2

    也就是说我们要做优化:
    minww2σA2+2w(1w)ρσAσB+(1w)2σB2wμA+(1w)μB=r\min_{w}w^2\sigma_A^2+2w(1-w)\rho \sigma_A\sigma_B+(1-w)^2\sigma_B^2 \\ w\mu_A+(1-w)\mu_B = r

    剩下的留给读者完成,这里关于两个随机变量和的方差的公式是具有一般性的。

    两两独立、独立与相关性

    定义7.6 独立性

    1. 正交:Cov(X,Y)=0Cov(X,Y)=0,则X,YX,Y正交;
    2. 两两独立:X,Y,ZX,Y,Z中任两个独立,比如f(x,y)=fX(x)fY(y)f(x,y)=f_X(x)f_Y(y),则它们两两独立;
    3. 独立:X,Y,ZX,Y,Z独立,则X,Y,ZX,Y,Z两两独立,并且f(x,y,z)=fX(x)fY(y)fX(x)f(x,y,z)=f_X(x)f_Y(y)f_X(x)

    说明
    这四条是关于独立性与相关性的定义,其中独立最强,两两独立次之,正交最弱。我们用下面两个例子说明它们的强弱关系。

    例7.9 正交但不独立
    假设(X,Y)(X,Y)服从{(x,y):x2+y2=1}\{(x,y):x^2+y^2=1\}上的均匀分布,也就是类似我们在第二讲讨论Bertrand悖论时一样,假设点在圆周上是均匀的。下面我们说明两点:

    1. X,YX,Y正交
    2. X,YX,Y不独立

    第一问,因为{(x,y):x2+y2=1}\{(x,y):x^2+y^2=1\}的圆心在原点,所以EX=EY=0EX=EY=0(因为关于原点对称)。根据这种中心对称性,我们还可以得到一个结论:
    E(XY)=E(XY)E(XY)=0E(-XY)=E(XY) \Rightarrow E(XY)=0

    于是Cov(X,Y)=0Cov(X,Y)=0

    第二问,举出一个反例即可
    P(X1>a)P(X2>a)0,a(1/2,1)P(X1>a,X2>a)=0P(X_1>a)P(X_2>a) \ne 0,\forall a \in (1/\sqrt{2},1) \\ P(X_1>a,X_2>a)=0

    X1,X2X_1,X_2不独立。

    例7.10 两两独立但不独立
    假设X,Y,ZX,Y,Z的概率密度如下:
    f(x,y,z)={1sinxsinysinz8π3,0x,y,z2π0,otherwisef(x,y,z) = \begin{cases} \frac{1-\sin x \sin y \sin z}{8 \pi^3},0 \le x,y,z \le 2\pi \\ 0 ,otherwise \end{cases}

    X,Y,ZX,Y,Z两两独立但不独立,读者可以自行验证这个结论。

    展开全文
  • -在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联,那么...关键词python方差协方差相关系数离散度pand...
    - 点击上方“中国统计网”订阅我吧!-50c43fbb2fc8e79c500f6418a0397c16.giff14d671ccfd356d67a9e9a0446320562.gif

    在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对数据进行分析,从而给我们的决策提供支持,本文即介绍如何使用 Python 进行数据相关性分析。 

    关键词 python 方差 协方差 相关系数 离散度 pandas numpy

    8b774ee91b0dab4ddf02968fc882b8fa.png实验数据准备8b774ee91b0dab4ddf02968fc882b8fa.png

    接下来,我们将使用 Anaconda 的 ipython 来演示如何使用 Python 数据相关性分析,我所使用的 Python 版本为 3.6.2 。

    首先,我们将会创建两个数组,数组内含有 20 个数据,均为 [0, 100] 区间内随机生成。

    a = [random.randint(0, 100) for a in range(20)]b = [random.randint(0, 100) for a in range(20)]print(a)>> [35, 2, 75, 72, 55, 77, 69, 83, 3, 46, 31, 91, 72, 12, 15, 20, 39, 18, 57, 49]print(b)>> [25, 24, 72, 91, 27, 44, 85, 21, 0, 64, 44, 31, 6, 91, 1, 61, 5, 39, 24, 43

    8b774ee91b0dab4ddf02968fc882b8fa.png期望8b774ee91b0dab4ddf02968fc882b8fa.png

    在进行相关性分析之前,我们需要先为最终的计算分析做好准备。我们在分析前,第一个准备的是计算数据的期望。对于期望的定义,离散变量和连续变量是不一样的,具体定义如下: 

    - 对于连续随机变量 

    7008065dbc86d2b935b01c2edabe160e.png

    • 在离散随机变量 
    430b8166332687548ed1541f6f64c978.png

    在一般情况下,我们通过实验或者调查统计获取的数据很大一部分都属于离散随机变量,那么这里的期望我们也可以简单的理解为平均数,那么既然是平均数,那么我们就可以非常简单编写一个计算离散变量的期望的函数了。

    def mean(x):  return sum(x) / len(x)mean(a)>> 46.05mean(b)>> 39.9
    8b774ee91b0dab4ddf02968fc882b8fa.png离散度 - 方差与标准差8b774ee91b0dab4ddf02968fc882b8fa.png

    接下来,我们需要计算的是数据的离散程度,在统计上,我们通常会使用方差和标准差来描述。 方差和期望一样,对于连续和离散的随机变量有着不同的定义,具体定义如下: 
    • 对于连续随机变量 

    47793850c5450f6b8f3b0c2db272c775.pnge1f0b8012892df1ac5d3546bc2015e1b.png
    • 对于离散随机变量 

    6b6616f5aa4e8fc7bb3f6f29fb0eb5dd.png与期望类似,这里我们一般只考虑离散变量的方差。还有一点值得注意,我们上面的离散变量方差公式,最后是除以 n,但实际上,我们计算样本方差的时候一般会使用 n-1。而标准差,就是方差的平方根。那么,我们也可以像上面计算期望一样,给方差和标准差编写函数。
    # 计算每一项数据与均值的差def de_mean(x):  x_bar = mean(x)  return [x_i - x_bar for x_i in x]# 辅助计算函数 dot product 、sum_of_squaresdef dot(v, w):  return sum(v_i * w_i for v_i, w_i in zip(v, w))def sum_of_squares(v):  return dot(v, v)# 方差def variance(x):  n = len(x)  deviations = de_mean(x)  return sum_of_squares(deviations) / (n - 1)# 标准差import mathdef standard_deviation(x):  return math.sqrt(variance(x))variance(a)>> 791.8394736842105varance(b)>> 850.5157894736841
    8b774ee91b0dab4ddf02968fc882b8fa.png协方差与相关系数8b774ee91b0dab4ddf02968fc882b8fa.png

    接下来,我们进入正题,我们开始计算两组数据的相关性。我们一般采用相关系数来描述两组数据的相关性,而相关系数则是由协方差除以两个变量的标准差而得,相关系数的取值会在 [-1, 1] 之间,-1 表示完全负相关,1 表示完全相关。接下来,我们看一下协方差和相关系数的定义: 
    • 协方差 

    edd0473f0cdaf12e9fb178f52854320e.png
    • 相关系数 

    c533e77615c7524bdb5899437f1a76eb.png同样的,我们根据上述的公式编写函数。
    # 协方差def covariance(x, y):  n = len(x)  return dot(de_mean(x), de_mean(y)) / (n -1)# 相关系数def correlation(x, y):  stdev_x = standard_deviation(x)  stdev_y = standard_deviation(y)  if stdev_x > 0 and stdev_y > 0:    return covariance(x, y) / stdev_x / stdev_y  else:    return 0covariance(a, b)>> 150.95263157894735correlation(a, b)>> 0.18394200852440826
    根据上面的结果,相关系数为 0.18,可以推断这两组随机数有弱正相关。当然,我们知道,这两组数据都是使用 random 函数随机生成出来的,其实并没有什么相关性,这也是在数据处理中,需要特别留意的一个地方,统计的方法可以给我们一个定量的数值可供分析,但实际的分析也需要结合实际以及更多的情况综合考虑。8b774ee91b0dab4ddf02968fc882b8fa.png使用 numpy 计算协方差矩阵 相关系数8b774ee91b0dab4ddf02968fc882b8fa.png

    一般我们日常工作,都不会像上面一样把什么期望、方差、协方差一类的函数都重新写一遍,上面的代码只是让我们对这些计算更加熟悉。我们通常情况下会使用 numpy 一类封装好的函数,以下将演示一下如何使用 numpy 计算协方差。
    import numpy as np# 先构造一个矩阵ab = np.array([a, b])# 计算协方差矩阵np.cov(ab)>> array([[ 791.83947368,  150.95263158],       [ 150.95263158,  850.51578947]])
    这里我们可以看到,这里使用 np.cov 函数,输出的结果是一个矩阵,这就是协方差矩阵。协方差矩阵数据的看法也不难,我们可以以上面的结果为例,矩阵1行1列,表示的是 a 数据的方差,这和我们上面的计算结果一致,然后1行2列和2行1列分别是 a b 以及 b a 的协方差,所以他们的值是一样的,然后最后2行2列就是 b 数据的方差。接下来,我们继续使用 numpy 计算相关系数
    np.corrcoef(ab)>> array([[ 1.        ,  0.18394201],       [ 0.18394201,  1.        ]])
    计算相关系数,我们使用 numpy 的 corrcoef 函数,这里的输出也是一个矩阵,这个矩阵数据的含义同上面的协方差类似,我们可以看到,这里我们的相关系数是 0.18 ,和我们上面自己编写的函数计算的结果一致。8b774ee91b0dab4ddf02968fc882b8fa.png使用 pandas 计算协方差、相关系数8b774ee91b0dab4ddf02968fc882b8fa.png

    除了使用 numpy,我们比较常用的 python 数据处理库还有 pandas,很多金融数据分析的框架都会使用 pandas 库,以下将演示如何使用 pandas 库计算协方差和相关系数。
    import pandas as pd# 使用 DataFrame 作为数据结构,为方便计算,我们会将 ab 矩阵转置dfab = pd.DataFrame(ab.T, columns=['A', 'B'])# A B 协方差dfab.A.cov(dfab.B)>> 150.95263157894738# A B 相关系数dfab.A.corr(dfab.B)>>  0.18394200852440828dfab>>    A   B0   35  251    2  242   75  723   72  914   55  275   77  446   69  857   83  218    3   09   46  6410  31  4411  91  3112  72   613  12  9114  15   115  20  6116  39   517  18  3918  57  2419  49  43
    可以看到,和 numpy 相比,pandas 对于有多组数据的协方差、相关系数的计算比 numpy 更为简便、清晰,我们可以指定计算具体的两组数据的协方差、相关系数,这样就不需要再分析结果的协方差矩阵了。

    小结

    本文通过创建两组随机的数组,然后通过参考定义公式编写函数,再到使用 numpy 以及 pandas 进行协方差、相关系数的计算。到这里我们应该已经了解了数据相关性分析的原理,以及简单的具体实践使用方法,日后在工作中遇到需要做数据相关性分析的时候,就可以派上用场了。End.作者:空空来源:知乎

    零基础入职数据分析就业班

    课程的形式主要是“直播+录播”

    报名专享:课程项目作业+1v1班主任监督学习+爱数据学院学员专属网站+班级答疑群

    课程结束后能熟练掌握SQL、Python、Excel、PPT等工具

    适合人群:

    1.转行(岗位相关,专业相关、对数据分析感兴趣)2.从事数据分析工作,但是需要提升技能以及增加实战经验3.应届毕业生入职数据分析

    9e3adfb7c5bb9dfa88a639362562b887.pngea6806d74b2ade362403f98124cc4359.gif
    展开全文
  • 多重共线性、异方差和自相关性

    千次阅读 2019-04-14 11:07:48
    https://www.jianshu.com/p/1e5389ca9829
  • UA MATH571A 一元线性回归III 一元线性回归的ANOVAANOVA TableF检验回归系数的F...ANOVA(Analysis of Variance)是分析方差构成的常用方法。在前两篇中,我们定义过 SST=∑i=1N(Yi−Yˉ)2 SST = \sum_{i=1}^N (...
  • sas相关性分析
  • 指标解释:所有样本的样本误差的绝对值占实际值的比值 指标解读:指标越接近与0,模型越准确 5)模型解释度:R squared R方 r2 指标解释:应变量的方差能被自变量解释的程度 指标解读:指标越接近1,则代表自变量对于...
  • 在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关...关键词python方差协方差相关系数离散度pandasnumpy实验数据准备接下来,我...
  • 在我今天参与的一个讨论中,提出了一个问题,即在具有单个连续预测器的线性回归模型中R平方如何/是否取决于预测变量的方差。这个问题的答案当然是肯定的。 可视化 我们还可以在R中轻松地可视化前面的概念。我们...
  • Python 数据相关性分析

    万次阅读 多人点赞 2018-04-25 15:09:49
    概述 在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者...关键词 python 方差 协方差 相关系数 离散度 pandas numpy 实验数据准备 ...
  • 若只考虑事件来研究事件的性质(概率,期望,方差相关性,独立性……),当事件足够多的情况下,研究无法进行。这就必须将事件量化,引进随机变量。当然随机变量也分离散和连续的,其中离散随机变量可以看成是退化...
  • 在统计学中,单因素方差分析是(one-way analysis of variance,缩写one-way ANOVA)一种常用于比较多个样本均值的方法。在之前的《如何进行单因素方差分析?》介绍了如何用SPSS在绘制图表前进行方差分析,并在《显著...
  • R语言详解参数检验和非参数检验二、参数检验R语言实现2.1 单样本t检验2.2 独立样本t检验2.3 配对样本t检验2.4方差分析2.5 pearson相关性检验三、非参数检验R语言实现3.1单样本wilcoxon检验3.2 Mann-Whitney检验3.3...
  • 有的材料按照 一维离散 -> 一维连续 -> 多维离散 -> 多维连续的角度讲解。...Geometric 和 Binomial 分布的 PMF,期望,方差公式和推导过程。目录随机变量定义。是 function,而非 variableP...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 856
精华内容 342
关键字:

方差相关性