精华内容
下载资源
问答
  • 采用栅格分析方法,提出“自然山水网络”、“历史发展网络”、“道路交通网络”、“用地性质网络”4个子网络,采用单因素方差分析、相关分析、重回归分析,逐一分析各层网络之间的相互关系,根据主观满意度求得景观...
  • 全州工业发展因素相关性分析——以MATLAB为经济模型计算载体.pdf
  • 根据2002―2007年北京朝阳医院逐月慢性阻塞性肺病(COPD)入院患者例次和北京朝阳气象站同期逐月地面气象资料,利用统计方法,进行相关分析,旨在探讨慢性阻塞性肺病与气候因素、气候变化的关系,分析人类免受不利...
  • 在一定的雾化参数下,采用网状目标法系统地研究了荷电电压U、电极环直径D以及极间距L对雾滴荷电效果的影响,并通过SPSS分析了这3种影响因素与雾滴荷电效果之间的相关性。结果表明:在感应荷电条件下,雾滴的荷质比随电压...
  • 量化交易 实战第九课 因子相关性分析

    千次阅读 多人点赞 2021-03-23 12:33:20
    量化交易 实战第九课 因子相关性分析.

    概述

    相关性 (Correlation) 在统计中是与独立性 (Independence) 对立的概念. 泛指两随机变量之间存在的一切关系.

    在这里插入图片描述

    研报分析结果

    下图是某大类因子下的一些因子 IC 值变化图. 我们能从中看出大概相关性.
    在这里插入图片描述
    比如说 OPM 和 OPM_TTM 相关性较强, 变化趋势类似.

    某研报最终相关性最终结果:
    在这里插入图片描述

    代码实现

    导包

    # 使用alphalens计算因子的IC分析
    # 分析的区间2020-01-01到2021-01-01
    import numpy as np
    import pandas as pd
    import datetime
    from alphalens import performance
    from alphalens import plotting
    from alphalens import tears
    from alphalens import utils
    

    总资产回报率 IC

    factor = "return_on_asset_net_profit"
    
    # ----------------1. 准备因子数据----------------
    
    # 1.1 获取因子数据
    
    
    # 获取这一年的交易日期
    date_data = get_trading_dates(start_date="2020-01-01", end_date="2021-01-01")
    
    # 定义df数据集
    all_data = pd.DataFrame()
    
    for date in date_data:
        # 获取当天因子数据
        q = query(
            fundamentals.financial_indicator.return_on_asset_net_profit
        )
        
        # 获取截面数据
        fund = get_fundamentals(q, entry_date=date).iloc[:, 0, :]
        
        # 创建日期列
        fund["date"] = date
        
        # 拼接
        all_data = pd.concat([all_data, fund])
        
        
        
    # 设置双重索引, 变成一个MultiIndex DataFrame
    multiindex_df = all_data.set_index(["date", all_data.index])
    
    # 1.2 处理因子数据 (去极值, 标准化)
    
    def mad(factor):
        """3倍中位数去极值"""
        
        # 求出因子值的中位数
        median = np.median(factor)
        
        # 求出因子值与中位数的差值, 进行绝对值
        mad = np.median(abs(factor - median))
        
        # 定义几倍的中位数上下限
        high = median + (3 * 1.4826 * mad)
        low = median - (3 * 1.4826 * mad)
        
        # 替换上下限
        factor = np.where(factor > high, high, factor)
        factor = np.where(factor < low, low, factor)
        return factor
    
    def stand(factor):
        """数据标准化"""
        mean = factor.mean()
        std = factor.std()
        return (factor - mean) / std
    
    multiindex_df[factor] = mad(multiindex_df[factor]) 
    multiindex_df[factor] = stand(multiindex_df[factor])
    
    
    # ----------------2. 准备收盘价数据----------------
    
    # 转换为Series
    singlefactor_series = multiindex_df[factor]
    
    # 获取所有股票基础信息
    stocks = all_instruments("CS")
    
    # 得到合约代码
    stocks_list = stocks["order_book_id"]
    
    # 获取收盘价
    price = get_price(stocks_list ,start_date="2020-01-01", end_date="2021-01-01", fields="close")
    
    
    # ----------------3. 生成通用Alphalens数据----------------
    
    factor_return = utils.get_clean_factor_and_forward_returns(singlefactor_series.astype(float), price.astype(float))
    
    
    # ----------------4. 生成通用Alphalens数据----------------
    
    
    # IC 值, 默认每天的IC结构
    return_on_asset_net_profit_IC = performance.factor_information_coefficient(factor_return)
    

    资本回报率 IC

    factor = "return_on_invested_capital"
    
    # ----------------1. 准备因子数据----------------
    
    # 1.1 获取因子数据
    
    
    # 获取这一年的交易日期
    date_data = get_trading_dates(start_date="2020-01-01", end_date="2021-01-01")
    
    # 定义df数据集
    all_data = pd.DataFrame()
    
    for date in date_data:
        # 获取当天因子数据
        q = query(
            fundamentals.financial_indicator.return_on_invested_capital
        )
        
        # 获取截面数据
        fund = get_fundamentals(q, entry_date=date).iloc[:, 0, :]
        
        # 创建日期列
        fund["date"] = date
        
        # 拼接
        all_data = pd.concat([all_data, fund])
        
        
        
    # 设置双重索引, 变成一个MultiIndex DataFrame
    multiindex_df = all_data.set_index(["date", all_data.index])
    
    # 1.2 处理因子数据 (去极值, 标准化)
    
    def mad(factor):
        """3倍中位数去极值"""
        
        # 求出因子值的中位数
        median = np.median(factor)
        
        # 求出因子值与中位数的差值, 进行绝对值
        mad = np.median(abs(factor - median))
        
        # 定义几倍的中位数上下限
        high = median + (3 * 1.4826 * mad)
        low = median - (3 * 1.4826 * mad)
        
        # 替换上下限
        factor = np.where(factor > high, high, factor)
        factor = np.where(factor < low, low, factor)
        return factor
    
    def stand(factor):
        """数据标准化"""
        mean = factor.mean()
        std = factor.std()
        return (factor - mean) / std
    
    multiindex_df[factor] = mad(multiindex_df[factor]) 
    multiindex_df[factor] = stand(multiindex_df[factor])
    
    
    # ----------------2. 准备收盘价数据----------------
    
    # 转换为Series
    singlefactor_series = multiindex_df[factor]
    
    # 获取所有股票基础信息
    stocks = all_instruments("CS")
    
    # 得到合约代码
    stocks_list = stocks["order_book_id"]
    
    # 获取收盘价
    price = get_price(stocks_list ,start_date="2020-01-01", end_date="2021-01-01", fields="close")
    
    
    # ----------------3. 生成通用Alphalens数据----------------
    
    factor_return = utils.get_clean_factor_and_forward_returns(singlefactor_series.astype(float), price.astype(float))
    
    
    # ----------------4. 生成通用Alphalens数据----------------
    
    
    # IC 值, 默认每天的IC结构
    return_invested_capital_IC = performance.factor_information_coefficient(factor_return)
    

    计算相关性

    from scipy import stats as st
    
    # 斯皮尔曼相关系数
    st.spearmanr(return_on_asset_net_profit_IC.iloc[:, 0], return_invested_capital_IC.iloc[:, 0])
    

    输出结果:

    SpearmanrResult(correlation=0.977877642558714, pvalue=5.866171447988381e-159)
    
    展开全文
  • 相关性分析是指通过对变量的分析,判定两个变量因素的相关程度,然后通过对其中一个因素的引导,来影响另一个因素。需要注意是,一般讨论的相关性分析均指代“线性相关性”。假设我们通过分析发现,用户的网页浏览...

    相关性分析是指通过对变量的分析,判定两个变量因素的相关程度,然后通过对其中一个因素的引导,来影响另一个因素。

    需要注意是,一般讨论的相关性分析均指代“线性相关性”。

    假设我们通过分析发现,用户的网页浏览行为和用户的购买行为呈现较强的正相关性,那么理论上,产品运营同学通过引导用户浏览更多的网页便可以带来更多的购买订单数,进而提升平台的收入。

    那么怎么判定两者是否存在正相关关系呢?

    用户在网页上留下了行为数据,我们随机选取了100组数据(X,Y),X为用户的浏览数据(日浏览门店数量),Y为用户的购买数据(日购买商品数)。

    判定两者相关的方式有两种:图形观测法:通过绘制散点图判断两者是否存在一定相关关系

    科学计算法:通过计算相关性系数r

    图形观测法可以通过python直接绘制散点图来实现,形象可见,但是无法数据化。

    import numpy as np

    import pandas as pd

    import matplotlib.pyplot as plt

    # 随机生成一组数据(X,Y)

    data = pd.DataFrame(np.random.randn(200,2)*100, columns=['X','Y'])

    # 绘制散点图

    plt.figure(figsize = (6,6)) # 图片像素大小

    plt.scatter(data.X, data.Y,color="blue") # 散点图绘制

    plt.grid() # 显示网格线

    plt.show() # 显示图片得到(X,Y)散点分布图散点图和相关性系数关系图(数字为相关性系数)--转自维基百科

    科学计算法也可以通过python直接实现,但需要注意的是,该方法会得到两个指标:1)相关性系数r;2)显著性水平p。

    两者的关系为:当p<0.05(或者0.01)的前提下,才可以参考r值,不能仅仅只看r值。假设p=0.02,r=0.8,认为两组数据存在高度线性关系

    假设p=0.5,r=0.8,认为两组数据不能进行相关性比较,更别提相关性是高还是低(此时的相关性表现可能是巧合)

    好奇的商业分析师会问:什么是r?什么是p?为什么需要他们?

    # -----------------------------

    # |r|<0.3 不存在线性关系

    # 0.3<|r|<0.5 低度线性关系

    # 0.5<|r|<0.8 显著线性关系

    # |r|>0.8 高度线性关系

    # ------------------------------

    import numpy as np

    import pandas as pd

    import scipy.stats as stats

    data = pd.DataFrame(np.random.randn(200,2)*100, columns=['X','Y'])

    r,p = stats.pearsonr(data.X,data.Y) # 相关系数和P值

    print('相关系数r为 = %6.3f,p值为 = %6.3f'%(r,p))

    得到:相关系数r为 = 0.021,p值为 = 0.766。

    对于多维数据,需要计算两两之间的相关性

    import numpy as np

    import pandas as pd

    import matplotlib.pyplot as plt

    import scipy.stats as stats

    # 导入数据

    data = pd.DataFrame(np.random.randn(200,4)*100, columns = ['A','B','C','D'])

    # 相关性计算

    print(data.corr())

    # 绘图

    fig = pd.plotting.scatter_matrix(data,figsize=(6,6),c ='blue',marker = 'o',diagonal='',alpha = 0.8,range_padding=0.2) # diagonal只能为'hist'/'kde'

    plt.show()

    pandas的corr()函数只能计算相关系数r,无法计算p值。得到两两变量之间的散点分布图得到两两变量之间的相关性系数r

    来自:WALT(淡然)得之坦然,失之淡然

    展开全文
  • 【数据相关性分析】数据相关性分析理论基础

    万次阅读 多人点赞 2018-07-18 17:24:38
    思考如何进行相关性分析相关性分析的方法有哪些?说出你的想法 相关分析的方法很,初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。中级的方法可以对数据间关系的强弱进行度量,如完全...

     

     

    数据库开发草案中有这样一个要求:

    学生成绩情况与学生个人发展之间的关系分析,

    以此为例。思考如何进行相关性分析,

    相关性分析的方法有哪些?说出你的想法

     

    相关分析的方法很多,初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。中级的方法可以对数据间关系的强弱进行度量,如完全相关,不完全相关等。高级的方法可以将数据间的关系转化为模型,并通过模型对未来的业务发展进行预测

     

    1,图表相关分析(折线图及散点图)

     

    学生成绩情况有明显的时间维度,首先可采用图表法,但是学生个人发展的数据不明确,需确立具体的发展方向

     

    第一种相关分析方法是将数据进行可视化处理,简单的说就是绘制图表。单纯从数据的角度很难发现其中的趋势和联系,而将数据点绘制成图表后趋势和联系就会变的清晰起来。

    对于有明显时间维度的数据,我们选择使用折线图。

     

     

     

     

     

    为了更清晰的对比这两组数据的变化和趋势,我们使用双坐标轴折线图,其中主坐标轴用来绘制广告曝光量数据,次坐标轴用来绘制费用成本的数据。通过折线图可以发现,费用成本和广告曝光量两组数据的变化和趋势大致相同,从整体的大趋势来看,费用成本和广告曝光量两组数据都呈现增长趋势。从规律性来看费用成本和广告曝光量数据每次的最低点都出现在同一天。从细节来看,两组数据的短期趋势的变化也基本一致。

     

     

    比折线图更直观的是散点图。散点图去除了时间维度的影响,只关注广告曝光量和费用成本这里两组数据间的关系。在绘制散点图之前,我们将费用成本标识为X,也就是自变量,将广告曝光量标识为y,也就是因变量。下面是一张根据每一天中广告曝光量和费用成本数据绘制的散点图,X轴是自变量费用成本数据,Y轴是因变量广告曝光量数据。从数据点的分布情况可以发现,自变量x和因变量y有着相同的变化趋势,当费用成本的增加后,广告曝光量也随之增加。

     

    折线图和散点图都清晰的表示了广告曝光量和费用成本两组数据间的相关关系,优点是对相关关系的展现清晰,缺点是无法对相关关系进行准确的度量,缺乏说服力。并且当数据超过两组时也无法完成各组数据间的相关分析

     

    2,协方差及协方差矩阵

     

    第二种相关分析方法是计算协方差。协方差用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,协方差就是正值,说明两个变量正相关。如果两个变量的变化趋势相反,协方差就是负值,说明两个变量负相关。如果两个变量相互独立,那么协方差就是0,说明两个变量不相关。以下是协方差的计算公式

    下面是广告曝光量和费用成本间协方差的计算过程和结果,经过计算,我们得到了一个很大的正值,因此可以说明两组数据间是正相关的。广告曝光量随着费用成本的增长而增长

    协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。下面是三组数据x,y,z,的协方差矩阵计算公式。

     

    协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数

     

    3,相关系数

    第三个相关分析方法是相关系数。相关系数(Correlation coefficient)是反应变量之间关系密切程度的统计指标,相关系数的取值区间在1到-1之间。1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0表示相关关系越弱。以下是相关系数的计算公式。

    其中rxy表示样本相关系数,Sxy表示样本协方差,Sx表示X的样本标准差,Sy表示y的样本标准差。下面分别是Sxy协方差和Sx和Sy标准差的计算公式。由于是样本协方差和样本标准差,因此分母使用的是n-1。

    Sxy样本协方差计算公式:

    Sx样本标准差计算公式:

    Sy样本标准差计算公式:

    下面是计算相关系数的过程,在表中我们分别计算了x,y变量的协方差以及各自的标准差,并求得相关系数值为0.93。0.93大于0说明两个变量间正相关,同时0.93非常接近于1,说明两个变量间高度相关。

    在实际工作中,不需要上面这么复杂的计算过程,在Excel的数据分析模块中选择相关系数功能,设置好x,y变量后可以自动求得相关系数的值。在下面的结果中可以看到,广告曝光量和费用成本的相关系数与我们手动求的结果一致。

    相关系数的优点是可以通过数字对变量的关系进行度量,并且带有方向性,1表示正相关,-1表示负相关,可以对变量关系的强弱进行度量,越靠近0相关性越弱。缺点是无法利用这种关系对数据进行预测,简单的说就是没有对变量间的关系进行提炼和固化,形成模型。要利用变量间的关系进行预测,需要使用到下一种相关分析方法,回归分析

     

    4,一元回归及多元回归

    第四种相关分析方法是回归分析。回归分析(regression analysis)是确定两组或两组以上变量间关系的统计方法。回归分析按照变量的数量分为一元回归和多元回归。两个变量使用一元回归,两个以上变量使用多元回归。进行回归分析之前有两个准备工作,第一确定变量的数量。第二确定自变量和因变量。我们的数据中只包含广告曝光量和费用成本两个变量,因此使用一元回归。根据经验广告曝光量是随着费用成本的变化而改变的,因此将费用成本设置为自变量x,广告曝光量设置为因变量y。

    以下是一元回归方程,其中y表示广告曝光量,x表示费用成本。b0为方程的截距,b1为斜率,同时也表示了两个变量间的关系。我们的目标就是b0和b1的值,知道了这两个值也就知道了变量间的关系。并且可以通过这个关系在已知成本费用的情况下预测广告曝光量。

    这是b1的计算公式,我们通过已知的费用成本x和广告曝光量y来计算b1的值。

    以下是通过最小二乘法计算b1值的具体计算过程和结果,经计算,b1的值为5.84。同时我们也获得了自变量和因变量的均值。通过这三个值可以计算出b0的值。

    以下是b0的计算公式,在已知b1和自变量与因变量均值的情况下,b0的值很容易计算。

    将自变量和因变量的均值以及斜率b1代入到公式中,求出一元回归方程截距b0的值为374。这里b1我们保留两位小数,取值5.84。

    在实际的工作中不需要进行如此繁琐的计算,Excel可以帮我们自动完成并给出结果。在Excel中使用数据分析中的回归功能,输入自变量和因变量的范围后可以自动获得b0(Intercept)的值362.15和b1的值5.84。这里的b0和之前手动计算获得的值有一些差异,因为前面用于计算的b1值只保留了两位小数。

    这里还要单独说明下R Square的值0.87。这个值叫做判定系数,用来度量回归方程的拟合优度。这个值越大,说明回归方程越有意义,自变量对因变量的解释度越高

    将截距b0和斜率b1代入到一元回归方程中就获得了自变量与因变量的关系。费用成本每增加1元,广告曝光量会增加379.84次。通过这个关系我们可以根据成本预测广告曝光量数据。也可以根据转化所需的广告曝光量来反推投入的费用成本。获得这个方程还有一个更简单的方法,就是在Excel中对自变量和因变量生成散点图,然后选择添加趋势线,在添加趋势线的菜单中选中显示公式和显示R平方值即可。

    以上介绍的是两个变量的一元回归方法,如果有两个以上的变量使用Excel中的回归分析,选中相应的自变量和因变量范围即可。下面是多元回归方程。

     

    5,信息熵及互信息

    最后一种相关分析方法是信息熵与互信息。前面我们一直在围绕消费成本和广告曝光量两组数据展开分析。实际工作中影响最终效果的因素可能有很多,并且不一定都是数值形式。比如我们站在更高的维度来看之前的数据。广告曝光量只是一个过程指标,最终要分析和关注的是用户是否购买的状态。而影响这个结果的因素也不仅仅是消费成本或其他数值化指标。可能是一些特征值。例如用户所在的城市,用户的性别,年龄区间分布,以及是否第一次到访网站等等。这些都不能通过数字进行度量。

    度量这些文本特征值之间相关关系的方法就是互信息。通过这种方法我们可以发现哪一类特征与最终的结果关系密切。下面是我们模拟的一些用户特征和数据。在这些数据中我们忽略之前的消费成本和广告曝光量数据,只关注特征与状态的关系。

    回归方程可以对相关关系进行提炼,并生成模型用于预测,如何进行学生成绩情况与学生个人发展之间的关系分析,以回归分析为主,辅以图表分析,如果要对学生的个人情况进行更加深全面的预测,在情况比较复杂的情况下,需要用到信息熵与互信息

     

    展开全文
  • 相关性分析

    千次阅读 2018-08-28 10:19:43
    “工欲善其事,必先利其器”,如果把数据建模比作伐木,那么前期的数据探索性分析则是细致的“霍霍磨刀”,有效...顾名思义,相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度,从个角...

    目录



    “工欲善其事,必先利其器”,如果把数据建模比作伐木,那么前期的数据探索性分析则是细致的“霍霍磨刀”,有效的探索性分析能够帮助我们捕捉到数据之间的关联效应,为之后的特征工程、模型构建奠定基础。而在探索性分析的各种招式中,相关性分析往往有着一招致敌的奇效,下面简单地介绍一些常见的相关系数。

    相关性分析

    顾名思义,相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度,从多个角度立体地剖析相关性分析有助于我们更立体地掌握相关性分析:

    从随机变量之间的关系角度

    • 线性相关(Pearson Spearman Rank Kendall Rank)
    • 非线性相关

    从随机变量自身的分布类型角度

    • 连续变量与连续变量(Pearson Spearman Rank Kendall Rank)

    • 连续变量与分类变量(Spearman Rank Kendall Rank)

    相关性检验

    Pearson(皮尔逊相关系数)

    皮尔逊相关系数适用于:

    • 两个变量之间是线性关系,都是连续数据;
    • 两个变量的总体是正态分布,或接近正态的单峰分布;
    • 两个变量的观测值是成对的,每对观测值之间相互独立。

    随机变量、的皮尔逊相关系数计算公式如下:

    ρX,Y=Cov(X,Y)σXσY

    Cov(X,Y)为随机变量XY的协方差,(σX,σY)分别表示随机变量XY的标准差,ρX,Y[0,1],越大代表随机相关性越强。

    Spearman(秩相关系数)

    Spearman秩相关系数适用于:

    • 随机变量是成对的有序分类变量;
    • 不论数据分布,数据呈单调关系,可以度量随机变量的非线性关系。

    随机变量XY的Spearman秩相关系数ρS计算如下,对原始随机变量xiyi降序排序,记dixdiy为原始xiyi在排序后列表中的位置,dixdiy称为xiyi的秩次,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在X(极为Tx)或相持在变量Y上(记为Ty),秩次差di=dixdiy。Spearman秩相关系数为:

    • 没有相持等级
      ρS=16di2n(n21)
    • 有相持等级
      ρS=x2+y2di22x2y2,x2=N3N12Tx,y2=N3N12Ty

    举个例子:

    xi yi dix diy di
    4 7 5 6 1
    44 67 1 1 0
    15 9 4 5 1
    23 54 2 2 0
    18 21 3 4 1
    2 33 6 3 -3

    对于上表数据,算出Spearman秩相关系数为:1-6*(1+1+1+9)/(6*35)=0.6571

    Kendall Rank(肯德尔相关系数)

    肯德尔相关系数适用于:

    • 随机变量是成对的有序分类变量
    • 不论数据分布,数据呈单调关系,可以度量随机变量的非线性关系。

    肯德尔系数的定义:n个同类的统计对象按特定属性排序,其他属性通常是乱序的。P为和谐对(变量大小顺序相同的样本观测值)的个数、Qf不和谐对(变量大小顺序相同的样本观测值),n为随机变量容量。一对观测值中,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在X(记为Tx)或相持在变量上Y(记为Ty ),因此公式可以表示为:

    • 没有相持等级

    τb=2(PQ)n(n1)

    • 有相持等级

    τb=PQ(P+Q+Tx)(P+Q+Ty)

    Kappa一致性系数

    Kappa一致性系数适用于:

    • 随机变量是成对的分类变量

    随机变量XYKappa一致性系数K计算公式如下:

    K=P(A)P(E)1P(E),P(A)=1NK(K1)i=1Nj=1mnij21K1,P(E)=j=1mPj2,Pj=CjNK,Cj=i=1Nnij

    N为随机变量容量,K为一致预测,nij为细格预测数,也可以表示为:

    K=p0pc1pc

    举例:

    预测\实际 A B C
    A 239 21 16
    B 16 73 4
    C 6 9 280

    p0=239+73+280664=0.8916,pc=261276+10393+300295664664=0.3883,K=0.89160.388310.3883

    卡方检验

    卡方检验适用于:

    • 随机变量是成对的分类变量;
    • 最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据不符合要求,就要应用校正卡方。

    卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:两个分类变量之间无关。

    χ2=i=1k(Ainpi)2npi, A_i为水平i的观察频数,n为总频数,pi为水平i的期望频率。k为单元格数。当n比较大时,χ2统计量近似服从个自由度k1的卡方分布。

    举例:

    组别 有效 无效 合计
    14(13.6) 20(21.9) 34
    16(16.4) 25(24.6) 41
    合计 30 45 75

    第1行1列: 34×30/75=13.6

    第1行2列: 34×45/75=21.9

    第2行1列: 41×30/75=16.4

    第2行2列: 41×45/75=24.6

    χ2=(1413.6)213.6+(2021.9)221.9+(1616.4)216.4+(2524.6)224.6=0.1929

    不能拒绝原假设,认为随机变量不相关。

    Fisher精确检验

    • 在卡方检验的基础上,如果样本量不足40,或者最小理论频数小于5;
    • 如果卡方检验的p值在0.05左右,使用Fisher精确检验。

    假设二分类变量,如下,值计算如下:

    性别 合计
    有效 a b a+b
    无效 c d c+d
    合计 a+c b+d a+b+c+d

    p=Ca+baCc+dcCna+c=(a+b)!(c+d)!(a+c)!(b+d)!a!b!c!d!n!

    Cochran-Mantel-Haenszel(简称CMH检验)

    • 与两组资料分析类似,如果数据为定量资料呈正态分布,则采用单因素方差分析(One way ANOVA);如果定量数据,呈非正态分布,则选择Kruskal一Wallis检验(Kruskal一Wallis Test)。
    • 对于分类数据,多分类无序数据采用卡方检验(Chi-Square Test)或Fish’s精确概率法;多分类有序数据可采用Cochran-Mantel-Haenszel 检验(Cochran-Mantel-Haenszel Test)。
    展开全文
  • 通过对影响某矿40108综采工作面高抽巷CO浓度变化的因素进行分析,结果表明,造成高抽巷CO浓度升高的原因主要包括高抽巷距离煤层的高度差增加、采空区漏风量增大及采空区遗煤的存在。高抽巷距离煤层的高度差与高抽巷CO...
  • 相关性分析实战

    2021-02-20 14:32:20
    在实际操作过程中,可能相关的逻辑关系没有这么明显,需要通过相关性分析来确定此特征是否作为关键因素进行分析。 数据准备 爬虫是无往不利的,此博客使用链家网的天津二手房数据作为数据来源,针对面
  • 再说相关性分析

    2020-06-25 16:36:16
    标题叫再说相关性分析,为什么叫再说呢?因为之前说过了呗,但是一个知识点你反复咀嚼的时候就是会有不同的感悟,因此这篇文章要再来说说相关性分析。 什么是相关性 百度百科给的解释是:两个变量的关联程度。 ...
  • matlab相关性分析

    千次阅读 多人点赞 2020-11-14 21:52:22
    相关性分析 一、皮尔逊相关系数 (person) 计算公式: 样本协方差:Cov(x,y)=∑i=1n(Xi−Xˉ)(Yi−Yˉ)n−1{Cov(x,y)=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{n-1}}Cov(x,y)=n−1∑i=1n​(Xi​−Xˉ)(Yi​...
  • 分析了影响光输入输出(MIMO)信道相关性因素,并通过仿真验证了在特定条件下各因素对信道相关性产生影响的方式。在特定的场景内,根据信噪比和信道相关性的共同影响获得了最佳的收发端参数设置,从而得到了最佳...
  • 用Excel做相关性分析

    万次阅读 多人点赞 2019-01-04 22:51:44
    相关性分析:对变量之间相关关系的分析,即相关性分析。其中比较常用的是线性相关分析,用来衡量它的指标是线性相关系数,又叫皮尔逊相关系数,通常用r表示,取值范围是[-1,1], r取值范围 相关...
  • numpy相关性分析

    万次阅读 2016-06-09 11:36:29
    相关性分析是指对两个或个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。下面我们将使用两个股票的收盘价分析他们股票的相关性。 首先给出两个股票30天的收盘价数据,分别创建两个数组: ...
  • 相关性分析方法

    千次阅读 2019-08-30 16:38:43
    相关性分析是指对两个或个具备相关性呃变量元素进行分析,从而衡量两个变量因素之间的相关密切程度。 一般常用四种方法: 画图判断(散点图向量或散点图矩阵)ax.scatter(data1,data2) pearson(皮尔逊)相关...
  • Spss做相关性分析

    万次阅读 多人点赞 2016-05-13 10:50:51
    相关性分析是指对两个或个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析(比如身高和体重),有些数据本身就不存在相关性...
  • 着装方式对服装隔热性能的影响研究II:--关联因素实验评价及相关性分析,王云仪,张爱萍,穿着方式的改变会导致服装传热的方式和大小变化。本文将着装方式导致的改变归纳为三个关联因子:服装对人体的覆盖面积、服装...
  • 数据特征分析-相关性分析

    千次阅读 2019-10-04 02:37:20
    相关性分析是指对两个或个具备相关性的变量元素进行分析,从而衡量两个变量的相关密切程度。 相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。 相关系数在[-1,1]之间。 一、图示初判 通过...
  • 在医学研究中,探讨某疾病的发生与哪些因素有关、疾病与疾病之间的关系等,都需要用到相关性分析,它常用于判断两个数值变量之间有无线性关系、相关性的方向和相关性的强弱。在相关分析中,所有变量都是随机变量,...
  • 首先给出全局坐标系下精确的3D-MIMO信道模型,为真实准确的信道相关性分析提供基础。接着推导了天线阵列沿不同方向摆放、电磁波水平和俯仰功率角度谱分布服从拉普拉斯分布情况下空间相关性的数学表达式,建立起空间...
  • 采用Kendall相关性分析方法选择用于预测的特征数据, 选择相关系数较高的8个特征数据作为BP神经网络的输入, 采用相关性分析结果改进GA-BP算法, 综合考虑各项因素实现学业情况的预测. 经试验, 该学业预警算法的预测...
  • 分析方法:使用方差分析对自变量进行筛选,然后建议多元回归方差,进一步考察变量的影响,在此基础上,有利用最优尺度回归深入探讨自变量可能的各种复杂作用趋势,并利用水平模型深入分析了信心指数变异在时间水平...
  • 相关性分析是指通过对变量的分析,判定两个变量因素的相关程度,然后通过对其中一个因素的引导,来影响另一个因素。需要注意是,一般讨论的相关性分析均指代“线性相关性”。假设我们通过分析发现,用户的网页浏览...
  • 基于相关性分析和主成分分析的变量筛选方法 https://www.zybuluo.com/notmylove/note/1508052 主成分分析法指标筛选 既然在课程专题四中讲到主成分分析法,那么这里再进一步介绍主成分分析法,概括起来说,...
  • 利用国家煤矿安全监察局煤矿事故查询系统公布的数据,对2001-2013年煤矿事故发生次数、死亡人数及煤矿事故的影响因素等进行统计,并分析了各影响因素与煤矿事故的相关性。通过分析煤矿事故发生的相关性因素,根据目前...
  • 基于数据挖掘技术的妊娠期糖尿病危险因素相关性研究.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 30,501
精华内容 12,200
关键字:

多因素相关性分析