精华内容
下载资源
问答
  • 分析数据相关性的三大相关系数

    万次阅读 2018-07-05 17:35:47
    需要一种方法评价两组数据之间的相关性,有皮尔森(pearson)相关系数,斯皮尔曼(spearman)相关系数和肯德尔(kendall)相关系数。在这三大相关系数中,spearman和kendall属于等级相关系数亦称为“秩相关系数”,...

        需要一种方法评价两组数据之间的相关性,有皮尔森(pearson)相关系数,斯皮尔曼(spearman)相关系数和肯德尔(kendall)相关系数。在这三大相关系数中,spearman和kendall属于等级相关系数亦称为“秩相关系数”,是反映等级相关程度的统计分析指标。对于pearson相关系数。

        首先放上公式:



         公式定义为: 两个连续变量(X,Y)的pearson相关性系数(Px,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性。

        相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。

        皮尔森相关系数是衡量线性关联性的程度,p的一个几何解释是其代表两个变量的取值根据均值集中后构成的向量之间夹角的余弦。

    展开全文
  • 皮尔逊积矩线性相关系数(Pearson's r)用于计算两组数组之间是否有...计算两组数据的线性相关性,就是,b是否随着a的增长而增长,或者随着a的增长而减小,或者两者不相关: 皮尔逊积矩线性相关系数的公式是: (标准化数据...

    皮尔逊积矩线性相关系数(Pearson's r)用于计算两组数组之间是否有线性关联,举个例子:

    a = pd.Series([1,2,3,4,5,6,7,8,9,10])
    b = pd.Series([2,3,4,5,6,7,8,9,10,11])

    计算两组数据的线性相关性,就是,b是否随着a的增长而增长,或者随着a的增长而减小,或者两者不相关:

    皮尔逊积矩线性相关系数的公式是: (标准化数据a * 标准化数据b).mean()

    def correlation(x, y):
        meanX = x.mean()
        deviationX = x.std(ddof=0)
        stardardizedX = (x - meanX) / deviationX
        
        meanY = y.mean()
        deviationY = y.std(ddof=0)
        stardardizedY = (y - meanY) / deviationY
        return (stardardizedX*stardardizedY).mean()

    *注意: 在计算皮尔逊积矩线性相关系数的时候,获取数据标准差时必需添加参数 (ddof=0) 

    关于如何标准化数据,可以参考: numpy数组-标准化数据

    下面以 a b 为例:

    r = correlation(a,b)
    print(r)

    # 1.0

    结果是1.0,说明是正相关的

    修改 a b,查看系数的变化:

     a b负相关:

    a = pd.Series([1,2,3,4,5,6,7,8,9,10])
    b = pd.Series([10,9,8,7,6,5,4,3,2,1])
    r = correlation(a,b)
    print(r)
    
    # -1.0

    让 a b负相关性低一点

    a = pd.Series([1,2,3,4,5,6,7,8,9,10])
    b = pd.Series([10,11,8,7,6,5,4,8,2,1])
    r = correlation(a,b)
    print(r)
    
    # -0.867031357665

    让 a b没有什么相关性:

    a = pd.Series([1,2,3,4,5,6,7,8,9,10])
    b = pd.Series([2,4,1,5,1,3,6,2,7,0])
    r = correlation(a,b)
    0.102336828287

    这里只是随便举几个例子.总之,皮尔逊积矩线性相关系数的范围是-1.0到1.0,如果是正数,就是正相关,负数就是负相关

    如果b完全随着a的增加而增加,就是1.0,反之则是-1.0,越接近于0,两者之间的相关性越小

    http://rpsychologist.com/d3/correlation/

    上面这个网站可以查看数据相关性情况和对应的皮尔逊积矩线性相关系数值

     

    展开全文
  • Lucene TF-IDF 相关性算分公式

    千次阅读 2015-06-01 21:34:24
    Lucene TF-IDF 相关性算分公式 时间:2014-02-17 01:43:15 类别:搜索引擎 访问: 1491 次 Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序 TF:词频,IDF:逆向...
    
    

    Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序

    TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则

    1. 某个词或短语在一篇文章中出现的次数越多,越相关
    2. 整个文档集合中包含某个词的文档数量越少,这个词越重要

    所以一个term的TF-IDF相关性等于 TF * IDF

    这两个规则非常简单,这就是TF-IDF的核心规则,第二个的规则其实有缺陷的,他单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,显然这并不是完全正确的。并不能有效地反映单词的重要程度和特征词的分布情况,比如说搜索web文档的时候,处于HTML不同结构的特征词中对文章内容的反映程度不同,应该有不同的权重

    TF-IDF的优点是算法简单,运算速度很快

    Lucene为了提高可编程行,在上述规则做了一些扩充,就是加入一些编程接口,对不同的查询做了权重归一化处理,但是核心公式还是TF * IDF

    Lucene算法公式如下

    score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) )

    • tf(t in d ), = frequency½
    • idf(t) = 1 +log(文档总数/(包含t的文档数+1))
    • coord(q,d) 评分因子,。越多的查询项在一个文档中,说明些文档的匹配程序越高,比如说,查询"A B C",那么同时包含A/B/C3个词的文档 是3分,只包含A/B的文档是2分,coord可以在query中关掉的
    • queryNorm(q)查询的标准查询,使不同查询之间可以比较
    • t.getBoost() 和 norm(t,d) 都是提供的可编程接口,可以调整 field/文档/query项 的权重

    各种编程插口显得很麻烦,可以不使用,所以我们可以把Lucence的算分公式进行简化

    score(q,d) = coord(q,d) · ∑ ( tf(t in d) · idf(t)2 )

    结论

    1. TF-IDF 算法是以 term为基础的,term就是最小的分词单元,这说明分词算法对基于统计的ranking无比重要,如果你对中文用单字切分,那么就会损失所有的语义相关性,这个时候 搜索只是当做一种高效的全文匹配方法
    2. 按照规则1 某个词或短语在一篇文章中出现的次数越多,越相关 一定要去除掉stop word,因为这些词出现的频率太高了,也就是TF的值很大,会严重干扰算分结果
    3. TF和IDF在生成索引的时候,就会计算出来: TF会和DocID保存在一起(docIDs的一部分),而IDF= 总文档数 / 当前term拥有的docIDs 长度

    本文地址: http://lutaf.com/210.htm 鲁塔弗原创文章,欢迎转载,请附带原文链接

    展开全文
  • Python数据相关性和标准化

    千次阅读 2019-03-21 20:37:39
    1、相关性分析 协方差:Cov(X,Y)=E(XY)-E(X)E(Y) 或cov(X, Y) = E(X-EX)(Y-EY),表示两个变量总体误差的期望,范围在负无穷到正无穷。协方差为0时,两者独立。协方差绝对值越大,两者对彼此的影响越大,反之越小 ...

    1、相关性分析

    协方差:Cov(X,Y)=E(XY)-E(X)E(Y) 或 cov(X, Y) = E(X-EX)(Y-EY),表示两个变量总体误差的期望,范围在负无穷到正无穷协方差为0时,两者独立。协方差绝对值越大,两者对彼此的影响越大,反之越小

    公式简单翻译一下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。

    相关系数:(相关系数=协方差除以两个变量的标准差)的绝对值越大,相关性越强。衡量变量间的相关程度或密切程度,范围[-1,1],分正负相关,负相关意味着两个变量的增长趋势相反。相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差,单纯反应两个变量每单位变化时的相似程度。标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差,也就是把协方差中变量变化幅度对协方差的影响剔除掉,这样协方差也就标准化了,它反应的就是两个变量每单位变化时的情况。(当x或y的波动幅度变大的时候,协方差会变大,标准差也会变大。)(在描述X和Y在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。因此统一单位,即消去x和y的单位,除以标准差,引入相关系数)

     

    统计术语参考

     

    ### 相关系数矩阵
    import pandas as pd
    data=pd.read_csv('E:/test.csv')
    print(data.corr())  ## 两两之间的相关性
    print(data.corr()[u'G3'])  ##G3与其他的相关系数
    
    import numpy as np
    import pandas as pd
    data=pd.read_csv('E:/test.csv')
    print(data.head())
    correlation=np.corrcoef(data,rowvar=0) ##  0对列做分析,1对行做分析
    ## x=data.ix[:,:-1] #### 切分自变量,只讨论自变量间的相关性??
    ## correlation=np.corrcoef(x,rowvar=0)  ### np.cov() 协方差
    print(correlation.round(2))  ## 保留2位小数
    ## 输出相关矩阵,也是对称矩阵
    
    和 numpy 相比,pandas 对于有多组数据的协方差、相关系数的计算比 numpy 更为简便、清晰,我们可以指定计算具体的两组数据的协方差、相关系数,这样就不需要再分析结果的协方差矩阵了。见参考
    dfab = pd.DataFrame(ab.T, columns=['A', 'B']) 
    # A B 协方差 
    dfab.A.cov(dfab.B) 
    >> 150.95263157894738 
    # A B 相关系数 
    dfab.A.corr(dfab.B)
    

    2、标准化

    目的:处理不同规模和量纲的数据。使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。

    7个严格定义的基本单位是:长度(米)、质量(千克)、时间(秒)、电流(安培)、热力学温度(开尔文)、物质的量(摩尔)和发光强度(坎德拉),量纲即单位的组合。

    1)Z-Score标准化:适合大多数类型的的数据,不适合稀疏数据(因为该方法是一种中心化方法,会改变原有数据的分布结构)。基于原始数据的均值和标准差,标准化后的数据是以0为均值,方差为1的正态分布。 

                                     x'=(x-mean)/std

    2)归一化的Max-Min标准化:对原始数据进行线性变换,得到的数据全部落在[0,1]区间,很好的保持原有数据结构。

                                     x'=(x-min)/(max-min)

    3)MaxAbs(最大值绝对值标准化):用于稀疏数据,不会破坏原有数据分布结构的特点,得到的数据会落在一定区间[-1,1]。

                                     x'=x/|max|,max为x所在列的最大的绝对值

    import pandas as pd
    import numpy as np
    from sklearn import preprocessing
    data=[[78,521,602,2865],[144,-600,-521,2245],[146,413,435,2571]]
    df=pd.DataFrame(data)
    ## Z标准
    zs=preprocessing.StandardScaler() ### 建立StandardScaler对象
    df1=zs.fit_transform(data)
    df1=np.round(df1,2)
    
    ## 最大-最小标准化
    mm=preprocessing.MinMaxScaler() ### 建立MinMaxScaler
    df2=mm.fit_transform(data)
    df2=np.round(df2,2)
    
    ### 最大值绝对值标准化
    mb=preprocessing.MaxAbsScaler() ### 建立MaxAbsScale
    df3=mb.fit_transform(data)
    df3=np.round(df3,2)
    print(df,'\n\n',df1,'\n\n',df2,'\n\n',df3)

    import pandas as pd
    import numpy as np
    data=[[78,521,602,2865],[144,-600,-521,2245],[146,413,435,2571]]
    data=pd.DataFrame(data)
    ## Z标准
    ## 0表示列 1表示行
    df1=(data - np.mean(data,axis=0))/ np.std(data,axis=0)
    ## df1=(data-data.mean(0))/data.std(0)   可能是pandas的统计量形式,结果不同
    df1=np.round(df1,2)
    
    ## 最大-最小标准化
    df2=(data -data.min(0)) / (data.max(0) - data.min(0)) 
    df2=np.round(df2,2)
    
    ### 最大值绝对值标准化
    df3=data/ abs(data).max(0)   ## 最大的绝对值
    ##df3=data/ abs(np.max(data,axis=0)) ## 最大值的绝对值
    df3=np.round(df3,2)
    print(data,'\n\n',df1,'\n\n',df2,'\n\n',df3,)
    ##print(data.std(0))
    ##print(np.std(data,axis=0))

    两个结果数值一样,注意numpy和pandas的统计量有所差异

    两种做法的结果形式也有所差异,向量一维,数组矩阵多维,数据框类似表格

    展开全文
  • 对于PCA:Principal Components Analysis 主成分分析维基百科是这样定义的:在多元统计分析中,主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集...
  • Solr相似度算法一:Lucene TF-IDF 相关性算分公式 Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序 TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被...
  • Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序 TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两...
  • 这次实证论文数据分析步骤—以问卷数据为例,是实证论文的数据分析中的重中之重-回归分析。相关性分析1.进行变量的相关性分析操作之前,首先需要把每个变量进行转换与命名,把每个变量所对应某些的维度进行整合,...
  • 所需模块 numpy、pandas 相关系数计算 首先使用numpy.mean()方法求...然后在通过(X-Xmean)/Xsd公式求出z分数; 最后通过numpy.sum(ZX*ZY)/len(X) 1 import numpy 2 3 X=[ 4 12.5, 15.3, 23.2, 26....
  • (1)公式 皮尔森相关性系数的值等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。 (2)数据要求 a.正态分布 它是协方差与标准差的比值,并且在求皮尔森相关性系数以后,通常还会用t检
  • 准备数据 拓展Excel数据分析功能 选择excel加载项: ...数据分析 - 相关系数 - 选择输入范围 ...计算R方:插入散点图 - 添加线性 -- 显示公式和R方 ps: 会使用python的同学可以直接用pandas的矩阵相关系数...
  • 向量相关性

    2011-04-12 21:36:00
    http://woodstudio.iteye.com/blog/141005 <br /><br /><br />Pearson相关系数 - ... Pearson相关系数用来衡量两个数据集合是否在一条线上面。其计算公式为: <br /> 一个具体的计算的例子:X Y
  • 特征相关性计算及matlab程序

    千次阅读 2019-04-26 11:11:43
    在人工提取特征的时代,提取的特征往往具有较强的相关性,这会导致数据冗余,计算特征的相关性,为后续特征选择等提供参考依据。计算两个向量X、Y的相关性公式如下: MATLAB程序如下: [m,n]=size(feature); ...
  • 我们使用统计力学的S矩阵公式计算相互作用的强子气体的净重子数与电荷(χBQ)的相关性。 可观察到的χBQ对介子与核子相互作用的细节特别敏感,这些细节通过经验性散射相移始终结合在当前方案中。 与最近的(2 + 1)...
  • 数据科学需要一定的数学基础,但仅仅做应用的话,如果时间不多,不用学太深,了解基本公式即可,可以等遇到问题再深入学习。下面是常见的一些数学基础概念,建议大家收藏后再仔细阅读,遇到不懂的概念可以直接在这里...
  • 数据挖掘中的公式

    2015-05-01 21:55:00
    1. 数据预处理阶段,判定冗余数据用到的相关性分析、协方差分析(统计分析): 2. 关联规则中的支持度、置信度、相关性分析(概率分析): 转载于:https://www.cnblogs.com/fuleying/p/4471241.html...
  • Excel/SPSS相关性及显著性水平分析

    万次阅读 多人点赞 2016-04-13 17:49:50
    对两列数据相关性以及显著性水平的问题一直有困扰,由于对excel的钟情,总是倾向于把数据分析放在excel中进行。本文简单分析excel和SPSS对相关分析和显著性水平的检验应用。 (1)方法介绍 Excel中相关性系数可以...
  • 摘要:最近在学习机器学习/数据挖掘的算法,在看一些paper的时候经常会遇到以前学过的数学公式或者名词,又是总是想不起来,所以在此记录下自己的数学复习过程,方便后面查阅。1:数学期望数学期望是随机变量的重要特征...
  • 在这项研究中,我们将书面文本视为时间序列数据,并尝试利用自相关函数(ACF)研究单词出现的动态相关性。 在为ACF定义了适合表达单词动态相关性的适当公式之后,我们使用该公式来计算12本书中常用单词的ACF。 所...
  • 转录组GO富集与微生物相关性分析

    千次阅读 2018-12-07 21:36:24
    转录组GO富集与微生物相关性分析原始数据格式使用TCC包进行差异基因分析使用topGO包进行GO富集分析如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、...
  • 本博文源于暨南大学的《多元数据统计分析及R语言建模》。旨在讲述身高与体重相关性分析。在概率论与数理统计课程中,两个变量之间协方差的标准化,因此先要熟悉并回忆公式,套用在R语言即可。
  • 在文献以及各种报告中,我们可以看到描述数据之间的相关性:pearson correlation,spearman correlation,kendall correlation。它们分别是什么呢?计算公式?怎样用R语言简单实现计算呢?本文一一介绍~ 建议前期...
  • 在许多Web应用程序中,对微博客进行群集非常重要。... 然后,我们使用词级约束将微博客聚类问题公式化为非负矩阵分解。 对现实世界数据集的实证研究表明,我们的框架在处理嘈杂和简短的微博客方面具有出色的性能。
  • 基于弧形筛分级原理及筛面颗粒运动规律,结合试验数据的数值拟合,对弧形筛分离粒度与筛缝的相关关系进行了探索。研究结果表明,推导出的煤泥弧形筛分离粒度与筛缝的相关关系式为d=k·L,其中k取值为0.534~0.732,这一...
  • 计算特征相关性可以用皮尔逊系数(公式及含义解释:表示两组数据的线性关系程度,取值为[-1,1]),衡量的是变量之间的线性相关性,简单快速,但是只对线性关系敏感,非线性不适合;计算特征相关性的指标还有互信息MIC...
  • 什么是曲线拟合所谓的曲线拟合,就是使用某一个模型(或者称为方程式),将一系列的数据拟成平滑的曲线,以便观察...但是在一些简单的数据模型中,数据之间有很明显的相关性,那我们就可以使用简单的曲线拟合来预...

空空如也

空空如也

1 2 3 4 5 ... 11
收藏数 216
精华内容 86
关键字:

数据相关性公式