精华内容
下载资源
问答
  • 个变量与因变量相关性分析提问:用SPSS一个分析,有一个因变量和N个自变量,先做相关性发现有很自变量与因变量有关,相关性也比较高.继续说,但是再做多重回归方程时候只有3个因变量入选,其他都被排除了,那在写...

    两个变量与因变量相关性分析

    提问:用SPSS一个分析,有一个因变量和N个自变量,先做相关性发现有很多自变量与因变量有关,相关性也比较高.

    继续说,但是再做多重回归方程的时候只有3个因变量入选,其他都被排除了,那在写文章的时候那些被排除了的有相关性的因变量该怎么处理呢?

    这说明这些变量之间存在自相关,模型选择的是代表程度更高且自变量相互之间相关性低的自变量来,以保证自变量变化时,只影响因变量,而不影响其它模型中的自变量.

    建议你对这些自变量做两两之间的相关性检验,以说明他们不适合同时存在于模型中.

    追问:这个是所谓的共线性的问题么?那我做自变量两两之间的相关性检验,什么样的结果才能显示他们不适合同时出现在模型中呢?

    追答:你进行自变量之间的相关性检验,结果就会出来他们之间的相关性很高。 至于具体到模型中,得看具体的情况了,我也没有经验值。但是建模的时候一定要选择合适的变量进入方式。

    最佳答案:

    1.多重共线性的概念:

    所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。

    完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。

    2.多重共线性产生的原因   主要有3各方面:   (1)经济变量相关的共同趋势   (2)滞后变量的引入   (3)样本资料的限制 3多重共线性的解决方法

    多重共线性的处理方法一般有如下的几种

    1 增加样本容量,当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的

    2剔除一些不重要的解释变量,主要有向前法和后退法,逐步回归法.

    前进法的主要思想是变量由少到多的,每次增加一个,直至没有可引入的变量为止.具体做法是首先对一个因变量y和m个自变量分别建立回归方程,并分别计算这m个回归方程的F值,选其最大者,记为Fj,,给定显著性水平F,如果Fj>F,则变量引入该方程,再分别对(Xj,X1),(Xj,X2)…(Xj,Xm)做回归方程,并对他们进行F检验,选择最大的Fi值,如果Fi.>F,则该变量引入方程,重复上述步骤,直到没有变量引入为止.

    后退法,是先用m个因变量建立回归方程,然后在这m个变量中选择一个最不显著的变量将它从方程中剔除,对m个回归系数进行F检验,记所求得的最小的

    一个记为Fj,给定一个显著性的水平,如果Fj逐步回归法,前进法存在着这样的缺点当一个变量被引入方程时,这个变量就被保留在这个方程中了,当引入的变量导致其不显著时,它也不会被删除掉,后退法同样存在着这样的缺点,当一个变量被剔除时就永远的被排斥在方程以外了,而逐步回归法克除了两者的缺点.逐步回归的思想是有进有出.将变量一个一个的引入,每引入一个变量对后面的变量进行逐个检验,当变量由于后面变量的引入而不变的不显著时将其剔除,进行每一步都要进行显著性的检验,以保证每一个变量都是显著的.

    理论上上面的三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论 的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义.

    3.不相关的系数法.当变量之间存在着多重共线性最直接的表现就是各个解释变量之间的决定系数很大.考虑到两个变量之间的决定系数众所周知, 在多元线性回归模型中, 当各个解释变量( 如Xi 与Xj, i≠j) 之间存在着多重共线性时, 其最直接的表现就是各个解释变量之间的决定系数(ri2,j)很大.ri2,j 很大, 则意味着重要变量Xi( 在本文中, 为研究方便, 我们始终假定Xi 相对于Xj 而言, 是一重要变量, i≠j) 的变化能够说明Xj 的变化.如两者之间的r2,j=90%, 则我们以说, Xi 的变化说明了Xj 变化的90%,而剩余的( 1- ri2,j) 部分,则是由Xj 自身的变化说明的.由此决定, 在反映被解释变量(Y)与解释变量Xi,Xj 之间的关系时, 对于解释变量Xj 来说, 并不需要用全部的信息来解释被解释变量的问题, 而只需要用剩余的( 1- ri2,j) 部分的信息来解释就足够了,因为有ri2,j 部分的信息是与Xi 相重复的, 已由Xi 解释了.由此出发, 如果我们能够在保留重要变量(Xi) 全部信息的同时, 以重要变量(Xi) 为基础, 对其他的解释变量进行一定的线形变换, 使之转换为一个新变量, 如将Xj 转换为Xjj , 并且使得Xi 与新变量Xjj 之间的决定系数( ri2,jj) 降低到最小程度———如( 1- ri2,j) , 则就可以消除多重共线性.

    喜欢 (5)or分享 (0)

    展开全文
  • 多变量线性相关分析 现实世界中数据科学 (Data Science in the Real World) This article aims to present two ways of calculating non linear correlation between any number of discrete variables. The ...

    多变量线性相关分析

    现实世界中的数据科学 (Data Science in the Real World)

    This article aims to present two ways of calculating non linear correlation between any number of discrete variables. The objective for a data analysis project is twofold : on the one hand, to know the amount of information the variables share with each other, and therefore, to identify whether the data available contain the information one is looking for ; and on the other hand, to identify which minimum set of variables contains the most important amount of useful information.

    本文旨在介绍两种计算任意数量的离散变量之间的非线性相关性的方法。 数据分析项目的目标是双重的:一方面,了解变量之间共享的信息量,从而确定可用数据是否包含人们正在寻找的信息; 另一方面,确定哪些最小变量集包含最重要的有用信息量。

    变量之间的不同类型的关系 (The different types of relationships between variables)

    线性度 (Linearity)

    The best-known relationship between several variables is the linear one. This is the type of relationships that is measured by the classical correlation coefficient: the closer it is, in absolute value, to 1, the more the variables are linked by an exact linear relationship.

    几个变量之间最著名的关系是线性关系。 这是用经典相关系数衡量的关系类型:绝对值越接近1,变量之间通过精确的线性关系链接的越多。

    However, there are plenty of other potential relationships between variables, which cannot be captured by the measurement of conventional linear correlation.

    但是,变量之间还有许多其他潜在的关系,无法通过常规线性相关性的测量来捕获。

    Image for post
    Correlation between X and Y is almost 0%
    X和Y之间的相关性几乎为0%

    To find such non-linear relationships between variables, other correlation measures should be used. The price to pay is to work only with discrete, or discretized, variables.

    为了找到变量之间的这种非线性关系,应该使用其他相关度量。 要付出的代价是仅对离散变量或离散变量起作用。

    In addition to that, having a method for calculating multivariate correlations makes it possible to take into account the two main types of interaction that variables may present: relationships of information redundancy or complementarity.

    除此之外,拥有一种用于计算多元相关性的方法,可以考虑变量可能呈现的两种主要交互类型:信息冗余或互补性的关系。

    冗余 (Redundancy)

    When two variables (hereafter, X and Y) share information in a redundant manner, the amount of information provided by both variables X and Y to predict Z will be inferior to the sum of the amounts of information provided by X to predict Z, and by Y to predict Z.

    当两个变量(以下,XY)以冗余的方式共享信息,由两个变量XY中提供的信息来预测的Z量将不如由X所提供的预测的Z信息的量的总和,和由Y预测Z。

    In the extreme case, X = Y. Then, if the values taken by Z can be correctly predicted 50% of the times by X (and Y), the values taken by Z cannot be predicted perfectly (i.e. 100% of the times) by the variables X and Y together.

    在极端情况下, X = Y。 然后,如果可以通过X (和Y )正确地预测Z所取的值的50%时间,则变量XY不能一起完美地预测Z所取的值(即100%的时间)。

                                ╔═══╦═══╦═══╗
    ║ X ║ Y ║ Z ║
    ╠═══╬═══╬═══╣
    ║ 0 ║ 0 ║ 0 ║
    ║ 0 ║ 0 ║ 0 ║
    ║ 1 ║ 1 ║ 0 ║
    ║ 1 ║ 1 ║ 1 ║
    ╚═══╩═══╩═══╝

    互补性 (Complementarity)

    The complementarity relationship is the exact opposite situation. In the extreme case, X provides no information about Z, neither does Y, but the variables X and Y together allow to predict perfectly the values taken by Z. In such a case, the correlation between X and Z is zero, as is the correlation between Y and Z, but the correlation between X, Y and Z is 100%.

    互补关系是完全相反的情况。 在极端情况下, X不提供有关Z的信息, Y也不提供任何信息,但是变量XY一起可以完美地预测Z所取的值。 在这种情况下, XZ之间的相关性为零, YZ之间的相关性也为零,但是XYZ之间的相关性为100%。

    These complementarity relationships only occur in the case of non-linear relationships, and must then be taken into account in order to avoid any error when trying to reduce the dimensionality of a data analysis problem: discarding X and Y because they do not provide any information on Z when considered independently would be a bad idea.

    这些互补关系仅在非线性关系的情况下发生,然后在尝试减小数据分析问题的维数时必须考虑到它们以避免错误:丢弃XY,因为它们不提供任何信息在Z上单独考虑时,将是一个坏主意。

                                ╔═══╦═══╦═══╗
    ║ X ║ Y ║ Z ║
    ╠═══╬═══╬═══╣
    ║ 0 ║ 0 ║ 0 ║
    ║ 0 ║ 1 ║ 1 ║
    ║ 1 ║ 0 ║ 1 ║
    ║ 1 ║ 1 ║ 0 ║
    ╚═══╩═══╩═══╝

    “多元非线性相关性”的两种可能测度 (Two possible measures of “multivariate non-linear correlation”)

    There is a significant amount of possible measures of (multivariate) non-linear correlation (e.g. multivariate mutual information, maximum information coefficient — MIC, etc.). I present here two of them whose properties, in my opinion, satisfy exactly what one would expect from such measures. The only caveat is that they require discrete variables, and are very computationally intensive.

    存在(多元)非线性相关性的大量可能度量(例如多元互信息,最大信息系数MIC等)。 我在这里介绍他们中的两个,我认为它们的性质完全满足人们对此类措施的期望。 唯一的警告是它们需要离散变量,并且计算量很大。

    对称测度 (Symmetric measure)

    The first one is a measure of the information shared by n variables V1, …, Vn, known as “dual total correlation” (among other names).

    第一个是对n个变量V1,…,Vn共享的信息的度量,称为“双重总相关”(在其他名称中)。

    This measure of the information shared by different variables can be characterized as:

    不同变量共享的信息的这种度量可以表征为:

    Image for post

    where H(V) expresses the entropy of variable V.

    其中H(V)表示变量V的熵。

    When normalized by H(V1, …, Vn), this “mutual information score” takes values ranging from 0% (meaning that the n variables are not at all similar) to 100% (meaning that the n variables are identical, except for the labels).

    当用H(V1,…,Vn)归一化时,该“互信息分”取值范围从0%(意味着n个变量根本不相似)到100%(意味着n个变量相同,除了标签)。

    This measure is symmetric because the information shared by X and Y is exactly the same as the information shared by Y and X.

    此度量是对称的,因为XY共享的信息与YX共享的信息完全相同。

    Image for post
    Joint entropy of V1, V2 and V3
    V1,V2和V3的联合熵

    The Venn diagram above shows the “variability” (entropy) of the variables V1, V2 and V3 with circles. The shaded area represents the entropy shared by the three variables: it is the dual total correlation.

    上方的维恩图用圆圈显示变量V1V2V3的“变异性”(熵)。 阴影区域表示三个变量共享的熵:它是对偶总相关。

    不对称测度 (Asymmetric measure)

    The symmetry property of usual correlation measurements is sometimes criticized. Indeed, if I want to predict Y as a function of X, I do not care if X and Y have little information in common: all I care about is that the variable X contains all the information needed to predict Y, even if Y gives very little information about X. For example, if X takes animal species and Y takes animal families as values, then X easily allows us to know Y, but Y gives little information about X:

    常用的相关测量的对称性有时会受到批评。 的确,如果我想将Y预测为X的函数,则我不在乎XY是否有很少的共同点信息:我只关心变量X包含预测Y所需的所有信息,即使Y给出关于X的信息很少。 例如,如果X取动物种类而Y取动物种类作为值,则X容易使我们知道Y ,但Y几乎没有提供有关X的信息:

        ╔═════════════════════════════╦══════════════════════════════╗
    ║ Animal species (variable X) ║ Animal families (variable Y) ║
    ╠═════════════════════════════╬══════════════════════════════╣
    ║ Tiger ║ Feline ║
    ║ Lynx ║ Feline ║
    ║ Serval ║ Feline ║
    ║ Cat ║ Feline ║
    ║ Jackal ║ Canid ║
    ║ Dhole ║ Canid ║
    ║ Wild dog ║ Canid ║
    ║ Dog ║ Canid ║
    ╚═════════════════════════════╩══════════════════════════════╝

    The “information score” of X to predict Y should then be 100%, while the “information score” of Y for predicting X will be, for example, only 10%.

    那么,用于预测YX的“信息分数”应为100%,而用于预测XY的“信息分数”仅为例如10%。

    In plain terms, if the variables D1, …, Dn are descriptors, and the variables T1, …, Tn are target variables (to be predicted by descriptors), then such an information score is given by the following formula:

    简而言之,如果变量D1,...,Dn是描述符,变量T1,...,Tn是目标变量(将由描述符预测),则这样的信息得分将由以下公式给出:

    Image for post

    where H(V) expresses the entropy of variable V.

    其中H(V)表示变量V的熵。

    This “prediction score” also ranges from 0% (if the descriptors do not predict the target variables) to 100% (if the descriptors perfectly predict the target variables). This score is, to my knowledge, completely new.

    此“预测分数”的范围也从0%(如果描述符未预测目标变量)到100%(如果描述符完美地预测目标变量)。 据我所知,这个分数是全新的。

    Image for post
    Share of entropy of D1 and D2 useful to predict T1
    D1和D2的熵份额可用于预测T1

    The shaded area in the above diagram represents the entropy shared by the descriptors D1 and D2 with the target variable T1. The difference with the dual total correlation is that the information shared by the descriptors but not related to the target variable is not taken into account.

    上图中的阴影区域表示描述符D1D2与目标变量T1共享的熵。 与双重总相关的区别在于,不考虑描述符共享但与目标变量无关的信息。

    实际中信息分数的计算 (Computation of the information scores in practice)

    A direct method to calculate the two scores presented above is based on the estimation of the entropies of the different variables, or groups of variables.

    计算上述两个分数的直接方法是基于对不同变量或变量组的熵的估计。

    In R language, the entropy function of the ‘infotheo’ package gives us exactly what we need. The calculation of the joint entropy of three variables V1, V2 and V3 is very simple:

    在R语言中,“ infotheo”程序包的熵函数提供了我们所需的信息。 三个变量V1V2V3的联合熵的计算非常简单:

    library(infotheo)df <- data.frame(V1 = c(0,0,1,1,0,0,1,0,1,1),                 V2 = c(0,1,0,1,0,1,1,0,1,0),                 V3 = c(0,1,1,0,0,0,1,1,0,1))entropy(df)[1] 1.886697

    The computation of the joint entropy of several variables in Python requires some additional work. The BIOLAB contributor, on the blog of the Orange software, suggests the following function:

    Python中几个变量的联合熵的计算需要一些额外的工作。 BIOLAB贡献者在Orange软件博客上建议了以下功能:

    import numpy as np
    import itertools
    from functools import reducedef entropy(*X): entropy = sum(-p * np.log(p) if p > 0 else 0 for p in
    (
    np.mean(reduce(np.logical_and, (predictions == c for predictions, c in zip(X, classes))))
    for
    classes in itertools.product(*[set(x) for x in X]))) return(entropy)V1 = np.array([0,0,1,1,0,0,1,0,1,1])V2 = np.array([0,1,0,1,0,1,1,0,1,0])V3 = np.array([0,1,1,0,0,0,1,1,0,1])entropy(V1, V2, V3)1.8866967846580784

    In each case, the entropy is given in nats, the “natural unit of information”.

    在每种情况下,熵都以nat(“信息的自然单位”)给出。

    For a high number of dimensions, the information scores are no longer computable, as the entropy calculation is too computationally intensive and time-consuming. Also, it is not desirable to calculate information scores when the number of samples is not large enough compared to the number of dimensions, because then the information score is “overfitting” the data, just like in a classical machine learning model. For instance, if only two samples are available for two variables X and Y, the linear regression will obtain a “perfect” result:

    对于大量维,信息分数不再可计算,因为熵计算的计算量很大且很耗时。 同样,当样本数量与维数相比不够大时,也不希望计算信息分数,因为就像经典的机器学习模型一样,信息分数会使数据“过度拟合”。 例如,如果对于两个变量XY只有两个样本可用,则线性回归将获得“完美”的结果:

                                ╔════╦═════╗
    ║ X ║ Y ║
    ╠════╬═════╣
    ║ 0 ║ 317 ║
    ║ 10 ║ 40 ║
    ╚════╩═════╝
    Image for post
    Basic example of overfitting
    过度拟合的基本示例

    Similarly, let’s imagine that I take temperature measures over time, while ensuring to note the time of day for each measure. I can then try to explore the relationship between time of day and temperature. If the number of samples I have is too small relative to the number of problem dimensions, the chances are high that the information scores overestimate the relationship between the two variables:

    同样,让我们​​想象一下,我会随着时间的推移进行温度测量,同时确保记下每个测量的时间。 然后,我可以尝试探索一天中的时间与温度之间的关系。 如果我拥有的样本数量相对于问题维度的数量而言太少,则信息分数很有可能高估了两个变量之间的关系:

                    ╔══════════════════╦════════════════╗
    ║ Temperature (°C) ║ Hour (0 to 24) ║
    ╠══════════════════╬════════════════╣
    ║ 23 ║ 10 ║
    ║ 27 ║ 15 ║
    ╚══════════════════╩════════════════╝

    In the above example, and based on the only observations available, it appears that the two variables are in perfect bijection: the information scores will be 100%.

    在上面的示例中,并且基于仅可用的观察结果,看来这两个变量完全是双射的:信息得分将为100%。

    It should therefore be remembered that information scores are capable, like machine learning models, of “overfitting”, much more than linear correlation, since linear models are by nature limited in complexity.

    因此,应该记住,信息评分像机器学习模型一样,具有“过拟合”的能力,远远超过了线性相关性,因为线性模型天生就受到复杂性的限制。

    预测分数使用示例 (Example of prediction score use)

    The Titanic dataset contains information about 887 passengers from the Titanic who were on board when the ship collided with an iceberg: the price they paid for boarding (Fare), their class (Pclass), their name (Name), their gender (Sex), their age (Age), the number of their relatives on board (Parents/Children Aboard and Siblings/Spouses Aboard) and whether they survived or not (Survived).

    泰坦尼克号数据集包含有关当泰坦尼克号与冰山相撞时在船上的887名乘客的信息:他们所支付的登船价格( 车费 ),其舱位( Pclass ),姓名( Name ),性别( Sex ) ,他们的年龄( Age ),在船上的亲戚数( 父母/子女兄弟姐妹/配偶 )以及他们是否幸存( Survived )。

    This dataset is typically used to determine the probability that a person had of surviving, or more simply to “predict” whether the person survived, by means of the individual data available (excluding the Survived variable).

    该数据集通常用于通过可用的个人数据(不包括生存变量)来确定一个人生存的可能性,或更简单地“预测”该人是否生存

    So, for different possible combinations of the descriptors, I calculated the prediction score with respect to the Survived variable. I removed the nominative data (otherwise the prediction score would be 100% because of the overfitting) and discretized the continuous variables. Some results are presented below:

    因此,对于描述符的不同可能组合,我针对生存变量计算了预测得分。 我删除了名义数据(否则,由于过度拟合,预测得分将为100%),并离散化了连续变量。 一些结果如下所示:

    Image for post
    Purely illustrative example — results depend on the discretization method
    纯粹是示例性的-结果取决于离散化方法

    The first row of the table gives the prediction score if we use all the predictors to predict the target variable: this score being more than 80%, it is clear that the available data enable us to predict with a “good precision” the target variable Survived.

    如果我们使用所有预测变量来预测目标变量,则表的第一行将给出预测得分:该得分超过80%,很明显,可用数据使我们能够“精确”地预测目标变量幸存下来

    Cases of information redundancy can also be observed: the variables Fare, PClass and Sex are together correlated at 41% with the Survived variable, while the sum of the individual correlations amounts to 43% (11% + 9% + 23%).

    信息冗余的情况下,也可以观察到:变量票价 ,PClass性别在与幸存变量41%一起相关,而各个相关性的总和达43%(11%+ 9%+ 23%)。

    There are also cases of complementarity: the variables Age, Fare and Sex are almost 70% correlated with the Survived variable, while the sum of their individual correlations is not even 40% (3% + 11% + 23%).

    还有互补的情况: 年龄票价性别变量与生存变量几乎有70%相关,而它们各自的相关总和甚至不到40%(3%+ 11%+ 23%)。

    Finally, if one wishes to reduce the dimensionality of the problem and to find a “sufficiently good” model using as few variables as possible, it is better to use the three variables Age and Fare and Sex (prediction score of 69%) rather than the variables Fare, Parents/Children Aboard, Pclass and Siblings/Spouses Aboard (prediction score of 33%). It allows to find twice as much useful information with one less variable.

    最后,如果希望减少问题的范围并使用尽可能少的变量来找到“足够好”的模型,则最好使用年龄票价性别这三个变量(预测得分为69%),而不是变量票价家长 / 儿童 到齐 ,Pclass兄弟姐妹 / 配偶 到齐 (33%预测得分)。 它允许查找变量少一倍的有用信息。

    Calculating the prediction score can therefore be very useful in a data analysis project, to ensure that the data available contain sufficient relevant information, and to identify the variables that are most important for the analysis.

    因此,在数据分析项目中,计算预测分数可能非常有用,以确保可用数据包含足够的相关信息,并确定对于分析最重要的变量。

    翻译自: https://medium.com/@gdelongeaux/how-to-measure-the-non-linear-correlation-between-multiple-variables-804d896760b8

    多变量线性相关分析

    展开全文
  • 1、 样本相关系数矩阵、相关系数检验2、 复相关分析3、 决定系数 (RMSE的介绍)小结一、前言:继上一篇文章,继续探讨相关性分析,这次不再是两个变量,而是3个或者以上的变量之间的相关关系分析。没读过上篇文章请...

    a83b9d6d7cb880c90e4051f0f26194c2.png

    目录:

    • 前言
    • 偏相关或复相关
    • 意义与用途
    • 分析方法:
    • 1、 样本相关系数矩阵、相关系数检验
    • 2、 复相关分析
    • 3、 决定系数
      (RMSE的介绍)
    • 小结

    一、前言:

    继上一篇文章,继续探讨相关性分析,这次不再是两个变量,而是3个或者以上的变量之间的相关关系分析。

    没读过上篇文章请先仔细阅读再过来,因为多变量本质上是基于双变量的

    TzeSing Kong:相关性分析(两变量)zhuanlan.zhihu.com
    0e94f7b30e6294be0c63b7933f4788a7.png

    二、偏相关或复相关

    简单相关:研究两变量之间的关系

    偏相关或复相关:研究三个或者以上变量与的关系

    在这里仍然是选择最简单的线性相关来解释:


    三、意义与用途:

    有些情况下,我们只想了解两个变量之间是否有线性相关关系并不想拟合建立它们的回归模型,也不需要区分自变量和因变量,这时可用相关性分析。


    四、分析方法:

    1、样本相关阵

    来自正态总体
    容量为
    的样本,其中每个样本
    个观测

    分别计算两两样本之间的简单相关系数

    ,它们构成的矩阵就是:

    由于每个变量跟自己的相关系数就是

    ,即:

    其中,

    就是两个变量的简单相关系数。

    例子:

    375f597ec41ce4d6a847b0c0d056b585.png
    > X <- read.table("clipboard", header = T)
    > cor(X)  # 相关系数矩阵
               y        x1        x2        x3        x4
    y  1.0000000 0.9871498 0.9994718 0.9912053 0.6956619
    x1 0.9871498 1.0000000 0.9907018 0.9867664 0.7818066
    x2 0.9994718 0.9907018 1.0000000 0.9917094 0.7154297
    x3 0.9912053 0.9867664 0.9917094 1.0000000 0.7073820
    x4 0.6956619 0.7818066 0.7154297 0.7073820 1.0000000

    再看看矩阵散点图

    > pairs(X, ...)  # 多元数据散点图

    80cea2263c1f008395efc26243f61e77.png

    相关系数检验:

    > install.package('psych')  # 先安装一个'psych'的包
    > library(psych)
    > corr.test(X)
    
    Call:corr.test(x = yX)
    Correlation matrix 
          y   x1   x2   x3   x4
    y  1.00 0.99 1.00 0.99 0.70
    x1 0.99 1.00 0.99 0.99 0.78
    x2 1.00 0.99 1.00 0.99 0.72
    x3 0.99 0.99 0.99 1.00 0.71
    x4 0.70 0.78 0.72 0.71 1.00
    Sample Size 
    [1] 31
    Probability values (Entries above the diagonal are adjusted for multiple tests.) 
       y x1 x2 x3 x4
    y  0  0  0  0  0
    x1 0  0  0  0  0
    x2 0  0  0  0  0
    x3 0  0  0  0  0
    x4 0  0  0  0  0
    
     To see confidence intervals of the correlations, print with the short=FALSE option

    上面矩阵是相关系数的

    值矩阵,下面矩阵是
    值矩阵

    可以看出

    的关系都十分密切

    相关系数

    且置信度

    2、复相关分析

    实际分析中,一个变量(

    )往往要受到多种变量(
    )的综合影响,

    所谓复相关,就是研究多个变量同时与某个变量的相关关系,

    度量复相关程度的指标是复相关系数

    多个变量同时与某个变量的相关关系不能直接测算,只能通过间接测算

    复相关系数的计算:

    设因变量

    ,自变量为
    ,构造一个线性模型为:

    作相关分析,就是对
    简单相关分析

    记:

    • 复相关系数
    • 简单相关系数

    的计算公式:

    复相关系数常用于多元线性回归分析中,我们希望知道因变量与一组自变量之间的相关程度,即复相关,复相关系数反映了一个变量与另一组变量的密切程度。

    假设检验:

    与多元回归的方差分析一样,所以我留在下篇文章阐述回归分析与方差分析的时候会继续详细说明

    综上:

    至于

    还有
    是什么?

    就由下篇文章阐述回归分析的时候会详细说明。

    TzeSing Kong:线性回归——描述变量间预测关系最简单的回归模型zhuanlan.zhihu.com
    49d9960572e40bb49ceeccc8ed5deccc.png

    3、决定系数

    coefficient of determination

    在复相关系数中,根号里面的比值

    其实说明了回归平方和总离差平方和的比值,反应了回归贡献的百分比

    把复相关系数两边平方一下就能得到决定系数

    决定系数用于评价多元回归方程、变量选择、曲线回归方程拟合的好坏程度中,常常用到。

    【注意】

    • 是相关性的度量,并不是准确性的度量!!!
    • 依赖于
      的波动程度(样本方差),这会使得我们看待模型的好坏有着巨大影响,例如,假设测试集
      的方差是
      ,如果一个模型的
      大致为
      ,但是另一个测试集
      的方差是
      (分母小了,
      小了),
      则变为
      变成了模型好坏取决于测试集的波动程度,所以这个十分不靠谱
    • 不明白上面的话,可以再看一个例子,如果我们建立了一个模型预测广州房价,如果测试集中广州房屋售价的波动范围较大——方差较大(40万-几千万),因为方差大,所以很可能导致
      也比较大(假设
      ),但
      可能十万,这对于广州房价预测来说是一个很糟糕的
      预测范围

    具体用法,留在回归分析中详细阐述。

    TzeSing Kong:线性回归——描述变量间预测关系最简单的回归模型zhuanlan.zhihu.com
    49d9960572e40bb49ceeccc8ed5deccc.png

    在 线性回归 中的 3.4 决定系数

    # 先建立多元线性回归模型
    > fm = lm(y~x1+x2+x3+x4,data = X)
    
    # 计算多元线性回归模型决定系数
    > R2 = summary(fm)$r.sq
    > R2
    [1] 0.9997162
    
    # 计算复相关系数
    > R = sqrt(R2)
    > R
    [1] 0.9998581

    【补】

    什么是RMSE?

    RMSE是回归问题的性能指标,衡量的是 预测值

    与 真实值
    间的差距

    是测量预测误差的标准差

    举例子:RMSE 等于 50000,根据【

    准则】意味着:

    大约 68% 的预测值位于真实值的 50000元(

    )以内,

    大约 95% 的预测值位于真实值的 100000元 (

    )以内,

    大约 99.7% 的预测值位于真实值的 150000元内 (

    )以内

    五、小结:

    可以看出多变量相关分析跟回归分析的关系很密切,多变量相关分析能为回归分析服务,因为要具有相关性才有做线性回归拟合的价值

    展开全文
  • Python 计算多个特征之间的相关性

    万次阅读 2019-08-22 19:20:37
    线性相关:主要采用皮尔逊相关系数来度量连续变量之间的线性相关强度; 线性相关系数|r| 相关程度 0<=|r|<0.3 低度相关 0.3<=|r|<0.8 中度相关 0.8<=|r|<1 高度相关 1 函数 相关分析函数: ...

    线性相关:主要采用皮尔逊相关系数来度量连续变量之间的线性相关强度;

    线性相关系数|r|   相关程度

    0<=|r|<0.3       低度相关

    0.3<=|r|<0.8     中度相关

    0.8<=|r|<1       高度相关

    1 函数

    相关分析函数:

    DataFrame.corr()
    Series.corr(other)

      说明:
    如果由数据框调用corr方法,那么将会计算每个列两两之间的相似度

    如果由序列调用corr方法,那么只是计算该序列与传入序列之间的相关度

      返回值:
      
    dataFrame调用:返回DataFrame
    Series调用:  返回一个数值型,大小为相关度

    2  案例

    import pandas
    
    data=pandas.read_csv('C:\\Users\\Desktop\\test.csv')
    
    print(data.corr())  
    #由数据框调用corr方法,将会计算每个列两两之间的相似度,返回的是一个矩形
    
    print(data['人口'].corr(data['文盲率']))   
    #由某一列调用corr方法,只是计算该序列与传入序列(本例中的'文盲率')之间的相关度
    
    print(data['超市购物率','网上购物率','文盲率','人口']).corr()
    #计算多列之间相似度的方法

    3 读取DataFrame数据

    可以通过  print(type(data.corr()))  的方式查看得到的结果是什么类型的

    也可以通过  print(len(data,corr()))  来查看得到结果的行数和列数

    每一列都有一个名称,可以通过指定名称来查看某一列的值

    res = data.corr()
    
    res['a']            #取a列 
    
    res[['a','b']]     #取a、b列

    也可以用数字索引

    print(res[0:5])

    会输出相关性结果中的前五行数据

    展开全文
  • 相互独立的两个变量可以分开优化,各自优化的结果不会相互影响,相互关联的变量因为他们之间的相关性,整体优化的结果与他们分开优化的结果不同,所以不能相互关联的变量不能分开进行优化,设有目标优化问题,如果...
  • 对一随机变量 X 和任意一 0 到 1 之间的数 τ,如果 X 的取值 x 满足 prob(X ≤ x) = τ,那么 x 就是 X 的 τ 分位数。换句话说,τ 分位数说明:如果我们按该随机变量的分布产生足够的样本点,那么在这些...
  • 或者多个变量,或者变量与变量之间关联程度,都可以,就是说A和B之间肯定存在着某种关系,确定关系我们用函数就可以描述出来了,而这种不稳定、不确定、不精确变化关系我们就称之为相关关系。比如不久...
  • 图示初判两个变量之间的相关性(散点图)变量之间的相关性(散点图矩阵)2.Pearson相关系数3.Spearman相关系数 分析连续变量之间的线性相关程度的强弱 介绍如下几种方法: 图示初判 Pearson相关系数(皮尔逊相关...
  • 相关性分析是指对两个或多个具备相关性变量元素进行分析,从而衡量两个变量因素相关密切程度。相关性元素之间需要存在一定联系或者概率才可以进行相关性分析。衡量事物之间或者变量之间线性相关程度强弱...
  • 相关性分析

    2019-08-23 15:27:33
    当需要同时考察多个变量相关关系时,一一绘制他们间简单散点图是比较麻烦。此时可以利用散点矩阵图同时绘制各变量间散点图,从而快速发现多个变量主要相关性,这在进行多元线性回归时显得尤为重要。 ...
  • 相关分析能够解决的问题:· 父母的身高和孩子的身高...用相关系数 r 表示两个变量之间的相关程度和方向。a. 零相关:r=0b. 正相关:0完全正相关:r=1d. 负相关:-1完全负相关:r=-1|r|越大,相关关系越密切|r|越小...
  • 这么数字堆在一起,很难快速的发现变量之间的相关性,根本不想看第二眼,有没有?!大家再来看第二张,是不是会好很。除了颜值,咱们还得看看它究竟能提供一些什么信息。首先,左边界和上边界显示的是11个变量名。...
  • 有蛮多的学生私信老徐问如何利用spss做相关性分析,其实相关性分析应该是spss分析中较为基础功能应用,很学生可能是因为跨专业或者对统计软件了解较少,在没有经过系统学习前提下,感觉云里雾里。...
  • 相关性分析用于评估两个或多个变量之间的关联。例如,如果我们想知道父亲和儿子的身高之间是否存在关系,可以计算相关系数来回答这个问题。如果两个变量(父亲和儿子的身高)之间没有关系,则儿子的平均身高应该相同...
  • “题外话:相关性不是因果,相关性只能说数据上来讲两个或多个因素具有正/负/无相关性,其间没有谁决定谁的关系”相关系数(correlation coefficient)用于描述两个变量之间的相关程度。一般在[-1, 1]之间。有,...
  • 2.3.2 相关性分析相关性分析是指通过分析寻找不同商品或不同行为之间的关系,发现用户的习惯,计算两个数据集的相关性是统计中的常见操作。MLlib提供了计算多个数据集两两相关的方法。目前支持的相关性方法有皮尔逊...
  • 有蛮多的学生私信老徐问如何利用spss做相关性分析,其实相关性分析应该是spss分析中较为基础功能应用,很学生可能是因为跨专业或者对统计软件了解较少,在没有经过系统学习前提下,感觉云里雾里。...
  • 相关性分析方法

    千次阅读 2019-08-30 16:38:43
    相关性分析是指对两个或多个具备相关性呃变量元素进行分析,从而衡量两个变量因素之间的相关密切程度。 一般常用四种方法: 画图判断(散点图向量或散点图矩阵)ax.scatter(data1,data2) pearson(皮尔逊)相关...
  • 相关性分析是指对两个或多个具备相关性变量元素进行分析,从而衡量两个变量因素相关密切程度。相关性元素之间需要存在一定联系或者概率才可以进行相关性分析。但是,请记住,相关性不等于因果性两个重要...
  • Spss做相关性分析

    万次阅读 多人点赞 2016-05-13 10:50:51
    相关性分析是指对两个或多个具备相关性变量元素进行分析,从而衡量两个变量因素相关密切程度。相关性元素之间需要存在一定联系或者概率才可以进行相关性分析(比如身高和体重),有些数据本身就不存在相关性...
  • 再说相关性分析

    2020-06-25 16:36:16
    或者多个变量,或者变量与变量之间关联程度,都可以,就是说A和B之间肯定存在着某种关系,确定关系我们用函数就可以描述出来了,而这种不稳定、不确定、不精确变化关系我们就称之为相关关系。 比如不久前...
  • 相关性热图可以便捷的显示多个变量之间的相关性,因此在组学数据分析中得到广泛应用,例如基因的共表达分析、样本重复检验、微生物群落的共发生网络分析等。在昨天推文下就有人问热图怎么画?画热图最常规的办法自然...
  • 数据特征分析-相关性分析

    千次阅读 2019-10-04 02:37:20
    相关性分析是指对两个或多个具备相关性变量元素进行分析,从而衡量两个变量的相关密切程度。 相关性元素之间需要存在一定联系或者概率才可以进行相关性分析。 相关系数在[-1,1]之间。 一、图示初判 通过...
  • 如何利用spss做相关性分析,其实相关性分析应该是spss分析中较为基础功能应用,很学生可能是因为跨专业或者对统计软件了解较少,在没有经过系统学习前提下,感觉云里雾里。今天给大家讲解下毕业论文中常用...

空空如也

空空如也

1 2 3 4 5 ... 15
收藏数 299
精华内容 119
关键字:

多个变量之间的相关性分析