精华内容
下载资源
问答
  • 数字特征值是常用的编码算法,奇偶特征是一种简单的特征值。
  • 关于随机变量数字特征的一些问题探讨,江育奇,,随机变量数字特征是概率论中重要的内容,在概率论与数理统计中有着广泛的应用。本文指出现行概论中数学期望等数字特征的性质在推
  • 关于对随机变量数字特征新概念的讨论,孔建勇,孔璐,根据统计研究对象标志的性质不同分为品质标志和数量标志。数字特征、位置特征、离散特征为品质标志表现统计对象要标识的名称;位
  • 有效地数字特征提取算法 模式识别中的手写数字识别
  • 数字特征分析包含:相关性分析、查看几个特征的偏度和峰值、每个数字特征的分布可视化、数字特征相互之间的关系可视化、多变量互相回归关系可视化这五个部分。 进行数字特征分析之前,我们需要先安装基础工具、载入...
  • 应用于自然语言处理的机器学习数据通常包含文本和数字输入。例如,当您通过twitter或新闻构建一个模型来预测产品未来的销售时,在考虑文本的同时考虑过去的销售数据、访问者数量、市场趋势等将会更有效。您不会仅仅...

    应用于自然语言处理的机器学习数据通常包含文本和数字输入。例如,当您通过twitter或新闻构建一个模型来预测产品未来的销售时,在考虑文本的同时考虑过去的销售数据、访问者数量、市场趋势等将会更有效。您不会仅仅根据新闻情绪来预测股价的波动,而是会利用它来补充基于经济指标和历史价格的模型。 这篇文章展示了如何在scikit-learn(对于Tfidf)和pytorch(对于LSTM / BERT)中组合文本输入和数字输入。

    scikit-learn(例如用于Tfidf)

    当你有一个包含数字字段和文本的训练dataframe ,并应用一个来自scikit-lean或其他等价的简单模型时,最简单的方法之一是使用sklearn.pipeline的FeatureUnion管道。

    下面的示例假定X_train是一个dataframe ,它由许多数字字段和最后一列的文本字段组成。然后,您可以创建一个FunctionTransformer来分隔数字列和文本列。传递给这个FunctionTransformer的函数可以是任何东西,因此请根据输入数据修改它。这里它只返回最后一列作为文本特性,其余的作为数字特性。然后在文本上应用Tfidf矢量化并输入分类器。该样本使用RandomForest作为估计器,并使用GridSearchCV在给定参数中搜索最佳模型,但它可以是其他任何参数。

    import numpy as np
    from sklearn.feature_extraction.text import TfidfVectorizer
    from sklearn.pipeline import Pipeline, FeatureUnion
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.preprocessing import FunctionTransformer
    from sklearn.model_selection import GridSearchCV, StratifiedKFold
    
    # Create Function Transformer to use Feature Union
    def get_numeric_data(x):
        return [record[:-2].astype(float) for record in x]
    
    def get_text_data(x):
        return [record[-1] for record in x]
    
    transfomer_numeric = FunctionTransformer(get_numeric_data)
    transformer_text = FunctionTransformer(get_text_data)
    
    # Create a pipeline to concatenate Tfidf Vector and Numeric data
    # Use RandomForestClassifier as an example
    pipeline = Pipeline([
        ('features', FeatureUnion([
                ('numeric_features', Pipeline([
                    ('selector', transfomer_numeric)
                ])),
                 ('text_features', Pipeline([
                    ('selector', transformer_text),
                    ('vec', TfidfVectorizer(analyzer='word'))
                ]))
             ])),
        ('clf', RandomForestClassifier())
    ])
    
    # Grid Search Parameters for RandomForest
    param_grid = {'clf__n_estimators': np.linspace(1, 100, 10, dtype=int),
                  'clf__min_samples_split': [3, 10],
                  'clf__min_samples_leaf': [3],
                  'clf__max_features': [7],
                  'clf__max_depth': [None],
                  'clf__criterion': ['gini'],
                  'clf__bootstrap': [False]}
    
    # Training config
    kfold = StratifiedKFold(n_splits=7)
    scoring = {'Accuracy': 'accuracy', 'F1': 'f1_macro'}
    refit = 'F1'
    
    # Perform GridSearch
    rf_model = GridSearchCV(pipeline, param_grid=param_grid, cv=kfold, scoring=scoring, 
                             refit=refit, n_jobs=-1, return_train_score=True, verbose=1)
    rf_model.fit(X_train, Y_train)
    rf_best = rf_model.best_estimator_
    

    Scikit-learn提供了很好的api来管理ML管道,它只完成工作,还可以以同样的方式执行更复杂的步骤。

    Pytorch(例如LSTM, BERT)

    如果您应用深度神经网络,更常见的是使用Tensorflow/Keras或Pytorch来定义层。两者都有类似的api,并且可以以相同的方式组合文本和数字输入,下面的示例使用pytorch。

    要在神经网络中处理文本,首先它应该以模型所期望的方式嵌入。有一个dropout 层也是常见的,以避免过拟合。该模型在与数字特征连接之前添加一个稠密层(即全连接层),以平衡特征的数量。最后,应用稠密层输出所需的输出数量。

    class LSTMTextClassifier(nn.Module):
      def __init__(self, vocab_size, embed_size, lstm_size, dense_size, numeric_feature_size, output_size, lstm_layers=1, dropout=0.1):
            super().__init__()
            self.vocab_size = vocab_size
            self.embed_size = embed_size
            self.lstm_size = lstm_size
            self.output_size = output_size
            self.lstm_layers = lstm_layers
            self.dropout = dropout
    
            self.embedding = nn.Embedding(vocab_size, embed_size)
            self.lstm = nn.LSTM(embed_size, lstm_size, lstm_layers, dropout=dropout, batch_first=False)
            self.dropout = nn.Dropout(0.2)
            self.fc1 = nn.Linear(lstm_size, dense_size)
            self.fc2 = nn.Linear(dense_size + numeric_feature_size, output_size)
            self.softmax = nn.LogSoftmax(dim=1)
    
        def init_hidden(self, batch_size):
            weight = next(self.parameters()).data
            hidden = (weight.new(self.lstm_layers, batch_size, self.lstm_size).zero_(),
                      weight.new(self.lstm_layers, batch_size, self.lstm_size).zero_())
            
            return hidden
    
        def forward(self, nn_input_text, nn_input_meta, hidden_state):
            batch_size = nn_input_text.size(0)
            nn_input_text = nn_input_text.long()
            embeds = self.embedding(nn_input_text)
            lstm_out, hidden_state = self.lstm(embeds, hidden_state)
            lstm_out = lstm_out[-1,:,:]
            lstm_out = self.dropout(lstm_out)
            dense_out = self.fc1(lstm_out)
            concat_layer = torch.cat((dense_out, nn_input_meta.float()), 1)
            out = self.fc2(concat_layer)
            logps = self.softmax(out)
    
            return logps, hidden_state
          
    class BertTextClassifier(nn.Module):
        def __init__(self, hidden_size, dense_size, numeric_feature_size, output_size, dropout=0.1):
            super().__init__()
            self.output_size = output_size
            self.dropout = dropout
            
            # Use pre-trained BERT model
            self.bert = BertModel.from_pretrained('bert-base-uncased', output_hidden_states=True, output_attentions=True)
            for param in self.bert.parameters():
                param.requires_grad = True
            self.weights = nn.Parameter(torch.rand(13, 1))
            self.dropout = nn.Dropout(dropout)
            self.fc1 = nn.Linear(hidden_size, dense_size)
            self.fc2 = nn.Linear(dense_size + numeric_feature_size, output_size)
            self.softmax = nn.LogSoftmax(dim=1)
    
        def forward(self, input_ids, nn_input_meta):        
            all_hidden_states, all_attentions = self.bert(input_ids)[-2:]
            batch_size = input_ids.shape[0]
            ht_cls = torch.cat(all_hidden_states)[:, :1, :].view(13, batch_size, 1, 768)
            atten = torch.sum(ht_cls * self.weights.view(13, 1, 1, 1), dim=[1, 3])
            atten = F.softmax(atten.view(-1), dim=0)
            feature = torch.sum(ht_cls * atten.view(13, 1, 1, 1), dim=[0, 2])
            dense_out = self.fc1(self.dropout(feature))
            concat_layer = torch.cat((dense_out, nn_input_meta.float()), 1)
            out = self.fc2(concat_layer)
            logps = self.softmax(out)
    
            return logps
    

    以上代码在前向传播时使用torch.cat将数字特征和文本特征进行组合,并输入到后续的分类器中进行处理。

    作者:Yuki Takahashi

    deephub翻译组

    展开全文
  • 用样本数字特征估计总体数字特征.ppt
  • 用样本的数字特征估计总体的数字特征.doc
  • 用样本数字特征估计总体数字特征公开课.ppt
  • 用样本数字特征估计总体数字特征优质课.ppt
  • 用样本的数字特征估计总体的数字特征说课稿.pdf
  • 高一数学2222用样本数字特征估计总体数字特征PPT课件.pptx
  • 高一数学用样本数字特征估计总体数字特征PPT学习教案.pptx
  • 数字特征提取matlab

    2009-12-21 10:54:57
    支持数字特征的提取,不同的数字模式进行特征检测和提前操作
  • 用样本的数字特征估计总体的数字特征——标准差.pptx
  • 高中数学用样本数字特征估计总体数字特征必修三PPT课件.pptx
  • 数学用样本数字特征估计总体数字特征时参考PPT学习教案.pptx
  • 数学用样本数字特征估计总体数字特征优质课PPT学习教案.pptx
  • 对于数字特征的若干理解

    千次阅读 2017-11-17 17:17:33
    对于数字特征的若干理解 数字特征概述 随机变量 常见数字特征 数学期望均值方差标准差协方差相关系数协方差矩阵 参考 数字特征概述  在我们学习概率论的时候,很多时候我们不能...

    对于数字特征的若干理解

    数字特征概述

      在我们学习概率论的时候,很多时候我们不能深刻理解概率论中的数字特征所具有的含义,本文章尝试去帮助读者理解一些术语、概念。 
      什么是数字特征?要回答这个问题,先得弄清楚什么是特征。特征是一个客体或一组客体特性的抽象结果。特征是用来描述概念的。任一客体或一组客体都具有众多特性,人们根据客体所共有的特性抽象出某一概念,该概念便成为了特征。而数字特征是对于数字的一种抽象方式,不同的抽象方式表现数字不同方面的数字特征(如,均值表现平均水平,方差表示离散程度)。从信息的角度来说,特征化(抽象)是压缩信息的一种方式。

      为何会有数字特征?特征化是人们压缩数据的一种方式,它能够反映一些群体的某方面的特点。举个简单的例子,校长去某个班调查学生的学习水平,他不太可能去查看询问每个人的成绩(那样子是十分耗时的一件事情)。所以我们将班级的成绩信息进行压缩,压缩成均值,众数,标准差等,以此来为校长提供其所关心的平均水平,成绩差异程度等。

      在数字特征的构造中,统一量纲 是一个十分重要的原则,下面的各个的数字特征中都会有所体现。下图说明,各个数字特征之间可以进行的运算 
    图1:(未涉及协方差,相关系数)

    • 一些不同随机变量的同一数字特征是可比较的。
    • 一些同一随机变量的不同数字特征是可比较的。

        数字特征之间的可比性

    区分概率论与统计学(参考): 
    【知乎】概率论与统计学的关系是什么?


    随机变量

      要想理解数字特征,弄清楚随机变量这一个概念是十分重要的。



    常见数字特征

      本小节主要介绍概率论中常见的一些数字特征,并且说明其直观的物理意义。这里只讨论离散型随机变量的数字特征。


    数学期望(均值)

      在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。是最基本的数学特征之一。它反映随机变量平均取值的大小。其公式如下:

    E(X)=k=1xk×pk

    xk  :表示观察到随机变量 X 的样本的值。 
    pk  : 表示 xk 发生的概率。 

      数学期望反映的是平均水平。通过它,我们能够了解一个群体的平均水平(比如说,一个班平均成绩80)。但另外一个方面,它所包含的信息也是十分有限的,首先是个体信息被压缩了,其次如果单纯看期望的话,是看不出样本的数量。(平均成绩为80,在1人班和100人班的含义是不一样的) 
      通过这个问题想说明,在刻画群体特征的时候,多个数字特征配合才能达到效果。(上面的例子:可以是 期望 + 数量


    方差

      (variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究方差即偏离程度有着重要意义。 
      方差(  D(X) Var(X)  )计算公式如下: 
      

    D(X)=Var(X)=E{[XE(X)]2}

    X  :表示随机变量。 
    E(X)  : 表示X的期望。 
    D(X)  : 是 每个样本值与全体样本值的平均数之差平方值的平均数

    公式逐步解释: [XE(X)]  —>  [XE(X)]2  —>  E{[XE(X)]2}

    [XE(X)]  是计算随机变量中各个值与期望的距离(反映的是以 E(X) 为基准计算的偏差)。但是只是将偏差进行求和,可能导致结果为0的情况(会产生离散程度较高,评价却为0的情况)。

    平方 [XE(X)]2  可避免上述情况发生,但问题依据存在,不同的随机变量(比如,X,Y)之间在此级别是无法进行比较的,因为X,Y的数量空间是不同的(X可能有3个值,Y可能有1000个值),进而导致不具有可比性。 
    E{[XE(X)]2}  则是将数量空间进行了统一,使得不同随机变量的方差具有了可比性

    ps : 方差的性质这里就不介绍了,可查看概率书籍。


    标准差

      标准差也是用于衡量一组数据的离散程度的。公式如下,可以看出标准差 σ(X) 表示 )于随机变量 X 处于同一量纲下,这为 X 以及 σ(X) 在同一公式中计算提供了很好的支持。 
      

    σ(X)=D(X)

    D(X)  : 表示随机变量X的方差。 
       方差与标准差有何区别呢?(下面两个例子来自知乎: 有了方差为什么需要标准差?) 
       
       标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点。 
       
      再举个例子,从正态分布中抽出的一个样本落在[μ-3σ, μ+3σ]这个范围内的概率是99.7%,也可以称为“正负3个标准差”。如果没有标准差这个概念,我们使用方差来描述这个范围就略微绕了一点。万一这个分布是有实际背景的,这个范围描述还要加上一个单位,这时候为了方便,人们就自然而然地将这个量单独提取出来了。


    协方差

      前面一直在探讨单个随机变量(1维),但是事实上当我们考察一个群体的时候,往往事物的属性是多方面的(多维),这里只考察2维情况,形式如: (X,Y) 。 
       
       (X,Y) 的意思这类事物具有两个方面的属性,更进一步来说,一个样本有X,Y两方面的值,体现在数据库中,有两列(X列,Y列)。当X,Y这两个属性出现在同一类事物中的时候,我们很自然想到X,Y之间有某种关系,但是如何来刻画这种关系呢,这就是本节想要介绍的。 
       
       (X,Y) 是2维的,只考虑1维会无法从整体把握问题。而如果进行关联分析,有时候却需要对维度拆分来进行研究,这就引出了下面的协方差公式: 
      

    Cov(X,Y)=E{[XE(X)][YE(Y)]}

    Cov(X,Y)  : 表示随机变量X,Y的协方差。(2维因素) 
    E(X),E(Y)  : 分别表示随机变量X,Y的期望。(1维因素) 
    [XE(X)][YE(Y)] 的说明 
        [XE(X)] [YE(Y)] 都只考虑了各自随机变量这1维,通过 相乘的方式使得上面两个离差建立起数值关系, [XE(X)][YE(Y)] 是两者共同作用的结果,即和X,Y都有关。又因为X,Y都是随机变量,所以自然 [XE(X)][YE(Y)] 也是 合成的新的随机变量。根据相关性定义可知,如果X,Y独立,那么 [XE(X)] [YE(Y)] 也是独立的,那么 
    X,YP(X,Y)=P(X)P(Y)

    Cov(X,Y)=E{[XE(X)][YE(Y)]}

    =E[XE(X)]E(YE(Y))

    E[XE(X)]=0E(YE(Y))=0

    X,Y=>Cov(X,Y)=0

      下面解释一下上面的结论的含义( 为何X、Y独立,Cov(X,Y)就为0 ?)。 
      如果X,Y有关系,那么 关联性会使得某个变量的随机性不再那么随机。即,假如说X是随机的, X的值确定后会限定Y的随机性(将Y限定在某个范围)。这里举个简单的例子,假如学生具有(年龄,年级)两个属性,如果 年龄是17岁,那么 年级范围很可能是在高中范围内。 年龄这个变量影响着年级这个变量。 
       
      如果X,Y有关系,从关系传递性角度来说,离差 [XE(X)] [YE(Y)] 也会有一定的关系。 正常情况下随机变量 [XE(X)] [YE(Y)] 会在0水平附近波动,如果上述两个随机变量无关,那么两个随机变量的相乘的方式会在0附近波动(即 Cov(X,Y)=0 );如果X,Y有关,那么 [XE(X)][YE(Y)] 波动范围将会受到影响,不再围绕0。(此处有待进一步解释…) 
       
    协方差计算公式 
    Cov(X,Y)=E{[XE(X)][YE(Y)]}

    Cov(X,Y)=E(XY)E(X)E(Y)

    D(X+Y)=D(X)+D(Y)+2Cov(X,Y)

    协方差性质 
    1Cov(aX,bY)=abCov(X,Y)

    2Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

      总结一下, (X,Y) 是2元组,X,Y 共同出现,可能有关系。为度量这种相关性,制定了一个指标(协方差),来刻画X,Y之间关系。( 将相关性映射到协方差

    其他关于协方差理解:【知乎】如何通俗易懂地解释「协方差」与「相关系数」的概念?


    相关系数

      前面把比较关键的协方差说了一下,接下来说一下建立在协方差公式基础上的相关系数。简而言之,相关系数是对协方差进行了归一化处理,使其区间处于 [] 范围内。 
      下面看看相关系数 ρXY 的计算公式: 

    ρXY=Cov(XY)D(X)D(Y)

    ,Cov(X,Y)=E{[XE(X)][YE(Y)]}

    定理 

    1|ρXY|1

    2|ρXY|=1a,b使

    P{Y=a+bX}=1

    (2YX线XY)

    需要注意的一些事情

    • 线性 ρXY 表示的是X,Y之间线性相关程度。(不适用于多次方,指数等)
    • ρXY=0 ,我们称X,Y不相关。
    • 独立,相关 X,Y=>ρXY=0
    • 独立,相关】X,Y相互独立 ,则 ρXY=0 ; ρXY=0 ,不能推出X,Y相互独立。( ρXY=0 只能说明非”线性相关”,但X,Y可能是”非线性”相关

        因为思想部分已经在协方差部分说了,这里不再赘述。


    协方差矩阵

      前面已经说了协方差的意义,协方差在于探索随机变量之间的关系。协方差矩阵计算的是不同维度之间的协方差。不是样本之间的关联关系。 
       
      协方差探索的是随机变量X,Y之间的相关性,是放在同一个样本中来进行的。举一个简单的例子,学生小明(年龄17岁,年级为高2),小红(年龄17岁,年级为高3),小明、小红就是我们所说的样本,而年龄、年级则是随机变量。计算协方差时,考虑的是小明年龄和小明年级之间的关联关系(一个样本自身属性之间的关联关系)。 
      ps:未考虑小明、小红之间是否有关联关系(样本之间是否有关联关系)。 
       
      当样本含有大量维度随机变量多)的时候,我们就需要使用矩阵来刻画各个维度之间的关联关系。

    PS: 
    个人感觉,协方差矩阵的计算是将整个维度系统中的制约关系分解为两两之间的关系来进行刻画。

    假设】这其中隐藏了一个假设,在协方差矩阵的世界中认为,所有维度之间的关系都可以简化为两两之间的关系来进行研究。(正如牛顿的万有引力公式)

    设谋个矩阵如下: 
    (下面矩阵中每一行代表一个样本,每一列代表一个随机变量。)

    这里写图片描述

    则其协方差矩阵为:

    这里写图片描述

    关于协方差矩阵,此处不再赘述,可参看: 
    [转]浅谈协方差矩阵 
    [线性代数] 如何求协方差矩阵 
    详解协方差与协方差矩阵

    参考

    【知乎】排列组合的理解

    展开全文
  • 用样本的数字特征估计总体的数字特征(一).ppt,高二,课件
  • 用样本数字特征估计总体数字特征(平均数_方差_标准差等).doc
  • feature = pd.factorize(feature) 这样处理之后,就会把原来的那列含有字符串的数据,根据类别,处理为数值类型的数据
    feature = pd.factorize(feature)[0].astype(np.uint16)

    这样处理之后,就会把原来的那列含有字符串的数据,根据类别,处理为数值类型的数据

    展开全文
  • 对于概率论数字特征的理解

    万次阅读 多人点赞 2017-04-07 15:47:39
    数字特征概述 随机变量 常见数字特征 数学期望均值 方差 标准差 协方差 相关系数 协方差矩阵 参考数字特征概述 在我们学习概率论的时候,很多时候我们不能深刻理解概率论中的数字特征所具有的含义,本文章尝试去...



    数字特征概述

      在我们学习概率论的时候,很多时候我们不能深刻理解概率论中的数字特征所具有的含义,本文章尝试去帮助读者理解一些术语、概念。
      
      什么是数字特征?要回答这个问题,先得弄清楚什么是特征。特征是一个客体或一组客体特性的抽象结果。特征是用来描述概念的。任一客体或一组客体都具有众多特性,人们根据客体所共有的特性抽象出某一概念,该概念便成为了特征。而数字特征是对于数字的一种抽象方式,不同的抽象方式表现数字不同方面的数字特征(如,均值表现平均水平,方差表示离散程度)。从信息的角度来说,特征化(抽象)是压缩信息的一种方式。

      为何会有数字特征?特征化是人们压缩数据的一种方式,它能够反映一些群体的某方面的特点。举个简单的例子,校长去某个班调查学生的学习水平,他不太可能去查看询问每个人的成绩(那样子是十分耗时的一件事情)。所以我们将班级的成绩信息进行压缩,压缩成均值,众数,标准差等,以此来为校长提供其所关心的平均水平,成绩差异程度等。

      在数字特征的构造中,统一量纲 是一个十分重要的原则,下面的各个的数字特征中都会有所体现。下图说明,各个数字特征之间可以进行的运算
    图1:(未涉及协方差,相关系数)

    • 一些 不同随机变量的同一数字特征是可比较的。
    • 一些 同一随机变量的不同数字特征是可比较的。

        数字特征之间的可比性
        

    区分概率论与统计学(参考)
    【知乎】概率论与统计学的关系是什么?


    随机变量

      要想理解数字特征,弄清楚随机变量这一个概念是十分重要的。



    常见数字特征

      本小节主要介绍概率论中常见的一些数字特征,并且说明其直观的物理意义。这里只讨论离散型随机变量的数字特征。


    数学期望(均值)

      在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。是最基本的数学特征之一。它反映随机变量平均取值的大小。其公式如下:

    E(X)=k=1xk×pk

    xk :表示观察到随机变量 X 的样本的值。
    pk : 表示 xk 发生的概率。

      数学期望反映的是平均水平。通过它,我们能够了解一个群体的平均水平(比如说,一个班平均成绩80)。但另外一个方面,它所包含的信息也是十分有限的,首先是个体信息被压缩了,其次如果单纯看期望的话,是看不出样本的数量。(平均成绩为80,在1人班和100人班的含义是不一样的)
      通过这个问题想说明,在刻画群体特征的时候,多个数字特征配合才能达到效果。(上面的例子:可以是 期望 + 数量


    方差

      (variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究方差即偏离程度有着重要意义。
      方差( D(X) Var(X) )计算公式如下:
      

    D(X)=Var(X)=E{[XE(X)]2}

    X :表示随机变量。
    E(X) : 表示X的期望。
    D(X) : 是 每个样本值与全体样本值的平均数之差平方值的平均数

    公式逐步解释: [XE(X)] —> [XE(X)]2 —> E{[XE(X)]2}

    [XE(X)] 是计算随机变量中各个值与期望的距离(反映的是以 E(X) 为基准计算的偏差)。但是只是将偏差进行求和,可能导致结果为0的情况(会产生离散程度较高,评价却为0的情况)。

    平方 [XE(X)]2 可避免上述情况发生,但问题依据存在,不同的随机变量(比如,X,Y)之间在此级别是无法进行比较的,因为X,Y的数量空间是不同的(X可能有3个值,Y可能有1000个值),进而导致不具有可比性。
    E{[XE(X)]2} 则是将数量空间进行了统一,使得不同随机变量的方差具有了可比性

    ps : 方差的性质这里就不介绍了,可查看概率书籍。


    标准差

      标准差也是用于衡量一组数据的离散程度的。公式如下,可以看出标准差( σ(X) 表示 )于随机变量 X 处于同一量纲下,这为X以及 σ(X) 在同一公式中计算提供了很好的支持。
      

    σ(X)=D(X)

    D(X) : 表示随机变量X的方差。
       方差与标准差有何区别呢?(下面两个例子来自知乎: 有了方差为什么需要标准差?
      
       标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点。
      
      再举个例子,从正态分布中抽出的一个样本落在[μ-3σ, μ+3σ]这个范围内的概率是99.7%,也可以称为“正负3个标准差”。如果没有标准差这个概念,我们使用方差来描述这个范围就略微绕了一点。万一这个分布是有实际背景的,这个范围描述还要加上一个单位,这时候为了方便,人们就自然而然地将这个量单独提取出来了。


    协方差

      前面一直在探讨单个随机变量(1维),但是事实上当我们考察一个群体的时候,往往事物的属性是多方面的(多维),这里只考察2维情况,形式如: (X,Y)
      
       (X,Y) 的意思这类事物具有两个方面的属性,更进一步来说,一个样本有X,Y两方面的值,体现在数据库中,有两列(X列,Y列)。当X,Y这两个属性出现在同一类事物中的时候,我们很自然想到X,Y之间有某种关系,但是如何来刻画这种关系呢,这就是本节想要介绍的。
      
       (X,Y) 是2维的,只考虑1维会无法从整体把握问题。而如果进行关联分析,有时候却需要对维度拆分来进行研究,这就引出了下面的协方差公式:
      

    Cov(X,Y)=E{[XE(X)][YE(Y)]}

    Cov(X,Y) : 表示随机变量X,Y的协方差。(2维因素)
    E(X),E(Y) : 分别表示随机变量X,Y的期望。(1维因素)
    [XE(X)][YE(Y)] 的说明 :
       [XE(X)] [YE(Y)] 都只考虑了各自随机变量这1维,通过 相乘的方式使得上面两个离差建立起数值关系, [XE(X)][YE(Y)] 是两者共同作用的结果,即和X,Y都有关。又因为X,Y都是随机变量,所以自然 [XE(X)][YE(Y)] 也是 合成的新的随机变量。根据相关性定义可知,如果X,Y独立,那么 [XE(X)] [YE(Y)] 也是独立的,那么
    X,YP(X,Y)=P(X)P(Y)

    Cov(X,Y)=E{[XE(X)][YE(Y)]}

    =E[XE(X)]E(YE(Y))

    E[XE(X)]=0E(YE(Y))=0

    X,Y=>Cov(X,Y)=0

      下面解释一下上面的结论的含义( 为何X、Y独立,Cov(X,Y)就为0 ?)。
      如果X,Y有关系,那么 关联性会使得某个变量的随机性不再那么随机。即,假如说X是随机的, X的值确定后会限定Y的随机性(将Y限定在某个范围)。这里举个简单的例子,假如学生具有(年龄,年级)两个属性,如果 年龄是17岁,那么 年级范围很可能是在高中范围内。 年龄这个变量影响着年级这个变量
      
      如果X,Y有关系,从关系传递性角度来说,离差 [XE(X)] [YE(Y)] 也会有一定的关系。 正常情况下随机变量 [XE(X)] [YE(Y)] 会在0水平附近波动,如果上述两个随机变量无关,那么两个随机变量的相乘的方式会在0附近波动(即 Cov(X,Y)=0 );如果X,Y有关,那么 [XE(X)][YE(Y)] 波动范围将会受到影响,不再围绕0。(此处有待进一步解释…)
      
    协方差计算公式
    Cov(X,Y)=E{[XE(X)][YE(Y)]}

    Cov(X,Y)=E(XY)E(X)E(Y)

    D(X+Y)=D(X)+D(Y)+2Cov(X,Y)

    协方差性质
    1Cov(aX,bY)=abCov(X,Y)

    2Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

      总结一下, (X,Y) 是2元组,X,Y 共同出现,可能有关系。为度量这种相关性,制定了一个指标(协方差),来刻画X,Y之间关系。( 将相关性映射到协方差

    其他关于协方差理解:【知乎】如何通俗易懂地解释「协方差」与「相关系数」的概念?


    相关系数

      前面把比较关键的协方差说了一下,接下来说一下建立在协方差公式基础上的相关系数。简而言之,相关系数是对协方差进行了归一化处理,使其区间处于 [] 范围内
      下面看看相关系数 ρXY 的计算公式:

    ρXY=Cov(XY)D(X)D(Y)

    ,Cov(X,Y)=E{[XE(X)][YE(Y)]}

    定理

    1|ρXY|1

    2|ρXY|=1a,b使

    P{Y=a+bX}=1

    (2YX线XY)

    需要注意的一些事情

    • 线性 ρXY 表示的是X,Y之间线性相关程度。(不适用于多次方,指数等)
    • ρXY=0 ,我们称X,Y不相关。
    • 独立,相关 X,Y=>ρXY=0
    • 独立,相关】X,Y相互独立 ,则 ρXY=0 ; ρXY=0 ,不能推出X,Y相互独立。( ρXY=0 只能说明非”线性相关”,但X,Y可能是”非线性”相关

    为何 ρXY 反映的是线性相关性呢?
    这仍旧与前面的协方差相关,为了进一步探索,我们暂且先做出一个简单的假设:X,Y完全线性相关,那么接下来看看会发生什么神奇的事情呢

    :Y=aX+b,ab0

    Cov(X,Y)

    Cov(X,Y)=E(XY)E(X)E(Y)

    =E[X(aX+b)]E(X)E(aX+b)

    =aD(X)

    D(X)D(Y)

    =D(X)D(aX+b)

    =|a|D(X)

    线a

    再接下来,让我们放开那个非常强的假设(完全线性相关在现实生活中几乎不太可能存在,总会有些干扰的),去掉“完全”这个假设,留下“线性”这个假设。这里只是定性的分析下,定量的证明请参考数学书。
    分母这里认为是正的,那么这里先只考虑分子的正负。

    假如X,Y线性相关,接下来看看会对 Cov(X,Y)=E(XY)E(X)E(Y) 造成什么影响。
    这里我们设X是自由的,那么X确定之后,则限定了Y的自由活动的空间(见前面年龄、年级的例子),即Y不再自由了。造成的后果是

    E(XY)Y

    E(Y)Y

    Cov(X,Y)=E(XY)E(X)E(Y)

    Cov(X,Y)=E(XaX+)E(X)E(aX+)


    ,Cov(X,Y)=aE(X2)+aE(X)2=aD(X)

    线

      因为思想部分已经在协方差部分说了,这里不再赘述。


    协方差矩阵

      前面已经说了协方差的意义,协方差在于探索随机变量之间的关系。协方差矩阵计算的是不同维度之间的协方差。不是样本之间的关联关系。
      
      协方差探索的是随机变量X,Y之间的相关性,是放在同一个样本中来进行的。举一个简单的例子,学生小明(年龄17岁,年级为高2),小红(年龄17岁,年级为高3),小明、小红就是我们所说的样本,而年龄、年级则是随机变量。计算协方差时,考虑的是小明年龄和小明年级之间的关联关系(一个样本自身属性之间的关联关系)。
      ps:未考虑小明、小红之间是否有关联关系(样本之间是否有关联关系)。
      
      当样本含有大量维度随机变量多)的时候,我们就需要使用矩阵来刻画各个维度之间的关联关系。

    PS:
    个人感觉,协方差矩阵的计算是将整个维度系统中的制约关系分解为两两之间的关系来进行刻画。

    假设】这其中隐藏了一个假设,在协方差矩阵的世界中认为,所有维度之间的关系都可以简化为两两之间的关系来进行研究。(正如牛顿的万有引力公式)

    设谋个矩阵如下:
    (下面矩阵中每一行代表一个样本,每一列代表一个随机变量。)

    这里写图片描述

    则其协方差矩阵为:

    这里写图片描述

    关于协方差矩阵,此处不再赘述,可参看:
    [转]浅谈协方差矩阵
    [线性代数] 如何求协方差矩阵
    详解协方差与协方差矩阵

    参考

    【知乎】排列组合的理解

    展开全文
  • 2015高中数学 2.2.2用样本的数字特征估计总体的数字特征练习 新人教A版必修3
  • 2015高中数学 2.2.2用样本的数字特征估计总体的数字特征总结 新人教A版必修3
  • 2015高中数学 2.2.2用样本的数字特征估计总体的数字特征讲解 新人教A版必修3
  • 2015高中数学 2.2.2 用样本的数字特征估计总体的数字特征预习 新人教A版必修3
  • 新课标人教A高中数学必修三用样本的数字特征估计总体的数字特征PPT学习教案.pptx
  • 优化方案高中数学用样本的数字特征估计总体的数字特征新人教A必修PPT学习教案.pptx

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 298,769
精华内容 119,507
关键字:

数字特征