精华内容
下载资源
问答
  • 识别:基于Xgboost的中文疑问句判断模型
    千次阅读 热门讨论
    2018-04-13 19:11:35

    一、前言

    关于Xgboost:

    xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted
    tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN,
    MPI, Sungrid Engine等各个平台上面运行,并且保留了单机并行版本的各种优化,使得它可以很好地解决于工业界规模的问题。

    网上有不少介绍的文章,这里就此略过,直奔主题,写一篇炼丹文。

    二、实战

    1、语料

    (1)语料格式

    content,label
    在么,1
    你好,0
    ...
    

    左边为文本,右边为标签,从这里也可以看出来,疑问句判别问题可以简单的作为一个二分类问题来解决。

    (2)语料预处理

       tokenizer = jieba.Tokenizer()
       corpus['tokens'] = corpus.content.apply(lambda x: list(tokenizer.cut(x)))
    

    从本地读取语料后,进行简单的分词处理

    (3)特征工程

       vectorizer = TfidfVectorizer(smooth_idf=True,
                                    analyzer=analyzer,
                                    ngram_range=(1, 1),
                                    min_df=1, norm='l1')
       sparse_vector = vectorizer.fit_transform(train.tokens.apply(lambda x: ' '.join(x)).tolist())
    

    这里对分词后的语料进行TFIDF特征抽取,构造训练矩阵。

    2、模型

    (1)模型参数

    模型参数使用k折交叉验证进行对比,确定

       for i, param in enumerate(param_grid):
           cv_result = xgb.cv(param, self.train_matrix,
                              num_boost_round=self.num_boost_round,  # max iter round
                              nfold=self.nfold,
                              stratified=self.stratified,
                              metrics=self.metrics,  # metrics focus on
                              early_stopping_rounds=self.early_stopping_rounds)  # stop when metrics not get better
    

    最终得到表现最好的一组参数及相应的迭代次数等

    (2)模型训练

       _, best_param, best_iter_round = self.model_param_select()
       self.model = xgb.train(dtrain=self.train_matrix, params=best_param, num_boost_round=best_iter_round)
    

    与交叉验证寻找最佳参数不用,训练模型时使用全部的数据进行训练

    (3)模型结果

       Param select 0, auc: 0.9793438, iter_round: 207, params: {'objective': u'binary:logistic', 'subsample': 0.5, 'eta': 0.1, 'max_depth': 4, 'silent': 1}, now best auc: 0.9793438
       Param select 1, auc: 0.9799142, iter_round: 350, params: {'objective': u'binary:logistic', 'subsample': 0.7, 'eta': 0.1, 'max_depth': 4, 'silent': 1}, now best auc: 0.9799142
       Param select 2, auc: 0.9802402, iter_round: 280, params: {'objective': u'binary:logistic', 'subsample': 1.0, 'eta': 0.1, 'max_depth': 4, 'silent': 1}, now best auc: 0.9802402
       ...
       Param select 24, auc: 0.97926, iter_round: 694, params: {'objective': u'binary:logistic', 'subsample': 0.5, 'eta': 0.02, 'max_depth': 6, 'silent': 1}, now best auc: 0.980495
       Param select 25, auc: 0.9803058, iter_round: 824, params: {'objective': u'binary:logistic', 'subsample': 0.7, 'eta': 0.02, 'max_depth': 6, 'silent': 1}, now best auc: 0.980495
       Param select 26, auc: 0.980129, iter_round: 880, params: {'objective': u'binary:logistic', 'subsample': 1.0, 'eta': 0.02, 'max_depth': 6, 'silent': 1}, now best auc: 0.980495
    

    最终可以看到,模型的auc在0.980495得到最佳的参数,保存模型。

    3、实例

    from interrogative.api import *
    
    train()
    tag = recognize(u'今天 来 点 兔子 吗')
    output = '是疑问句' if tag else '不是疑问句'
    print(output)
    

    三、其他

    1、Xgboost参数解释:https://www.cnblogs.com/mfryf/p/6293814.html
    2、具体源码可以在我的github上找到:https://github.com/lpty/nlp_base

    更多相关内容
  • 情绪分类是情绪分析研究领域的核心问题之一,旨在解决情绪类别的自动判断问题。传统基于情绪认知模型(OCC模型)的情绪分类方法大多依赖词典和规则,在文本信息缺失的情况下分类精度不高。文中提出基于OCC模型...
  • 【数学基础】矩阵的特征向量、特征值及其含义

    万次阅读 多人点赞 2018-08-31 11:37:08
    在线代课上,老师会教我们怎么求矩阵的特征值与特征向量。但是并不会讲特征值与特征向量到底有着什么样的几何意义或者物理意义,或许讲了但也比较模糊。矩阵的特征值与特征向量在各种机器学习算法与应用场景中都有...

    在线代课上,老师会教我们怎么求矩阵的特征值与特征向量。但是并不会讲特征值与特征向量到底有着什么样的几何意义或者物理意义,或许讲了但也比较模糊。矩阵的特征值与特征向量在各种机器学习算法与应用场景中都有出现,每次出现都有着其独特的意义。在这里也只是简述一二。


    一、方阵的特征值与特征向量

    1、特征值与特征向量的定义:

    定义1:An阶方阵,若数\lambdan维非零列向量x,使得Ax = \lambda x成立,则称\lambda是方阵A的一个特征值x为方阵A的对应于特征值\lambda的一个特征向量

    1. A是方阵。(对于非方阵,是没有特征值的,但会有条件数。)
    2. 特征向量x为非零列向量。

    2、特征值与特征向量的几何意义(引自https://www.matongxue.com/madocs/228.html):

    我们先记线性变换一个T(Transformation)为T:\mathbb{R}^2\rightarrow \mathbb{R}^2,容易知道矩阵A代表一个线性变换,可以做升维降维,放大缩小以及旋转的线性变换,而对于方阵A而言,是不存在升维降维的。即一个方阵A其对向量\vec{v}的线性变换为伸长收缩或者旋转

    T(\vec{v}) = A\vec{v}

    \vec{i},\vec{j}为基向量的空间下有个向量\vec{v}:

    \vec{v}随便左乘一个矩阵A,即对\vec{v}进行一个线性变换。

    调整下\vec{v}的方向,使其特殊一点。

    可以观察到,调整后的\vec{v}A\vec{v}在同一直线上,只是A\vec{v}的长度相对\vec{v}的长度变长了。

    此时,我们就称\vec{v}A的特征向量,而A\vec{v}的长度是\vec{v}的长度的\lambda倍,\lambda就是特征值。

    即    T(\vec{v}) = A\vec{v} = \lambda \vec{v}

    从特征向量和特征值的定义中还可以看出,特征向量所在直线上的向量都是特征向量。

    3、特征值与特征向量的一些性质

    1)、如果A是一个不可逆方阵,即det(A) = 0,则齐次线性方程组Ax=0有无穷多解,故有非零解,即Ax_0=0 = 0\cdot x_0,故不可逆方阵必有零特征值\lambda_0 = 0

    2)、一些实际问题中,常常会涉及到一系列的运算,Ax,A^2x,\cdots,A^kx,\cdots,由特征值和特征向量的关系Ax = \lambda x可以简化这些运算,A^kx = \lambda^kx

    3)、矩阵的迹trace,即为矩阵A的对角元素之和。例记A=\begin{bmatrix} a_{11}&a_{12} \\ a_{21}& a_{22} \end{bmatrix},则trace(A) = a_{11}+a_{22}

    • \lambda_1\lambda_2\cdots \lambda_n = det(A)= \left | A \right |
    • \lambda_1+\lambda_2+\cdots+\lambda_n = a_{11}+a_{22}+\cdots+a_{nn} = trace(A)
    • A^m的特征值为\lambda_i^mkA的特征值为k\lambda_iA^{-1}的特征值为{1/ \lambda_i}(\lambda_i \neq 0),侧面也说明了非满秩矩阵不可逆。
    • g(A) = a_kA^k+a_{k-1}A^{k-1}+\cdots+a_1A+a_0E,则g(\lambda) = a_k\lambda^k+a_{k-1}\lambda^{k-1}+\cdots+a_1\lambda+a_0g(A)对应的特征值。
    • 在复数域中,任意的方阵A都存在对应的特征值与特征向量。在实数域中则不一定。

    4)、特征向量的性质

    • 矩阵A关于特征值\lambda_im个特征向量x_1,x_2,\cdots,x_m的任意非零线性组合\sum_{i=1}^mk_ix_i \neq 0还是A的关于\lambda_i的特征向量。
    • x_1,x_2,\cdots,x_r是矩阵A的不同特征值所对应的特征向量,则x_1,x_2,\cdots,x_r是线性无关的。
    • n阶方阵A至多有n个线性无关的特征向量。
    • 矩阵AA^T的特征值相同,但特征向量却未必一样。
    • \lambdan阶方阵A的一个k重特征值,A关于\lambda的线性无关的特征向量的最大个数为s,则1 \leq s \leq k

    二、特征值与特征向量的计算

    1. 求出方阵A的特征多项式f(\lambda) = \left | \lambda E-A \right |
    2. 解特征方程f(\lambda) = \left | \lambda E-A \right | = 0,求出A的全部特征值\lambda_1,\lambda_2,\cdots,\lambda_n。其中f(\lambda)r重根对应Ar个值相同的特征值。
    3. (\lambda_i E-A)x=0(A-\lambda_iE)x=0的非零解,得到A的关于\lambda_i的全部特征向量。

    例1:求矩阵A=\begin{pmatrix} -1 & 1 & 0\\ -4 & 3 & 0\\ 1 & 0 & 2 \end{pmatrix}的特征值和全部特征向量。

    第一步:写出矩阵A的特征方程,求出特征值。

     特征值为\lambda_1=2,\lambda_2=\lambda_3=1

    三阶方阵的行列式计算:

    第二步:对每个特征值\lambda代入齐次线性方程组(A-\lambda E)x=0,求非零解。

    \lambda_1=2时,齐次线性方程组为(A-2 E)x=0

    系数矩阵

    (A-2E)=\begin{pmatrix} -3 &1 &0 \\ -4&1 &0 \\ 1&0 &0 \end{pmatrix} \rightarrow\begin{pmatrix} 1 &0 &0 \\ 0& 1 &0 \\ 0& 0 &0 \end{pmatrix}

    自由未知量:x_3

    x_1=x_2=0  令  x_3=1 得基础解系:p_1=\begin{pmatrix} 0\\ 0\\ 1 \end{pmatrix}

    所以k_1p_1(k_1\neq 0)是对应于\lambda_1=2的全部特征向量。

    \lambda_2=\lambda_3=1时,齐次线性方程组为(A- E)x=0

    系数矩阵

    (A-E)=\begin{pmatrix} -2 &1 &0 \\ -4&2 &0 \\ 1&0 &1 \end{pmatrix} \rightarrow\begin{pmatrix} 1 &0 &1 \\ 0& 1&2 \\ 0&0 &0 \end{pmatrix}

    \left\{\begin{matrix} x_1=-x_3\\ x_2=-2x_3 \end{matrix}\right.,得基础解系p_2=\begin{pmatrix} -1\\ -2\\ 1 \end{pmatrix}

    所以k_2p_2(k_2\neq 0)是对应于\lambda_2=\lambda_3=1的全部特征向量。

    三、特征值与特征向量的含义

    上面一二两大点旨在回忆特征值与特征向量的定义与计算,对于为什么这样定义并未做过多的讲解。接下来进入重点,讲一下特征值与特征向量到底发挥了怎样的作用,以及为什么会将这样的向量定义为矩阵的特征向量。


    乘幂法求矩阵的特征值及特征向量

    上面求解矩阵特征值与特征向量的方法是常规的方法,不过在n非常大时,直接求解特征值及其对应的特征向量开销会很大,因此可以用乘幂法解其数值。

    假定n阶矩阵A对应的n个特征值按模从大到小的排序为: 

    |\lambda_1|> |\lambda_2|> |\lambda_3| \ldots > |\lambda_n|

    关于\lambda_1,\lambda_2,\cdots,\lambda_n的特征向量v_1,v_2,\cdots,v_n线性无关,此时特征向量v_1,v_2,\cdots,v_n可以作为空间的一组基。

    任取初始向量\textbf{x}_0=\alpha_1\textbf{v}_1+\alpha_2\textbf{v}_2+\alpha_3\textbf{v}_3+\ldots+\alpha_n\textbf{v}_n,(\alpha_i \neq 0),建立迭代公式:\textbf{x}_{k+1}=\textbf{A}\textbf{x}_k

                                                                                    ……………………

    因为|\frac{\lambda_i}{\lambda_1}|<1,i=2,\ldots,n,故当k \to \infty\textbf{x}_{k} \to \alpha_1\lambda^{k}_1\textbf{v}_1。因此\textbf{x}_{k}可看成是关于特征值\lambda_1的近似特征向量,不过有个缺点就是当|\lambda_1|>1(或|\lambda_1|<1),\textbf{x}_{k}中不为0的分量将随k的增大而无限增大,计算机就有可能出现上溢(或下溢)。所以在实际计算时,需按规范法计算,每步先对向量\textbf{x}_{k}进行规范化: 

    通过上面的分析,可将乘幂法求矩阵的特征值及特征向量的方法可归纳如下:

    1. 计算特征值\lambda_i,i=1,2,3,\ldots,n,任选一个向量\textbf{x}_0,递归\textbf{x}_k=\textbf{A}\textbf{z}_{k-1}

    2. k充分大时或误差 Frobenius Norm ||\textbf{x}_k -\textbf{x}_{k-1}||足够小时,停止;

    3. \textbf{z}_k就是当前A的主特征向量,对应的特征值为: 

      λi=maxxk(xk中的最大分量);

       

    4. 在A中去掉主特征λi对应向量的因素 

      A=A−λizkzTk,

      接下来再找下一个特征对,然后类似计算。

       

    针对特征值相等的情况,假定|λ1|=|λ2|=…=|λm|>|λm+1|>…>|λn|,由于向量α1v1+α2v2+α3v3+…+αmvm仍是属于λ1的特征向量,故利用上述方法依旧可求解λ1,λm+1,…,λi特征值及其对应的特征向量。


    运动

    1、从调色谈起

    我有一管不知道颜色的颜料,而且这管颜料有点特殊,我不能直接挤出来看颜色,只能通过调色来观察:

    为了分辨出它是什么颜色(记得它只能通过调色来辨别):

    因为反复混合之后,这管颜料的特征就凸显了出来,所以我们判断,这管颜料应该是蓝色。

    说这个干什么?矩阵也有类似的情况。

    2、矩阵的混合

    一般来说,矩阵我们可以看作某种运动,而二维向量可以看作平面上的一个点(或者说一个箭头)。对于点我们是可以观察的,但是运动我们是不能直接观察的。

    就好像,跑步这个动作,我们不附加到具体的某个事物上是观察不到的,我们只能观察到:人跑步、猪跑步、老虎跑步、......,然后从中总结出跑步的特点。

    就好像之前举的不能直接观察的颜料一样,要观察矩阵所代表的运动,需要把它附加到向量上才观察的出来:

    似乎还看不出什么。但是如果我反复运用矩阵乘法的话:

    至于为什么会产生这样的现象,可以通过乘幂法来证明。

    就像之前颜料混合一样,反复运用矩阵乘法,矩阵所代表的运动的最明显的特征,即速度最大的方向,就由最大特征值对应的特征向量展现了出来。利用乘幂法的思想,每次将最大的特征值对应的向量因素从矩阵中除去,就可以依次得到各个特征值所对应的特征向量。

    OK!知道了上述运动这个关系之后,我们可以思考这样一件事情。

    1、解释1

    我们可以将矩阵A看成是一个力的混合体,但需要注意的是,这个力的混合体中各个力是相互独立的!即特征向量之间线性无关,是无法做力的合成(这里只是假设其无法合成,有更好的解释以后会补充)的。其中力的个数为矩阵A的秩,力的大小为特征值的大小,力的方向即为特征向量的方向。

    此时如果我们对任一向量\vec{x}(这里可以把\vec{x}看成是一个物体,如一个小方块)无限施加这个力的集合,正如上图所示的那样,最终小方块运动的方向即为力最大的那个方向。即向量\vec{x}会收敛为最大特征值\lambda的特征向量。去掉这个力,不断重复,即可以得到第二个、第三个特征向量。

    这就是为什么我们将这样的向量定义为矩阵A的特征向量,因为一方面它能够体现出线性变换A中力的方向及大小,另一方面可以可以通过分析特征值得到该线性变换的主导因素。

    再啰嗦几句,概括来说就是,特征值与特征向量可以告诉我们这个矩阵A它产生的线性变换做了什么以及主要做了什么

    2、解释2

    另一个更直观的解释就是颜料混合。我们将矩阵A看成一个篮子,重点不在篮子。在篮子里面有一堆颜料,包含了n种颜色,n为矩阵A的秩,但每种颜色的分量都不一样。先上结论——特征值代表了分量,特征向量表示了颜色。对任一向量\vec{x}(这里可以把\vec{x}看成是一滩液体,无所谓本来是什么颜色),每次施加矩阵A变换就是把篮子里的所有颜料都泼进去,泼无数次,最后清水的颜色就变成了颜色最多的颜色(这里不要计较什么颜料无限混合最后都是黑色灰色的,直观一点理解)。

    假设我们现在有办法可以去掉篮子中指定颜色的所有颜料。则可以依次根据特征值排序得到特征向量。

    通过这么一个比喻,我们也可以得出同样的结论。

    矩阵A包含了一堆信息——颜料的种类与颜料的数量。如果我们可以通过矩阵分解将其分离出来,保留那些分量大的颜色,而去除那些可有可无的颜色就可以实现信息压缩等变换。


    OK!到此大致讲解了三块内容:1、特征值与特征向量的定义及性质。2、特征值与特征向量的计算。3、特征值与特征向量的直观解释与含义。

    线性代数中还有很多的概念,想要彻底搞清楚特征值与特征向量在实际应用中发挥的作用,需要连贯各种知识点。接下来会写一系列的文章来加深那些即将被遗忘的知识……

    参考文章:

    如何理解矩阵特征值和特征向量?

    展开全文
  • 文本特征及分析笔记

    万次阅读 2016-11-17 16:55:02
    文本特征笔记 用于表示文本的基本单位通常称为文本的特征特征项。 特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项...

    文本特征笔记

    用于表示文本的基本单位通常称为文本的特征或特征项。

    特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。

    这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。

    特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取。

    特征选取的方式有4种:(I)用映射或变换的方法把原始特征变换为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。

    二、文本特征向量

    经典的向量空间模型(VSM:Vector Space Model)Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。

    D为一个包含m个文档的文档集合,Di为第i个文档的特征向量,则有

    D={D1,D2,…,Dm},Di=(di1,di2,…,din),i=1,2,…,m

    其中dij(i=1,2,,m;j=1,2,,n)为文档Di中第j个词条tj的权值,它一般被定义为tjDi中出现的频率tij的函数,例如采用TFIDF函数,dij=tij*log(N/nj)其中,N是文档数据库中文档总数,nj是文档数据库含有词条tj的文档数目。

    三、 基于统计的特征提取方法(构造评估函数)

    一、各种流行算法

    这类型算法通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值。然后将所有特征按权值大小排序,提取预定数目的最优特征作为提取结果的特征子集。显然,对于这类型算法,决定文本特征提取效果的主要因素是评估函数的质量。

    1TF-IDF

    单词权重最为有效的实现方法就是TF*IDF, 它是由Salton1988 年提出的。其中TF 称为词频, 用于计算该词描述文档内容的能力; IDF 称为反文档频率, 用于计算该词区分文档的能力。TF*IDF 的指导思想建立在这样一条基本假设之上: 在一个文本中出现很多次的单词, 在另一个同类文本中出现次数也会很多, 反之亦然。

    所以如果特征空间坐标系取TF 词频作为测度,就可以体现同类文本的特点。另外还要考虑单词区别不同类别的能力,TF*IDF 法认为一个单词出现的文本频率越小, 它区别不同类别的能力就越大, 所以引入了逆文本频度IDF 的概念, 以TF和IDF 的乘积作为特征空间坐标系的取值测度。

    TFIDF 法是以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该词的权重,即

    其中, Wi表示第i个特征词的权重,TFi(td)表示词t在文档d中的出现频率,N表示总的文档数,DF(t)表示包含t的文档数。用TFIDF算法来计算特征词的权重值是表示当一个词在这篇文档中出现的频率越高,同时在其他文档中出现的次数越少,则表明该词对于表示这篇文档的区分能力越强,所以其权重值就应该越大。将所有词的权值排序, 根据需要可以有两种选择方式:( 1) 选择权值最大的某一固定数n 个关键词;( 2) 选择权值大于某一阈值的关键词。

    TFIDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TFIDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上IDF是一种试图抑制噪音的加权 ,并且单纯地认为文本频数小的单词就越重要,文本频数大的单词就越无用,显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。

    TFIDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。

    2、词频方法(Word Frequency)

    词频是一个词在文档中出现的次数。通过词频进行特征选择就是将词频小于某一闭值的词删除,从而降低特征空间的维数。这个方法是基于这样一个假设即出现频率小的词对过滤的影响也较小。但是在信息检索的研究中认为,有时频率小的词含有更多的信息。因此,在特征选择的过程中不宜简单地根据词频大幅度删词。

    3、文档频次方法(Document Frequency)

    文档频数(Document Frequency, DF)是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。在训练文本集中对每个特征计一算它的文档频次,并且根据预先设定的阈值去除那些文档频次特别低和特别高的特征。文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集,计算复杂度较低,能够适用于任何语料,因此是特征降维的常用方法。

    在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF 值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2种极端的情况。DF 特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。DF 的优点在于计算量很小,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。

    文档频数还非常地高效,在有监督的特征选择应用中当删除90%单词的时候其性能与信息增益和x2 统计的性能还不相上下。

    4、互信息(Mutual Information)

    互信息衡量的是某个词和类别之间的统计独立关系,某个词t和某个类别Ci传统的互信息定义如下:

    互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉嫡近似。互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之问关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。

    特征项和类别的互信息体现了特征项与类别的相关程度, 是一种广泛用于建立词关联统计模型的标准。互信息与期望交叉熵的不同在于没有考虑特征出现的频率, 这样导致互信息评估函数不选择高频的有用词而有可能选择稀有词作为文本的最佳特征。因为对于每一主题来讲,特征t的互信息越大,说明它与该主题的共现概率越大,因此,以互信息作为提取特征的评价时应选互信息最大的若干个特征。

    互信息计算的时间复杂度类似于信息增益, 互信息的平均值就是信息增益。互信息的不足之处在于得分非常受词条边缘概率的影响。

    实验数据显示,互信息分类效果最差,其次是文档频率、CC 统计,CHI 统计分类效果最好。

    对互信息而言,提高分类精度的方法有:1)可以增加特征空间的维数,以提取足够多的特征信息,这样就会带来了时间和空间上的额外开销;2) 根据互信息函数的定义,认为这些低频词携带着较为强烈的类别信息,从而对它们有不同程度的倚重. 当训练语料库没有达到一定规模的时候,特征空间中必然会存在大量的出现文档频率很低(比如低于3次) 的词条,他们较低的文档频率导致了他们必然只属于少数类别. 但是从抽取出来的特征词观察发现,大多数为生僻词,很少一部分确实带有较强的类别信息,多数词携带少量的类别信息,甚至是噪音词.

    5、期望交叉熵(Expected Cross Entropy)

    交叉嫡与信息量的定义近似,其公式为:

    交叉嫡 ,也称KL距离。它反映了文本主题类的概率分布和在出现了某特定词汇的条件下文本主题类的概率分布之间的距离,词汇w的交叉嫡越大,对文本主题类分布的影响也越大。它与信息增益唯一的不同之处在于没有考虑单词未发生的情况,只计算出现在文本中的特征项。如果特征项和类别强相关, P ( Ci | w )就大,若P( Ci) 又很小的话,则说明该特征对分类的影响大。

    交叉熵反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离, 特征词t 的交叉熵越大, 对文本类别分布的影响也越大。熵的特征选择效果都要优于信息增益。

    6、二次信息熵(QEMI)(待补充)

    将二次熵函数应用于互信息评估方法中,取代互信息中的Shannon熵,就形成了基于二次熵的互信息评估函数。基于二次熵的互信息克服了互信息的随机性,是一个确定的量,因此可以作为信息的整体测度,另外它还比互信息最大化的计算复杂度要小,所以可以比较高效地用在基于分类的特征选取上。

    二次熵的概念是在广义信息论中提出的。广义熵:

     ,就得到了二次熵定义:

    7、信息增益方法(Information Gain)

    信息增益方法是机器学习的常用方法,在过滤问题中用于度量已知一个特征是否出现于某主题相关文本中对于该主题预测有多少信息。通过计算信息增益可以得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征。信息增益G(w)的训算公式如下:

     

    其中P(w)是词w出现的概率,P(Ci)是取第i个目录时的概率,P(C,|w ) 是假定w出现时取第i个目录的概率。

    信息增益是一种基于熵的评估方法,涉及较多的数学理论和复杂的熵理论公式,定义为某特征项为整个分类所能提供的信息量,不考虑任何特征的熵与考虑该特征后的熵的差值。他根据训练数据,计算出各个特征项的信息增益,删除信息增益很小的项,其余的按照信息增益从大到小排序。

    信息增益是信息论中的一个重要概念, 它表示了某一个特征项的存在与否对类别预测的影响, 定义为考虑某一特征项在文本中出现前后的信息熵之差。某个特征项的信息增益值越大,贡献越大, 对分类也越重要。信息增益方法的不足之处在于它考虑了特征未发生的情况。特别是在类分布和特征值分布高度不平衡的情况下, 绝大多数类都是负类, 绝大多数特征都不出现。此时的函数值由不出现的特征决定, 因此, 信息增益的效果就会大大降低。信息增益表现出的分类性能偏低。因为信息增益考虑了文本特征未发生的情况,虽然特征不出现的情况可能对文本类别具有贡献,但这种贡献往往小于考虑这种情况时对特征分值带来的干扰。

    8x2统计量方法:

    x2统计量用于度量特征w和主题类C之间的独立性。而表示除w以外的其他特征,C表示除C以外的其他主题类,那么特征w和主题类C的关系有以下四种

    情况: ,用A, B, C, D表示这四种情况的文档频次,总的文档数N=A+B+C+D,扩统计量的计算公式如下:

    当特征w和主题类C之间完全独立的时候,x2统计量为0。x2统计量和互信息的差别在于它是归一化的统计量,但是它对低频特征的区分效果也不好。X2 统计得分的计算有二次复杂度,相似于互信息和信息增益。在 X2 统计和互信息之间主要的不同在于 X2 是规格化评价, 因而X2 评估分值对在同类中的词是可比的, 但是 X2 统计对于低频词来说是不可靠的。

    利用x2 统计方法来进行特征抽取是基于如下假设:在指定类别文本中出现频率高的词条与在其他类别文本中出现频率比较高的词条,对判定文档是否属于该类别都是很有帮助的.

    采用x2估计特征选择算法的准确率在实验中最高,其分类效果受训练集影响较小,比较稳定。而且在对文教类和政治类存在类别交叉现象的文本进行分类时,采用x2估计的分类系统表现出了优于其它方法的分类性能。X2估计的可靠性较好,便于对程序的控制,无需因训练集的改变而人为的调节特征阀值的大小。

    9、文本证据权(The Weight of Evidence forText)

    文本证据权衡量类的概率和给定特征时类的条件概率之间的差别。

    10、优势率(Odds Ratio)

     

        优势率只适用于二元分类的情况,其特点是只关心文本特征对于目标类的分值。Pos表示目标类,neg表示非目标类。

    11、遗传算法(Genetic Algorithm, GA)

    文本实际上可以看作是由众多的特征词条构成的多维空间,而特征向量的选择就是多维空间中的寻优过程,因此在文本特征提取研究中可以使用高效寻优算法。遗传算法(Genetic Algorithm,GA)是一种通用型的优化搜索方法,它利用结构化的随机信息交换技术组合群体中各个结构中最好的生存因素,复制出最佳代码串,并使之一代一代地进化,最终获得满意的优化结果。在将文本特征提取问题转化为文本空间的寻优过程中,首先对Web文本空间进行遗传编码,以文本向量构成染色体,通过选择、交叉、变异等遗传操作,不断搜索问题域空间,使其不断得到进化,逐步得到Web文本的最优特征向量。

    基于协同演化的遗传算法不是使用固定的环境来评价个体,而是使用其他的个体来评价特定个体。个体优劣的标准不是其生存环境以外的事物,而是由在同一生存竞争环境中的其他个体来决定。协同演化的思想非常适合处理同类文本的特征提取问题。由于同一类别文本相互之间存在一定相关性,因而各自所代表的那组个体在进化过程中存在着同类之间的相互评价和竞争。因此,每个文本的特征向量,即该问题中的个体,在不断的进化过程中,不仅受到其母体(文本)的评价和制约,而且还受到种族中其他同类个体的指导。所以,基于协同演化的遗传算法不仅能反映其母体的特征,还能反映其他同类文本的共性,这样可以有效地解决同一主题众多文本的集体特征向量的提取问题,获得反映整个文本集合某些特征的最佳个体。

    12、主成分分析法(Principal Component AnalysisPCA)

    它不是通过特征选取的方式降维的,而是通过搜索最能代表原数据的正交向量,创立一个替换的、较小的变量集来组合属性的精华,原数据可以投影到这个较小的集合。PCA由于其处理方式的不同又分为数据方法和矩阵方法。矩阵方法中,所有的数据通过计算方差一协方差结构在矩阵中表示出来,矩阵的实现目标是确定协方差矩阵的特征向量,它们和原始数据的主要成分相对应。在主成分方法中,由于矩阵方法的复杂度在n很大的情况 以二次方增长,因此人们又开发使用了主要使用Hebbian学习规则的PCA神经网络方法。

    主成分分析法是特征选取常用的方法之一,它能够揭示更多有关变量_丰要方向的信息。但它的问题在于矩阵方法中要使用奇异值分解对角化矩阵求解方差一协方差。

    13、模拟退火算法(Simulating AnnealSA)

    特征选取可以看成是一个组合优化问题,因而可以使用解决优化问题的方法来解决特征选取的问题。模拟退火算法(Simulating Anneal,SA)就是其中一种方法。

    模拟退火算法是一个很好的解决优化问题的方法,将这个方法运用到特征选取中,理论上能够找到全局最优解,但在初始温度的选取和邻域的选取t要恰当,必须要找到一个比较折中的办法,综合考虑解的性能和算法的速度。

    14NGram算法

    它的基本思想是将文本内容按字节流进行大小为N的滑动窗口操作,形成长度为N的字节片段序列。每个字节片段称为gram,对全部gram的出现频度进行统计,并按照事先设定的阈值进行过滤,形成关键gram列表,为该文本的特征向量空间,每一种gram则为特征向量维度。由于NGram算法可以避免汉语分词的障碍,所以在中文文本处理中具有较高的实用性。中文文本处理大多采用双字节进行分解,称之为bi-gram。但是bigram切分方法在处理20%左右的中文多字词时,往往产生语义和语序方面的偏差。而对于专业研究领域,多字词常常是文本的核心特征,处理错误会导致较大的负面影响。基于NGram改进的文本特征提取算法,在进行bigram切分时,不仅统计gram的出现频度,而且还统计某个gram与其前邻gram的情况,并将其记录在gram关联矩阵中。对于那些连续出现频率大于事先设定阈值的,就将其合并成为多字特征词。这样通过统计与合并双字特征词,自动产生多字特征词,可以较好地弥补NGram算法在处理多字词方面的缺陷。

    15、各种方法的综合评价

    上述几种评价函数都是试图通过概率找出特征与主题类之间的联系,信息增益的定义过于复杂,因此应用较多的是交叉嫡和互信息。其中互信息的效果要好于交又嫡,这是因为互信息是对不同的主题类分别抽取特征词,而交叉嫡跟特征在全部主题类内的分布有关,是对全部主题类来抽取特征词。这些方法,在英文特征提取方面都有各自的优势,但用于中文文本,并没有很高的效率。主要有2个方面的原因:1) 特征提取的计算量太大,特征提取效率太低,而特征提取的效率直接影响到整个文本分类系统的效率。2) 经过特征提取后生成的特征向量维数太高,而且不能直接计算出特征向量中各个特征词的权重。

    目前使用评估函数进行特征选取越来越普遍,特征选取算法通过构造一个评估函数的方法,选取预定数目的最佳特征作为特征子集的结果。在几种评估方法中,每一种方法都有一个选词标准,遵从这个标准,从文本集的所有词汇中选取出有某个限定范围的特征词集。因为评估函数的构造不是特别复杂,适用范围又很广泛,所以越来越多的人们喜欢使用构造评估函数来进行特征的选取。

    这些评估函数在Web文本挖掘中被广泛使用,特征选择精度普遍达到70%~80%,但也各自存在缺点和不足。例如,“信息增益”考虑了单词未发生的情况,对判断文本类别贡献不大,而且引入不必要的干扰,特别是在处理类分布和特征值分布高度不平衡的数据时选择精度下降。“期望交叉熵”与“信息增益”的唯一不同就是没有考虑单词未发生的情况,因此不论处理哪种数据集,它的特征选择精度都优于“信息增益”。与“期望交叉熵”相比,“互信息”没有考虑单词发生的频度,这是一个很大的缺点,造成“互信息”评估函数经常倾向于选择稀有单词。“文本证据权”是一种构造比较新颖的评估函数,它衡量一般类的概率和给定特征类的条件概率之间的差别,这样在文本处理中,就不需要计算W的所有可能值,而仅考虑W在文本中出现的情况。“优势率”不像前面所述的其他评估函数将所有类同等对待,它只关心目标类值,所以特别适用于二元分类器,可以尽可能多地识别正类,而不关心识别出负类。

    从考虑文本类间相关性的角度,可以把常用的评估函数分为两类,即类间不相关的和类间相关的。“文档频数”(DF)是典型的类间不相关评估函数,DF的排序标准是依据特征词在文档中出现篇数的百分比,或称为篇章覆盖率。这种类型的评估函数,为了提高区分度,要尽量寻找篇章覆盖率较高的特征词,但又要避免选择在各类文本中都多次出现的无意义高频词,因此类间不相关评估函数对停用词表的要求很高。但是,很难建立适用于多个类的停用词表,停用词不能选择太多,也不能选择太少,否则都将会影响特征词的选择。同时,类间不相关评估函数还存在一个明显的缺点,就是对于特征词有交叉的类别或特征相近的类别,选择的特征词会出现很多相似或相同的词条,造成在特定类别间的区分度下降。类间相关的评估函数,例如期望交叉熵、互信息、文本证据权等,综合考虑了词条在已定义的所有类别中的出现情况,可以通过调整特征词的权重,选择出区分度更好的特征,在一定程度上提高了相近类别的区分度。但是,该区分度的提高仅体现在已定义的类别间,而对于尚未定义的域外类别,类间相关评估函数的选择效果也不理想。因此,在评估函数选择问题上,提高对域外类别文本的区分度是十分重要的研究课题。    

    传统的特征选择方法大多采用以上各评估函数进行特征权重的计算,由于这些评估函数是基于统计学的,其中一个主要缺陷就是需要用一个很庞大的训练集才能获得几乎所有的对分类起关键作用的特征.这需要消耗大量的时间和空间资源,况且,构建这样一个庞大的训练集也是一项十分艰巨的工作。然而,在现实应用中,考虑到工作效率,不会也没有足够的资源去构建一个庞大的训练集,这样的结果就是:被选中的甚至是权重比较高的特征,可能对分类没有什么用处,反而会干涉到正确的分类;而真正有用的特征却因为出现的频率低而获得 较低的权重,甚至在降低特征空间维数的时候被删除掉了。

    基于评估函数的特征提取方法是建立在特征独立的假设基础上,但在实际中这个假设是很难成立的,因此需要考虑特征相关条件下的文本特征提取方法

    二、影响特征词权值的因素分析

    1、词频

        文本内空中的中频词往往具有代表性,高频词区分能力较小,而低频词或者示出现词也常常可以做为关键特征词。所以词频是特征提取中必须考虑的重要因素,并且在不同方法中有不同的应用公式。

    2、词性

    汉语言中,能标识文本特性的往往是文本中的实词,如名词、动词、形容词等。而文本中的一些虚词,如感叹词、介词、连词等,对于标识文本的类别特性并没有贡献,也就是对确定文本类别没有意义的词。如果把这些对文本分类没有意思的虚词作为文本特征词,将会带来很大噪音,从而直接降低文本分类的效率和准确率。因此,在提取文本特征时,应首先考虑剔除这些对文本分类没有用处的虚词,而在实词中,又以名词和动词对于文本的类别特性的表现力最强,所以可以只提取文本中的名词和动词作为文本的一级特征词。

    2、文档频次

        出现文档多的特征词,分类区分能力较差,出现文档少的特征词更能代表文本的不同主题。

    2、标题

    标题是作者给出的提示文章内容的短语,特别在新闻领域,新闻报道的标题一般都要求要简练、醒目,有不少缩略语,与报道的主要内容有着重要的联系,对摘要内容的影响不可忽视。统计分析表明,小标题的识别有助于准确地把握文章的主题。主要体现在两个方面:正确识别小标题可以很好地把握文章的整体框架,理清文章的结构层次;同时,小标题本身是文章中心内容的高度概括。因此,小标题的正确识别能在一定程度上提高文摘的质量。

    3、位置

    美国的EEBaxendale的调查结果显示:段落的论题是段落首句的概率为85  是段落末句的概率为7 。而且新闻报道性文章的形式特征决定了第一段一般是揭示文章主要内容的。因此,有必要提高处于特殊位置的句子权重,特别是报道的首旬和末句。但是这种现象又不是绝对的,所以,我们不能认为首句和末句就一定是所要摘要的内容,因此可以考虑一个折衷的办法,即首句和末句的权重上可通过统计数字扩大一个常数倍。首段、末段、段首、段尾、标题和副标题、子标题等处的句子往往在较大程度上概述了文章的内容。对于出现在这些位置的句子应该加大权重。

    Internet上的文本信息大多是HTML结构的,对于处于Web文本结构中不同位置的单词,其相应的表示文本内容或区别文本类别的能力是不同的,所以在单词权值中应该体现出该词的位置信息。

    4、句法结构

    句式与句子的重要性之间存在着某种联系,比如摘要中的句子大多是陈述句,而疑问句、感叹句等则不具内容代表性。而通常“总之”、“综上所述”等一些概括性语义后的句子,包含了文本的中心内容。

    5、专业词库

    通用词库包含了大量不会成为特征项的常用词汇,为了提高系统运行效率,系统根据挖掘目标建立专业的分词表,这样可以在保证特征提取准确性的前提下,显著提高系统的运行效率。

    用户并不在乎具体的哪一个词出现得多,而在乎泛化的哪一类词出现得多。真正起决定作用的是某一类词出现的总频率。基于这一原理,我们可以先将词通过一些方法依主题领域划分为多个类,然后为文本提取各个词类的词频特征,以完成对文本的分类。

    可以通过人工确定领域内的关键词集。

    6、信息熵

    (Entropy)在信息论中是一个非常重要的概念 ' ,它是不确定性的一种度量。信息熵方法的基本目的是找出某种符号系统的信息量和多余度之间的关系,以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。信息熵是数学方法和语言文字学的结合,其定义为:设x是取有限个值的随机变量,各个取值出现的概率为  的熵为 其中,底数n可以为任意正数,并规定当 时, =0。在式(3)中,对数底a决定了熵的单位,如a=2e10,熵的单位分别为BitnatHartley。在我们的研究论文中,均取a2。熵具有最大值和最小值 ,由熵的定义公式可以看出,当每个值出现的概率相等时,即当 时 这时熵函数达到最大值 ,记为最大熵 。其中Pt ≥0,并且 。而当 n)时,熵值最小,Entropy(X)=0。

    我们将可以将信息论中的熵原理引入到特征词权重的计算中。

    7、文档、词语长度

    一般情况下,词的长度越短,其语义越泛。一般来说中文中词长较长的词往往反映比较具体、下位的概念而短的词常常表示相对抽象、上位的概念。一般说来短词具有较高的频率和更多的含义是面向功能的;而长词的频率较低是面向内容的增加长词的权重有利于词汇进行分割从而更准确地反映出特征词在文章中的重要程度。词语长度通常不被研究者重视。但是本文在实际应用中发现,关键词通常是一些专业学术组合词汇,长度较一般词汇长。考虑候选词的长度,会突出长词的作用。长度项也可以使用对数函数来平滑词汇间长度的剧烈差异。通常来说,长词汇含义更明确,更能反映文本主题,适合作为关键词,因此将包含在长词汇中低于一定过滤阈值的短词汇进行了过滤。所谓过滤阈值,就是指进行过滤短词汇的后处理时,短词汇的权重和长词汇的权重的比的最大值。如果低于过滤阈值,则过滤短词汇,否则保留短词汇。

    根据统计,二字词汇多是常用词,不适合作为关键词,因此对实际得到的二字关键词可以做出限制。比如,抽取个关键词,本文最多允许个二字关键词存在。这样的后处理无疑会降低关键词抽取的准确度和召回率,但是同候选词长度项的运用一样,人工评价效果将会提高。

    8、词语间关联

    9、单词的区分能力

    TF*IDF 公式的基础上又扩展了一项单词的类区分能力。新扩展的项用于描述单词与各个类别之间的相关程度。

    10、词语直径(Diameter ( t) )

    词语直径是指词语在文本中首次出现的位置和末次出现的位置之间的距离。词语直径是根据实践提出的一种统计特征。根据经验,如果某个词汇在文本开头处提到,结尾又提到,那么它对该文本来说,是个很重要的词汇。不过统计结果显示,关键词的直径分布出现了两极分化的趋势,在文本中仅仅出现了1次的关键词占全部关键词的14.184 %。所以词语直径是比较粗糙的度量特征。

    11、首次出现位置(FirstLoc ( t) )

    Frank Kea 算法中使用候选词首次出现位置作为Bayes 概率计算的一个主要特征,他称之为距离(Distance)。简单的统计可以发现,关键词一般在文章中较早出现,因此出现位置靠前的候选词应该加大权重。实验数据表明,首次出现位置和词语直径两个特征只选择一个使用就可以了。由于文献数据加工问题导致中国学术期刊全文数据库的全文数据不仅包含文章本身,还包含了作者、作者机构以及引文信息,针对这个特点,使用首次出现位置这个特征,可以尽可能减少全文数据的附加信息造成的不良影响。

    12、词语分布偏差(Deviation ( t) )

    词语分布偏差所考虑的是词语在文章中的统计分布。在整篇文章中分布均匀的词语通常是重要的词汇。词语的分布偏差计算公式如下其中,CurLoc ( tj ) 是词汇在文章中第次出现的位置;MeanLoc ( t ) 是词汇在文章中出现的平均位置。

    13、特征提取的一般步骤

    一、 候选词的确定

     (1) 分词(词库的扩充)

    尽管现在分词软件的准确率已经比较高了,但是,它对专业术语的识别率还是很好,所以,为了进一步提高关键词抽取的准确率,我们有必要在词库中添加了一个专业词库以保证分词的质量。

    (2) 停用词的过滤

    停用词是指那些不能反映主题的功能词。例如:“的”、“地”、“得”之类的助词,以及像“然而”、“因此”等只能反映句子语法结构的词语,它们不但不能反映文献的主题,而且还会对关键词的抽取造成干扰,有必要将其滤除。停用词确定为所有虚词以及标点符号。

    (3) 记录候选词在文献中的位置

    为了获取每个词的位置信息,需要确定记录位置信息的方式以及各个位置的词在反映主题时的相对重要性。根据以往的研究结果,初步设定标题的位置权重为5,摘要和结论部分为3,正文为1,同时,把标题、摘要和结论、正文分别称为区、区和区。确定了文章各个部分的位置权重之后,就可以用数字标签对每个位置做一个标记。做法是:在标题的开头标上数字5,在摘要和结论部分的段首标上数字3,在正文的段首标上数字1,这样,当软件逐词扫描统计词频时,就可以记录每个词的位置信息。

    二、词语权重计算

    (1) 词语权值函数的构造(见各不同算法)

    (2) 关键词抽取

    候选词的权值确定以后,将权值排序,取前n个词作为最后的抽取结果。

    四、基于语义的特征提取方法(结合领域)

    一、基于语境框架的文本特征提取方法

    越来越多的现象表明,统计并不能完全取代语义分析。不考虑句子的含义和句子间的关系机械抽取,必然导致主题的准确率低,连贯性差,产生一系列问题,如主要内容缺失、指代词悬挂、文摘句过长等。因此,理想的自动主题提取模型应当将两种方法相结合。应当将语义分析融入统计算法,基本的方法仍然是“统计-抽取”模型,因为这一技术已经相对成熟并拥有丰富的研究成果。

    语境框架是一个三维的语义描述,把文本内容抽象为领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个框架。在语境框架的基础上,从语义分析入手,实现了4元组表示的领域提取算法、以领域句类为核心的情景提取算法和以对象语义立场网络图为基础的褒贬判断。该方法可以有效地处理语言中的褒贬倾向、同义、多义等现象,表现出较好的特征提取能力。

    二、基于本体论的文本提取方法

    应用本体论(On-tology)模型可以有效地解决特定领域知识的描述问题。具体针对数字图像领域的文本特征提取,通过构建文本结构树,给出特征权值的计算公式。算法充分考虑特征词的位置以及相互之间关系的分析,利用特征词统领长度的概念和计算方法,能够更准确地进行特征词权值的计算和文本特征的提取。

    三、基于知网的概念特征提取方法

    对于文本的处理,尤其是中文文本处理,字、词、短语等特征项是处理的主要对象。但是字、词、短语更多体现的是文档的词汇信息,而不是它的语义信息,因而无法准确表达文档的内容;大多数关于文本特征提取的研究方法只偏重考虑特征发生的概率和所处的位置,而缺乏语义方面的分析;向量空间模型最基本的假设是各个分量间正交,但作为分量的词汇间存在很大的相关性,无法满足模型的假设。基于概念特征的特征提取方法是在VSM的基础上,对文本进行部分语义分析,利用知网获取词汇的语义信息,将语义相同的词汇映射到同一概念,进行概念聚类,并将概念相同的词合并成同一词。用聚类得到的词作为文档向量的特征项,能够比普通词汇更加准确地表达文档内容,减少特征之间的相关性和同义现象。这样可以有效降低文档向量的维数,减少文档处理计算量,提高特征提取的精度和效率。

    五、可创新点

    一、文本特征提取及文本挖掘在军事情报领域的应用研究

    二、新的文本特征表示模型

    考虑使用二级向量进行文本特征建模,关键词向量能快速定位用户的兴趣领域,而扩展词向量能准确反映用户在该领域上的兴趣偏好。结合领域知识,采用概念词、同义词或本体来代替具体的关键词成为特征词,体现语义层面的需求和分析。

    三、军事情报领域专业主题词库、敏感词库的构造

        通过人机结合的方式,建立军事情报领导的最佳关键词表,即主题词库,或者语义库。将专业词库应用于军事系统的分词、特征提取、分类、信息抽取和监控、文本挖掘等方面。

    四、改进分词算法

        利用专业词库改进中科院ICTCLAS分词系统(JAVA开源版),并针对特征提取需要,改进分词步骤,直接在分词过程中剔除无意义词语,增加词语附加信息,集成相关因素影响值的计算,加快系统速度和效率。

    五、改进特征评价函数

        将影响因素中的经验知识通过实验和验算定量表示(如位置影响、高频词权值增加),形成可行的非性线加权公式。探索二次迭代算法,在初次文本分析基础上,记录文本的结构组成特征,记录候选特征词,记录文档集的组成特征,然后根据加权理论调整算法,第二次计算词的权值,最终提取高准确度的特征词集。

     

    展开全文
  • 线性代数学习之特征值与特征向量

    千次阅读 2021-10-22 17:02:44
    什么是特征值和特征向量: 在上一次线性代数学习之行列式 - cexo - 博客园学习了行列式相关的一些概念,其中也多次提到学好行列式是为了学习“特征值和特征向量”的基础,所以此次就正式进入这块内容的学习,也是...

    什么是特征值和特征向量:

    在上一次线性代数学习之行列式学习了行列式相关的一些概念,其中也多次提到学好行列式是为了学习“特征值和特征向量”的基础,所以此次就正式进入这块内容的学习,也是线性代数中非常重要的概念,因为它又是线性代数其它重要概念的基石比如矩阵的相似性等等,当然这一块的学习也是比较抽象的,得耐住性子一点点来挼,也是就一定得要慢!!!

    也是方阵的一个属性:

    在正式学习特征值和特征向量之前,先站在一个更高的角度来看一下它们是一个什么?在上一次学习行列式时就说它是方阵的一个属性:

    同样,对于特征值和特征向量也是方阵的一个属性,其实它们描述的是方阵的“特征”,而对于一个矩阵既可把它理解成变换又可以把它理解成一个空间,而对于特征值和特征向量更主要是用变换这个视角来看待方阵,当把方阵理解成一个变换的时候,这个变换就拥有一些特征,这些特征就被特征值和特征向量所表示,也就是说它是把方阵当成变换的时候的一个“特征”。

    下面具体来看一个矩阵:

    我们可以把它理解是二维空间的一组基,如下:

    同时它也可以表示这个基所对应的坐标系相应的一个坐标转换矩阵,所以如下:

    而这个矩阵可以任意一个点转换到另外一个位置,比如:

    可以把(1,4)这个蓝色的点转换成(-4,5)绿色的点,如下:

    当然这个转换可以理解是这个基和标准基之间的坐标转换,不管怎样,矩阵A是可以做到变换的,它可以把二维坐标中的任意一点通过一个固定的规则转换到另外一点,而在这个变换的过程中比较关心一些“特殊”的向量,比如说(2,2)这个向量,经转换的结果为:

    回到坐标系上来观察也就是对于蓝色的这根向量:

    经过矩阵A的转换之后则为(4,4)了,如绿色所示向量:

    这个转换有啥特点呢?原来的向量经过转换之后方向并没有变,区别只是转换后的这个向量是原来向量的常数倍而已,同理再来看一个转换:

    在坐标平面上看就是(2,1)这根蓝色的向量:

    经过矩阵A转换之后就变成了(6,3):

    同样是方向没有变, 只是过结果向量是原来向量的常数倍。

    也就是说对于一个矩阵A来说,我们对这样的向量比较感兴趣:在矩阵A的转换下得到的结果向量其方向并没有发生改变,只不过结果向量变为某一个向量的的常数倍了,用数学式子来表达这样的一个特点的话就是:

    其中“λ”读作“lambda兰姆达”,代表一个常数,其中它可为负数的,好,接下来就可以概念定义啦:

    其中λ称为A的特征值(eigenvalue)

    而u向量称为A对应于λ的特征向量(eigenvector)

    这概念还是挺难理解的,可以多多记一下。

    关于它们的用处,之后再见分晓,先有个概念上的理解。

    求解特征徝和特征向量:

    那对于

    这么个式子,特征值和特征向量具体是怎么求的呢?对于这个式子很显然我们关心2个未知数,一个是u特征向量,一个是λ这个特征值,所以要求解还是不容易的,不过这里先从最简单的情况看起。

    情况一:零向量平凡解:

    很显然,零向量肯定是满足上面等式的,把它叫做平凡解,但是很显然它不能反应A的特征呀,因为A不管是谁u向量是零向量都是解,所以,特征向量不考虑零向量

    那如果λ这个特征值为0呢?是不是也是平凡解?答案不是的!!!此时的式子就会为:

    而由于u向量不能为零向量,所以此式子就变成了一个齐次线性方程组了, 而对于它肯定存在非零解的,显然对于这种情况A是比较特殊的,如果A可逆的话,则这个齐次线性方程组只有零解,而由于u向量期望不是零解,很显然A是不可逆的,那么当λ=0是矩阵A的特征值,就意味着A不可逆,也就是λ这个特征值反映了矩阵A的特征了,所以:特征值可以为0

    所以要知道上述标红的:“特征向量不考虑零向量;特征值可以为0。

    情况二:非零量的非平凡解【需瞪大眼睛】:

    除了情况一,当然就是正常的求解过程了,下面来看一下如何推演出整个式子的特征值和特征向量的求解,对于这个式子:

    1、全挪到左边就为:

    2、将u向量提出来:

    对于等号左边的其实是可以将u向量提出来,但是一提出来,发现是一个矩阵A和一个常数λ,很明显不能做减法,所以此时在提之前需要先做一下变形,如下:

    因为单位矩阵可以充当数字1的作用嘛,所以此时就要提一把了,如下:

    3、找到方程的关键求解点:求行列式

    接下来就是对于上面变形的这个式子求非零解了:

    因为对于u向量来说不希望为零向量,因为特征向量是不考虑这种零向量的情况的,那怎么求这个非零解呢?此时又得将方阵的各种等价命题拿出来了,其中有一条:

    标红的这个命题,对于Ax=0如果只有唯一解,那么x=0,但是!!!我们期望的是Ax=0不只有唯一解,所以很显然我们要用的命题是这个标红命题的逆命题,而对于上述这么多方阵等价命题来说,就只有一个不是叙述性的命题,那就是:

    所以此时可以利用它的逆命题为我们推导解提供方便,也就是:"det(A)=0,A的行列式为0", 所以按照这个等价命题来看,是不是对于式子的求解又可以变成:

    此时也就是将特征值和特征向量的求解问题转化到上一次咱们学习的行列式上的求解上来了,这也就是为啥说行列式是进一步学习特征值和特征向量非常重要的基础的原因之所在了,而此时这个行列式的求解方程就只有一个未知数λ就可以进行方程的求解了,而且这个方程对于任意的一个A都是适用的,所以管这个A叫做“特征方程”,因为通过这个特征方程就可以求解出λ这个特征值了,而进一步将这个λ特征值就可以代入Au=λu求出特征向量u了。

    4、求特征向量进而最终求解特征值和特征向量:

    特征值:

    这里以这么一个方阵为例:

    对于这个行列式子:

    可以变为:

    对于上述变换不太清楚的可以回忆一下矩阵的乘法,一下就能明白了,这里不做过多解释,而回忆一下行列式的求解公式 :

    所以式子可以演变为:

    再根据因式分解,又可能变为:

    特征向量:

    知道了特征值之后,再代入这个式子就可以求得对应的特征向量:

    很显然有两个,具体如下:

    1、当λ1=2,就有:

    此时就是来求解这个线性系统了,先将它进行高斯约旦消元法为:

    那这个u的非零解是啥呢?这里可以回忆一下之前线性代数学习之向量空间,维度,和四大子空间 - cexo - 博客园求解矩阵的零空间的方法,提到零空间的基有这么一个规律:

    很显然此时的u的特征向量就可以求解如下了:

    2、当λ1=3,就有:

    类似的,其特征向量为:

    所以对于矩阵:

    它的特征值有两个:

    而它所对应的特征向量也有对应的两个:

    其中对于这两个特征向量,其实都是有无数个,因为有一个系数s对吧。

    特征值和特征向量的相关概念:

    1、对应一个λ的特征向量不唯一,有无数个:

    在上面求解特征值与特征向量也能看出这个特性:

    因为向量u有一个系数,可以随便取无数个值,对应的向量也就有无数个了。

    2、如果u是A对应于λ的一个特征向量,则ku也是一个特征向量。

    啥意思?也就是说一旦一个向量是特征向量了,那么给这个特征向量前面乘以一个系数,相应得到的结果向量还是一个特征向量, 当然此时需要限定一下:

    因为特征向量不能包括零向量,下面来证明一下:

    由于u已经是A对应于λ的一个特征向量了,所以此式子肯定是满足了:

    那下面就是来看一下它是否也满足:

    如果满足,那咱们这个特性也就得证了,下面来看一下其实很容易证明:

    这也证明了,一旦知道了λ是A的一个特征值的话,它所对应的特征向量一定是有无数个的。

    3、特征向量组成了A-λI零空间:特征空间

    其实关于“λ是A的一个特征值的话,它所对应的特征向量一定是有无数个的”还可以有另外一个思考的角度,如之前所示,当求解出了λ之后,再求解这个齐次线性系统所对应的非零解:

    很显然如果这个方程有唯一解的话肯定u就是零解,而由于u不能为零解,所以肯定此方程就不唯一,解肯定也就有无数个,另外也可以从之前学习的零空间的角度来看待这个问题,其实特征向量组成了A-λI零空间,回忆一下零空间的定义:

    而对于零空间,它是一个空间,并且对于这个空间不可能只含有0那一个元素,所以空间中一定就含有无数个元素,这是因为对于一个空间肯定能找到它的一组基,而一旦找到了一组基那么这组基下的所有线性组合都在这个空间中,而一组基对应的线性组合有无数个,也就是一旦λ确定了,相应的特征向量就有无数个,实际上这无数个特征向量就组成了(A-λI)的零空间,但是!!!这话说得不够严谨,因为任何一个空间都包含零空间,所以!!!这个零空间是需要刨除零向量的,所以:

    0向量以及λ对应的所有的特征向量并起来,就构成了A-λI的零空间了,接下来新概念就来了:

    也就是一个特征值所对应的所有的特征向量所组成的空间,然后再加上零向量本身形成的向量空间就是特征空间,简单来说就是(A-λI)的零空间。

    4、更多特征值

    简单特征值:

    在我们求解特征值和特征向量的时候,其实特征值是一个取决定性作用的一个属性,因为一旦特征值确定的话,相应的特征空间就确认了,在这个特征空间中有无数个特征向量,而这些特征向量都是这一个特征值所对应的特征向量,那下面就来看一下对于特征值它对应有哪些可能性。

    回忆一下在之前求解特征值和特征向量时,首先就是求出特征值λ,其求解办法就是转到求行列式上来:

    而它本身是一个关于λ的n次方程,其中n就是矩阵A的阶数,如果A是一个n阶方阵的话,那么λ有n个解【注意是在复数空间中】,下面还是拿之前求特征值和向量相关的矩阵为例子看一下,“λ有n个解”的含义:

    它是一个2【突出它是为了看之的特征值的解的个数也是为2】阶方阵对吧,而它所对应的特征方程为:

    此时就求得λ的解了,有2个解,分别为:

    这两个解均为实数,且各不相同,称之为简单特征值,那这个“简单”表现在哪在之后再来看,目前先有一个概念就是如果对于一个方阵来说,它的特征值都是实数且各不相同的话, 这种情况是最简单的。

    多重特征值:

    除了上面的简单特征值,还有其它两个非简单的特征值,首先第一种是特征值中有相同的情况,比如:

    看到木有,有2个特征值,但是呢是一样的值,而具体重复了几次有时也把它叫做重数,而对于咱们这个例子,如果一个矩阵A对应的特征方程求解出来两个解相同,值为1,我们就可以说这个矩阵A的特征值为1,而它的重数为2。

    复数特征值:

    有可能特征方程可能在实数范围里没有解,比如特征方程是一个关于λ的n次方程:

    当然有可能是这个样子的呀:

    也就是λ^2+1 = 0,很明显在实数范围里是无解的,但是!!!如果扩展到复数的范围就有解了,关于实数和复数的区别可以参考实数、虚数和复数_Never Limit-CSDN博客_实数和虚数,这个特征值也是有2个,为:

    关于复数特征值这里不会讨论,而对于多重特征值的情况也只是点到为止,也就是这俩特征值不重点讨论,是因为可以通过一些技巧使得在真正使用特征值和特征向量的时候规避掉这两种情况,而只去应用简单的特征值,这块之后再说,总之在实际使用时都会想尽办法来使用简单特征值,而去避免使用多重和复数特征值。 

    特征值与特征向量的性质:

    性质一:矩阵不可逆

    关于这个性质其实在之前学习特征值和特征向量时已经有学过了,当复习, 对于式子:

    当λ=0时,就有:

    需要让这个线性系统不仅有零解,还需要有其它的解,那就是0这个特征值所对应的特征向量,根据方阵的等价命题就可以知道:

    反过来,如果λ=0不是A的一个特征值的话,则A是可逆的。所以,对于方阵的等价命题中就可以被充最后一个命题了,如下:

    至此,关于矩阵的所有等价命题就已经学完了。 

    性质二:

    上三角矩阵的特征值是其对角线上的元素:

    下面来看一些特殊的方阵的特征值和特征向量的求法,目前我们所知的求解方阵的特征值和特征向量的步骤是先求解特征值,然后再求解特征方程,而求解特征方程就是让矩阵的行列式等于0:

    一说到行列式,是不是就可以联想到当时学习的一些特殊的矩阵了,简单回忆一下:

    对角矩阵:

    也就是这种对角矩阵的行列式就是对角线元素的乘积,那它对应的特征值是咋样的呢?其实也就是:

    它也是一个对角线,很显然它的行列式的值也是等于对角线元素的乘积对吧?

    而要求解特征值就是让上面这个式子为0,所以此时这个特殊方阵的特征值就有如下解了:

    此时针对对角方阵求它的特征值就变得极其简单了,不需要再求线性系统的解了,其实就是各个对角线上的元素。

    下三角矩阵的特征值是其对角线上的元素:

    有了上面上三角矩阵的性质,类似的对于下三角矩阵也是一样的,求解它的特征值也非常的简单,因为对于下三角矩阵来说它的行列式也是对角元素的乘积:

    相应的下三角矩阵的特征值的求法如同上三角矩阵一样:

    同样的特征值也为:

    性质三:

    关于这个矩阵的幂,在很多应用中都会对它感兴趣的,所以有必要研究一下特征值跟矩阵幂的关系,由于这个m木有定,所以下面用数学归纳法来对上面的这个性质进行一个论证:

    1、当m=1时,很显然成立,所以就有如下式子:

    2、假设m=k成立,很显然就有如下等价的式子成立:

    3、当m=k+1时,就有:

    而由于:

    所以等号右侧就可以写为:

    再将右侧进行变换:

    而:

    所以此时又可以化为:

    那是不是就可以说:

    所以得证。不过要注意!!!这里的m是>=1,对于<0的情况是不满足这种性质的,这点一定要清楚。其实也是成立的,下面就来证明一下为-1的情况。

    性质四:

    下面来证明一下,由于λ是A的特征值,所以就有:

    然后两边都乘以A的逆,如下:

    此时就又可以化为:

    再做转换,其结果就证明出来了:

    所以核心就是要理解,如果λ是A的特征值,就有这个等式:

    直观理解特征值与特征向量:

    简单特征值:

    在上面咱们都是以代表的角度来学习特征值与特征向量的,接下来则回到几何角度直观的理解一下特征值与特征向量。

    示例一:投影变换

    这里还是回到二维空间中,假设研究的投影变换是指把任何向量投影到(2,1)所在的直线,如蓝色直线所示:

    然后把二维空间中的任何一个向量都投影到(2,1)这根蓝色的直线上,比如:

    然后向蓝色直线引垂线,其中绿色所示的则为投影向量:

    再在空间中随便弄一个向量:

    往蓝色直线进行投影,得到的向量既为投影向量:

    接下来研究一下投影变换所对应的矩阵的特征值和特征向量是多少,不过在正式求解之前,先来复习一下之前的知识,就是看这个变换是否是真的对应一个矩阵,因为变换这个词是非常广的,并非随便给一个变换就能求出特征值和特征向量的,需要保证这个变换对应的是一个矩阵才行,此时就需要看投影变换是不是一种线性变换,关于这块可以参考线性代数学习之坐标转换和线性变换 - cexo - 博客园,其中回忆这么一句话:

    那根据线性变化的两个性质:

    很明显投影变换是完全满足这两条的,对于第一条是说对uv两个向量相加的变换等于u和v分别进行变换之和,从二维坐标就可以看出来肯定满足,而另一条是对cu进行变换它就等于先对u进行变换,然后再乘以c倍,从二维坐标上也能看出来,所以对于投影变换肯定是线性变换的,而线性变换肯定是对应一个矩阵的,而咱们这个例子中就是二维空间向二维空间的变换,所以它是一个(2x2)的方阵,所以就可以来看一下它的特征值和特征向量了。

    而用几何的视角来看特征值和特征向量,其先研究特征向量是比较方便的【从代表的角度是先研究特征值】,先来回忆一下特征向量的定义:经过这样的变换之后所得到的结果向量和原向量还是在一条直线上,它们之间只相差某一个常数倍,常数就是特征值,那回到咱们这个二维空间中的变换,哪些向量是经过投影之后所得到的结果向量和原向量还在同一根直线上呢?很显然就是在这根蓝色向量上经过投影之后得到的结果还是蓝色的直线上,如下:

    所以这根蓝色直线上的所有向量经过投影之后的结果还是它本身,还在蓝色直线上,所以在这蓝色直线上的所有向量都是特征向量,那它们对应的特征值是多少呢?其实是:

    为啥呢?因为经过投影在蓝色直线上后的向量还是它自身,这里看一下,是不是在这个过程压根不知道投影变换所对应的矩阵是谁,只通过几何含义就推导出了一组特征向量和特征值。

    那在这二维空间中还有木有其它的向量也满足投影到这根蓝色直线上所得到的结果和原来的向量在同样一根直线上呢?这第二组特征向量就稍微有点难想了,其实就是和蓝色直线相垂直的向量,如下:

    把它投影到蓝色的直线上,结果向量是零向量,也就是投影到蓝色直线上之后的结果向量是原来向量的0倍,所以和蓝色直线垂直的这根直线上的所有向量也是投影变换的特征向量, 它所对应的特征值为0:

    这样就通过几何的角度就求解出了投影变换所对应矩阵的特征值和特征向量了,另外还可以找到这两个特征值所对应的特征空间,一个就是投影变换要投影到蓝色直线上,这个直线是一上空间,这个空间中的所有向量则是投影变换对于λ=1的特征向量,另外一个特征空间则是和蓝色直线相垂直的那根直线,它形成了一个空间,也称之为特征空间,这个空间中的所有向量则是投影变换对于λ=0的特征向量。

    示例二:矩阵A

    接下来再来看这么一个矩阵在几何意义上的特征值和特征空间:

    如果矩阵A表示一个变换,它其实就是单位矩阵做了一下行交换,所以是一个初等矩阵,相当于这个矩阵就可以将所有的(x,y)坐标进行一个变换(y,x),回到坐标系来看,其实这个A所表示的变换就是将所有的向量沿y=x这根蓝色的直线,做一次翻转:

    比如说这根向量:

    经过这个矩阵的变换之后,就会沿这条蓝色直线进行翻转了,如蓝色向量下:

    而这俩向量是关于这根蓝色直线对称的:

    这就是这个矩阵所对应的变换的几何含义是什么,那知道了它的几何含义了是不是就可以找到了它的特征值和特征向量了呢? 那就要看经过这个变换之后得到的结果向量还在向量原来的方向,很显然在y=x这根直线上的所有的向量经过翻转之后依然还在这根直线上,如:

    而所对应的特征值为:

    同样的和这根直线垂直的向量:

    而它们只差一个常数倍,很显然这个常数为-1,所以另一个特征值为:

    同样也找到了对应的特征空间,分别是y=x这根直线形成了一个空间和该直线垂直的直线所形成的一个空间,好,以上是针对这个矩阵从几何意义上的分析,由于这是一个具体代数,所以咱们具体求解一下看是否如几何角度分析所示:

    重要性质:

    对于目前所举的例子来看特征值和特征空间都是两种,再回忆一下之前所举的也是一样的:

    其中有一个特点,就是这两个特征值所对应的特征向量它们不会重合,所以一个重要的性质要出来了:

    如果矩阵A含有两个不同的特征值,则他们对应的特征向量线性无关。

    下面来证明一下,假设:

    现在就是要证明u和v是线性无关的了,这里可以用反证法:

    假设线性相关,就有:

    所以就有:

    然后再来替换就有:

    就有:

    而由于:

    所以这个等式左右都可以乘以λ1为:

    然后两个式子相减就有:

    其中k!=0了,而λ2-λ1肯定也不等于0,因为它们是两个不同的特征值,那么对于最后化的这个方程:

    只有v向量为0了,但是!!!v是一个特征向量,不可能为零向量呀,很显然矛盾了,咱们的假设就是错误的,也就反证了两个不同的特征值所对应的特征向量肯定是线性无关的。

    “不简单”的特征值:

    在上面直观理解特征值与特征向量举的都是“简单特征值”,也证明一个非常重要的结论就是两个不同的特征值所对应的特征向量肯定是线性无关的,还记得关于特征值还有另外两种类型么,回忆一下:

    也就是还有“不简单”的特征值,那怎么个“不简单”法呢?下面也是通用直观的角度来简直一下:

    示例一:旋转矩阵【复数特征值】

    关于旋转矩阵的例子在之前已经举过n次了,长这样:

    也就是正的F逆时针旋转90,其对应的旋转矩阵为:

    也就是旋转的F就是y轴为(0,1),而轴为(-1,0),下面则来从几何的角度来看一下这个矩阵所对应的特征值和特征向量,同样还是先从特征向量看起,也就是通过旋转之后哪些向量在旋转以后它和这个向量原来的这个向量处在同一个直线上,用大脑一想貌似没有这样的向量吧,因为任何向量一旋转肯定就没有跟原来的向量在同一直线上了呀,所以从几何角度来看没有任何一个向量满足这个矩阵的特征向量,为啥会这样呢?下面来求一下这个矩阵的特征方程:

    它是一个二阶行列式,为主对角线元素的乘积-非主对角线元素的乘积,所以最终方程就变为了:

    很显然在实数范围内肯定这个方程是没有解的呀,但是!!!在复数范围内是有解的,为i和-i,也就是说对于复数特征值的几何含义已经消失了,因为在几何角度已经无法直观的理解特征值和特征向量了。

    示例二:单位矩阵【多重特征值】

    下面再来看另外一个"不简单"特征值,先来看这么一个单位矩阵:

    那看一下这个单位矩阵所对应的特征值和特征向量,想一下对于单位矩阵其实就是把原来的向量还转换为自己,向量根本不动,那从几何的含义来看一下什么样的向量在单位矩阵的转换下还在原来这个向量自己的方向上呢?很显然在二维平面上所有的向量经过单位矩阵的变换之后还是它自己,所以也还在它自己所在的直线上,并且相应的特征值为1,虽说特征值只有1个,但是呢特征向量在二维平面上的任意方向,怎么会出现这样的情况呢?还是用代表的角度来看一下,其实在之前也已经看过了:

    就是求下面这个方程:

    而λ很显然就是:

    然后此时再来求一下它所对应的特征向量,将λ代入如下方程:

    为:

    也就是求解矩阵的零空间了,很明显这个矩阵压根就木有主元列,有2个自由列,所以这个向量u有两个维度,两个维度都任意取,也就是二维平面上所有向量都是特征向量,当然也可以找到二维平面上的一组基,用这组基可以更加好的描述特征向量,也就是需要求λ=1所对应的特征空间,其实也就是特征空间中对应的一组基,这组基为:

    这里需要注意了:当λ是多重特征值时,λ它所对应的特征空间不一定是一根直线了,有可能是一个高维空间,比如这个λ所对应的空间是一个二维空间,在二维空间中可以找到一组基,由这组基的线性组合所表示的所有向量都是λ=1所对应的特征向量,貌似这结果挺好的呀,对于之前的简单特征值都是2个不同的,所对应的特征向量一定是线性无关的,现在虽说λ是相同的2个特征值,特征空间是一个平面,又找到了两组基是线性无关的,貌似挺不错的,但是关键在于对于多重特征值来说是不能保证重数为2,相应的特征空间就是2维的,就能找到2个基向量,下面再来看这么个矩阵:

    很显然此时的特征值也是相同的值,为:

    那此时看好了,对于它的特征向量看一下:

    很显然此时没有2个自由列了,而是只有一个,当然对应的零空间的维度一定为1,也就是u对应的向量为:

    是不是对于这样的矩阵它有二重的特征值,但是呢它对应线性无关的相向只有1个,也就是λ=3虽说是2重特征值,可以这个2重特征值所对应的特征空间是一维的,我们找不到两个线性无关的特征向量,这就是多重特征值复杂的地方,也就是对于多重特征值所对应的特征向量也是多重的,但是也有可以数目会更少。

    重要性质:

    实际上,从数学的角度是存在这么一个非常重要的性质的:

    如果矩阵A的某个特征值的重数=k,则对应的特征空间的维度<=k。

    而通常又把这两处重数用两个专有名词定义如下:

    所以一个非常重要的数学定理就出来了:

    几何重数不大于代数重数,若重数为1,则很简单,其特征空间维度为1

    当重数一旦不为1的话,事情会复杂,这个复杂的点其实就在于相应的特征向量所处的维度,也就是这个维度变得不固定了,可能<=代数重数的任意一个值,这就为进一步研究特征值和特征向量的性质制造了麻烦,也就是为啥在之前说更喜欢"简单"特征值的原因,因为对于简单特征值来说重数为1所对应的特征向量一定是在1维空间中,这个特征空间就一定是1维的。

    最后再对三种特征值总结一下:

    1、复数特征值它的几何意义丢失了,因为在几何意义上无法直观的理解特征值和特征向量了。

    2、多重特征值之所以复杂, 是因为特征值所对应的特征空间的维度不固定。

    3、简单的特征值每一个特征值对应于一个特征空间,这个特征空间一定是一维的,相应的特征向量可以随意的缩放,而且不同的特征值对应的特征向量还是线性无关的,这也是喜欢它的原因。

    实践Numpy中求解特征值和特征向量:

    接下来则回到python的世界中实现对一个矩阵的特征值和特征向量的求解, 先回忆一下整个的求解过程:

    由于咱们现在为止手动编写的线性库中并木有涉及到n次方程的求解,所以这里采用Numpy数学库来实现。

    新建文件:

    示例一:

    先来对之前学习的这个矩阵进行一下求解:

    具体求解也非常简单,直接调用一个函数既可:

    其中可以看到对于求出来的特征值eig函数对其进行了一个排序。另外对于特征向量它是一列列进行组合的:

    呃,为啥跟我们之前理论描述的特征向量不一致呢?这是(4,-2)向量和(1,1)向量经过规一化处理了,而这种规一化本身是很有意义的,在后续的学习中也能看到,就会将所有的特征向量这样一列列排起来形成一个特征向量矩阵,用这个特征向量矩阵作为空间的基将会看到很多重要的性质,而这组基要想得到它的单位基的话【也就是每一个向量所对应的模为1】,则每一个向量需进行规一化的处理。

    示例二:关于y=x翻转

    接下来再来验证一下之前所举的y=x翻转变换矩阵的情况:

    示例三:旋转90度

    接下来看一下复数特征值的情况:

    示例三:单位矩阵

    接下来再来看一下多重特征值的情况:

    示例四:代数重数为2,几何重数为1

    矩阵相似和背后的重要含义:

    接下来则来揭示一下学习特征值和特征向量具体有啥用,既然是“特征”值和“特征”向量,那到底反应了矩阵的什么特征呢?

    矩阵相似型:

    为了搞清楚这个问题,首先得来理解矩阵的相似性,相似矩阵,先来看一下它的定义:

    如果矩阵A,B满足:

    则称A和B矩阵相似。

    说实话看到这个定义还是非常抽象的,其实从几何的角度还是比较容易理解的,这里先来回忆一下初中几何的相似三角形的数学知识,怎么判断两个三角形相似呢?

    课本的定义是对于三角形的三个内角如果都相同则就可以说这俩三角形是相似的,直观的来看就是两个三角形的大小是不一样而形状是一样的,怎么理解?其实可以以这样的视角来理解:“不同的视角观察相同的内容”,也就是说可以想象成这两个三角形就是一个三角形,只是观察它的视角可能是远近不一样就造成了所看到的大小不同但是它们的形状却是一样的,此时就可以说这两个三角形是相似的,同样的视角也可以用来理解什么是矩阵的相似,两个矩阵相似其实本质也是我们从不同的视角去观察相同的内容,由于视角不同看到的矩阵也不同,其实本质是一样的,此时就可以说A,B是相似的,具体怎样通过不同的视角来观察相同的内容,这个视角就藏在矩阵P当中,我们如果将P当成是一个坐标转换矩阵的话,而矩阵A和B对应两个线性变换的矩阵,这个式子其实在反应这样的一个事实:

    P是一个坐标系,则A变换是在P坐标系下观察的B变换。

    换句话说就是这个式子所反应的意思是A和B两个矩阵所表示的变换是同一个变换,只不过观察它所在的坐标系是不同的,我们观察B这个变换就是在我们通常所在的那个标准坐标系下,而我们观察A的坐标系则是在P这个矩阵所定义的坐标系下,在两个不同的坐标系下观察同一个变换得到的结果不同的,结果就是矩阵A和矩阵B,但是本质是同一个变换,此时就可以称A和B是相似的。接下来咱们来证明一下这个结论,此时就需要用到之前线性代数学习之坐标转换和线性变换 - cexo - 博客园所学的坐标转换的知识了,照这样的理论用式子可以这样表示:

    下面具体来看一下式子,先来看等式左边:

    等式左边表示在p坐标系下的向量x进行A变换,而等式右边:

    其实就是x在标准坐标系下的坐标:

    接下来:

    其实就是再进行一个B变换,如下:

    也就是x坐标在标准坐标系下经过B变换得到的坐标,该坐标依然在标准坐标系下,那如果想要将这个坐标转换到P坐标系下呢?根据当时学习任意坐标系下的转换:

    只需要用P的逆矩阵乘以在标准坐标基下所表示的坐标既为在p坐标系下的向量x进行A变换,如下:

    这图说明了一个p坐标系下的坐标先转换到标准坐标系:

    再进行B变换之后还是在标准坐标系下:

    此时再转回p这个坐标系下:

    这个结果其实在p这个坐标系下直接对坐标x进行A变换得到的结果是一致的:

    也就说明了A和B这两个变换本质是一个变换,只不过我们所观察的坐标系不同,上面我们观察A变换是在P这个坐标系下,而下面B变换是在标准坐标系下:

    所以上面这个图要记住这个结论:

    A和B本质是一个变换,只是观察的坐标系不同!

    有了这个结论之后,接下来就可以对式子进行一下变换了:

    变形的方法很简单:

    1、等号两边都左乘一个P;

    2、等号两边都右乘一个P逆;

    所以对于这个变换式子,在阐述“A变换是在P坐标系下观察的B变换”是不是这样来理解更加的顺畅,因为A这个变换是在P坐标系下观察的,所以将P这个坐标系下的项都放到等号右边,而将B单独拿出来,因为B这个变换就是在标准坐标系下看的,所以就有了同在所看到在标准坐标系下变换的B到了P这个坐标系下看和等号中的A这个变换是一样的,这里要注意!!!当我们说矩阵相似的时候,A和B相似,B和A也相似,此时用这两个式子都是可以的;

    在这种情况下,P逆和P谁在前谁在后其实不重要:

    但是!!!一旦有了几何解释的时候就得非常注意啦,P逆和P谁在前谁在后决定了到底把哪个变换放在P坐标系下观察,P逆在前P在后:

    我们是把夹在P之外的那个变换,也就是A变换放在P坐标系下观察,而如果P在前P逆在后:

    我们是把夹在P之内的那个变换,也就是A变换放在P坐标系下观察,对于这个结论不需要背,而是要理解,那怎么理解呢?其实可以这样理解:

    等号的两边同时乘以一个坐标,关键是在有几何解释的时候乘以哪个坐标系下的坐标有意义,像P在最后的话肯定要乘以在P坐标系下的坐标才有意义,所以:

    A这个变换是在P坐标系下进行的,相应的B这个变换就是在标准坐标系下进行的;同样的像P逆在最后的话肯定要乘以在标准坐标系下的坐标才有意义,所以:

    B这个变换是在标准坐标系下进行的,相应的A这个变换就是在P坐标系下进行的;同样的像P逆在最后的话肯定要乘以在标准坐标系下的坐标才有意义。

    上面这个理解说实话有点绕,记住关键的结论是:“A和B本质是一个变换,只是观察的坐标系不同!!”,另外一定要注意小陷阱,怎么写式子代表哪个坐标系下来观察A和B两个变换,其实这个跟之前学习坐标变换是一样的,一定要知道是谁变到谁,关于坐标变换这块不太清楚的一定得要提前打好基础把这一个知识理解透了再来对这里进行理解就会容易很多。

    那这个矩阵的相似型跟我们此次学习的特征有啥关系呢?下面就准备要跟它牵扯上联系了,既然A和B本质是一个变换,它们肯定有一些东西是相同的,就像两个三角形相似,相似背后它们的角肯定是相同的,那么A和B相似本质是一个变换,它们是什么相同呢?其实是A和B的特征方程相同,特征值相同!!!这也是为啥管之前的特征值和特征向量叫“特征”的原因之所在,这是因为这些特征是永远不会变的,不管我们是在哪个坐标系下来观察A和B矩阵的样子可能已经变了,但是它们的特征方程是相同的,既然特征方程相同了其特征值也就相同啦,所以在之后会学习特征值的作用了:完全可以使用特征值构造出一个矩阵,这个矩阵就来表示A和B所对应的那个变换,只不过需要从一个特殊的坐标系中来看。

    下面则来证明一下此观点:

    如果矩阵A,B满足:

    则称A和B相似,A和B的特征方程相同!特征值相同!!

    证明:

    A的特征方程为:

    而为了能跟P逆BP进行结合,可以把I写为:

    然后它又可能变为:

    而根据行列式的矩阵相乘就又可变为:

    再进一步:

    看到木有,也就是A和B的特征方程是相同的,前提是矩阵A,B满足:

     这也就是特征值和特征向量所真正表达的特征,当我们把矩阵当作是一个变换的时候,这个变换不管从哪个角度去看,不管从哪个坐标系下去看,它们都拥有相同的特征,这些相同的特征都被特征值表达了出来,那么有个问题就来了,既然我们已经知道了对于一个变换我们可以从不同的角度去看它,肯定就希望找到一个最好的角度去看它让变换的理解是最为容易的,那这个“最好的角度”其实也隐藏在特征值和特征向量中,具体往下学习便知。

    矩阵对角化:

    先来再阐述一下上面所述的结论:

    如果矩阵A,B满足:

    则称A和B相似,也可以表达成:

    P是一个坐标系,则A变换是在P坐标系下观察的B变换【这也就是几何含义,表示在P这个坐标系下观察B变换观察到的结果其实就是A这个矩阵所表示的样子 】,A和B本质是一个变换,只是观察的坐标系不同!

    那既然式子:

    表达的是“在P这个坐标系下观察B变换观察到的结果其实就是A这个矩阵所表示的样子”,那就可以变换坐标系P,相应的A这个矩阵的样子就会发生变换,我们想找一个最好的A,使得B这个变换非常之简单,其实就是矩阵对角化所做的任务,其实矩阵对角化是指可能把A写成是:

    表达的意思就是对于A这个变换我们在P这个坐标系下观察,观察到的结果是D,在这里要注意在P的坐标系下观察谁得到谁不要搞淆,根据之前所述:

    所以A的变换是在标准基下的变换,在P这个坐标系下观察A这个变换, 得到的是结果是D变换的样子,其中A、D本质是一个变换,只是观察的坐标系不同而已,那为啥这里用了一个D矩阵呢?因为它代表一个对角矩阵:

    而对角矩阵代表啥呢?其实它就代表对于一个向量x每一个维度的向量伸缩di倍就好了,不牵扯到和其它维度的向量进行线性组合,换言之,就是在D这个变换下,对向量(x1,x2,x3...,xn)进行变换,结果就是(d1x1,d2x2,...,dnxn),所以对角矩阵所表示的变换是最简单的,而矩阵的对角化所做的事情就是对于任意一个变换A,试图找到一个合适的坐标系P,在这个坐标系下观察A变换变成了一个对角矩阵的样子,这个样子是非常方便我们进行很多操作的,那么问题的关健就是对于方阵A能不能在某一个坐标系P下观察看到的结果是一个对角矩阵的样子呢?不一样!!!因为需要有如下条件:

    如果A有n个线性无关的特征向量,则A和某个D【对角矩阵】相似。

    也就是可以写成这个形式:

    这个式子就叫做把A这个矩阵进行了对角化,所以对于矩阵的对角化也可以理解是矩阵的分解的一种形式,把矩阵A分解成了三部分:

    它表示D变换是P坐标系下观察到的A,而A怎么能分解成这种形式呢?答案就隐藏在特征值和特征向量当中,下面直接给结论,也就是如果矩阵A可以进行对角化的话,其中D对角矩阵就是主对角元素是矩阵A对应的所有的特征值,如下:

    而P这个坐标系就是把这些特征值所对应的特征向量依次按列排列出来的结果就是P这个矩阵,如下:

    由于P是由所有的特征向量组成的矩阵,所以也叫特征向量矩阵,换言之,如果矩阵A可以被对角化的话,A这个矩阵和对角矩阵D相似,就可以在这个特征向量矩阵所代表的坐标系才能看到这个结果,而我们看到的这个结果对角矩阵D的主对角线上就全都是特征值,通过这个结论现在就明白为啥有这么一个前提了:

    这是因为这n个线性无关的特征向量要组成特征向量矩阵,而这个特征向量矩阵中所有的列元素构成了一个空间的基,它是我们观察A另外的一个坐标系,如果A木有n个线性无关的特征向量的话,就不能构成矩阵P,A对应的也就不能对角化。我们也可以从另外一个视角来思考,由于P需要使用逆矩阵:

    所以对于P这个矩阵的列元素一定是线性无关的,这是矩阵N个命题中的一条,回忆一下:

    接下来证明一下为啥有n个线性无关的向量的矩阵A满足这个式子:

    先左右乘以一个P,如下:

    此时则左右两边进行变换,看最终左右两边是否相等那么也就论证了此式子了,如下:

    而由于所有的u都是矩阵A的特征向量,所以Au等于λu,回忆一下:

    所以:

    接下来再来看一下等式右侧,如下:

    所以:

    就成立了,所以它也成立:

    此时就可以称A可以被对角化。

    另外回忆一下上面的一个结论:

    如果矩阵A含有两个不同的特征值,则他们对应的特征向量线性无关,而回到对角化的概念就可以进一步推导出:如果A有n个不相同的特征值,则A可以被对角化,但是要注意:如果A没有n个不相同的特征值,A不一定不能被对角化。比如说:

    再来看一个:

    这也是当特征值存在重数的时候,事情变得复杂的原因,这是因为所有的特征值重数为1,矩阵A只含有简单特征值的话,它一定可以对角化,因为A就可以从P的视角:

    来看是一个对角矩阵所代表的那个变换,这也是为啥叫它简单值的原因,但是如果含有重数的特征值,它能不能对角化我们就不知道了,至少我们不能一眼就看出来而是需要具体的求一求对于有重复的特征值它所对应的特征空间的维度是多少,不管怎样,如果A能找到n个无关的特征向量,A就一定能够被对角化。最后再来总结一下:

    实现属于自己的矩阵对角化:

    接下来编程来实现一下矩阵的对角化。

    新建文件:

    断言A为方阵:

    求出A的特征值和特征向量:

    求出矩阵对角化:

    对角化的式子为:

    测试:

    用例一:

    为了验证其求解的对角化是正确的,就可以把三个相乘,如下:

    用例二:

    由于该矩阵不能被对角化,所以照道理P的逆应该不存在,但是nmpy也对其进行了一个逆的计算,只是计算出来的结果比较离普而已。

    增加是否可对角化的判断:

    对于用例二来说,很显然矩阵是不能被对角化的,但是呢其结论我们看不出来,所以有必要增加一个矩阵是否可逆的状态输出,如下:

    再运行:

    矩阵对角化的应用:求解矩阵的幂和动态系统【了解】:

    最后再来探讨一下矩阵的对角化,先来回忆一下相关定义:

    如果A有n个线性无关的特征向量,则A可以被对角化,就有如下式了:

    其中可以说D变换是P坐标系下观察到的A。也就是D变换和A变换本质是一个变换,只不过观察的坐标系不同,而由于D是一个对角矩阵,所以这个变换是非常简单的,只不过是在每一个维度上伸缩对角矩阵对角线上元素那么多倍。

    而如果把D变换看作是A变换,很多时候就会变得非常简单,下面举相应的一些例子:

    求解矩阵的幂:

    比如要求矩阵A的平方:

    当然直接用A*A既可,但是如果将A以对角化视角来看待的话:

    此时就可以变换为:

    再变换就为:

    以对角化视角下面再来看一下A的立方就如下:

    进而可以得到矩阵求幂的新视角:

    也就是把A的n次方问题转换成了D的n次方问题,而其中D是一个对角矩阵,下面来看一下为啥把A的变换看成D的话会很方便了,比如对于一个对角矩阵D:

    而它的平方为:

    也就是对于对角矩阵求它的幂也就是对角元素的幂再放回到对角矩阵上,推到n次晕就有如下式子:

    也就是对于对角矩阵的幂的求法根本不需要进行矩阵的乘法操作,直接对数字进行n次幂的运算既可,很显然相对矩阵的乘法就大大的化简了,相应的,如果求解A的n次冪就为:

    这样通过矩阵的对角化对于整个矩阵的幂计算时间复杂度也大大的降低, 

    求解矩阵的动态系统:

    我们为啥要关心矩阵的幂呢?实际上矩阵的幂在大量的实际应用中都有着非常重要的作用,因为大量问题的形式都是:

    为啥向量有一个下标呢?这是因为处理的是动态系统,也就是随着时间的变换u这个向量所表示的状态也在不断的变化,这个变化是被A所表示的,比如第一个时间点【一个时间点在经济系统中有可能是一年,一个月之类的,而在生物学观察细胞时是以秒或分钟为单位】表示u这个状态就变成了Au,而到了第二个时间点u这个状态又变成了A方u,第三个时间点就变成了A的立方u...以此类推。

    而动态系统这个方程的形式被用于很多的领域,比如说:

    经济系统:

    比如u这个向量表示的是各个不同的行业不同的领域所对应的经济的生态值,而这个经济的生态值随着时间的推移,会产生变化,这个变化就可以被矩阵A所表示,这个A矩阵可能就表示一种经济策略,我们要想看这个经济策略在若干时间后所起到的效果是怎样的,我们就可以使用这个式子。

    粒子系统:

    比如在物理学中,很多粒子系统也都满足这样的式子,粒子运动具有一定的规律,而这个规律被矩阵A所表示,相应的某一个粒子在若干时间后它所对应的状态是怎样的,就可以用这么一个方程所表示。

    生态系统:

    在生态系统中也是如此,生态系统中无论是动植物的数量还是各种环境的参数,比如氧气,二氧化碳,氮气等等它们都是互相制约的,而在生态系统中这些参数会怎样变化也可以被一个矩阵A来表示,而若干时间后生态系统这些参数会怎样变化也可以被矩阵A所表示,而若干时间后生态系统会变成什么样子也可以被这样的一个方程所表示。

    而对于这么一个式子:

    核心就是求A的k次幂,根据这个式子:

    此时就可以变换为:

    更重要的是,一旦有了对角化视角,其实对于想研究的系统还可以有一个更深刻的认识,这是因为A这个变化本质就是D这个变化,只不过需要在P这个坐标系下观察而已,而D这个矩阵表示的就是对于u这个向量各个维度它随着时间的推移每走一个时间点相应怎样变化,那么D这个矩阵对角线上的元素又都是A这个矩阵的特征值,所以特征值反应系统的各个分量的变化速率!只不过这个变化是发生在P这个坐标系下的,这也是特征值隐藏的另一层含义,就会对动态系统有更加深刻的认识,延生出稳定的系统、不稳定的系统等相应的概念。

    但是!!!上面所说的得具备一个前提条件,如下:

    如果A有n个线性无关的特征向量,则A可以被对角化。

    而目前对于A只是对方阵有作用,而实际生活中经常要处理非方阵或长方阵,那对于这种情况的探讨下次再来。

    关注个人公众号,获得实时推送

    展开全文
  • 逻辑判断

    千次阅读 2020-10-17 20:03:19
    六、分析推理   题目识别:对象与特征之间的匹配。   解题方法: 排除法(选项信息充分):直接排除、代入排除 最大信息法(选项信息不充分);   例题 1:   分析:本题信息充足,采用排除法。已知王、赵...
  • 特征向量  函数通常作用在数字上,比如函数f作用在x上,结果得到了f(x)。在线性代数中,我们将x扩展到多维,对于Ax来说,矩阵A的作用就像一个函数,输入一个向量x,通过A的作用,得到向量Ax。对多数向量x而言,...
  • 这里简述常见的语言表示模型(词嵌入、表示、篇章表示)。 词向量类型:1)一个词一列向量的表示方法有Hash算法和word2vec。hash算法将词打散成(01010101)的数值,word2vec则同时打散定义成了向量。wor...
  • 特征选择-过滤式选择

    千次阅读 多人点赞 2019-05-28 23:09:11
    过滤式方法先按照某种规则对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关,这相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。 【某种规则】:按照发散性或...
  • 关于相似性以及文档特征、词特征有太多种说法。弄得好乱,而且没有一个清晰逻辑与归类,包括一些经典书籍里面也分得概念模糊,所以擅自分一分。 ————————————————————————————...
  • 什么叫特征检测?就是检测图像中目标的特征呗,所谓特征,不管你怎么...对特征的描述有很多种方法和算子,常见的有SIFT特征描述算子、SURF特征描述算子、ORB特征描述算子、HOG特征描述、LBP特征描述以及Harr特征描述...
  • 判断推理——逻辑判断

    万次阅读 2020-07-10 21:42:32
    第一节:逻辑判断: 第二节:翻译推理 第三节:组合排列 第四节:日常结论 第五节:逻辑论证 第一节:翻译推理 一、题目特征: 1.题干和选项中出现先比较明显的逻辑关联词(条件关键词…) 2.提问方式是“可以推出”...
  • 很多人在大学学习线性代数时,国内教材书上大多一开始就是行列式的表示、计算、性质等等东西,让人看得云里雾里,一头雾水,然后要花很多时间才大概知道线性代数是个什么东西。本文不提书上晦涩难懂的内容,尽量用...
  • 深入理解矩阵的特征值和特征向量

    万次阅读 多人点赞 2019-09-16 16:29:40
    原 【数学基础】矩阵的特征向量、特征值及其含义 ...
  • 文本特征提取方法研究

    万次阅读 2018-10-08 16:49:15
    缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。 文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的...
  • 特征处理 LR并行化 特征处理 1.知乎上的一个问题: https://www.zhihu.com/question/31989952 连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? 题主机器学习大白一个。。最近刚...
  • 笔者在看各种NLP的论文、文献、博客之中发现在应用过程中,有种类繁多的...根据词向量组成向量的方式: 如果是一词一列向量,一般用简单相加(相加被证明是最科学)来求得; 一个词一值的就是用词权重组合成向量的方
  • 文本特征提取方法介绍

    千次阅读 2020-06-09 19:34:39
    缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。 文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征...
  • 1.5特征(feature)

    千次阅读 2019-02-14 20:25:07
    1.5 特征(feature) 特征中有三种算法:ChiSqSelector、VectorSlicer和RFormula为特征选择方法; 有三种方法:CountVectorizer、TF-IDF和Word2Vec组成三种文本特征抽取方法; 其余方法为特征变换。 特征变换又...
  • Tensorflow+VGG16实现卷积神经网络特征图可视化

    万次阅读 多人点赞 2019-01-03 08:48:03
    使用Tensorflow和vgg16预训练好的模型实现了卷积神经网络中特征图(feature map)的可视化,可以更明了的知道这个黑箱中到底发生了什么。 卷积神经网络特征图可视化 代码如下: # -*- coding:utf-8 -*- import ...
  • 文章目录前言一、ORB特征均匀化策略对性能的影响二、ORB特征金字塔三、ORB提取扩展图像四、ORB特征均匀化总结 前言 本博客结合哔哩大学视频ORBSLAM2【ORBSLAM2源码讲解专题一】ORB特征点提取与均匀化策略总结。 ...
  • 【机器学习】特征选择常用方法 整理

    万次阅读 多人点赞 2018-06-14 19:36:12
    特征选择 在实际工程中,对于特征变量的选取,往往是基于业务经验,也就是所谓你的先验知识。 现在数据的特征维度很多,而能作为训练集的样本量却往往远小于特征数量(如基因测序、文本分类)。 特征选择的好处:...
  • 【深度学习笔记2】——行人重识别之局部特征与深度学习小经验一. 表征学习和基于特征学习的区别1.表征学习:2.基于局部特征学习:二. 解读论文(MGN)三. 解读论文(Human Semantic Parsing for Person Re-...
  • 特征点检测FAST算法

    千次阅读 2018-03-22 23:45:13
    用一话来讲FASTN算法的原理就是:若一个像素周围有一定数量的像素与该点像素值不同,则认为其为角点。步骤如下: 1)在图像中任选一点p, 假定其像素(亮度)值为 Ip 2)以r为半径画圆,覆盖p点周围的M个像素,...
  • 情感极性判断 引言 情感极性分析是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程。本次实验中,我基于python语言、pytorch深度学习框架,采用规则方法、统计方法和深度学习方法实现了汉语句子的情感...
  • 文本特征提取和向量化

    千次阅读 2018-05-21 17:08:47
    转自:...例如,我有728个可以词条,那么我将保存728行文本,现在我们要提取出每一行文本中的特征词。接下来的操作依次是:标记正负样本并下载它们的全部文本对文本进行分词通...
  • 数据挖掘笔记-特征选择-整体汇总

    千次阅读 2014-08-08 17:06:37
    文本特征向量 经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的...
  • 人工智能——特征工程总结

    千次阅读 2020-04-07 15:11:39
    有这么一话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型...
  • 比如在数据挖掘中,很多时候通过比较用户数据的余弦距离,以判断用户的相似性。 下面是某书评网站,用户对一些书籍进行了相应的评分: 那么第一个用户信息可以用向量 来表示。 第二个的用户信息可以用向量 来表示。 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 69,076
精华内容 27,630
关键字:

判断句的特征