精华内容
下载资源
问答
  • 2020-03-17 21:09:02

    一.实验目的: 理解计算机图像分类的基本原理,掌握数字图像非监督分类以及监督分类的具体方法和过程,以及两种分类方法的区别。

    二.实验平台:ERDAS IMAGINE 9.1

    三.实验要求:掌握非监督分类;非监督分类结果评价;监督分类;监督分类结果评价;分类后处理。

    四.实验步骤

    1 非监督分类

    ERDAS 的ISODATA 算法是基于最小光谱距离来进行的非监督分类,聚类过程始于任意聚类平均值或一个已有分类模板的平均值(初始类别中心);聚类每重复一次,聚类的平均值就更新一次,新聚类的均值再用于下次聚类循环。这个过程不断重复,直到最大的循环次数已达到设定阈值或者两次聚类结果相比有达到要求百分比的像元类别已经不再发生变化。ISODATA 算法的优点是:人为的干预少,不用考虑初始类别中心,只要叠代时间足够,分类的成功率很高;常用于监督分类前符号模板的生成。缺点是时间耗费较长,且没有考虑像元之间的同谱异物现象。

    分类过程:在 ERDAS 图标面板工具条中点击

    更多相关内容
  • 层次分析 层次分析(Analytic Hierarchy Process,简称 AHP)是对一些较为复杂、较为模 糊的问题作出决策的简易方法,它特别适用于那些难于完全定量分析的问题。它是美 国运筹学家 T. L. Saaty 教授于上世纪 70...

    层次分析法
    层次分析法(Analytic Hierarchy Process,简称 AHP)是对一些较为复杂、较为模 糊的问题作出决策的简易方法,它特别适用于那些难于完全定量分析的问题。它是美 国运筹学家 T. L. Saaty 教授于上世纪 70 年代初期提出的一种简便、灵活而又实用的 多准则决策方法。
    层次分析法是指将一个复杂的多目标决策问题作为一个系统,将目标分解为多个目标或准则,进而分解为多指标(或准则、约束)的若干层次,通过定性指标模糊量化方法算出层次单排序(权数)和总排序,以作为目标(多指标)、多方案优化决策的系统方法。
    层次分析法是将决策问题按总目标、各层子目标、评价准则直至具体的备投方案的顺序分解为不同的层次结构,然后用求解判断矩阵特征向量的办法,求得每一层次的各元素对上一层次某元素的优先权重,最后再加权和的方法递阶归并各备择方案对总目标的最终权重,此最终权重最大者即为最优方案。
    层次分析法比较适合于具有分层交错评价指标的目标系统,而且目标值又难于定量描述的决策问题。
    1.层次分析法的基本原理与步骤
    人们在进行社会的、经济的以及科学管理领域问题的系统分析中,面临的常常是 一个由相互关联、相互制约的众多因素构成的复杂而往往缺少定量数据的系统。层次 分析法为这类问题的决策和排序提供了一种新的、简洁而实用的建模方法。 运用层次分析法建模,大体上可按下面四个步骤进行:
    (i)建立递阶层次结构模型;
    (ii)构造出各层次中的所有判断矩阵;
    (iii)层次单排序及一致性检验;
    (iv)层次总排序及一致性检验。

    1.建立层次结构模型
    将决策的目标、考虑的因素(决策准则)和决策对象按它们之间的相互关系分为最高层、中间层和最低层,绘出层次结构图。 最高层是指决策的目的、要解决的问题。 最低层是指决策时的备选方案。 中间层是指考虑的因素、决策的准则。对于相邻的两层,称高层为目标层,低层为因素层。
    2.构造判断(成对比较)矩阵
    在确定各层次各因素之间的权重时,如果只是定性的结果,则常常不容易被别人接受,因而Santy等人提出一致矩阵法,即不把所有因素放在一起比较,而是两两相互比较,对此时采用相对尺度,以尽可能减少性质不同的诸因素相互比较的困难,以提高准确度。如对某一准则,对其下的各方案进行两两对比,并按其重要性程度评定等级。重要性比较结果,表1列出Saaty给出的9个重要性等级及其赋值。按两两比较结果构成的矩阵称作判断矩阵。判断矩阵具有如下性质:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    4.层次总排序及一致性检验
    在这里插入图片描述
    在这里插入图片描述层次分析法的缺点。
    (i)它在很大程度上依赖于人们的经验,主观因素的影响很大,它至多只能排除思维 过程中的严重非一致性,却无法排除决策者个人可能存在的严重片面性。
    (ii)比较、 判断过程较为粗糙,不能用于精度要求较高的决策问题。AHP 至多只能算是一种半定 量(或定性与定量结合)的方法。
    在这里插入图片描述

    实例+代码:
    在这里插入图片描述
    在这里插入图片描述
    注:用此函数分别算出每个的权向量和CR,最后根据各层之间的关系,算出总权值,得出结论

    展开全文
  • 2017国民经济行业分类

    2018-09-19 21:17:33
    本标准采用线分类法和分层次编码方法,将国民经济行业划分为门类、大类、中类和小类四级。代 码由一位拉丁字母和四位阿拉伯数字组成。 门类代码用一位拉丁字母表示,即用字母A、 B、 C、……、 T 依次代表不同门类;...
  • 1.本标准采用线分类法和分层次编码方法,将国民经济行业划分为门类、大类、中类和小类四级。代码由一位拉丁字母和四位阿拉伯数字组成。 门类代码用一位拉丁字母表示,即用字母A、B、C、……、T依次代表不同门类;大...
  • 主数据及编码

    千次阅读 2020-01-26 12:03:40
    通过对主数据分类编码的标准化,杜绝自然语言描述下的不规则和理解 的二义性,便于实现计算机信息处理,以提高信息管理的效率 主数据属性标准 主数据标准,是各类主数据的数据模型标准,定义了属性构成、元数据、...

    之前做数据梳理的时候对主数据进行了一个总结,虽然项目没有很好的开展,不过对我来说也是有很多收获的,这里把之前用到的一些文档总结如下。


    术语和定义

    主数据

    早期以 ERP 为代表的制造业集成应用系统的发展过程中,产生了信息孤岛和数据处理危机问题。为了解决这些问题,主数据这个概念随之诞生。

    目前,对主数据的定义没有统一,一些 MDM 产品提供商和学者提出了各自对主数据的定义,如下:

    David Loshin 在其主数据管理的著作中对主数据的定义是:主数据是企业中跨应用的核心业务实体,包括元数据、定义、属性、关系、角色和类别等。

    维基百科对主数据的定义是:主数据是在企业中可以共享的、一致的业务实体,是跨系统、跨应用和跨流程的基础数据的唯一来源,包括业务数据、非结构数据、分析型数据、组织架构数据及元数据。

    Gartner 公司的定义是:主数据是描述企业核心实体的、跨业务流程的、统一的数据标识和属性。

    ISO 标准中的定义:主数据是指事务处理需参考的独立的基础数据实体。

    著名的软件供应商 oracle 的定义:多个业务系统中最核心的、需要共享的数据,它是支持企业业务和分析的关键基础数据;IBM 对主数据的定义是:存在于多个异构系统中的跨核心业务实体的、具有高价值的数据。尽管不同角色对主数据定义的表达形式有所差异,但都反映了主数据的基本特征。总的来说,主数据的定义是:

    主数据(Master Data)是指具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,具有相对静态的特点,是单一的、准确的、权威的数据来源。

    基础主数据

    基础主数据就是在品名规范、收集模板、扩充视图填写过程中需要提前维护的字段,类似于元数据,是其他主数据的基础数据。

    基础主数据分为两大类:一类是自定义的基础数据,这部分数据在新建 主数据时可以新增,数据申请人员有权限进行申请,如用户创建的属性时, 发现系统中没有该类属性,则该用户可以申请新增此属性。另一类是很少新增或 者修改的基础数据,这些数据一般是货币、国家、行业、标准等,在系统初始化。

    主数据编码标准

    主数据编码标准定义了数据的分类和编码规则,是主数据标准化建设的核 心内容。 通过对主数据分类编码的标准化,杜绝自然语言描述下的不规则和理解 的二义性,便于实现计算机信息处理,以提高信息管理的效率

    主数据属性标准

    主数据标准,是各类主数据的数据模型标准,定义了属性构成、元数据、数据关系和参考数据等内容,是主数据标准化的关键。主数据包括物料、供应商、 客户、财务、组织架构数据。每类主数据应该由哪些属性(或字段)去约束,都 需要提前规范化、标准化。

    主数据管理

    主数据管理(Master Data Managent, MDM)描述了一组规程、技术和解决方案,用于为所有利益相关方(如用户、应用程序、数据仓库、流程以及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性。

    主数据编码标准

    编码原则

    编码过程中遵循以下总体原则:

    • 唯一性

    确保主数据对象的数据条目都有一个唯一的代码,不重复;

    • 科学性

    根据业务需求,选择主数据最稳定的本质属性或特征作为分类的基础和依据;

    • 兼容性

    应与相关标准协调一致,确保与集团、相关伙伴在有关主数据编码上尽量遵循公共的标准;

    • 可扩充性

    编码应留有适当的后备容量,以便适应不断扩充的需要;

    • 简明性

    编码结构应尽量简单,长度尽量短,以便节省存储空间和减少代码的差错率;

    • 实用性

    编码应尽可能反映编码对象的现实特点,避免过于理想,而造成对业务效率的降低;

    编码规则

    企业信息编码方法

    信息化的过程中,为了便于计算机处理信息,需要给企业的各类信息(人员、物资、机构等)进行编码。信息编码一般由数字和字母组成,编码位数由编码对象的多少决定,同时还要遵循一定的信息分类和编码原则。根据代码的含义性将代码分为图示的几大类型。按照代码所代表的编码对象或编码对象的特征,又可以将代码分为标识码和特征码,特征码又包括分类码、结构码、状态码、一般取值码等。这些编码之间的分类也不是绝对的,在实际应用过程中可以按照具体的编码对象选择最佳的编码或多类编码的组合。

    3-1编码规则示意图

    顺序码

    在一个有序的字母、数字或者字母加数字的集合中,顺序地为编码对象分配编码。顺序码包括三种类型:递增顺序码、系列顺序码和约定顺序码。

    递增顺序码:按照预先定义的字母或者数字递增步长顺序增加。

    系列顺序码:首先划分编码对象类别,然后确定各个类别的代码范围,最后,顺序地赋予编码对象在各自类别编码范围内的代码值。

    约定顺序码:首先将编码对象本身按照某种顺序(缩写字母顺序或事件、活动的年代顺序等)进行排列,然后再将有序的代码值(字母或数字顺序)与其排列顺序进行一一对应,从而得到编码对象的代码值。这种编码的前提是所有的编码对象都预先已知并且编码对象集合不会扩展。该编码不是完整意义上的顺序码。

    无序码

    无序码是对编码对象用无序的字母或自然数进行编码,该编码无规律可循,通常由计算机随机给出。通常作为复合码的一部分而使用。

    缩写码

    缩写码,将编码对象的名称(英文或者中文拼音)进行缩写,编码的形成是取名称中的一个或多个字符(如首字母)。缩写码适用于编码对象是相对稳定的且被人们所熟知的有限标识代码集。

    层次码

    该编码方式以线分类为基础,下位类包含在上位类中,层次码的编码基础是编码对象各层级间特性的差异,将编码对象编成连续递增的复合代码。

    层次码适用于统计目的、基于学科的出版分类等情况

    3-2层次码示例

    矩阵码

    这种编码方式以矩阵表(复式记录表)为基础,编码对象的代码是矩阵表中行值和列值的组合,这样不同的编码对象对应一样的行(或列)会有若干相同的特性。矩阵码对编码对象的要求是具有良好的结构和稳定性,如汉字编码字符集[31] 。

    并置码

    这种编码实质上是将编码对象的特性代码段组合而成的复合代码(如图 2-7所示)。这些特性代码描述编码对象相互独立的特性,可以是无序码、缩写码、顺序码等任意编码类型。面分类法常使用此编码结构。

    主数据

    主数据分类方法

    信息分类的基本方法有三种:线分类法、面分类法和混合分类法。

    线分类法

    线分类法也称层级分类法。它将分类对象按照若干属性依次分为若干逐级展开的层级类目,形成一个有层次的分类体系。在该体系中,同层级类目之间互不重复交叉、形成并列关系,不同层级类目之间是从属关系。采用线分类法进行编码时一般采用的编码结构是层次码,为每个层级编码,最低的层级可以使用流水码,最终编码是各层级编码的组合。该分类体系可以用分类树进行表示(如图所示)。

    4-1线分类图示

    线分类法具有清晰的层次结构,能较好地反映类目之间的隶属关系,是人们习惯使用的分类方式,既符合手工操作的习惯,也易于被计算机处理。但是该分类体系结构弹性较差,当改动或者删除分类层级中的一个中间类目时,会引起该类目的下层级结构发生变化;另外,当分类层级较深时,代码位会变长,影响使用效率。

    面分类法

    面分类法是依据分类对象本身固有的各种属性(或特性),划分成互相之间没有隶属关系独立的“面”,每个“面”由一组类目组成。将某个“面”下的一种类目和其他某个或多个“面”的一种类目组合在一起,可以组成一个复合类目。采用面分类法进行编码时,对每个面进行编码,然后将“面”编码进行组合即为最终编码。面分类法示意图如所示。

    4-2面分类图示

    面分类法描述的分类结构具有较大的柔性,单个“面”内类目的改变不会引起其他“面”的变化;面分类法使用性更强,在分类属性(或特性)不改变的情况下,可以通过类目组合规则的变化对分类结果进行调整。当然,该方法也有不足:采用该分类进行编码,使得编码容量利用不充分;当分类属性(或特性)较多时,组合数量会急剧增加;另外,根据对象特性划分的面有时类目很多,但实际组合应用的不多,即存在大量无应用意义的组合,导致结构上的冗余;同时难于手工信息处理。

    混合分类法

    混合分类法将线分类法和面分类法综合起来运用,吸收两种方法优点,避免各自的缺点,从而得出更为合理的分类结构。在实际应用过程中,通常将线分类法作为主体,在划分的某一个层次中将面分类法作为辅助分类方法进行分类。如由德国提出的著名的 OPITZ分类码,该编码方案在对零件进行编码时取得了良好的效果。


    定义因研究不同各有差别,但实施是非常重要的,毕竟主数据分类好,产品开发加班少,希望以后有机会实施整个数据治理。

    展开全文
  • LLSF) Rocchio分类方法 基于投票的分类方法(Bagging算法、Boosting算法->AdaBoost方法) 决策树分类法(decision tree)、随机森林模型(RF) 朴素的贝叶斯分类法(naΪve Bayesian classifier)(工业用于识别...

    基础普及: https://zhuanlan.zhihu.com/p/25928551
    综述类(有不同算法在各数据集上的性能对比):
      Deep Learning Based Text Classification:A Comprehensive Review(20.04)
      A Survey on Text Classification: From Shallow to Deep Learning(20.08)
    复现: https://github.com/wellinxu/nlp_store

    总体步骤:输入文档 -> 预处理 -> 文本表示 -> 分类器 -> 类别输出

    主要流程:预处理模型的文本数据;
    浅层学习模型通常需要通过人工方法获得良好的样本特征,然后使用经典的机器学习算法对其进行分类,其有效性在很大程度上受到特征提取的限制;
    而深度学习通过学习一组非线性变换将特征工程直接集成到输出中,从而将特征工程集成到模型拟合过程中。
    在这里插入图片描述
    浅层学习仍然需要进行耗时又昂贵的功能设计,还通常会忽略文本数据中的自然顺序结构或上下文信息,使学习单词的语义信息变得困难,适用于小数据集。
    深度学习方法避免了人工设计规则和功能,并自动为文本挖掘提供了语义上有意义的表示形式,文本分类只是其下游NLP任务之一。它是数据驱动的方法,具有很高的计算复杂性,较浅层模型难以解释其原因和工作方式。需提高其语义表示能力和鲁棒性。
    在这里插入图片描述
    常见应用:垃圾邮件识别、情感分类(SA)、新闻分类(NC)、主题分析(TL)、
    问答(QA)、对话行为分类(DAC)、自然语言推理(NLI)、事件预测(EP)

    类别:二分类、多分类、多标签分类;机器学习、深度学习

    一、预处理

    分词、去停用词(中文)、词性标注(多省略)、数据清理和数据统计

    分析输入数据集,对其进行分类(如单标签,多标签,无监督,不平衡的数据集,多章,短文本,跨语言,多标签,少样本文本,包含术语词汇)

    分词方法:基于字符串匹配、基于理解、
    基于统计:N元文法模型(N-gram),最大熵模型(ME),
    隐马尔可夫模型(Hidden Markov Model ,HMM),
    条件随机场模型(Conditional Random Fields,CRF)等
    在这里插入图片描述
    句子化为等长:对于不同长度的文本,太短的就补空格,太长的就截断(利用pad_sequence 函数,也可以自己写代码pad)

    数据增强:分为shuffle和drop两种,前者打乱词顺序,后者随机的删除掉某些词。有助于提升数据的差异性,对基于词word的模型有一定提升,但对于基于字char的模型可能起副作用。

    二、文本表示

    文本向量化 -> 向量空间模型(vecto rspace model,VSM)

    • 文档、项/特征项、项的权重

    向量的相似性度量(similarity)

    • 相似系数Sim(D1,D2)指两个文档内容的相关程度(degree of relevance)
    • 可借助n维空间中两个向量之间的某种距离来表示,常用的方法是使用向量之间的内积。如果考虑向量的归一化,则可使用两个向量夹角的余弦值来表示。

    文本特征选择(常用方法)

    • 基于文档频率(document frequency, DF)的特征提取法
    • 信息增益(information gain, IG)法(依据为分类提供的信息量来衡量重要程度)
    • χ2统计量(CHI)法(越高,与该类之间的相关性越大,携带的类别信息越多)
    • 互信息(mutual information, MI)方法(越大,特征和类别共现的程度越大)

    特征权重计算方法

    • 一般方法是利用文本的统计信息,主要是词频,给特征项赋予一定的权重。
    • 倒排文档频度(inverse document frequency, IDF)法、TF-IDF法(变种:TFC法和ITC法)、TF-IWF(inverse word frequency)法

    在这里插入图片描述
    文本表示方法:One-hot、Bag of Words(BOW)、N-gram、TF-IDF
    BOW的核心是用字典大小的向量表示每个文本,向量的单个值表示对应于其在文本中固有位置的词频;
    与BOW相比,N-gram考虑相邻单词的信息,并通过考虑相邻单词来构建字典;
    TF-IDF使用单词频率并反转文档频率来对文本建模。

    • 词袋特征方法:特征表示通常是极其稀疏的
      Naive版本、考虑词频、考虑词的重要性(TF-IDF)
    • TF-IDF
      TF(t)= 该词语在当前文档出现的次数 / 当前文档中词语的总数
      IDF(t)= log_e(文档总数 / (出现该词语的文档总数+1))
      # 在实际工作中,可能先有词表,再处理文档语料,该词有可能不存在任何文档中

    基于embedding: 通过词向量计算文本的特征(主要针对短文本)

    • 取平均、网络特征
    • word2vec:使用本地上下文信息来获取单词向量。
    • GloVe:具有局部上下文和全局统计功能;训练单词-单词共现矩阵中的非零元素。

    Word2Vec:
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

    其他方法

    • NN Model(end2end实现模型的训练和测试,无需手工提取特征,如CNN、RNN)
    • 任务本身(通过对数据的观察和感知,手工提取特征)
    • 特征融合(GDBT, XGBoost等非线性模型、LR等线性模型)
    • 主题特征(文档话题 LDA、文档潜在语义 LSI)

    文档特征表征
    在这里插入图片描述

    三、机器学习分类器

    • XGBoost、LightGBM
    • 基于支持向量机(support vector machines, SVM)的分类器
    • k-最近邻法(k-nearest neighbor, kNN)
    • 线性最小平方拟合(linear least-squares fit, LLSF)
    • Rocchio分类方法
    • 基于投票的分类方法(Bagging算法、Boosting算法->AdaBoost方法)
    • 决策树分类法(decision tree)、随机森林模型(RF)
    • 朴素的贝叶斯分类法(naΪve Bayesian classifier)(工业用于识别垃圾邮件)
    • 模糊分类法(fuzzy classifier)
    • 神经网络法(neural network, NNet)时间开销大且效果不佳

    四、深度学习分类模型

    与之前的表示方法不同,深度学习也可以用于文本表示,还可以将其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec(GloVe)和Bert

    基本思路:文本 -> Embedding -> CNN/RNN/Inception -> Classifier -> 标签个数维向量
    词(或者字)经过embedding层之后,利用CNN/RNN等结构,提取局部信息、全局信息或上下文信息,利用分类器进行分类,分类器的是由两层全连接层组成的。

    tips:模型分数不够高,试着把模型变得更深更宽更复杂;当模型复杂到一定程度时,不同模型的分数差距很小,继续变复杂难以继续提升分数。

    HAN:使用词和句子两层Attention,当数据中看不出句子,只用一层word时,效果不好。
    RCNN:同时用到RNN和CNN的思想,训练时间很长,但效果与单独的RNN和CNN差不多。
    FastText:通过Average抽象出概括性语义信息
    TextCNN:仿照n-gram捕捉局部语义信息
    TextRNN:提取序列语义信息

    (1) 前馈神经网络FNN

    结构简单,但在很多文本分类任务上有较高的准确性,如DAN模型、FastText模型。思路是将文本看作词袋,为每一个词学习一个向量表示(类似word2vec,Glove),然后取所有向量的和或者平均,传递给前向传播层(也叫多层感知机MLP),最后输入分类器进行分类。

    fastTextBag of Tricks for Efficient Text Classification(2016.7)
    句子中所有的词向量进行平均(某种意义上可以理解为只有一个avg pooling的特殊CNN),然后直接连接一个 softmax 层进行分类。
    在这里插入图片描述
    doc2vec:使用非监督方法,学习一段文本(句子、段落或篇章)的向量表示。结构跟CBOW模型相似,并增加了一个段落token。用前三个词和结构文档向量预测第四个词,文档向量可以作为文档主题记忆。在训练之后,文档向量可以用作分类。

    (2) 卷积神经网络CNN

    跨空间识别模型

    DCNN:最先使用CNN做文本分类的模型之一,动态进行k维最大池化(k根据语句长度与卷积层次进行动态选择);输入是词向量,然后交替使用宽卷积层和动态池化层,该结构可以捕获词语与短语间的长短期关系。
    在这里插入图片描述
    TextCNN:fastText 中的网络结果是完全没有考虑词序信息的,而TextCNN利用CNN,来提取句子中类似 n-gram 的关键信息。
    CNN最大的问题是固定 filter_size 的视野,一方面无法建模更长的序列信息,另一方面 filter_size 的超参调节也很繁琐。相比DCNN,TextCNN的结构更简单,只使用一层卷积,然后将整个文本序列的每一个卷积核的结果池化成一个值,拼接所有池化结果进行最终预测。
    在这里插入图片描述在这里插入图片描述
    字符级别的CNN:以固定长度字符为输入,通过6层带池化的卷积层和3层全连接层进行预测。
    在这里插入图片描述
    VDCNN:受VGG与ResNets的影响,直接处理字符输入,且只用小卷积跟池化操作,深度增加,效果提升。改进 -> 将模型大小压缩了10到20倍,精度只损失了0.4%-0.3%。

    tips:当文本以字符序列作为输入的时候,深层模型比浅层模型表现更好;若用词作为输入,浅且宽的模型(如DenseNet)比深层模型效果更好。而使用非静态的词向量(word2vec、Glove)与最大池化操作可以获得更优的结果。

    (3) 循环神经网络RNN

    跨时间识别模式;将文本看作词序列,通过获取词之间的依赖以及文本结构信息进行分类。

    LSTM:缓解了RNN梯度消失的问题。Tree-LSTM 是LSTM的树型结构扩展,可以学到更丰富的语义表示,在情感分析与句子相似性判断任务上证明了其有效性。
    在这里插入图片描述
    MT-LSTM:用记忆网络替代LSTM中的单个记忆单元,能够给长距离词关系建模,通过获取不同时间尺度上的信息来给长文本建模;将标准LSTM模型中隐藏状态分成多个组,每组会在不同的时间阶段激活并更新。

    TopicRNN:结合RNN与主题模型的优点,前者获取局部句法信息,后者获取全局语义信息。

    TextRNN:Bi-directional RNN(实际使用的是双向LSTM)从某种意义上可以理解为可以捕获变长且双向的 “n-gram” 信息。分类的时候不是只使用最后一个隐藏元的输出,而是把所有隐藏元的输出做K-MaxPooling再分类。
    在这里插入图片描述
    TextRCNN(TextRNN + CNN):利用前向和后向RNN得到每个词的前向和后向上下文的表示;词的表示变成词向量和前向后向上下文向量连接起来的形式;再接跟TextCNN相同卷积层(pooling层即可),唯一不同的是卷积层 filter_size = 1即可,无需更大 filter_size 以获得更大视野,这里词的表示也可以只用双向RNN输出。
    在这里插入图片描述

    (4) 注意力机制

    语言模型中的注意力可看作一组重要性权重的向量。

    层次注意力网络 进行文本分类的两个特点:反映了文档的层次结构,在词级别与句子级别分别使用了注意力机制,模型在6个文本分类任务上都取得了较大进步。
    在这里插入图片描述
    注意力池化(AP)方法:用于配对排序跟匹配任务。可以让池化层知道当前输入对,来自两个输入的信息一定程度上可以直接影响对方的表示结果。它是一种独立于底层表示学习的框架,也可以应用在CNN、RNN等模型上。
    在这里插入图片描述
    还可将文本分类问题看作是标签-文本的匹配问题,通过注意力框架与cosine相似度度量文本序列与标签之间的向量相似度。
    在这里插入图片描述
    TextRNN + Attention
    注意力(Attention)机制是nlp领域一个常用的建模长时间记忆机制,能够很直观的给出每个词对结果的贡献,基本为Seq2Seq模型的标配。而文本分类可以理解为一种特殊的Seq2Seq,所以考虑引入Attention机制。
    加入Attention之后最大的好处:能够直观地解释各个句子和词对分类类别的重要性。
    在这里插入图片描述

    (5) Transformers

    不像RNN类模型在处理序列问题时需要很大的计算资源,通过使用self-attention来并行计算序列中每一个词跟其他所有词的关系。基于Transformers的预训练语言模型(PLM),一般具有很深的神经网络结构,并且会在非常大的语料上进行预训练(通过语言模型等任务来学习文本表示)。使用PLM进行微调,在很多下游NLP任务上都取得了SOTA的效果。大体可以分为两类:自回归与自编码模型。
    在这里插入图片描述
    自回归模型有 OpenGPT,从左到右(或从右到左)在文本序列上一个词一个词预测的单向模型;包含12层Transformer,每一个由遮蔽的多头attention与全连接层组成,其中每一层都会加上残差并做层标准化操作。文本分类任务可以作为其下游任务,使用相关的线性分类器并在具体任务数据上微调即可。
    在这里插入图片描述
    自编码预训练模型有 BERT,使用遮蔽语言模型来做训练,随机遮蔽句子中的token,然后用双向的Transformers根据上下文给遮蔽的token进行编码,从而预测被遮蔽的token。改进包括:RoBERTa在更大的训练集上进行训练,使用动态遮蔽方式,并丢弃下一句预测任务,具有更鲁棒的效果;ALBERT降低模型的大小,提高训练速度;DistillBERT在预训练过程使用知识蒸馏方式,使模型大小减少40%,并保留99%的精度,推断速度提高60%;SpanBERT能更好表示与预测文本span。此类模型在QA、文本分类、NLI等NLP任务上都取得了很好的结果。

    结合自回归模型与自编码模型优点的有 XLNet,在预训练过程中,使用排序操作来同时获取上下文信息。引入了双流self-attention模式来处理排序语言模型,包含两个attention,内容attention(a)即标准的attention结构,查询attention(b)则不能看到当前的token语义信息,只有当前token的位置信息。
    在这里插入图片描述
    UniLM(Unified language Model):使用3种语言模型任务来进行预训练:单向、双向和seq2seq预测。通过共享Transformers网络来实现,其中以特定的self-attention遮蔽来控制预测条件的上下文。
    在这里插入图片描述

    (6) 胶囊神经网络(CapsNets)

    CNN中的池化层会丢失一些信息。

    一个胶囊是一组神经元,神经元中的向量表示实体的不同属性,向量的长度表示实体存在的概率,方向表示实体的属性。与池化操作不同,胶囊使用路由的方式,从底层的各个胶囊上路由到上层的父胶囊上,路由可以通过按协议动态路由或者EM等不同算法来实现。

    包含一个n-gram卷积层,一个胶囊层,一个卷积胶囊层,一个全连接胶囊层。两种胶囊网络,Capsule-A跟CapsNet比较类似,Capsule-B使用了带有不同窗口大小过滤器的三个并行网络,试图学习更全面的文本表示,实验中B的效果更好。
    在这里插入图片描述
    相比较于图像,物体在文本中可以更加随意地组合在一起,比如一些语句的顺序改变,文本的语义还可以保持一致,而人脸图像,五官的位置变换,就不能认为是脸了。由此提出一种静态路由模式,在文本分类任务上,取得了优于动态路由的效果。

    (7) 记忆增强网络 NSE(Neural Semantic Encoder)

    在编码过程中注意力模型里保存的隐藏向量可认为是模型的内部记忆;记忆增强网络结合了神经网络与外部记忆(模型可以读出与写入),可以用于文本分类与QA任务。
    它具有一个大小可变的编码记忆存储器,随着时间进行改变,并通过读入、生成、写入操作来保存对输入序列的理解。
    在这里插入图片描述
    针对QA任务,将一系列的状态(记忆实体)提供给模型,作为对问题的支持事实,模型会学习如何根据问题与历史检索记忆来检索实体;该模型拓展可为端到端的形式,通过注意力机制来实现实体检索。

    (8) 图神经网络GNN

    虽然文本是以序列的形式展现,但其中也包含了图结构,如句法和语义树。

    TextRank:NLP中最早的图模型之一,将文本看作一个图,各种类型的文本单位(如单词、搭配、整个句子)看作节点,节点之间的各种关系(如词法或语义关系、上下文重叠)看作边。

    GCN(Graph Convolutional Network)及其变体:有效且高效,是最流行的结构,在很多应用上都取得了SOTA的效果。
    在这里插入图片描述
    基于graph-CNN模型:首先将文本转换成词图,然后用图卷积操作来处理词图,实验表明,词图的表示能够获取文本中的非连续和长距离语义,并且CNN可以学习到不同层次的语义信息。
    在这里插入图片描述
    GCNN方式:通过词贡献关系与文档-词关系,将整个语料构建成一个单一的图。词与文档为节点,随机初始化节点表示;后用已知标签的文档进行有监督训练,从而学到词跟文档的向量。
    在这里插入图片描述
    tips:在大量文本上使用GNN代价较大,一般会通过降低模型复杂度或者改变模型训练策略来减少成本。前者有SGC(Simple Graph Convolution),它移除了连续层之间的非线性转换操作;后者对文档层次进行构建图,而不对整个语料构图。

    (9) 孪生神经网络S2Net

    S2Net或者其变体DSSM(Deep Structured Semantic Model)主要针对文本匹配问题。

    DSSM(或者S2Net):包含了一对DNN结构(f1、f2),将x、y分别映射到一个低纬语义空间,然后根据cosine距离(或其他方法)计算其相似度。S2Net中假设f1与f2具有一样的结果甚至一样的参数,但在DSSM中这两个可以根据实际情况具有不同的结构。因为文本以序列的形式展现,所以通常会用RNN类的结构来实现f1、f2,后来也有人使用CNN等其他结构,在BERT出现之后,也有不少基于BERT的模型,比如SBERT、TwinBERT等。
    在这里插入图片描述

    (10) 混合模型(模型融合和多任务)

    很多混合模型都会结合LSTM与CNN结构来获取局部特征与全局特征,如C-LSTM与DSCNN。

    C-LSTM(Convolutional LSTM):先用CNN提取文本短语(n-gram)表示,然后输入LSTM获取句子表示;
    DSCNN(Dependency Sensitive CNN):先用LSTM获取学习句向量,然后输入CNN生成文本表示。
    在这里插入图片描述
    SAN模型(Stochastic Answer Network):针对阅读理解中的多步推理;包含很多结构,如记忆网络、注意力机制、LSTM、CNN。其中Bi-LSTM组件来获取问题与短文的内容表示,再用基于问题感知的注意力机制学习短文表示。
    在这里插入图片描述
    “高速公路”网络:可以解决基于梯度训练的网络随着模型深度的增加变得更加困难的问题;它允许信息在多个层上无阻地流动,有点类似于ResNet;是一种基于字符的语言模型,先用CNN获取词表示,再输入到“高速公路”网络,然后接LSTM模型,最后用softmax来预测每个词的概率。
    在这里插入图片描述

    (11) 非监督学习

    • 自编码的无监督学习:跟词向量类似,通过优化一些辅助目标,如自编码器的重构loss,可以用非监督的形式学习句子的表示。
    • 对抗训练:是提高分类器泛化能力的一种方法,通过扰动输入数据生成对抗样本,提高模型的鲁棒性。
    • 强化学习:是训练代理根据策略执行某些动作的方法,通常用最大化奖励来进行训练。

    五、其他

    文本分类评测指标

    • 准确度、错误率
    • 召回率、正确率、F-测度值、微平均和宏平均
    • 平衡点(break-even point)、11点平均正确率(11-point average precision)
    • 精确匹配(EM)、平均倒数排序(MRR)
    • NAP、ACU等

    数据集

    • 情感分析数据集:Yelp、IMDB、SST、MPQA、Amazon、其他
    • 新闻分类数据集:AG News、20 Newsgroups、Sougo News、Reuters news、其他
    • 主题分类数据集:DBpedia、Ohsumed、EUR-Lex、WOS、PubMed、其他
    • 问答数据集:SQuAD、MS MARCO、TREC-QA、WikiQA、Quora、其他
    • 自然语言推理数据集:SNLI、Multi-NLI、SICK、MSRP、其他

    短文本分类:隐马尔可夫、最小熵MEMM、条件随机场CRF、LSTM循环神经网络

    深度学习经验

    • 模型不是最重要的:要理解数据、超参调节 深度学习网络调参技巧 - 知乎专栏
    • 关注迭代质量:记录和分析你的每次实验
    • 一定要用 dropout:除非数据量特别小,或用了更好的正则方法如bn;默认情况下设置为0.5
    • fine-tuning 是必选的:不能只使用word2vec训练的词向量作为特征表示
    • 未必一定要 softmax loss:若任务是多个类别间非互斥,可尝试训练多个二分类器
    • 类目不均衡问题:可尝试类似 booststrap 方法,调整 loss 中样本权重方式
    • 避免训练震荡:增加随机采样因素、默认shuffle机制、调整学习率或 mini_batch_size

    模型融合:依靠差异性(改变输入->字/词;人为定义不同的偏差计算方式);加权融合

    • 利用预训练好的单模型初始化复杂模型的某一部分参数:
      模型过拟合很严重,难以学习到新的东西(单模型在训练集上的分数逼近理论上的极限分数)-> 采用较高的初始学习率从过拟合点拉出来,使得模型在训练集上的分数迅速降低到0.4左右,然后再降低学习率,缓慢学习,提升模型的分数。
    • 共享embedding(这种做法更优):
      能够一定程度上抑制模型过拟合,减少参数量。虽然CNN/RNN等模型的参数过拟合,但是由于相对应的embedding没有过拟合,所以模型一开始分数就会下降许多,然后再缓慢提升。
    展开全文
  • 自然语言处理—文本分类综述/什么是文本分类

    千次阅读 多人点赞 2021-11-22 15:11:42
    最近在学习文本分类,读了很多博主的文章,要么已经严重过时(还在一个劲介绍SVM、贝叶斯),要么就是机器翻译的别人的英文论文,几乎看遍全文,竟然没有一篇能看的综述,花了一个月时间,参考了很多文献,特此写下此...
  • 聚类算法(4)--Hierarchical clustering层次聚类

    万次阅读 多人点赞 2018-11-07 17:45:47
    目录   一、层次聚类 1、层次聚类的原理及分类 ...1)层次法(Hierarchicalmethods)先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个...
  • SVM实现多分类常用的两种方法以及一对一的代码(VS13+opencv3.4) SVM是一个二值分类器,处理多分类问题的时候需要构造合适的多类分类器。 (1)直接,直接在目标函数上进行修改,将多个分类面的参数求解合并到...
  • A Survey on Text Classification: From Shallow to Deep Learning ...根据所涉及的文本以及用于特征提取和分类的模型创建用于文本分类分类法。然后,详细讨论这些类别中的每一个类别,涉及支持预测测试的技术.
  • 分类实现多分类

    2019-05-08 16:34:00
    很多分类器在数学解释时都是以二分类为例,其数学推导不适用于多分类,模型本身也只能用于二分类,如SVM,Adaboost , 但是现实中很多问题是多分类的,那这些模型还能用吗 二分类 to 多分类 更改数学原理 改变...
  • 划分子网在一定程度上缓解了因特网发展中遇到的困难,但其仅仅是对分类编址方式的改进,A、B、C类IP网络号都为8的倍数,其划分不够精细,存在很大程度的浪费,基于此,无分类编址方式CIDR应运而生。 分类编址的问题 ...
  • 根据知网的一篇文章写的总结,详见我的资源的pdf:深度学习在点云分类中的研究综述_王文曦.pdf 这篇文章详细介绍了点云语义分割的发展概况。 正文开始 点云的语义分割的发展概况,先上图: ...
  • 摘要部分介绍了一下层次语义相关性在目前的细粒度识别研究中往往被忽视,这里举了一个例子:鸟类可以根据目、科、属和种的四个层次进行分类。这种层次结构编码了不同级别的不同类别之间的丰富相关性,可以有效地规范...
  • 机器学习之层次聚类及代码示例

    千次阅读 2017-03-18 17:18:37
    一、层次聚类层次聚类是无监督学习方法,可对给定的N个待聚类的样本进行层次分类,直到某种条件(类的个数、类间的距离超过某个阈值)满足为止。1、层次聚类的划分对于层次聚类,可具体分为:a. 凝聚的...
  • (分类、概括、管理方便) 2、编码原则 • 编码的系统性和科学性 • 编码的一致性 • 编码的标准化和通用性 • 编码的简捷性 • 编码的可扩展性 3、常用的编码方法——层次分类编码法 按照分类对象的从属和层次关系...
  • 细粒度图像分类(FGVC)---综述

    万次阅读 多人点赞 2019-04-28 16:28:02
    什么是细粒度图像分类 细粒度图像分类问题是对大类下的子类进行识别。细粒度图像分析任务相对通用图像(General/Generic Images)任务的区别和难点在于其图像所属类别的粒度更为精细。 以图1为例,通用图像分类其...
  • 对比预测编码

    千次阅读 2019-07-16 21:12:43
    例如,当预先训练一个模型来进行图像分类时,诱导特征相当好地转移到其他图像分类领域,但也缺乏某些信息,如颜色或计数能力,这些信息与分类无关,但与图像标题[4]相关。类似地,用于转录人类语音的特征可能不适合...
  • 目前,构造SVM多类分类器的方法主要有两类:一类是直接,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单,但其计算...
  • 基于深度学习时间序列分类研究综述[论文阅读]

    万次阅读 多人点赞 2019-03-15 10:22:22
    时间序列分类研究简介核心论文写在前面的话原文概述摘要1引言2背景2.1时间序列分类2.2基于深度学习的时间序列分类2.3生成性或判别性方法生成模型判别模型3方法3.1为什么判别的端到端方法?3.2方法比较完全卷积神经...
  • 1.1 层次聚类的原理及分类 1)层次法(Hierarchicalmethods):先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一...
  • 论文地址高光谱遥感影像分类研究进展南大、矿大、河海15年的文章比较老,科普文,但是理论总结和语言用词都比较扎实 在总结分类策略的基础上,重点从以核方法(SVM)为代表的新型分类器设计、特征挖掘、空间-光谱...
  • 文章目录综述:基于深度学习的文本分类《Deep Learning Based Text Classification: A Comprehensive Review》论文总结(一)总结1.Introduction文本分类任务2.用于文本分类的深度学习模型2.1 Feed-Forward Neural ...
  • 信息分类编码技术研究及应用

    千次阅读 2008-01-07 10:27:00
    本文从烟草机械制造企业信息化过程入手,介绍信息分类编码在企业信息化中的重要性, 对信息分类编码技术进行了较为详细的阐述,重点介绍烟草机械制造企业信息分类编码的方法、信息分类编码的原理与编码的内容。...
  • 传统情感分类方法与深度学习的情感分类方法对比

    万次阅读 多人点赞 2018-11-10 16:57:16
    标注:本博客是参考论文《传统情感分类方法与机遇深度学习的情感分类方法对比分析》写的,作者段传明。 情感分类是自然语言处理的重要分支,传统情感分类主要有基于情感词典的和基于机器学习的,最新的方法是基于...
  • 一期涉及新手入门、识别数字、图像分类、词向量、情感分析、语义角色标注、机器翻译、个性化推荐。 二期会有更多的图像内容。 随便,帮国产框架打广告:加入TechWriter队伍,强大国产深度学习利器。...
  • 相关工作 2.1 基于核的一类分类 2.2 异常检测的深层次方法 3.Deep SVDD 3.1 深度支持向量描述器目标 3.2 优化DSVDD 3.3 DSVDD的性质 4. 实验 4.1 完成方法 4.2 MNIST和CIFAR-10上的一类分类 4.3 在GTSRB停止标志上...
  • 分类和预测

    千次阅读 2020-01-20 17:29:45
    总述:分类和预测是数据挖掘当中梳理数据信息,提高有用数据浓度的常用操作,是数据... 惰性学习 其他的分类方法 预测 分类器或预测器的准确率和误差的度量 提高分类准确率的策略 如何选择合适的分类模型 ...
  • 计量科学大数据分级分类

    千次阅读 2022-03-10 00:22:16
    计量科学大数据分级分类智峰, 田锋, 赵若凡中国计量科学研究院国家计量科学数据中心,北京 100029摘要:基于我国数据共享开放的发展趋势以及科研数据安全管理的相关政策,对我国计量行业数...
  • 然后利用层次分类法与最小输出编码法构建贝叶斯相关向 量机多级分类树模型, 实现电能质量扰动信号的分类与识别. 研究表明, 该方法能在强噪声背景下获得高精度的扰动 分类识别率, 具备比S 变换更高的时频...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 23,599
精华内容 9,439
关键字:

层次分类编码法