精华内容
下载资源
问答
  • 2021-10-05 15:39:47

    什么是短语搜索(phrase search)

    短语搜索,顾名思义就是搜索短语的整体,而不是局部。举个例子,搜索"heart attach",得到的是两个单词同时出现的情况,而不是单单有heart或者单单有attach。

    如何进行短语搜索

    搜索短语时候添加上英文的双引号即可

    高级之处

    短语搜索还有两个额外的高级之处:

    1. 能够识别标点符号,例如搜索"heart attach"和搜索"heart-attach"得到的结果是一致的。
    2. 包括了复数和变体,例如搜索"heart attach"包含了"heart attacks"。例如搜索"color code"包含了"colour code"

    Reference

    1. ScienceDirect: How do I use the advanced search?
    更多相关内容
  • 出现频率最高的法语短语和词组.rar
  • 出现频率最高的法语短语和词组.doc
  • 字数统计 Minecraft插件可统计单词或短语出现次数
  • 本文解释了短语是什么,并从语法的结构分析了短语及其基本组成部分。 它还讨论了影响因素和它们之间的关系。 在合理地分析和理智地理解了旋律,情绪,和谐和节奏的... 它可以帮助表演者重新出现,而不需要更多的关闭。
  • 短语抽取专利汇总

    2022-02-28 09:37:44
    短语抽取专利汇总 利用语义特征的科技创新领域中文关键短语抽取方法及系统 【词性标注 + rake + 向量相似度】 摘要:本发明公开了一种利用语义特征的科技创新领域中文关键短语抽取方法及系统。 本发明通过挖掘中文...

    短语抽取专利汇总

    利用语义特征的科技创新领域中文关键短语抽取方法及系统 【词性标注 + rake + 向量相似度】

    摘要:本发明公开了一种利用语义特征的科技创新领域中文关键短语抽取方法及系统。
    本发明通过挖掘中文科技创新文档语料特征,构建出中文停用词及停用模式库,实现对无效信息的高性能过滤;
    此外借助领域专家标注对各类关键短语抽取算法进行量化评估分析,从而选用更加适合领域认知的算法模型,并利用多种统计规则进行过滤以提升短语抽取性能;
    进一步利用文档的结构特点,对文档的主题语义进行向量空间嵌入表示,并综合利用所抽取短语与文档主题的语义相似度,和短语语义重要程度进行计算与排名,完成对关键短语的进一步筛选。
    该方法可支撑多种下游任务和应用,包括科技创新领域知识图谱构建、科技创新文档语义检索、科技创新实体精准搜索等场景。

     1.一种利用语义特征的科技创新领域中文关键短语抽取方法,其特征在于,步骤如下:/n
     S1、获取科技创新领域的多种中文文档,并转换为统一中文编码格式,形成科技创新领域文档库;/n
     S2、对科技创新领域文档库中的文档进行分句、分词和词性标注后,利用符合科技创新领域中文文档特征的中文停用词及停用模式库进行候选短语的抽取,
         并针对每个抽取出的候选短语,利用Rake算法计算候选短语的关键程度;
         再对抽取得到的候选短语列表,通过基于科技创新文档统计分析得到的关键短语过滤规则,对候选短语进行过滤筛选,得到初步筛选后的关键短语列表;/n
     S3、利用预训练的科技创新文档词向量对科技创新领域文档库中的文档字符进行向量化编码,得到向量化编码文档;
         然后针对每一篇科技创新文档,将对应的所述关键短语列表进行向量化编码,然后计算文档与关键短语列表之间的语义相似度,
         所述语义相似度包括候选短语与文档主题之间的语义相似度以及候选短语与候选短语之间的语义相似度;
         再基于所述语义相似度,利用图网络构建候选短语之间的语义相似度网络,并利用语义网络重要度计算算法得到候选短语的语义重要度,
         用于表示候选短语在文档中的重要程度;最后,对所述候选短语的关键程度、所述候选短语与文档主题之间的语义相似度以及所述候选短语的语义重要度进行综合,
         得到候选短语的综合得分,并以候选短语的综合得分为依据筛选得到科技创新领域的最终中文关键短语列表。/n
    

    一种主题短语抽取方法 【切词/链接/名词短语 + 中心词 + 主题模型】

    摘要:本发明涉及一种主题短语抽取方法,包括:
    文档预处理;求文档‑主题集、全文词汇链集及名词短语集;求中心词集;求候选主题短语集;求主题短语集。
    本发明提供的主题短语抽取方法,通过LDA模型与词汇链相结合来进行主题短语抽取,可以利用语料库之外的具有较完备语义信息的知识库WordNet,
    通过语义相关度计算和强链规则筛选可以得到强词汇链,从而在很大程度上减少主题词二义性问题;
    同时,利用中心词提取方法和N‑P规则合并、去重等步骤完成主题短语的提取,借助具有更丰富语义信息的主题短语来表达主题,从而解决了主题词粒度过小、辨识度低等问题,
    且能够保证主题抽取的准确率和召回率,减少了主题漂移现象,可以很好地满足实际应用的需要。

     1.一种主题短语抽取方法,其特征在于,包括以下步骤:
     步骤1)文档预处理;
     步骤2)求文档‑主题集、全文词汇链集及名词短语集;
     步骤3)求中心词集;
     步骤4)求候选主题短语集;
     步骤5)求主题短语集。
    

    一种技能短语抽取方法 【 规则 + 删除/分词 】

    摘要:本发明涉及计算机自然语言处理中短语抽取技术领域,具体的讲是一种技能短语抽取方法,
    首先获取文本内容,对获取的文本进行预处理,即删除文本主题前方带有的数字或者特殊索引符号,然后利用分隔符将文本分割成句子片段,之后构造抽取规则,
    运行抽取规则抽取技能短语片段,再对抽取的片段进行清洗,删除词语序列中的修饰词等没有实际意义的词语,然后进行分词处理,
    最后针对分词后的词语序列进行短语构建,形成技能短语。
    本发明可以应用在非结构化数据中,例如企业招聘等领域,在实施中不需要构建训练集和分类器,降低了数据预备与算法训练成本,能够自动确定技能短语的长度,
    避免主观性,避免了统计法中阈值选择的难题。

     1.一种技能短语抽取方法,其特征在于:包括如下步骤:/n
     S1预处理文本;/n
     S2抽取技能短语片段;/n
     S3清洗包含技能短语的结构;/n
     S4构建技能短语;/n
     S5生成技能短语。/n
    
    • [一种技能短语抽取方法 审中-实审](一种技能短语抽取方法 审中-实审)
    • 上海硕恩网络科技股份有限公司(2020-12-04)

    一种关键短语抽取方法和装置 【词对的共现信息】

    摘要:本发明提供了一种关键短语抽取方法和装置,涉及文本处理技术领域。
    本发明提供的关键短语抽取方法和装置,在确定关键短语的时候,能够确定词对的共现信息并根据词对的共现信息,确定文本的关键短语。
    共现信息能够体现组成词对的各个分词之间的关系,对应短语多为固定搭配以及专有名词的特点,
    以共现信息作为确定关键短语的依据,能够提高关键短语抽取的准确率,提高了关键短语抽取的精度。

    一种关键短语抽取方法,其特征在于,所述方法包括:
    对文本进行预处理,得到多个分词;
    将所述多个分词中每两个相邻的分词组合,得到多个词对;
    通过预设的成词搭配特征表,确定所述多个词对中每个词对的共现信息;
    根据所述每个词对的共现信息,确定所述文本的关键短语。
    

    文本短语抽取方法、装置、计算机设备及存储介质 审中-实审 【基于词法的名词抽取 + 向量相似度权重】

    摘要:本申请实施例属于人工智能领域,涉及一种文本短语抽取方法,
    包括获取待处理文本和预设语言模型, 输入所述待处理文本至所述预设语言模型中,计算得到长文本特征;
    获取预设词法工具,根据所述预设词法工具对所述待处理文本进行名词抽取,得到候选短语,
    对所述候选短语进行特征编码,得到所述候选短语对应的候选向量;
    计算所述候选向量和所述长文本特征的相似度,选取所述相似度最大的候选向量对应的候选短语,作为所述待处理文本的目标抽取文本。
    本申请还提供一种文本短语抽取装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,
    目标抽取文本可存储于区块链中。本申请实现了对文本短语的高效抽取。

    一种语义短语抽取方法及相关装置【向量聚类 + 正则 + 名词性短语】

    摘要:本申请实施例公开了一种语义短语抽取方法,包括:对输入文本信息进行分词和去除无含义词处理,得到待处理文本信息,输入文本信息为用于训练的信息;
    将所述待处理文本信息进行转换得到文本向量矩阵;
    基于激活函数,根据所述文本向量矩阵计算文本向量;
    对所述文本向量进行聚类得到第一正则表达式;
    根据所述第一正则表达式对目标文本信息进行抽取,得到第一目标语义短语,所述第一目标语义短语包括名词实体和动词加名词实体的短语。

    一种从文档集中抽取热词短语的方法和装置 【词典切词 + 【细粒度词】基于熵的新词发现】

    本发明公开了一种从文档集中抽取热词短语的方法和装置,其中分词单元对所述文档集中的每个分句进行分词;
    判断单元为针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;
    热词短语抽取单元为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。
    与现有技术相比,本发明提供的方法和装置可以更准确地从各种语料库中抽取热词短语。

     一种从文档集中抽取热词短语的方法,包括:
     对所述文档集中的每个分句进行分词;
     针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;
     基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出;
     其中,判断短语边界明显度包括:通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;
     或通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,
     并与相应阈值比较,判断短语边界明显度;
     其中,通过以下公式计算所述短语的左、右信息熵:
       所述短语的左信息熵的计算如下:
         或其中,w表示所述短语,ai表示所述文档集中紧挨着短语w的左侧词集合{a1,a2,a3,…,as}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,m>1,
         C(ai,w)表示紧挨着短语w的左边出现在所述文档集中的次数,LCE(w)表示短语w的左信息熵;
       所述短语的右信息熵的计算如下:
         或其中,w表示所述短语,bi表示所述文档集中紧挨着短语w的右侧词集合{b1,b2,b3,…,bp}中的任一词,
         N(w)表示短语w在所述文档集中出现的总次数,n>1,C(w,bi)表示词bi紧挨着短语w的右边出现在所述文档集中的次数,RCE(w)表示短语w的右信息熵。
    

    文本处理方法、装置、设备及存储介质 【seq2seq生成式】

    摘要:本申请实施例涉及人工智能领域,公开一种文本处理方法包括:
    通过训练后的文本处理模型对目标文本进行编码处理,得到目标文本的表示向量;
    通过第一堆叠关系网络对目标文本的表示向量进行关键短语抽取处理,得到目标文本对应的第一关键短语的表示向量,以及通过第一堆叠关系网络对目标文本的表示向量进行关键短语生成处理,得到目标文本对应的第二关键短语的表示向量;
    对目标文本对应的第一关键短语的表示向量进行解码处理,得到目标文本对应的第一关键短语,并对目标文本对应的第二关键短语的表示向量进行解码处理,得到目标文本对应的第二关键短语;
    生成目标文本对应的关键短语集合,可提高根据文本预测关键短语的预测精度。

     1.一种文本处理方法,其特征在于,包括:/n
     通过训练后的文本处理模型对目标文本进行编码处理,得到所述目标文本的表示向量;/n
     通过第一堆叠关系网络对所述目标文本的表示向量进行关键短语抽取处理,得到所述目标文本对应的第一关键短语的表示向量,
         以及通过所述第一堆叠关系网络对所述目标文本的表示向量进行关键短语生成处理,得到所述目标文本对应的第二关键短语的表示向量,
         其中,所述第一堆叠关系网络为所述训练后的文本处理模型中的网络,所述目标文本对应的第一关键短语为存在于所述目标文本中的关键短语,
         所述目标文本对应的第二关键短语为不存在于所述目标文本中的关键短语;/n
     对所述目标文本对应的第一关键短语的表示向量进行解码处理,得到所述目标文本对应的第一关键短语,并对所述目标文本对应的第二关键短语的表示向量进行解码处理,
         得到所述目标文本对应的第二关键短语;/n
     生成所述目标文本对应的关键短语集合,所述关键短语集合包括所述目标文本对应的第一关键短语和所述目标文本对应的第二关键短语。/n
    

    基于主题模型的领域标签获取方法 【词典切词 + LDA】

    摘要:本发明提供一种基于主题模型的领域标签获取方法,在海量学术数据的基础上,
    分析学术数据固有的特点,引入学术词频特征构建FLDA主题模型,利用主题模型将同一学者的学术文档进行“主题‑短语”抽取。
    其次,引入领域体系,将主题模型的抽取结果与体系标签进行向量表征,经过位置加权后使用相似度进行体系映射,最终获得学者的领域标签。
    实验表明,FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比,最终获取的标签词效果更好,准确率更高,
    说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。

    基于中文短语串的细粒度主题信息抽取方法 无权-驳回 【多种方式候选集 + 正则/词频 + 种子词拓展】

    摘要:本发明提出了一种基于中文短语串的细粒度主题信息抽取方法,首先对输入的原始文本集进行预处理,主要分为中文分词、停用词处理和词性标注。
    在进行预处理的同时,进行扩展词汇输入,从而提高中文分词的准确度。
    预处理阶段完成后,得到处理后的结构化文本集合。
    然后进行基于词性的正则表达式匹配,得到一个初步的短语筛选结果。然后统计每个词语的串频信息,选取种子词,对短语进行扩展,最终得到短语抽取结果。
    通过实验证明,该文本抽取方法能够有效且精炼地抽取文本短语,具有一定的可靠性和应用性。

    (a)对原始文本进行常规的文本分析的预处理步骤,包括中文分词、停用词处理和词性标注;
    (b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理,从而得到结构化的文本集合;
    (c)利用步骤(a),(b)中得到的结构化文本集合,进行基于词性长度的正则表达式匹配,以7个词语作为短语长度的上限;
    (d)利用步骤(c)过滤得到的短语抽取的中间结果,进行词语串频信息统计,包括前缀短语串频集合和后缀短语串频集合的信息统计;
    (e)基于步骤(d)统计得到的信息进行词语串频信息参数分析;
    (f)基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。
    

    一种基于最大凝聚系数和边界熵的未登录词识别方法 【 基于熵的新词发现 】

    摘要:本发明提供了一种基于最大凝聚系数和边界熵的未登录词识别方法,其特征在于:
    包括以下步骤:预处理—参数计算—判断未登录词—未登录词保存至文件—未登录词添加;
    本发明中实验表明,本发明中所提出的算法准确率为66.67%相比于汪龙庆等在计算机应用与软件期刊中所发表的论文:
    基于未登录词识别的微博评价短语抽取方法中所提出的算法准确率为60.05%有较大程度的提高,提升了6.62个百分点,
    并且分别在未登录词识别的精确率、召回率和F1值也有所改善,推测结果提高的原因是左右邻接边界熵这两个参数对未登录词识别都有影响,
    但汪龙庆等的论文中中将左右邻接边界熵最小值设为一个参数,只是取其中最小值为影响未登录词识别算法的因素。

    预处理—参数计算—判断未登录词—未登录词保存至文件—未登录词添加;/n
    参数计算包括以下步骤:/n
        S1、计算语料库中的WB2、WB3的词频tfi2和tfi3;/n
        S2、使用公式计算语料库中的WB2、WB3的凝聚系数和/n
        S3、使用公式计算语料库中的WB2、WB3的左邻接边界熵和/n
        S4、使用公式计算语料库中的WB2、WB3的右邻接边界熵和/n
        S5、对每一条文本都循环进行步骤2-1到2-4的unigram计算并在unigram词计算的基础上计算bigram的四个参数并保存。/n
    

    专利中技术短语的自动抽取方法 【 短语抽取+实体识别工具 】

    摘要:本发明公开了一种专利中技术短语的自动抽取方法,包括:
    根据专利数据库,获得各领域专利文本以及类别信息;
    利用诸多既有的短语抽取、实体识别工具,构建专利中的候选技术短语的集合;
    根据技术短语的语义、统计特点,设计相应的评价指标来量化候选短语是技术短语的可能性;
    根据专利的多层级结构特点,设计了一种多层的抽取模型来抽取技术短语;
    最后在每个层级上筛选的到技术短语,合并得到专利的技术短语集合,即此专利的技术画像。

     1.一种专利中技术短语的自动抽取方法,其特征在于,包括:/n
     通过专利数据库,获得各个领域内的专利文本信息,以及专利之上的技术类别描述信息;/n
     对于每一份专利,按照专利文本的结构将专利文本信息分为N个层级,使用无监督方法对每一层级进行候选技术短语的抽取,并利用每一层级的候选技术短语各自构建短语图结构;/n
     逐层级的为候选技术短语进行评分,再利用每一候选技术短语的评分结合图结构中候选技术短语之间的关系,迭代计算每个候选技术短语的最终分值,
         按照最终分值的大小筛选出技术短语,其中上一层级筛选出的技术短语用于当前层级候选技术短语的评分计算,第一层级则结合技术类别描述信息进行候选技术短语的评分计算;/n
     综合所有层级选出的技术短语,并进行去重合并,得到一份专利中技术短语。/n
    

    一种文本处理方法及装置 【 词级别中转英 + 英文关键短语抽取】

    摘要:本申请涉及文本处理技术领域,尤其涉及一种文本处理方法及装置。
    本申请通过将获取到的中文文本进行分词处理,得到多个中文词语,在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列,
    进而将中文文本转化为对应的英文文本,进一步地,从英文文本中抽取出多个英文关键短语,并根据中英文映射表,分别将每个英文关键短语转化为中文关键短语。
    与现有技术中只基于中文文本抽取中文关键短语的方法相比,本申请通过预设规则将中文文本转化为英文文本,并采用成熟的英文关键短语的抽取算法对该英文文本进行英文关键短语的抽取,
    进而将英文关键短语转化为中文关键短语,可以提升中文关键短语抽取的准确率和效率。

     1.一种文本处理方法,其特征在于,所述文本处理方法包括:/n
     将获取到的中文文本进行分词处理,得到多个中文词语;/n
     在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列;/n
     根据查找出的多个英文字母序列,将所述中文文本转化为对应的英文文本;/n
     从所述英文文本中抽取出多个英文关键短语;/n
     根据所述中英文映射表,分别将每个英文关键短语转化为中文关键短语。/n
    
    • 一种文本处理方法及装置 审中-实审
    • 北京嘀嘀无限科技发展有限公司( 2020-10-30)
      查找出与每个中文词语分别对应的英文字母序列;/n
      根据查找出的多个英文字母序列,将所述中文文本转化为对应的英文文本;/n
      从所述英文文本中抽取出多个英文关键短语;/n
      根据所述中英文映射表,分别将每个英文关键短语转化为中文关键短语。/n
     - [一种文本处理方法及装置 审中-实审](http://www2.soopat.com/Patent/201910269029)
     - 北京嘀嘀无限科技发展有限公司( 2020-10-30)
    
    希望对你有所帮助
    
    展开全文
  • matlab分时代码语音转换 我们开发此方法的目的是将大量语音存储库隔离到群集中,其中每个群集代表在语义级别与某些更.../文件夹包含用于执行上述任务的代码,以检测语音对之间的短语匹配关键字(Spotingkeywordmatching
  • 一个统计字符串中每个字符出现次数并排序的工具,统计一段字符中出现次数最多的字。
  • 中文短语抽取/挖掘

    2022-03-05 19:50:11
    短语抽取/挖掘(phrase extract/mining, 以下统称短语提取)是信息处理中领域的一项基本任务,但短语抽取与短语挖掘还是有些许不同。 短语挖掘侧重于挖掘,一个常见的场景是半自动/自动从生语料中抽取/挖掘出高质量的...

    中文短语抽取/挖掘

    概述

    短语抽取/挖掘(phrase extract/mining, 以下统称短语提取)是信息处理中领域的一项基本任务,但短语抽取与短语挖掘还是有些许不同。
    短语挖掘侧重于挖掘,一个常见的场景是半自动/自动从生语料中抽取/挖掘出高质量的短语,形成短语词典,提供给下游使用,这更多叫做短语挖掘。
    而短语抽取更关注抽取,侧重于无条件抽取应用,类似关键词抽取那样,使用者无条件抽取一篇文章中的短语,例如通用NLp工具中HanLP1.x的函数extract_phrase。
    短语抽取/挖掘与新词发现类似,都是发现“新词”【未登录词】,最大的不同点在于,中文词语长度一般为2/3/4,而短语往往更长【本文默认4-10的词语为短语】,因此也有一些新特性。

    在这里插入图片描述

    坦率的说,中文短语抽取/挖掘任务的发展并不是令人鼓舞的,也没有那么乐观,仅仅有31 papers with code, 2 datasets。

    前言

    • 和几乎其他所有的自然语言处理NLP任务一样,早期,20世纪80年代以前,短语提取的形式也是基于规则的【语言学】,比如说分块chunk、词性标注pos等 + 规则依然不失为一种短语提取的基础方案,短语,如主谓短语、动宾短语、偏正短语、中补短语、联合短语,通常由动词v、名词n、形容词adj作中心语。
    • 20年代80年代开始,计算机领域发生了一系列深刻的变革,尤其是集成电路的发展、微机的崛起,不仅是算力的提升,计算机不再高不可攀,它的迅速普及也使得各种奇思妙想集中迸发出来。 尤其是80年代末,传统统计机器学习开始兴起,其能够非线性、概率地进行计算,很快成为时代的宠儿。1980年代提出的TF-IDF、BM25、决策树DT、主成分分析PCA等算法,至今仍然被人们广泛用于关键词【短语】抽取中。
    • 进入90年代,统计机器学习如日中天,这一时期,隐马尔可夫模型HMM、支持向量机SVM、集成学习Ensemble等各种算法层出不穷,代表了传统有监督学习的巅峰【dog-SVM】,也被广泛用于短语的打分函数中。值得注意的是,互联网开始兴起,尤其是90年代末,未登录词的状况也愈发凸显。
    • 到了新世纪,00年代,由PageRank领衔的基于图网络算法数不胜数,TextRank、SingleRank、PositionRank、TopicRank、EmbedRank、SIFRank…与此同时,互联网开始进入Web2.0时代,数据激增,大数据开始星期。值得一提的是,搜狗基于搜索引擎技术的新一代的搜狗拼音输入法开始横扫。
    • 进入10、20年代,人工智能再次迎来高潮,“人工”+"智能"的范式取得了极大的成功。这一时期,技术再次得以突破,有Word2Vec词向量发展而来的EmbedRank、SIFRank、KeyGames;有浅层神经网络的CNN、BiLSTM、CopyRNN;有弱/远程监督抽取的韩家炜团队三部曲TopMine、SegPhrase、AutoPhrase;也有预训练模型BERT发展而来的Roberta、UCPhrase;此外还有一些生成式、多任务的方法例如One2Seeq、One2Set;BERT-KPE。
    • 除此之外,HanLP1.x实现的短语抽取,即论文《利用统计量和语言学规则提取多字词表达》。2012年间Matrix67在博客《互联网时代的社会语言学:基于SNS的文本数据挖掘》一文中,提出了一种影响广泛的、基于统计学概率【左右熵/凝固度】的新词发现算法。Kavita Ganesan2018、2019年苏建林相继给出的,基于高质量种子词聚类的方法。丁香园基于字典进行切割N-Gram、远程监督、词性标注、BERT字向量等获取短语候选集【很迷糊,不理解怎么获取候选集的】,然后采用GDBT进行打分。

    在这里插入图片描述

    技术

    定义

    短语,在早期的一些论文中被称为”多字词表达“【multi-word expressions】。《利用统计量和语言学规则提取多字词表达》论文中支指出多字词表达包括动词短语(爆发、取决于) ,复合名词(机器翻译、警用车辆) ,成语(雨后春笋、三人 行必有我师) 等等。

    百度百科中的定义为,短语是由句法、语义和语用三个层面上能够搭配的语言单位组合起来的没有句调的语言单位,又叫词组,它是大于词而又不成句的语法单位。其基本短语包括主谓短语【粮食//丰收(名//动)】、动宾短语【想//他 (动//代)】、偏正短语【定中短语—他//的马 (代//名)、状中短语—刚//回来 (副//动)】、【中补短语 打量//一番 热//死了】、【联合短语 今天//和//明天(名//名 并列)】。

    可以发现,语言学中的短语,与我们NLP中短语提取并不完全重合。比如说,一般NLP中我们会把2-3的词叫做"词语"、4-?的才称为短语【直觉中我们不大会认为"热起来"是短语】。此外,我们更加偏向于抽取有意义的短语【如有动词、名词的,”今天和明天“我们一般也不认为这是"短语"】。

    开源方案

    从更一般的角度而言,短语提取技术方案可以分为两个步骤: 1.候选短语生成、2.短语打分两个阶段,早期的算法可能融合起来只有一个步骤,比如说基于规则。
    同时每个步骤的算法又可以分为无监督、半监督、有监督这三种形式,无论是传统机器学习、亦或是深度学习模型,都可以用于这两个步骤。

    • Jieba tfidf/textrank, 抽取的主要是关键词, 而不是短语
    • textrank4zh textrank, 还是jieba分词的问题, 抽取的是关键词
    • HanLP1.X 词典 + 熵, 依赖语料, Java
    • JioNLP=CKPE tfidf【pkuseg】 + 融合连续的动词-名词 + 重新计算权重 + 过滤【词性、LDA主题】
    • CKPE 分词 + 词性标注 + tfidf + 连续词融合 + lda
    • pke 更多的是支持英文
    • Macropodus 新词发现长词(长度大于2), 词频-凝固度-左右熵, 过滤通用词库, 存在噪声, 阈值过滤,以及后期打分并不容易过滤
    • EmbedRank sent2vec句子/短语 +MMR
    • SIFRank+ 候选短语占句子的权重, ELMO + 向量的余弦相似度
    • 种子词+聚类 二段式【词向量聚类】(候选集使用熵等, 然后根据一定的种子词作为聚类初始化), 需要构建种子词, 候选短语切割不是那么准确
    • TopMine 二段式【上下文迭代合并】(候选集用新词发现方法, 频次过滤, 类似PMI合并上下文短语, LDA约束打分)
    • SegPhrase 二段式【远程监督】200-300个数据进行随机森林RF分类
    • AutoPhrase 二段式【随机森林RF】, wiki/Freebase构建高质量词典, 鲁棒-正样本远程监督训练, POS-Guided短语分割
    • 丁香园总结-实践tricks 二段式,分词使用领域语料-ngram+pos统计+远程监督+bert, 排序选择GBDT(样本为词典+ngram), 无法保证分词的效果, 需要领域词典
    • One2Seq 生成式,顺序[present [存在于原文中的内容]前,absent[不存在于原文]后],对keyphrase 分割, 结束。Semantic Coverage保留语义。
    • One2Set 生成式,无序,引入Control code 每个控制编码对应生成一个集合元素,匈牙利算法
    • BERT-KPE 多任务, candidate chunking【CRF/SPAN/CNN-SoftMax】和ranking【Max】
    • UCPhrase 二段式,当前State-of-the-Art, 预训练, mlm样本为单篇文章中出现频次高的n-gram, 分类器选择为Light-Wise分类器【CNN/LSTM】

    实践建议

    • 分类模型的高质量短语, 可以来源于百科词条【百度、维基】, 知识图谱【开放知识图谱】, 输入法词典【搜狗, 百度】, 开源项目词典【funNLP, Thunlp, 领域词典】;
    • 候选短语生成最好还是严格些, 否则分类模型就需要处理各种奇奇怪怪的问题;
    • 分类模型负样本的构建最好是随机N-Gram, 可以过滤上面所说的词典, 也可以用各种经典统计量过滤, 比如新词发现的统计量就很不错;

    参考

    希望对你有所帮助!

    展开全文
  • 含out短语动词一直以来在中国大学生议论文写作中以高频率出现,因其意义复杂,词义不透明,成为中国大学生英语学习过程的难点之一。以carry out等短语动词为例,通过对比学习者语料库WECCL和英语本族语语料库LOCNESS,...
  • 英语六级改错中常出现的高频短语 网罗了众多高频短语,为考生排忧解难~~~
  • 由于短文本中的关键词出现次数少,文本挖掘的精度很难保证。该文提出了一种基于频繁词集并结合语义信息的并行聚类算法来解决海量短语信息的聚类问题。实验表明,该方法在处理海量短语信息时具有很好的性能和准确度。
  • set的短语

    千次阅读 2021-01-17 10:57:02
     开始:开始发生或出现 3. (风)水向岸(吹)流:移向岸边。用于风和水 十一、set off 1. 爆炸:引起爆炸 Set off a chemical reaction. 发生化学反应  Set off a bomb. 炸弹爆炸 2. 区分:指出...

    展开全部

    set常用词组:

    一、set about 1. 开始32313133353236313431303231363533e58685e5aeb931333366303065:开始或出发 Set about solving the problem. 着手解决问题

    二、set apart  1. 留出,拨出:留出以备专用  2. 使引人注目 Character traits that set her apart. 使她引人注目的个性

    三、set aside  1. 留出,拨出:分开或留出以备专用  2. 抛弃,放弃  3. 废除:声明无用、取消或否决 The court has set aside the conviction. 法庭宣告无罪

    四、set at  1. 打击或袭击 The dogs set at the fox. 狗群冲向狐狸

    五、set back  1. 阻止:减慢进程;妨碍  2. 【非正式用语】 花费 That coat set me back $1,000. 那件衣服花了我1,000美元

    六、set by  1. 保留为将来之用  It is wise to set food and money by in case of a future emergency. 为将来紧急情况贮备食物和钱是明智的

    七、set down 1. 坐:使坐;坐下  Set the baby down here. 让小孩坐这儿  2. 记录:写下;记录  We set down the facts. 我们记下事实  3. 把„归于:由„引起;把„归于  Just set him down as a sneak. 当他是个阴险的人 Let's set the error down to inexperience. 让我们把错误归于没有经验  4. 着陆:(飞机)着陆

    八、set forth  1. 提出:提出想法;建议  Set forth a sound plan. 提出一个合理的计划 2. 表达:用语言表达 She has set forth her ideas. 她已经表达出了想法

    九、set forward 1. 开始旅程

    十、set in  1. 插入 Set in the sleeve of a gown. 插入礼服袖子中  2. 开始:开始发生或出现 3. (风)水向岸(吹)流:移向岸边。用于风和水

    十一、set off

    1. 爆炸:引起爆炸 Set off a chemical reaction. 发生化学反应  Set off a bomb. 炸弹爆炸

    2. 区分:指出不同;区分  Features setting him off from the crowd. 使他与人群分开的特征

    3. 强调: 通过对比引起注意;强调 Set off a passage with italics. 用斜体字强调一段

    4. 开始旅程  Set off for Europe. 开始欧洲之旅

    944cba4440bc6305776c15c1f10c6c76.png

    扩展资料:

    set是一个英语单词,意思是设置; 放置,安置; 使处于某种状况; 摆放餐具。

    1、vt.设置; 放置,安置; 使处于某种状况; 摆放餐具

    2、vi.落山; 出发; 凝结

    3、n.集合; 一套,一副; 布景; 电视机

    4、adj.固定的; 位于…的; 顽固的; 安排好的

    展开全文
  • 针对关键短语抽取工作可以转化为某种分类问题,利用决策树构造分类器解决关键短语的抽取。统计分析表明,将文档中词的词频因子、首位置和词性作为决策树分类特征,并考虑词在文档中出现的位置信息,对词的特征值进行...
  • 以已经分词并进行了词性标注和介词短语标注的《人民日报》为实验语料,选取其中出现频次高于20次的61个介词为实验对象,采用支持向量机、最大熵和条件随机场这3种统计模型,对介词短语边界识别进行了研究。...
  • 淘宝快捷短语

    千次阅读 2019-05-25 11:21:48
    作为一个淘宝客服人员,每天都有很多的顾客咨询,下面小编为大家整理了一些淘宝客服常用的快捷用语,从新买家入店的客户招待、淘宝宝贝的介绍、以及应对买家还价,对于物流的提问还有繁忙时候的回复的短语,大家可以...
  • 提出,一种在汉语偏正短语中增删助词“的”,以及调整联合结构修饰语中各项次序的中文自然语言文本水印方法.该方法利用结构助词“的”的语用功能和联合结构中各项次序的自由性,通过控制助词“的”的出现方式或调整...
  • 编译原理中:短语,直接短语,句柄

    万次阅读 多人点赞 2016-12-13 19:37:55
    这几天邻近期末,感觉上了快一学期的编译原理的许多方面还是难以理解,今天早上就突然遇到了一道题,求短语,直接短语和句柄的题,突然才发现自己连这些词的定义都不清楚,于是仔细查了以下,下面分享出来:短语书上...
  • 一个从 中文自然语言文本 中抽取 关键短语 的工具 应用场景 Application scenario 1.抽取关键短语 在很多关键词提取任务中,使用tfidf、textrank等方法提取得到的仅仅是若干零碎词汇。 这样的零碎词汇无法真正...
  • 介词短语做后置定语的用法

    千次阅读 2020-12-19 23:34:37
    【小编编语】今天求学网英语网小编教给同学们的是介词短语做后置定语的用法,一起来学习下吧!介词短语常常用作后置定语,在这类定语中有许多是用of引起的,可以表示:1. 所有关系:the wealth of the nation.(国家的...
  • macOS iOS 如何批量导入自定义短语

    千次阅读 热门讨论 2022-01-20 22:21:23
    macOS iOS 如何批量导入自定义短语 什么是自定义短语 macOS 与 iOS 中的键盘设置中,都有 【自定义短语】这个功能。 这个功能有什么用呢,可以很方便的输入平时常用的一些词条,比如你的住址,或邮箱。 该功能是这样...
  • 搜狗输入法如何设置快捷短语

    千次阅读 2021-04-12 11:55:09
    搜狗输入法是我们都常常使用到的,尤其现在是一个网络的时代,在这个时代里面,谁都需要使用到它,当然了,对于一些不会打字的,就可以使用语音啦,小编今天就教大家:搜狗输入法如何设置快捷短语输入? 搜狗输入法...
  • **快捷短语怎么设置**,淘宝快捷短语设置教程?作为一个电商基本离不开淘宝,而淘宝给我们提供的免费工具又有很多,提升转化的,提高客服工作效率的,提升流量展现的数据分析的等等。这些资源我们要是都能用起来,...
  • 在音频文件中搜索单词/短语或者任意正则表达式模式出现的秒数。这是一个Python库和命令行工具,可以帮助您在音频文件(wav格式)中搜索单词或短语
  • 用户经常需要输入这些产品名称(在软件外部,无法自动完成),并且每次都必须选择单词,正确的候选者通常不会出现在前面,很容易出错,并且输入效率低。通常,此问题与App本身无关。输入法应该考虑这个问题,但是我...
  • 一、TF-IDF TF(term frequency):词频 IDF(inverse document frequency):逆文档频率=log(总文档数量该词...TF× IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为
  • 实用的科技论文写作短语

    千次阅读 2021-11-22 15:59:42
    短语 释义 With the adequate leverage of… 充分利用… It is not until recently that… 直到最近… Among which 其中 ubiquitous adj.普遍存在的 By doing so… 通过这样做… Scales 尺度 ...
  • 随着深度神经网络的发展,近来有研究表明可以根据关键短语和文档的语义相关性生成文档的关键短语(无论它们是否出现在原文中)。但这些方法都是有监督的,并且需要大量的文档--关键短语对训练。 本课题提出了一个无...
  • 在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。 共性分析   互信息mi,左熵lr,右熵re,详细解释见下文 信息论中的互信息   一般而言,信道中...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 48,078
精华内容 19,231
关键字:

关于出现的短语