精华内容
下载资源
问答
  • 中文分词中,交集型歧义检测方法采用的双向最大匹配法与全切分方法存在着各自的弊病,无法满足大规模数据的精确处理。为此,提出了一种快速的交集型歧义检测方法,引入次长词进行检测,能高效准确地检测出中文文本中...
  • 中文分词是中文信息处理的基础,歧义问题是中文分词的一个难点,而交集型歧义问题占歧义问题的90%以上,因此对交集型歧义问题的研究是中文分词研究的一个重点。通过反复的实验和对实验结果的分析,提出了5条规则,并...
  • 针对交集型歧义这一汉语分词中的难点问题,提出了一种规则和统计相结合的交集型歧义消歧模型。首先,根据标注语料库,通过基于错误驱动的学习思想,获取交集型歧义消歧规则库,同时,利用统计工具,构建N-Gram统计...
  • 提出了一种消除中文分词中交集型歧义的模型。首先通过正向最大匹配法和逆向最大匹配法对中文文本信息进行分词,然后使用不单独成词语素表对分词结果进行分析对比消歧,得到符合汉语语境的结果。整个过程分为歧义识别...
  • 规则法消解交集型歧义

    千次阅读 2009-10-17 23:44:00
    通过前人的不断研究和实验结果数据,我们可以得出下面的一些规则: 1.语料库中词频越高的越易于成词;...链长大于2的交集型歧义字段的切分取决于第一个交集型歧义字段的切分; 基于这些规则,吉林大学几位老师提出了

        通过前人的不断研究和实验结果数据,我们可以得出下面的一些规则:

        1.语料库中词频越高的越易于成词;

        2.尽量不切分长词;

        3.无论对真歧义还是假歧义,最准确的和最有意义的切分是依赖语境、上下文的切分;

        4.逆向最大匹配优先;

        5.链长大于2的交集型歧义字段的切分取决于第一个交集型歧义字段的切分;

     

    基于这些规则,吉林大学几位老师提出了一种称为RemoveAmb的消解算法,算法的ADL描述如下:

     

    算法 RemoveAmb(STR, len)

    输入:歧义字段 STR,歧义字段链长 len

    输出:用“/”分割的歧义字段消解结果 new sen

    FUNCTION MULTY_1STR)

    {

         AJB STR.

    IF ( flag == FAlSE) THEN [应用规则 1] //极高频词优先

       ( // f(x)表示 x 在语料库中词频, f(AJ) ≥f(JB) ,

        // f(AJ) < f(JB)的处理方法是相对应的

        Fc ( f(AJ) – f(JB) ) / max( f(AJ), f(JB) ).

       IF( fc ≥ α) THEN

        //α 可以取0.98

        New sen AJ/B. flag TRUE. RETURN.) )

    IF( flag == FALSE) THEN [应用规则2] //长词优先

       // size(x) 表示 x的长度

      ( IF( size(AJ/B) > size(JB) ) THEN

      ( new sen AJ/B. flag TRUE RETURN. )

      ELSE IF ( size(AJ) < size(JB) ) THEN

      (new sen A/JB. Flag TRUE. RETURN.) )

    IF( flag == FALSE) THEN [应用规则3] //语境内词频比较

      // t(x) 表示 x在语境中词频,γ可以取0.4

      ( IF( t(AJ) – t(JB) /max( t(AJ), t(JB) ) > γ) THEN

      (new sen AJ/B. flag TRUE. RETURN. )

       ELSE IF( ( t(JB) – t(AJ) ) /max( t(AJ), t(JB) ) > 0 ) THEN

       (flag TRUE new sen A/JB. RETURN.) )

    IF( flag == FALSE) THEN [应用规则1] //语料库高频词优先

      ( // f(x) 表示 x在语料库中词频,设 f(AJ) ≥ f(JB)

       // f(AJ) < f(JB) 的处理方法是相对的

       fc ←( f(AJ) – f(JB) ) /max( f(AJ), f(JB)).

       IF( fc≥β) THEN

       //β 可以取0.40

       (new sen ← AJ/B. flag ← TRUE RETURN.) )

    IF(flag == FALSE) THEN [应用规则4]

       (new sen ← A/JB. RETURN. )

    }

     

    FUNCTION MULTY_5(STR) [应用规则5]

    {

    ABCDEFG = STR.

    // RMM(BCDEFG)返回 BCDEFG的逆向最大匹配结果

    IF(flag == FALSE && MULTY1(ABC) == A/BC) THEN RETURNA/RMM(BCDEFG)

    IF( flag == FALSE && MULTY1(ABC) == AB/C THEN RETURN (AB/MULTY_3(CDEFG).

     }

     

    FUNCTION MAN()

    {

       Flag == FALSE

       CASE DO

       (len == 1):ETURN MULTY_1(ABC).

       (len == 3):ETURN MULTY_3(ABC).

       (len == 5):ETURN MULTY_3(ABC).

    }

    )END RemoveAmb

     

     

    展开全文
  • 消解中文三字长交集型分词歧义的算法 出处:清华大学学报(自然科学版)1999年第5期 单位:清华大学 作者:孙茂松 三字,交搭歧义,词性,词概率,组合概率,分类词表概率主要内容: 根据对一个1亿字汉语...
    消解中文三字长交集型分词歧义的算法
    出处:清华大学学报(自然科学版)1999年第5期
    单位:清华大学
    作者:孙茂松
    三字,交搭歧义,词性,词概率,组合概率,分类词表概率主要内容:

    根据对一个1亿字汉语语料库的观察, 三字长交集型分词歧义就静态个数而言占全部交集型分词歧义的33.29%, 动态覆盖率更占全部交集型分词歧义的49.76%。
    1 词概率+ 词性Bigram法,
     对S3z=ABC, 其切分取作
    AB/ C, 如果f ( AB, C) - f ( A, BC) > t0;
    A/ BC, 如果f ( AB, C) - f ( A, BC) < - t0;
    未定, 如果ûf ( AB, C) - f ( A, BC) û≤t0.
    2设定六个字表
    对S3z= ABC, 根据分词语料库对{S03z}的人工切分结果, 可搜集到6个关于首字A、中字B、尾字C的字表: 
    字表L1 为切分为单字词频率很高的首字A 的集合, 
    字表L2 为切分为单字词频率很低的首字A 的集合, 
    字表L3 为与首字A 结合成词频率很高的中字B的集合, 
    字表L4 为与尾字C结合成词频率很高的中字B的集合, 
    字表L5 为切分为单字词频率很高的尾字C的集合, 
    字表L6 为切分为单字词频率很低的尾字C的集合
    设L是上述任一汉字表, Z是任意汉字, 令
    RL ( Z) = 0,  Z∈/ L;或 1,  Z∈L.
    k1 = RL1( A) + RL4( B) + RL6( C) ,
    k2 = RL2( A) + RL3( B) + RL5( C) .
    则常用字分合法可描述为对S3z= ABC, 其切分取作
    A/ BC, 如果k1 > k2;
    AB/ C, 如果k1 < k2;
    未定, 其它


    展开全文
  • 【NLP】中文分词歧义举例

    千次阅读 2019-02-27 11:47:13
    ·组合型歧义,例如: ...·交集型歧义,例如:  使用户 满意 (使用 户 满意)  研究生命 的 起源 (研究生 命 的 起源) ·组合型歧义出现概率低,消解更为困难。   注: 一个串可以切开也可...

    ·组合型歧义,例如:

      从  马上  跳  下来       (从   马   上  跳  下来)

      他  将来  我  校  讲学   (从   将 来 我 校  讲学)

    ·交集型歧义,例如:

      使用户  满意    (使用  户 满意)

      研究生命  的  起源     (研究生  命  的 起源)

    ·组合型歧义出现概率低,消解更为困难。

     

    注:

    一个串可以切开也可以不切开(组合性歧义)

    可以切在这里也可以切在那里(交集型歧义)

    展开全文
  • 在最大匹配法(MM)的基础上,提出了二次回溯中文...利用长词优先兼顾二词簇的方式对交集型歧义字段进行切分,并对难点的多链长交集型歧义字段进行有效发现和切分。从随机抽取的大量语料实验结果上证明了该方法的有效性。
  • [ N-gram 歧义句识别 ]

    2020-06-09 18:43:05
    对于某句话,检测其是否有交集型歧义。例如,南京市长江大桥,根据断句的不同,可以有以下两种理解: 南京市 / 长江大桥 南京 / 市长 / 江大桥 2. 方法思路 对于某个句子,根据词典,找到它所有可能的分词


    使用的中文文本语料(感谢原作者)
    使用的bi-gram词频统计(感谢原作者)

    1. 目的

    对于某句话,检测其是否有交集型歧义。例如,南京市长江大桥,根据断句的不同,可以有以下两种理解:

    1. 南京市 / 长江大桥
    2. 南京 / 市长 / 江大桥

    2. 方法思路

    对于某个句子,根据词典,找到它所有可能的分词结果,再根据语言模型,得到每种分词结果下的句子成立的概率,取所有概率中最大的两种情况,若这两个概率大小相差不大,说明这两种分词结果都有可能成立。则可简单认为此句有交集型歧义。

    3.代码实现

    3.1 获得所有可能的分词结果

    #采用递归的形式实现,借鉴而来,还未深究
    def text_count(text, word, dict):
        if len(word) == 0:
            all_split.append(text)
            # print('/'.join(text))
            return 1
        count = 0
    
        for i in range(1, len(word) + 1):
            if word[:i] not in dict:
                continue
            count += text_count(text + [word[:i]], word[i:], dict)
        return count
    

    3.2 由原始语料得到词库

    word2frequency = {}
    pattern = re.compile(r'[/|a-z|A-Z]')#删除 / 、a-z、A-Z 字符 
    with open(path_corpus, 'r', encoding='utf-8') as f:
        all_content = f.readlines()
        for line in all_content:
            if line:
                line_list = (line.strip()).split()
                for entry in line_list:
                    entry = re.sub(pattern, '', entry)
                    if entry in word2frequency:
                        word2frequency[entry] += 1
                    else:
                        word2frequency[entry] = 1
    
            else:
                break
    with open(path_word2frequency, 'wb') as f:
        pickle.dump(word2frequency, f)
    

    3.3 由原始语料得到bi-gram词频

    bigram = {}
    with open('../data/bigram.txt', 'r', encoding='utf-8') as f:
        all_content = f.readlines()
        for line in all_content:
            if line:
                line_list = (line.strip()).split()
                if line_list[0] in bigram:
                    print('ERRoR!! At')
                    print(line_list)
                else:
                    bigram[line_list[0]] = int(line_list[1])
    
            else:
                break
    with open(path_bigram_save, 'wb') as f:
        pickle.dump(bigram, f)
    

    3.4 其他部分

    # -*- coding:utf-8 -*-
    import pickle
    import re
    import jieba
    import numpy as np
    # str = '中国人民万岁'
    # dict = ['中', '国', '人', '民', '万', '岁', '中国', '国民', '中国人', '万岁', '中国人民']
    # dict = ['中华人民共和国', '中华人民', '中华', '华人', '人民共和国', '人民', '共和国', '共和','中','华', '人','民','共','和','国']
    # str = '中华人民共和国'
    
    
    def text_count(text, word, dict):
        if len(word) == 0:
            all_split.append(text)
            # print('/'.join(text))
            return 1
        count = 0
    
        for i in range(1, len(word) + 1):
            if word[:i] not in dict:
                continue
            count += text_count(text + [word[:i]], word[i:], dict)
        return count
    
    global all_split#设为全局变量,函数内部可以直接赋值
    # passage = "原告:于燕,女,住址山东省威海高区。被告:刘昆,男,住址河南省郸城县。原告于燕与被告刘昆离婚纠纷一案,本院于2019年12月17日立案后,依法适用普通程序,公开开庭进行了审理。原告于燕到庭参加诉讼,被告刘昆经本院公告传唤,无正当理由拒不到庭参加诉讼。本案现已审理终结。于燕向本院提出诉讼请求:一、准予原被告离婚;二婚生女刘紫钰归原告抚养,被告每月支付抚养费2000元。事实和理由:原、被告于2013年12月13日结婚,婚后育有一女刘紫钰。被告于2017年11月离家,并不再与原告联系,导致夫妻感情破裂,故提起诉讼。刘昆未作答辩。本院经审理认定事实如下:原、被告于2013年12月13日登记结婚,婚后于2014年9月1日生育一女刘紫钰。本院认为,原、被告结婚多年并育有一女,应认定双方建立了夫妻感情。原告未提交证据证明夫妻感情确已破裂,故原告要求离婚证据不足,本院不予支持。依照《中华人民共和国婚姻法》第三十二条  、《中华人民共和国民事诉讼法》第一百四十四条 规定,判决如下:不准原告于燕与被告刘昆离婚。案件受理费50元,由原告于燕负担。如不服本判决,可以在判决书送达之日起十五日内,向本院递交上诉状,并按照对方当事人或者代表人的人数提出副本,上诉于山东省威海市中级人民法院。"
    # passage = '他还手推了一下我,乒乓球拍卖完了'
    passage = '南京市长江大桥,新老师生前来就餐,乒乓球拍卖完了'
    path_word2frequency = '../data/word2frequency.pkl'
    path_bigram_save = '../data/bigram.pkl'
    #加载已经存储好的pkl数据,均从原始语料处理而来
    with open(path_bigram_save, 'rb') as f:
        bigram = pickle.load(f)
    with open(path_word2frequency, 'rb') as f:
        word2frequency = pickle.load(f)
        
    passage_list = passage.strip().split(',')
    
    for sentence in passage_list:
        all_split = []
    
        dict = list(jieba.cut(sentence, cut_all=True))
        dict += list(sentence)
        text_count([], sentence, dict)
    
        scores = []
        for one_list in all_split:
            score = 1.0
            length = len(one_list)
            for word in one_list:
                if word in word2frequency:
                    score = (word2frequency[word]) * score#使用了Unigram,所以有没有除以总词数关系不大,得到相对比较结果即可
            avrage = score / length#除以句子长度,减少句子长度引起的差异
            # print(one_list)
            # print(avrage)
            # print('__________________')
            scores.append(avrage)
    
        scores.sort(reverse=True)
        print(scores)
        if len(scores) > 1:
            result = scores[0] / scores[1]
            if  result < 15:
                print(sentence)
                print('Ambiguity!')
            else:
                print('Disambiguity')
            print('__________________')
        else:
            print('Disambiguity')
            print('__________________')
    
    

    4.运行结果

    在这里插入图片描述

    5. 总结分析

    可以看到,三句歧义句,只检测出了“乒乓球拍卖完了”这一句,效果还是有待提高。
    基于语料进行歧义句识别精度上不敢保证,也一直想用深度学习的方法来理解语义,检测歧义,然而一直没有好的思绪。最基本的歧义数据集都找不到,何谈训练模型。
    太南了!!!专利、竞赛、论文,啥都没有~~~所以啥都要干…

    展开全文
  • 在正向最大匹配的基础上增加一个交集型歧义字段处理模块一次来提高分词效率
  • nlp

    2013-01-10 17:28:00
    交叉歧义组合歧义交集型歧义
  • 1.汉语分词:通过计算机程序把组成汉语文本的字串自动转换为词串的过程被称为自动切分2.汉语切分的原因:(1)语音的合成(2)信息检索(3)词语计量...歧义的类型(1)交集型歧义:AJ/B、A/JB交集型歧义字段中交集...
  • 文章目录一、中英文分词的区别二、中文分词技术2.1 基于规则的分词正向最大匹配算法逆向最大匹配算法双向匹配算法2.2 基于统计的...中文分词存在困难是由于存在交集型歧义、组合型歧义和混合型歧义,交集型歧义如对ATB
  • 分析了几种典型的歧义识别方法,结合全切分分词算法提出了OSAIM(Ambiguity Identification ...OSAIM机制能够识别所有的交集型歧义和组合型歧义,DOSAIM策略能够有效解决全切分分词路径过多和歧义处理结果矛盾的问题。
  • 1.基本情况  从语料中选取了200个句子作为样本,分别用三种不同的分词方式进行分词...交集型歧义:45个 未登录词语:167个 组合型歧义:33个 逆向最大匹配切分错误数量:245 交集型歧义:41个 未登录词语:1
  • 名词解释5X315 兼类P121一个单词既可以作名词动词又可以作其他词类 机器翻译用计算机软件代替人做的书面翻译 组合型歧义一个字与前面的字成词,与后面的字成词,合起来也成词 交集型歧义P117一个字与前面的字成词,与...
  • 词法分析与词性标注

    2019-05-24 10:41:14
    词法分析与词性标注 ...交集型歧义 组合型歧义 未登录词的识别 2,汉语自动分词的基本原则 语义上无法由组合成分直接相加而得到的字串应 该合并为一个分词单位。(合并原则) 语类无法由组合成分直接...
  • 毕业设计开题报告

    2015-03-26 16:28:08
    国内对于中文分词技术已有较多的研究。在进来的研究中,计算机专家对于正向最大匹配算法的现状与缺陷进行了探讨,并对正向最大匹配算法提出了一...还有通过回溯的过程,结合互信息消除交集型歧义也尽可能地减少了歧义
  • 2014-7-18任务完成情况

    2014-07-19 01:01:22
    1.最大概率法使分词结果中的交集型歧义数量降低,对组合型歧义和未登录词有什么影响?会不会使这些错误增多?   2.最大概率法中求每个词语的费用时,如果对词频都乘以一个惩罚系数,观察这个系数对整体准确率和...
  • 本文分析了现有的基于词典的分词算法,在比较各种算法优缺点的基础上提出了将正向匹配算法...通过Nutch实验验证,该算法较Nutch原始搜索系统提高了其汉语切分的准确性以及切分速度,同时部分解决了交集型歧义切分问题。
  • 2)分词歧义:根据底表,一个串可以切开也可以不切开(组合性歧义),或者可以切在这里也可以切在那里(交集型歧义),但从上下文来看,至少有一种切法是不正确的。 3)分词不一致:上下文相同或相似情况下,一个串...
  • 汉语自动分词小结

    2010-04-29 13:29:40
    中文分词存在的问题是分词规范(怎么才算是一个词)和歧义切分(交集型歧义:结合成且为结合|成、结|合成。组合型歧义:他站|起|身|来。他明天|起身|去北京。),以及未登录词,如中文名准确率较高,外文译名准确率...
  • 切分歧义字段的综合性分级处理方法 --北京大学计算语言学研究所讨论班, 99.4.13 孙 斌 北京大学计算语言学研究所 (*)在这次讨论班要报告的内容: 一、 汉语自动分词的必要性、困难、分词系统的...
  • 中文自动分词歧义类型

    千次阅读 2009-09-18 20:13:00
    汉语自动分词是中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键所在,因为在中文信息处理中...这其中交集型歧义有占了绝大多数,据统计达94%,因此处理好交集型歧义在汉语分词中有着非常重要的地位。
  • 这里的歧义是指:同样的一句话,可能有两种或者更多的切分方法,这些切分结果,有的正确,有的不正确。 消除歧义的目的就是从切分结果中挑选切分正确的。 假设我们要切分句子:结婚的和尚未结婚的,使用逆向最大...
  • 2、交集型切分歧义:原汉字串abc中ab、bc都为词,b称为交集串,交集串的集合称为交集串链。集合中的元素个数称为链长。 3、组合型切分歧义:原汉字串ab中 a、b、ab同为词。 4、多义组合型切分歧义:在符合组合型切分...
  • 1、汉语自动分词的基本问题: 汉语自动分词就是让计算机系统在汉语文本中的词与词之间自动加上空格或其他边界标记。 困难:分词规范、歧义切分和未登录词...汉字串AJB称作交集型切分歧义,如果满足AJ、 JB同时为词(A、
  • 一、分词的困难 - 分词规范化的的问题 ...1. 交集型切分歧义 2. 组合型切分歧义 3. 多义组合型切分歧义 - 未登录词的问题 1. 人名、地名、组织名 2. 新出的词汇 3. 术语、俗语、命名体识别...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,387
精华内容 554
关键字:

交集型歧义