精华内容
下载资源
问答
  • jieba词性标注

    千次阅读 2018-07-26 11:18:19
    词性标注 这里首先了解下词性标注: 中文的词性标注一般存在很多不固定性,比如同音同形的词在不同的场景下,其表示的语法属性截然不用,这就为词性标注带来了很大的困难。但是从另外一个方面看,整体上来说大多数...

    这里首先了解下词性标注:
    中文的词性标注一般存在很多不固定性,比如同音同形的词在不同的场景下,其表示的语法属性截然不用,这就为词性标注带来了很大的困难。但是从另外一个方面看,整体上来说大多数的词语,尤其是实词,一般只有一个到两个词性,而其中一个词性相对于另一个是高频的,这时如果默认将高频词性作为词性选择进行标注,也能有很高的准确率。这时对于大部分的场景来说,还是能满足基本的准确度要求的。

    最简单的方法是:统计语料库中的每个词对应的词性,然后将每个词的高频词性作为该词的词性。也就是说输入语料必须是已经标注好词性的语料库。

    与此同时,还可以有所提升,目前较多的做法是将词性标注的问题转化为用分词的方法,也即是将句子的词性标注作为一个序列标注问题来解决。这样的话,分词中的方法,如HMM、CRF等都可以用在词性标注上。

    词性标注规范:
    目前有北大的词性标注集和宾州词性标注集,这里采用的是北大的词性标注集。

    这里说下jieba的词性标注:
    jieba词性标注有点类似于其分词流程,也是基于规则和统计的方法,也就是在词性标注的过程中,词典匹配和HMM共同作用。

    • 首先基于正则表达式判断是否是汉字
    • 若不是汉字,将继续通过正则表达式进行类型判断。
    • 若是汉字,则基于前缀词典构建有向无环图,再基于有向无环图计算最大概率路径,同时在前缀词典中找出它所分出的词性,若未找到,则赋予“x”,代表未知。如有未登录词,则会通过HMM进行词性标注。

    那么HMM是怎样应用于词性标注的呢?
    这里简单说下,就是在分词任务中,我们用’B’、’M’、’S’、’E’四中标签,与句子中的每个字符一一对应,而在词性标注中jieba采用了联合模型的方式,即将基于字标注的方法和词性标注结合起来,使用复合标注集。比如:‘人民’,分词为‘BE’,而词性为‘n’,这时‘人’的标注就是‘B_n’,而‘民’的标注就是‘E_n’,剩下的就和HMM分词过程一致了,但这里要更换适合的训练语料库。

    import jieba.posseg as psg
    
    sent='中文分词是文本处理不可或缺的一步!'
    seg_list=psg.cut(sent)
    print(''.join(['{0}/{1}'.format(w,t) for w,t in seg_list]))

    运行结果:

    中文/nz分词/n是/v文本处理/n不可或缺/l的/uj一步/m!/x

    这里只是对jieba词性标注做了一个简单介绍,以后再深入讨论。

    参考:《pytho自然语言处理实战 核心技术与算法》

    展开全文
  • 词性标注 简介 简单的说明一下什么是词性标注,词性(词类)是词汇中剧本的语法属性,而词性标注是在给定句子中判定每个词的语法范畴,确定它的词性并加以标注的过程。 比如给定句子“她很漂亮”,对应的词性标注...

    词性标注

    简介

    简单的说明一下什么是词性标注,词性(词类)是词汇中剧本的语法属性,而词性标注是在给定句子中判定每个词的语法范畴,确定它的词性并加以标注的过程。

    比如给定句子“她很漂亮”,对应的词性标注结果就是“她/名词   很/副词   漂亮/形容词”,这就是一个简单的词性标注的例子。

    但是在中文中有一些词语通常有多种词性,这就会对词性标注带来一些困难,解决该问题最简单的方法就是使用当前词语的高频词性来作为它的词性,虽然这样做的准确率是很高的但是它的提升空间依然很大,更好的解决办法就是像分词一样把该问题当做是一个序列问题来解决。

    词性标注规范

    这里列出北大的词性标注规范

    词性编码

    词性名称

    注 解

    Ag

    形语素

    形容词性语素。形容词代码为 a,语素代码g前面置以A。

    a

    形容词

    取英语形容词 adjective的第1个字母。

    ad

    副形词

    直接作状语的形容词。形容词代码 a和副词代码d并在一起。

    an

    名形词

    具有名词功能的形容词。形容词代码 a和名词代码n并在一起。

    b

    区别词

    取汉字“别”的声母。

    c

    连词

    取英语连词 conjunction的第1个字母。

    dg

    副语素

    副词性语素。副词代码为 d,语素代码g前面置以D。

    d

    副词

    取 adverb的第2个字母,因其第1个字母已用于形容词。

    e

    叹词

    取英语叹词 exclamation的第1个字母。

    f

    方位词

    取汉字“方”

    g

    语素

    绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。

    h

    前接成分

    取英语 head的第1个字母。

    i

    成语

    取英语成语 idiom的第1个字母。

    j

    简称略语

    取汉字“简”的声母。

    k

    后接成分

     

    l

    习用语

    习用语尚未成为成语,有点“临时性”,取“临”的声母。

    m

    数词

    取英语 numeral的第3个字母,n,u已有他用。

    Ng

    名语素

    名词性语素。名词代码为 n,语素代码g前面置以N。

    n

    名词

    取英语名词 noun的第1个字母。

    nr

    人名

    名词代码 n和“人(ren)”的声母并在一起。

    ns

    地名

    名词代码 n和处所词代码s并在一起。

    nt

    机构团体

    “团”的声母为 t,名词代码n和t并在一起。

    nz

    其他专名

    “专”的声母的第 1个字母为z,名词代码n和z并在一起。

    o

    拟声词

    取英语拟声词 onomatopoeia的第1个字母。

    p

    介词

    取英语介词 prepositional的第1个字母。

    q

    量词

    取英语 quantity的第1个字母。

    r

    代词

    取英语代词 pronoun的第2个字母,因p已用于介词。

    s

    处所词

    取英语 space的第1个字母。

    tg

    时语素

    时间词性语素。时间词代码为 t,在语素的代码g前面置以T。

    t

    时间词

    取英语 time的第1个字母。

    u

    助词

    取英语助词 auxiliary

    vg

    动语素

    动词性语素。动词代码为 v。在语素的代码g前面置以V。

    v

    动词

    取英语动词 verb的第一个字母。

    vd

    副动词

    直接作状语的动词。动词和副词的代码并在一起。

    vn

    名动词

    指具有名词功能的动词。动词和名词的代码并在一起。

    w

    标点符号

     

    x

    非语素字

    非语素字只是一个符号,字母 x通常用于代表未知数、符号。

    y

    语气词

    取汉字“语”的声母。

    z

    状态词

    取汉字“状”的声母的前一个字母。

    un

    未知词

    不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)

    jieba词性标注实战

    jieba是NLP中常用的中文分词库,这里讲解了它的原理以及使用方法——jieba分词

    流程如下:

    1、首先通过正则表达式来进行汉字的判断,表达式如下:

    re_han_internal = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")

    2、符合该表达式则判定为汉字,然后基于前缀词典来建立有向无环图,再基于有向无环图来计算最大概率路径,同时在前缀词典中找出它所分出的词性,若在词典中没有找到,则赋予词性为"un"(未知词性)。

    在此过程中若使用HMM方式进行词性标注,且待标注词为未登录词(未登录词即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等),则会通过HMM的方式进行标注。

    3、若不符合上面的正则表达式,那么将会继续通过正则表达式来判断,分别赋予:"un"(未知词性),"m"(数词),"eng"(英文)。

    下面用jieba来实现一个词性标注的例子:

    import jieba.posseg as psg
    sent = "还有什么是比jieba更好的中文分词工具呢?"
    seg_list = psg.cut(sent)
    result = " ".join(["{0}/{1}".format(w, t) for w, t in seg_list])
    print(result)

    分词结果如下:

     

     

    展开全文
  • 词性标注简介简单的说明一下什么是词性标注,词性(词类)是词汇中剧本的语法属性,而词性标注是在给定句子中判定每个词的语法范畴,确定它的词性并加以标注的过程。比如给定句子“她很漂亮”,对应的词性标注结果...

    词性标注

    简介

    简单的说明一下什么是词性标注,词性(词类)是词汇中剧本的语法属性,而词性标注是在给定句子中判定每个词的语法范畴,确定它的词性并加以标注的过程。

    比如给定句子“她很漂亮”,对应的词性标注结果就是“她/名词 很/副词 漂亮/形容词”,这就是一个简单的词性标注的例子。

    但是在中文中有一些词语通常有多种词性,这就会对词性标注带来一些困难,解决该问题最简单的方法就是使用当前词语的高频词性来作为它的词性,虽然这样做的准确率是很高的但是它的提升空间依然很大,更好的解决办法就是像分词一样把该问题当做是一个序列问题来解决。

    词性标注规范

    这里列出北大的词性标注规范

    15273f44cd1a4e493ccbb96c08b269e6.png

    6d629166fd7970ff1ced4df71d76c5b8.png

    1089ed7077c4ce7b68d22b3ff1d62153.png

    jieba词性标注实战

    jieba是NLP中常用的中文分词库,这里讲解了它的原理以及使用方法——jieba分词

    流程如下:

    1、首先通过正则表达式来进行汉字的判断,表达式如下:

    2e9f01a6ba68a4d837f167ff307c7335.png

    2、符合该表达式则判定为汉字,然后基于前缀词典来建立有向无环图,再基于有向无环图来计算最大概率路径,同时在前缀词典中找出它所分出的词性,若在词典中没有找到,则赋予词性为"un"(未知词性)。

    在此过程中若使用HMM方式进行词性标注,且待标注词为未登录词(未登录词即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等),则会通过HMM的方式进行标注。

    3、若不符合上面的正则表达式,那么将会继续通过正则表达式来判断,分别赋予:"un"(未知词性),"m"(数词),"eng"(英文)。

    下面用jieba来实现一个词性标注的例子:

    56cb5ed28d77d913da993e7de293ee48.png

    分词结果如下:

    60abeb76a6a0197593e16b6691b07d40.png
    展开全文
  • python jieba 词性标注

    2019-12-18 18:06:49
    先附上词性标注表,如下: 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名词 nr 人名 nr1 汉语姓氏 nr2 汉语名字 nrj 日语人名 nrf 音译人名 ns 地名 nsf 音译地名 nt 机构团体名 nz 其它...

    先附上词性标注表,如下:
    名词 (1个一类,7个二类,5个三类)

    名词分为以下子类:

    n 名词
    nr 人名
    nr1 汉语姓氏
    nr2 汉语名字
    nrj 日语人名
    nrf 音译人名
    ns 地名
    nsf 音译地名
    nt 机构团体名
    nz 其它专名
    nl 名词性惯用语
    ng 名词性语素
    时间词(1个一类,1个二类)

    t 时间词
    tg 时间词性语素
    处所词(1个一类)

    s 处所词
    方位词(1个一类)

    f 方位词
    动词(1个一类,9个二类)

    v 动词
    vd 副动词
    vn 名动词
    vshi 动词“是”
    vyou 动词“有”
    vf 趋向动词
    vx 形式动词
    vi 不及物动词(内动词)
    vl 动词性惯用语
    vg 动词性语素
    形容词(1个一类,4个二类)

    a 形容词
    ad 副形词
    an 名形词
    ag 形容词性语素
    al 形容词性惯用语
    区别词(1个一类,2个二类)

    b 区别词
    bl 区别词性惯用语
    状态词(1个一类)

    z 状态词
    代词(1个一类,4个二类,6个三类)

    r 代词
    rr 人称代词
    rz 指示代词
    rzt 时间指示代词
    rzs 处所指示代词
    rzv 谓词性指示代词
    ry 疑问代词
    ryt 时间疑问代词
    rys 处所疑问代词
    ryv 谓词性疑问代词
    rg 代词性语素
    数词(1个一类,1个二类)

    m 数词
    mq 数量词
    量词(1个一类,2个二类)

    q 量词
    qv 动量词
    qt 时量词
    副词(1个一类)

    d 副词
    介词(1个一类,2个二类)

    p 介词
    pba 介词“把”
    pbei 介词“被”
    连词(1个一类,1个二类)

    c 连词
    cc 并列连词
    助词(1个一类,15个二类)

    u 助词
    uzhe 着
    ule 了 喽
    uguo 过
    ude1 的 底
    ude2 地
    ude3 得
    usuo 所
    udeng 等 等等 云云
    uyy 一样 一般 似的 般
    udh 的话
    uls 来讲 来说 而言 说来
    uzhi 之
    ulian 连 (“连小学生都会”)
    叹词(1个一类)

    e 叹词
    语气词(1个一类)

    y 语气词(delete yg)
    拟声词(1个一类)

    o 拟声词
    前缀(1个一类)

    h 前缀
    后缀(1个一类)

    k 后缀
    字符串(1个一类,2个二类)

    x 字符串
    xx 非语素字
    xu 网址URL
    标点符号(1个一类,16个二类)

    w 标点符号
    wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
    wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
    wyz 左引号,全角:“ ‘ 『
    wyy 右引号,全角:” ’ 』
    wj 句号,全角:。
    ww 问号,全角:? 半角:?
    wt 叹号,全角:! 半角:!
    wd 逗号,全角:, 半角:,
    wf 分号,全角:; 半角: ;
    wn 顿号,全角:、
    wm 冒号,全角:: 半角: :
    ws 省略号,全角:…… …
    wp 破折号,全角:—— -- ——- 半角:—
    wb 百分号千分号,全角:% ‰ 半角:%
    wh 单位符号,全角:¥ $ £ ° ℃ 半角 $

    """
    author:魏振东
    data:2019.12.18
    func:用分词工具进行分词,带有词性标注,保存到文件中。
    """
    def cixing(filenamer,filenamerw):
        # 文件读取
        with open(filenamer,'r',encoding='utf-8',errors='ignore') as fr:
            article = fr.read()
        # 词性标注
        seg_list = psg.cut(article)
        # 格式化
        result = " ".join(["{0}:{1}\n".format(w, t) for w, t in seg_list if len(w)!=1])
        # 文件写入
        with open(filenamerw,'w+') as r:
            r.write(result)
        # print(result)
    
    展开全文
  • jieba 词性标注 对应表

    2021-03-06 18:48:33
    来源于https://github.com/fxsjy/jieba/
  • LTP与jieba词性标注对比

    千次阅读 2018-12-12 16:11:46
    词性标注对比¶ LTP 使用的是863词性标注集,其各个词性含义如下表。 Tag Description Example Tag Description Example a adjective 美丽 ni organization name 保险公司 b other noun-modifier 大型...
  • 【NLP】Python之jieba词性标注实例

    千次阅读 2019-11-04 19:48:01
    小白在之前文章中有讲过jieba在分词中的应用,这篇文章,介绍下jieba词性标注中的使用。 首先,导入jieba包 import jieba.posseg as pseg 来一个简单的例子 sentence =pseg.cut("我爱北京天安门") for w in ...
  • jieba 词性标注

    2017-11-16 17:17:00
    ICTCLAS 汉语词性标注集 汉语文本词性标注标记集 Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。 a 形容词 取英语形容词adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码a和...
  • 【python】jieba词性标注 并列join

    千次阅读 2018-04-17 00:08:25
    ----------------------------------------------------------------的-就-要求-我们-对于-一般-历史-的-叙述-,-比-通常-哲学史-家所-做-的-为-多- 。-我-还-发觉-这-一点-对于-一般-读者-未必-是-很-熟悉-的-那-几...
  • import jieba.posseg as pseg&gt;&gt;&gt; f = open('E:/西方哲学史.txt','r') f = f.read()&gt;&gt;&gt; words = pseg.cut(f)&gt;&gt;&gt; for w in words:... print (w....
  • 1、 先描述下现象 &gt;&gt;&gt; aa='北京时间月日晚刘强东的刑辩律师在...=======过滤词性,能识别“刘强东” &gt;&gt;&gt; ' '.join([k for k,w in analyse.extract_tags(aa,topK=2000,...
  • Jieba分词词性标注以及词性说明

    万次阅读 多人点赞 2018-06-08 10:55:52
    import jieba import jieba.analyse import jieba.posseg def dosegment_all(sentence... 带词性标注,对句子进行分词,不排除停词等 :param sentence:输入字符 :return: ''' sentence_seged = jieba.posseg.cu...
  • Jieba词性标注的基本原理可以概括为:对于需要标注的词,如果词典中包括该词,就从词典中读取该词的词性;如果没有该词,则用Viterbi算法来进行词性估计。 代码展示: # -*- coding: utf-8 -*- import jieba.posseg...
  • jieba-词性标注

    2019-03-19 10:49:57
     以前使用jieba分词时,并没有注意到词性标注集到底包含哪些,刚好最近学习自然语言处理,涉及到分词以及词性标注,将ICTCLAS 词性标注集记录如下: ICTCLAS 汉语词性标注集 代码名称帮助记忆的诠释 Ag 形...
  • jieba分词词性标注

    2019-12-09 14:51:48
    jieba可对分词后的单词进行词性标注,比如动词、名词还是形容词等等。词性类别详细列表:
  • jieba分词词性标注.py

    2019-11-20 13:26:39
    将需要分词进行词性标注的句子存放在corpus文本文件(自建)中,最好是每句话存为一行。注:corpus文件需放在代码所在文件夹里。运行代码,自动生成一个outcome文本文件,分词词性标注结果就在此文本里。
  • jieba词性标注

    2019-05-12 12:04:33
    词性标注表如下: 1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名词 nr 人名 nr1 汉语姓氏 nr2 汉语名字 nrj 日语人名 nrf 音译人名 ns 地名 nsf 音译地名 nt 机构团体名 nz 其它专名 nl 名词性...
  • python的jieba分词词性标注

    万次阅读 多人点赞 2015-09-22 19:55:08
    jieba分词的词性标注  在明哥的严厉催促下,我终于注册了我自己的博客,并且这是我写的第一篇博客,写得不好还请大家多多指出,以帮助小弟在编程之路上走得更远。  好了,废话就不多说了,直接进入主题吧。  ...
  • 结巴分词(jieba词性标注

    千次阅读 2020-03-31 21:04:40
     当我们进行关键词的选择时,也要考虑词语的词性,关键词以名词或者名词性词组居多,而jieba为自然语言语言中常用工具包,具有对分词的词性进行标注的功能,词性类别如下(重要的词性符号已标记): 符号 词性 ...
  • Python【jieba词性标注

    千次阅读 热门讨论 2018-11-12 19:30:59
    Python、jieba、0.39版 flag cn e.g. a 形容词 高 明 尖 诚 粗陋 冗杂 丰盛 顽皮 很贵 挺好用 … ad 副形词 努目 完全 努力 切面 严实 慌忙 明确 仓惶 详细 … ag 形语素 详 笃...
  • python:jieba分词+词性标注python:jieba分词+词性标注处理数据jieba分词导入相关包创建停用词jieba.cut分词进行词性标注文件读取写入 python:jieba分词+词性标注 做实验室的一个项目,暂时要做的内容:对文本数据...
  • jieba分词及词性标注

    2019-07-22 21:03:00
    jieba分词及词性标注 想着先分词,再给分过的词标注词性 很简单但是弄了蛮久 代码也不简便 要学习啊 鸡汤:脚踏实地,眼看前方 import jieba import jieba.posseg as pseg jieba.load_userdict('userdict1.txt') #...
  • Jieba词性说明

    千次阅读 2018-01-21 17:17:14
    jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 414
精华内容 165
关键字:

jieba词性标注