精华内容
下载资源
问答
  • 分词与词性标记(后面可以根据词性,指定去掉副词,名词,形容词等)二、示例代码:#运用jieba进行分词和词性标注words_lst=pseg.cut(chinese_only)#去除停用 存储分词后结果words=[]for word,flag i...

    一、中文文本处理流程:

    1去除非中文字符

    2.去除停用词(注意:现在网上有一些公开的停用词库,例如哈工大停用词表、四川大学机器智能实验室停用词库等 )

    3.分词与词性标记(后面可以根据词性,指定去掉副词,名词,形容词等)

    二、示例代码:

    #运用jieba进行分词和词性标注

    words_lst=pseg.cut(chinese_only)

    #去除停用词 存储分词后结果

    words=[]

    for word,flag inwords_lst:

    if word not in stop_words and flag in ['v' ,'n']:

    words.append(word)

    proc_text=''.join(words)

    本人长期关注AI算法与最新应用,NLP/CNN/LSTM/TRANSFORMER/BERT

    欢迎关注本人主页《AI工匠Book》,共同探讨AI

    NLP更多实战案例代码:https://blog.csdn.net/weixin_37479258/article/details/99349203​blog.csdn.net

    ————————————————

    CSDN博主「AI工匠book」的原创文章,遵循CC 4.0 by-sa版权协议

    展开全文
  • 信息过滤

    2008-05-11 16:41:00
    今天听了李彦宏在百度2007世界大会上的演讲,其中一个“信息过滤的词引起了我的思考。在初中的时候我们就开始在自己的一些文章里用“信息爆炸”来形容当时的社会。是的,计算机和网络的普及使得我们每天生活在一个...
    今天听了李彦宏在百度2007世界大会上的演讲,其中一个“信息过滤”的词引起了我的思考。在初中的时候我们就开始在自己的一些文章里用“信息爆炸”来形容当时的社会。是的,计算机和网络的普及使得我们每天生活在一个信息极大的环境中。有的人会用“快节奏”来形容都市的生活,这个快不单单是速度上的快,而很大程度上是在描述信息更新换代的变化过程。人就好比一个信息的接收终端,现在我们有百度,Google和Yahoo等很多的搜索引擎,这样我们获取信息其实并不是一件太难的事情,起码比以前靠单一被动方式获取信息更有主动性。但在巨大的信息库检索我们真正需要的信息就是一件非常困能的事情。信息过滤就非常必要了,现在的搜索引擎已经能按搜索者要求去查找相关的资料,可是很难在短时间内得到自己想要的正确的。
    展开全文
  • NLP 学习笔记9-停用

    2021-01-19 23:05:42
    对于NLP的应用,我们通常将停用词、出现频率很低的词过滤掉。 关于停用词词典,可以看下之前的:文本预处理与停用词 这个主要是对业务影响不大,不影响分析,类似于特征筛选的过程。 要考虑自己的应用场景。 ...

    一 序

      本文属于NLP学习笔记系列。

    二 停用词

    对于NLP的应用,我们通常将停用词、出现频率很低的词过滤掉。

    关于停用词词典,可以看下之前的: 文本预处理与停用词

    这个主要是对业务影响不大,不影响分析,类似于特征筛选的过程。

    要考虑自己的应用场景。

    case:一些形容词通常会过滤掉,但是在情感分析中表达语气要保留。

    自己会做修改。

    三 词的标准化

      这块就是英文的。举例:went,go,going  时态不同,还有单复数,比较级等等。

      涉及技术:

       词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)

      词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)

      中文不涉及,所以就不看了。感兴趣的可以看看porter stemmer.

    展开全文
  • jieba一些使用

    2019-05-16 11:33:00
    最近处理中文数据集经常用到jieba,记录一下遇到问题。 1.分词 最常用就是jieba.cut(text) 一般还会使用jieba.posseg进行词性过滤 词性表: ...取英语形容词 adjective第1个字母。 ...

    最近处理中文数据集经常用到jieba,记录一下遇到的问题。

    1.分词

    最常用的就是jieba.cut(text)

    一般还会使用jieba.posseg进行词性过滤

    词性表:

    Ag

    形语素

    形容词性语素。形容词代码为 a,语素代码g前面置以A。

    a

    形容词

    取英语形容词 adjective的第1个字母。

    ad

    副形词

    直接作状语的形容词。形容词代码 a和副词代码d并在一起。

    an

    名形词

    具有名词功能的形容词。形容词代码 a和名词代码n并在一起。

    b

    区别词

    取汉字“别”的声母。

    c

    连词

    取英语连词 conjunction的第1个字母。
    dg

    副语素

    副词性语素。副词代码为 d,语素代码g前面置以D。

    d

    副词

    取 adverb的第2个字母,因其第1个字母已用于形容词。

    e

    叹词

    取英语叹词 exclamation的第1个字母。

    f

    方位词

    取汉字“方”

    g

    语素

    绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。

    h

    前接成分

    取英语 head的第1个字母。

    i

    成语

    取英语成语 idiom的第1个字母。

    j

    简称略语

    取汉字“简”的声母。

    k

    后接成分

     

    l

    习用语

    习用语尚未成为成语,有点“临时性”,取“临”的声母。

    m

    数词

    取英语 numeral的第3个字母,n,u已有他用。

    Ng

    名语素

    名词性语素。名词代码为 n,语素代码g前面置以N。

    n

    名词

    取英语名词 noun的第1个字母。

    nr

    人名

    名词代码 n和“人(ren)”的声母并在一起。

    ns

    地名

    名词代码 n和处所词代码s并在一起。

    nt

    机构团体

    “团”的声母为 t,名词代码n和t并在一起。

    nz

    其他专名

    “专”的声母的第 1个字母为z,名词代码n和z并在一起。

    o

    拟声词

    取英语拟声词 onomatopoeia的第1个字母。

    p

    介词

    取英语介词 prepositional的第1个字母。

    q

    量词

    取英语 quantity的第1个字母。

    r

    代词

    取英语代词 pronoun的第2个字母,因p已用于介词。

    s

    处所词

    取英语 space的第1个字母。

    tg

    时语素

    时间词性语素。时间词代码为 t,在语素的代码g前面置以T。

    t

    时间词

    取英语 time的第1个字母。

    u

    助词

    取英语助词 auxiliary

    vg

    动语素

    动词性语素。动词代码为 v。在语素的代码g前面置以V。

    v

    动词

    取英语动词 verb的第一个字母。

    vd

    副动词

    直接作状语的动词。动词和副词的代码并在一起。

    vn

    名动词

    指具有名词功能的动词。动词和名词的代码并在一起。

    w

    标点符号

     

    x

    非语素字

    非语素字只是一个符号,字母 x通常用于代表未知数、符号。

    y

    语气词

    取汉字“语”的声母。

    z

    状态词

    取汉字“状”的声母的前一个字母。

    un

    未知词

    不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)

    2.关键词抽取

    需要先引入jieba.analyse

    然后可以调用tfidf、textrank算法进行关键词抽取

    keywords= jieba.analyse.extract_tags(text, topK=n, allowPOS=())

    keywords= jieba.analyse.textrank(text, topK=n, allowPOS=())

    其中tfidf是词袋模型,基于统计计算得到的;textrank则是基于图计算抽取词

    转载于:https://www.cnblogs.com/danny92/p/10874633.html

    展开全文
  • 在这个项目中,由于进行聚类是论文摘要,而论文摘要中最重要是名词,名词词组,已经形容词形容词词组。所以特征选择方法采用词性过滤加上其他策略。 下面给出个图片,图片中是一个“评价论文推荐满意度”...
  • SIFRank_zh 这是我们论文相关代码原文是在对英文关键短语进行抽取,这里迁移到中文上...首先对句子进行分词和词性标注,再利用正则表达式确定确定名词短语(例如:形容词+名词),将名词作为前缀关键字 最终关键利率
  • 2123

    2019-01-24 21:23:23
    文本分词、停用词过滤和对意义宽泛的高频术语词剔除后,依据词性和TF-IDF算法对文本词汇进行过滤,提取对表征文本内容作用较大的名词动词和形容词,并将文本集词权重小于0.1的词进行剔除,实现对专利文本近一卒的...
  • 名词,苏鲁动词,无形容词 建立创立配置; 组织建立 — jisho.org Shinsetsu是一个浏览器插件,可让您摆脱书签烦恼。 地位 Active development 安装 待定 特征 一站式命令行界面,可进行所有操作 标准书签操作(少...
  • 前言“布林强盗”,作者不是很理解为啥会用“强盗”来形容这个策略,难道这个策略是偷偷摸摸搞了见不得人事?O(∩_∩)O哈哈~,后面会给大家分享作者对这个“强盗”一词的理解。布林强盗系统借助布林线,与过滤器...
  • 谓词 NSPredicate

    2017-08-29 19:21:00
    谓词,用来描述或判定客体性质、特征或者客体之间关系的词项。根据《现代汉语》的定义,汉语的体词包括名词,数词,量词;汉语的谓词包括动词和形容词。   查询条件。是一组性质描述;   与操作结合执行过滤处理。...
  • Chindle内容设计【3】

    2011-10-17 21:54:00
    下面用几幅图对比我们算法与清华NLP实验室算法结果: 清华 ...Chindle效果(非同一个账号): ...3、词性过滤(只留下名词和形容词) 4、按照频率排序,去掉出现频率特别高词汇(出现了10次以上) ...
  • SQL优化之谓词下推

    2021-01-08 11:46:27
    谓词,用来描述或判定客体性质、特征或者客体之间关系的词项。 意思就是,一个判断的动作或者形容某样东西的一个特征。 (2)什么是谓词下推? 将过滤条件表达式(=、!=、like、in、between、>、<…)尽量...
  • 谓词/表达式下推

    2020-07-15 15:30:45
    谓词,用来描述或判定客体性质、特征或者客体之间关系的词项。根据《现代汉语》的定义汉语的谓词包括动词和形容词。 在SQL中,谓词就是返回boolean值即true和false的函数,或是隐式转换为bool的函数。SQL中的谓词...
  • TextRank算法

    2018-11-10 19:23:42
    1. 基于TextRank关键词提取  关键词抽取任务就是从一段给定文本中自动抽取出若干有... (2)对于每个句子,进行分词和词性标注处理,并过滤掉停用,只保留指定词性单词,如名词、动词、形容词,即,其...
  • 3)、关键词查询并给出相关词和形容词,如果已经开通了300元的生意参谋的话还可以通过调用生意参谋帮助选词,建议开通生意参谋这样可以得到的词量更多更准确。 4)、内置谷歌浏览器方便查看结果数据。 查一下淘宝...
  • 文章目录 关键词抽取任务就是从一段给定...(2)对于每个句子,进行分词和词性标注处理,并过滤掉停用,只保留指定词性单词,如名词、动词、形容词,即,其中是保留后候选关键词。 (3)构建候选关键词图...
  • 纪念一下,懒癌了两年,到了大三没办法了一定要记笔记了不然人老了光靠脑子顶事啊。...分词特征采用nlpir分词工具,只保留代表句子主干名词、动词、形容词 内容规则采用六条规则: 文本长度 是否存在
  • user_dict 设置用户词典,用户词典中的词会被打上uw标签。词典中每一个词一行,UTF8编码 T2S 默认False, 是否将句子从繁体转化为简体 seg_only 默认False, 时候只进行分词,不进行词性标注 filt ...
  • 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用...
  • 開發者可以指定自己自定義的詞典,以便包含 jieba 詞庫裡沒有的詞。雖然 jieba 有新詞識別能力,但是自行添加新詞可以保證更高的正確率 用法: Jieba::loadUserDict(file_name) # file_name 為自定義詞典的絕對路...

空空如也

空空如也

1 2
收藏数 25
精华内容 10
关键字:

形容过滤的词