-
2021-01-19 23:05:42
一 序
本文属于NLP学习笔记系列。
二 停用词
对于NLP的应用,我们通常将停用词、出现频率很低的词过滤掉。
关于停用词词典,可以看下之前的: 文本预处理与停用词
这个主要是对业务影响不大,不影响分析,类似于特征筛选的过程。
要考虑自己的应用场景。
case:一些形容词通常会过滤掉,但是在情感分析中表达语气要保留。
自己会做修改。
三 词的标准化
这块就是英文的。举例:went,go,going 时态不同,还有单复数,比较级等等。
涉及技术:
词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)
词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)
中文不涉及,所以就不看了。感兴趣的可以看看porter stemmer.
更多相关内容 -
结巴分词获取关键词时怎么过滤掉一些停用词?
2020-12-09 20:10:41分词与词性标记(后面可以根据词性,指定去掉副词,名词,形容词等)二、示例代码:#运用jieba进行分词和词性标注words_lst=pseg.cut(chinese_only)#去除停用词 存储分词后结果words=[]for word,flag i...一、中文文本处理流程:
1去除非中文字符
2.去除停用词(注意:现在网上有一些公开的停用词库,例如哈工大停用词表、四川大学机器智能实验室停用词库等 )
3.分词与词性标记(后面可以根据词性,指定去掉副词,名词,形容词等)
二、示例代码:
#运用jieba进行分词和词性标注
words_lst=pseg.cut(chinese_only)
#去除停用词 存储分词后结果
words=[]
for word,flag inwords_lst:
if word not in stop_words and flag in ['v' ,'n']:
words.append(word)
proc_text=''.join(words)
本人长期关注AI算法与最新应用,NLP/CNN/LSTM/TRANSFORMER/BERT
欢迎关注本人主页《AI工匠Book》,共同探讨AI
NLP更多实战案例代码:https://blog.csdn.net/weixin_37479258/article/details/99349203blog.csdn.net
————————————————
CSDN博主「AI工匠book」的原创文章,遵循CC 4.0 by-sa版权协议
-
文本预处理:词的清洗
2022-01-02 20:15:30词的过滤 词过滤是文本清洗的一个步骤,一般放在分词之后,用于过滤掉对模型任务无用的词。 无用词一般包含停用词和低频词两类: 停用词指经常会出现在所有文档中的不表示具体含义的虚词,它去模型预测无意义,可以...词的清洗
词过滤是文本清洗的一个步骤,一般放在分词之后,用于过滤掉对模型任务无用的词。
无用词一般包含停用词和低频词两类:- 停用词指经常会出现在所有文档中的不表示具体含义的虚词,它去模型预测无意义,可以去除;
- 低频词就是语料库中,在本场景下极少出现使用的单词,它是否可以去除需要人工判断,有些词在文本中出现频率极低但意义特别重要,此时应保留。
所以综上,其他场景中的停用词和低频词是否在本场景中仍要过滤去除,需要人工逐一判断,它没有统一标准。
词过滤实现代码:
# 加载停用词列表 stop_words = set([……]) word_list = [……] filtered_words = [word for word in word_list if word not in stop_words]
-
FilterOverlyPositiveEndorsements:简单的应用程序即可过滤过分肯定的评论
2021-04-10 07:16:03FilterOverlyPositive背书 我将此文件分为4个会话 放弃过于正面的评论的逻辑 ... 这意味着最常见的形容词的权重要比那些夸张夸张的形容词的权重低。 每个权重将从2开始为2的倍数。例如: [友善,2],[种类, -
jieba中文分词的实现(含去除停用词,注释详尽,欢迎批评指导)
2020-07-02 21:49:37#print(key) #去除停用词,去除单字,去除重复词 if not(key.strip() in stopword) and (len(key.strip()) > 1) and not(key.strip() in wordlist) : wordlist.append(key) print(key) keyword.write(key+"\n") #...#一般需要导入该库。导入方法,打开cmd命令窗口或者anaconda prompt: #pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba(最后一个参数是包名) #如果想安装对应版本的包,只需在包名后面加“==版本号”即可 import jieba #分词 def cut_word(Test): # jieba 默认启用了HMM(隐马尔科夫模型)进行中文分词 seg_list = jieba.cut(Test,cut_all=True) # 分词 #返回一个以分隔符'/'连接各个元素后生成的字符串 line = "/".join(seg_list) word = out_stopword(line) #print(line) #列出关键字 print("\n关键字:\n"+word) #去除停用词 def out_stopword(seg): #打开写入关键词的文件 keyword = open('D:\keyword.txt', 'w+', encoding='utf-8') print("去停用词:\n") wordlist = [] #获取停用词表 #开源网站GitHub上有整理好的停用词表,可以下载使用 #goto456/stopwords: 中文常用停用词表(哈工大停用词表、百度停用词表等)——https://github.com/goto456/stopwords #停用词文本C:\Users\Administrator\hit_stopwords.txt stop = open('D:\hit_stopwords.txt', 'r+', encoding='utf-8') #用‘\n’去分隔读取,返回一个一维数组 stopword = stop.read().split("\n") #遍历分词表 for key in seg.split('/'): #print(key) #去除停用词,去除单字,去除重复词 if not(key.strip() in stopword) and (len(key.strip()) > 1) and not(key.strip() in wordlist) : wordlist.append(key) print(key) keyword.write(key+"\n") #停用词去除END stop.close() keyword.close() return '/'.join(wordlist) if __name__ == '__main__': #打开txt文本 Rawdata = open('D:\Rowdatas.txt','r+',encoding='utf-8') #将文本读取并存储到text中 text = Rawdata.read() #调用分词,将待分词的文本作为参数传入方法中 cut_word(text) #关闭文本 Rawdata.close()
-
【R语言】结巴分词与词性提取(以“提取知乎问题标题的频繁词前100个形容词”实战为例)(3月25日学习笔记...
2020-03-25 13:48:33adj = data.frame(adj_question[,2])#把所有形容词另存为数据,使不破坏原数据 adj adjFreq = as.data.frame(table(adj))#生成频数表 #过滤出现次数过少的形容词,这一步骤可以省略 adjFreq = adjFreq[-which(nchar... -
ansj的分词系统过滤词性
2017-05-29 18:44:59ag 形容词性语素 al 形容词性惯用语 # 7. 区别词(1个一类,2个二类) b 区别词 bl 区别词性惯用语 # 8. 状态词(1个一类) z 状态词 # 9. 代词(1个一类,4个二类,6个三类) r 代词 rr 人称代词 rz ... -
【PHP】特殊词汇过滤
2018-11-05 20:19:00author:咔咔 wechat:fangkangfk 特殊词汇资源下载地址: https://download.csdn.net/download/fangkang7/10759073 ... * [敏感字过滤] * @param $content 需要验证的字符串 * @param $verify ... -
关于大数据,你应该知道的75个专业术语
2020-12-28 20:59:55原标题:关于大数据,你应该知道的75个专业术语 上篇(25 个术语)如果你刚接触大数据,你可能会觉得这个领域很难以理解,无从下手。...要知道,尽管算法这个词是一个统称,但是在这个流行大数据分析的时代... -
使用Python中的NLTK和spaCy删除停用词与文本标准化
2019-09-08 23:46:32探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatization) 在Python中使用NLTK,spaCy和Gensim库进行去除停用词和文本标准化 介绍 多样化的自然语言处理(NLP)是... -
python进行词语筛选生成词云
2021-06-03 13:40:44) #对words_stat中的词语统计,新添一列计数表示每个词出现的频率 words_stat=words_stat.reset_index().sort_values(by=["计数"],ascending=False) #按照计数中的数值大小降序排序 word_fre={x[0]:x[1] for x in ... -
SIFRank_zh:基于预训练模型的中文关键词提取方法(论文SIFRank
2021-03-21 04:27:41SIFRank_zh 这是我们论文的相关代码原文是在对英文关键短语进行抽取,这里迁移到中文上...首先对句子进行分词和词性标注,再利用正则表达式确定确定名词短语(例如:形容词+名词),将名词作为前缀关键字 最终关键利率 -
javaEE003.06 jQuery:过滤选择器2:内容过滤器(含有等)、可见性过滤器、属性、子元素
2020-12-01 12:48:226、选择所有不可见的 div 元素 7、选取属性title 值等于 “test” 的 div 元素 8、选取每个 class 为 one 的 div 父元素 下的 第一个子元素 不好理解这句话的意思 那就吧形容词去掉 选取…………第一个子元素 选取 ... -
贝叶斯垃圾邮件过滤
2017-01-18 15:44:52贝叶斯垃圾邮件过滤是一种筛选电子邮件的统计技术。在它的基本形式中,它使用天真贝叶斯分类器在词特征包上识别垃圾电子邮件,这是一种在文本分类中常用的方法。 天真贝叶斯分类器通过使用令牌(典型的词或有时... -
多词表达抽取
2019-09-03 23:20:56文本处理预处理过后,在此基础上对每个词条添加位置标签,形成每个词条的位置标签集,在进行停用词过滤以及同义词的合并处理,得到原子词条集;依照词条位置信息计算复合词条之间的同现度与相邻度,抽取复合词得到... -
LDA_java ,LDA(Latent Dirichlet Allocation)源代码,可以实现分词、去除停用词功能。 Develop 252万源...
2021-03-22 11:46:55LDA_java下载 收藏√ [5 4 3 2 1]开发工具: Java文件大小: 4818 KB上传时间: 2014-09-27下载次数: 19提 供 者: 河马详细说明:Java,LDA(Latent Dirichlet Allocation)源代码,可以实现分词、去除停用词功能。... -
Spark Mllib数据挖掘入门三——协同过滤算法
2021-02-23 15:23:05协同过滤算法是最常用的推荐算法,其主要有两种具体形式:基于用户的推荐算法和基于物品的推荐算法。推荐算法的基础是基于两个对象之间的相关性。ALS(alternating least squares)是交替最小二乘法的简称,也是... -
7天机器学习基础知识过滤
2021-04-15 10:46:08feature_names()) print(res.toarray()) 目前CountVectorizer只对有标点符号和用分隔符对应的文本进行特征抽取,显然不满足日常需求:在自然语言处理中,需要将一段中文文本中相关的词语,成语,形容词进行抽取 ... -
【Paper】Word2Vec:词嵌入的一枚银弹
2020-02-15 17:30:00IntroductionWord2Vec是Google在2013 年开源的一个词向量(Word Embedding)计算工具,其用来解决单词的分布编码问题,因其简单高效引起了工业界和学术... -
NLTK简单入门和数据清洗
2020-11-24 04:34:15JJ形容词 JJR比较级的形容词 JJS最高级的形容词 LS列表项标记 MD情态动词 NN名词单数 NNS名词复数 NNP专有名词 PDT前置限定词 POS所有格结尾 PRP人称代词 PRP$所有格代词 RB副词 RBR副词比较级 RBS副词最高级 RP小品... -
敏捷趣味回顾会议-过滤问题
2017-09-22 17:52:34过滤 可行性和有益性相关图 (#1) 绘制可行性和有益性相关图的活动提供了一个对建议的想法或行动的列表进行优先级排序的快速方式。通过比较每个想法相互之间的可行性的和有益性程度,参与者共同创建了一个排好... -
[转载] 使用Python中的NLTK和spaCy删除停用词与文本标准化
2021-01-12 08:40:13了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatization) 在Python中使用NLTK,spaCy和Gensim... -
TextRank_Algorithm:TextRank的简单实现
2021-05-11 13:06:57保留关键词:对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即,其中是保留后的候选关键词。 Si = [W1, W2, ... Wn] 选择共现窗口大小n; 根据共现窗口,...