精华内容
下载资源
问答
  • 去停用词
    千次阅读
    2021-09-17 14:02:21

    对于文本分词,此处使用的是python自带的jieba包进行,首先我们要先读取我们所需要分词的文章,然后使用jieba.cut进行分词,注意分词时要将这些段落归并成同一个字符串,然后输出的是一个列表。最后写入一个文件中

    import jieba.analyse
    test1 =""
    fencilist=[]
    with open(r"testtxt",'r',encoding="UTF-8") as test:
        for line in test:
            line.strip()
            test1+=line
    fencilist=jieba.cut(test1)
    fencilist=list(set(fencilist))
    with open(r"fenciescult",'w',encoding="UTF-8") as f:
        for i in fencilist:
            f.write(i+'\n')

    在去除停用词时,我们可以将停用词进行提取,并存放在一个列表中,然后将分好的词存放在一个列表中,用for循环进行一个一个判断是否在停用词库中,如果不在,就存放在一个新的列表中,得到最终结果。

    stopwordlist=[]
    fencilist=[]
    resultlist=[]
    
    with open(r"stopwords",'r',encoding="UTF-8") as f:
        for i in f:
            stopwordlist.append(i)
    with open(r"fenciescult",'r',encoding="UTF-8") as test:
        for line in test:
            fencilist.append(line.strip())
    for i in fencilist:
        if(i not in stopwordlist):
            resultlist.append(i)
    with open(r"result",'w',encoding="UTF-8") as xx:
        for x in resultlist:
            xx.write(x+'\n')
    

    更多相关内容
  • 利用jieba函数去除停用词,并且含有读取文件,将改成功之后的文件放入新建的而文件之中,亲测好用
  • 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的。 分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接...
  • 内含7kb的停用词词典、源码、测试数据;词典共收录了1208个常见停用词,源码基于python3,下载解压后即可运行测试数据,且效率非常高。欢迎下载使用,如在使用过程中有任何问题,欢迎留言交流。
  • 用于中文文本分词,去停用词,包含基本的停用词词典,可根据需要进行扩充。
  • 主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
  • NLPIR分词、去停用词

    2019-01-13 09:48:36
    整合 使用ICTCLAS2013(NlPIR) x64 的中文...然后就是对文本进行的去停用词以及特殊符号(哈工大停用词库)的去除,这些特殊符号还有标点符号,以及文本中夹杂的数字和字母会对分词的效果产生影响。eclipse GBK 编码
  • 论文中用到的部分基础文本分析技术(包括分词、去除停用词、word2vec、TF-IDF、词云图、名称提取、词性标注、LDA主题模型)
  • 随便构造了一份测试数据如下,内容是gensim下的向量生成模型word2vec的属性说明 一种方式,通过正则表达式,这里以标点符号为例,在分词之前进行操作 import re # 通过正则表达式筛除string中的标点符号 def ...
  • Java,LDA(Latent Dirichlet Allocation)源代码,可以实现分词、去除停用词功能。
  • 停用词 stopword是节点和浏览器的模块,允许您从输入文本中删除停用词。 实时。 用法 Node.js sw = require ( 'stopword' ) // sw.removeStopwords and sw.[language code] now available 脚本标记方法 < ...
  • 占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位占位...
  • Jieba分词并去停用词

    千次阅读 2021-11-19 22:57:31
    采用Jieba分词并去停用词 停用词表 stopwords.txt,四川大学和哈工大的自己选择 百度网盘地址在链接: https://pan.baidu.com/s/1KBkOzYk-wRYaWno6HSOE9g 提取码: 4sm6 代码实现: import jieba # 创建停用词...

    微博原始数据 all_data.txt(示例)

     

    采用Jieba分词并去停用词

    停用词表 stopwords.txt,四川大学和哈工大的自己选择

    百度网盘地址在链接: https://pan.baidu.com/s/1KBkOzYk-wRYaWno6HSOE9g 提取码: 4sm6

     代码实现:

    import jieba
    
    # 创建停用词列表
    def stopwordslist():
        stopwords = [line.strip() for line in open('./data/stopwords.txt',encoding='UTF-8').readlines()]
        return stopwords
    
    # 对句子进行中文分词
    def seg_depart(sentence):
        # 对文档中的每一行进行中文分词
        # print("正在分词")
        sentence_depart = jieba.cut(sentence.strip())
        # 创建一个停用词列表
        stopwords = stopwordslist()
        # 输出结果为outstr
        outstr = ''
        # 去停用词
        for word in sentence_depart:
            if word not in stopwords:
                if word != '\t':
                    outstr += word
                    outstr += " "
        return outstr
    
    # 给出文档路径
    filename = "./data/all_data.txt"
    outfilename = "./data/out.txt"
    inputs = open(filename, 'r', encoding='UTF-8')
    outputs = open(outfilename, 'w', encoding='UTF-8')
    
    # 将输出结果写入ou.txt中
    for line in inputs:
        a = line.split()
        line = a[1]
        label = a[0]
        line_seg = seg_depart(line)
        outputs.write(label + '\t'+ line_seg + '\n')
        # print("-------------------正在分词和去停用词-----------")
    outputs.close()
    inputs.close()
    print("删除停用词和分词成功!!!")

    处理结果 out.txt(示例)

     

    展开全文
  • 利用jieba分词并去除停用词

    千次阅读 2021-03-06 20:38:20
    import jiebaimport re# 停用词# 创建停用词列表def get_stopwords_list():stopwords = [line.strip() for line in open('stopwords.txt',encoding='UTF-8').readlines()]return stopwords# 对句子进行中文分词def ...

    import jieba

    import re

    # 停用词

    # 创建停用词列表

    def get_stopwords_list():

    stopwords = [line.strip() for line in open('stopwords.txt',encoding='UTF-8').readlines()]

    return stopwords

    # 对句子进行中文分词

    def seg_depart(sentence):

    # 对文档中的每一行进行中文分词

    sentence_depart = jieba.lcut(sentence.strip())

    return sentence_depart

    def remove_digits(input_str):

    punc = u'0123456789.'

    output_str = re.sub(r'[{}]+'.format(punc), '', input_str)

    return output_str

    # 去除停用词

    def move_stopwords(sentence_list, stopwords_list):

    # 去停用词

    out_list = []

    for word in sentence_list:

    if word not in stopwords_list:

    if not remove_digits(word):

    continue

    if word != '\t':

    out_list.append(word)

    return out_list

    样例如下:

    sentence = '1、判令被告赵军霞偿还原告借款本息及应收费用共计4278.6元(计算至2017年1月10日,实际还款额以合同约定的计费方式计算至最终还款日)'

    stopwords = get_stopwords_list()

    sentence_depart = seg_depart(sentence)

    print(sentence_depart)

    sentence_depart = move_stopwords(sentence_depart, stopwords)

    print(sentence_depart)

    输出结果为:

    ['1', '、', '判令', '被告', '赵军', '霞', '偿还', '原告', '借款', '本息', '及', '应收', '费用', '共计', '4278.6', '元', '(', '计算', '至', '2017', '年', '1', '月', '10', '日', ',', '实际', '还款额', '以', '合同', '约定', '的', '计费', '方式', '计算', '至', '最终', '还款', '日', ')']

    ['判令', '被告', '赵军', '霞', '偿还', '原告', '借款', '本息', '应收', '费用', '共计', '元', '计算', '年', '月', '日', '还款额', '合同', '约定', '计费', '方式', '计算', '最终', '还款', '日']

    展开全文
  • 去除停用词.c

    2015-06-22 11:57:59
    使用C语言,根据停用词表,对指定文件的内容扫描,从而删除文件中出现的停用词
  • python分词与去停用词简单实操

    千次阅读 2022-03-29 23:10:18
    一、前期准备 **主要工具:**jieba **数据介绍:**从万方数据平台中收集到的区块链...2、去停用词 ####加载停用词 def load_stopword(): f_stop = open('stopwordsHIT.txt', encoding='utf-8') # 自己的中文停用词表

    一、前期准备

    **主要工具:**jieba
    **数据介绍:**从万方数据平台中收集到的区块链技术领域的专利文献。
    **stopwordsHIT.txt:**停用词表。
    **userdict.txt:**用户词典。为提高分词精度,本词典中包含大量区块链技术领域专业词汇。

    二、操作过程

    1、原始数据

    2、去停用词

    ####加载停用词
    def load_stopword():
        f_stop = open('stopwordsHIT.txt', encoding='utf-8')  # 自己的中文停用词表
        sw = [line.strip() for line in f_stop]  # strip() 方法用于移除字符串头尾指定的字符(默认为空格)
        f_stop.close()
        return sw
    

    3、分词

    # 中文分词并且去停用词
    def seg_word(sentence):
        file_userDict = 'userdict.txt'  # 自定义的词典
        jieba.load_userdict(file_userDict)# 加载用户词典
    
        sentence_seged = jieba.cut(sentence.strip(),HMM=True) # HMM参数可选可不选,默认为False
        stopwords = load_stopword()
        outstr = ''
        for word in sentence_seged:
            if word not in stopwords:
                if word != '/t':
                    outstr += word
                    outstr += " "
        return outstr
    

    4、完整代码

    首先定义方法。

    import pandas as pd 
    import jieba
    
    ####加载停用词
    def load_stopword():
        f_stop = open('stopwordsHIT.txt', encoding='utf-8')  # 自己的中文停用词表
        sw = [line.strip() for line in f_stop]  # strip() 方法用于移除字符串头尾指定的字符(默认为空格)
        f_stop.close()
        return sw
    
    # 中文分词并且去停用词
    def seg_word(sentence):
        file_userDict = 'userdict.txt'  # 自定义的词典
        jieba.load_userdict(file_userDict)# 加载用户词典
    
        sentence_seged = jieba.cut(sentence.strip(),HMM=True) # HMM参数可选可不选,默认为False
        stopwords = load_stopword()
        outstr = ''
        for word in sentence_seged:
            if word not in stopwords:
                if word != '/t':
                    outstr += word
                    outstr += " "
        return outstr
    

    原始文件的数据量较大,本文只选取其中10条作为演示。

    df=pd.read_excel("Patent_data.xlsx")
    data=df[0:10]
    ## 专利名称对于反应主题也有较大作用。分词时考虑专利名称与专利摘要
    data["cutted_Content"]=data["名称"].apply(seg_word)+data["摘要"].apply(seg_word)
    

    查看分词结果

    data["cutted_Content"]
    

    在这里插入图片描述
    所有数据展示

    data
    

    在这里插入图片描述

    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 15,092
精华内容 6,036
关键字:

去停用词

友情链接: 爬楼梯.zip