精华内容
下载资源
问答
  • jieba中文分词

    2019-04-16 22:22:09
    https://blog.csdn.net/qq_34337272/article/details/79554772
    展开全文
  • jieba分词

    千次阅读 2019-07-21 16:06:40
    因为最近的项目的需求,要使用到jieba分词,所以就简单的分享一下 对的jieba几个模式的使用: 接下来是简单的操作 # 导入包 import jieba #管理系统路径 import sys sys.path.append("../") # 获取自定义词典...

    因为最近的项目的需求,要使用到jieba分词,所以就简单的分享一下

    对的jieba几个模式的使用:

    接下来是简单的操作

    # 导入包
    import jieba
    
    #管理系统路径
    import sys
    sys.path.append("../")
    
    # 获取自定义词典
    jieba.load_userdict('data/duanxin/userdict.txt')
    
    #导入词性标注的包
    import jieba.posseg as pseg
    
    #添加词
    jieba.add_word('行窃预兆')
    jieba.add_word('气定神闲')
    
    # 删除词
    jieba.del_word('hello')
    
    #元组类型的测试数据
    test_sent=(
    "和深度和等候爱的诶哟广大撒好的坏读书的机会;谁都会厚度啊的哈"
    "萨哈帝国画分镜给福建省覅 是否会旁边将发射光谱上方式烧饭"
    "[和咯哦安静 ]很烦粉红色会苏粉丝发挥示范是否会四、是服饰"
    )
    
    # 默认分词
    words=jieba.cut(test_sent)
    print('/'.join(words))
    
    print('*'*40)
    
    #用于词性标注
    result=pseg.cut(test_sent)
    
    #使用for 循环把分出的词及其词性用/隔开 并添加空格
    for w in result:
        print(w.word,'/',w.flag,',',end=' ')
    print('\n'+'*'*40)
    
    # 对英文的分割
    terms=jieba.cut('dha adh d hdsahda adshjah')
    print('/'.join(terms))
    
    #对英文和汉字的分割
    terms=jieba.cut('usdiaiu的埃胡德啊哈的')
    print('/'.join(terms))
    
    print('*'*40)

     

    因为项目需求不高,所以简单的操作已经可以实现需求了,如果大家感兴趣的话可以去看看这篇文章,希望能帮助各位~

    展开全文
  • words = pseg.cut(df.ix[i][0]) ##我这里对第一列即A列进行分词 for word,flag in words: x.append(word) y.append(flag) df1[‘word’]=x df1[‘type’]=y df3=df1.groupby([‘word’,’type’])....

    df的部分数据如下:
    A B
    0 乐视招聘自动化测试工程师负责超级电视设备的自动化方案设计自动化测试与工具开发根据项目特点研究… 转正后全员持股年底奖金各种补助等
    1 负责端产品网页以及的交互设计并对产品最终的用户体验负责参与用户研究及产品需求制定的整个过程提… 班车接送各种福利团队领导好
    2 实现服务于智能设备用户的智能推荐系统当前需要实现电视购物推荐系统壁纸个性化推荐系统智能标签推… 弹性考勤慷慨期权免费班车薪
    3 负责乐视智能设备超级电视超级手机数据开发工作当前需要实现智能用户行为多维探查交互系统后端开发… 弹性考勤慷慨期权免费班车薪
    4 基于智能设备端用户行为的分析建模服务于各业务线钻研算法钻研业务持续改进算法提升业务质量负责电… 弹性考勤慷慨期权免费班车薪

    import jieba.posseg as pseg
    l = len(df)
    df1=pd.DataFrame(columns=[‘word’,’type’])
    x=[]
    y=[]
    for i in range(l):
    words = pseg.cut(df.ix[i][0]) ##我这里对第一列即A列进行分词
    for word,flag in words:
    x.append(word)
    y.append(flag)
    df1[‘word’]=x
    df1[‘type’]=y
    df3=df1.groupby([‘word’,’type’]).size()

    展开全文
  • Hadoop中文词频统计

    千次阅读 2014-04-13 14:35:24
    学习Hadoop都免不了WordCount,但是都是最简单的例子,而且都是以空格为划分的英文词频的统计,相比于中文,英文的统计显得简单很多,因为中文涉及到很多语义及分词的不同,通常不好统计中文词频,即使是现在的技术...

    学习Hadoop都免不了WordCount,但是都是最简单的例子,而且都是以空格为划分的英文词频的统计,相比于中文,英文的统计显得简单很多,因为中文涉及到很多语义及分词的不同,通常不好统计中文词频,即使是现在的技术,也没有完全能符合人们标准的中文词频统计工具出现,不过现阶段还是有可以使用的工具的,比如IK Analyzer,今天就来尝试一下。

    先感谢看到的博客指导:http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html

    1,实验环境

    hadoop 1.2.1

    java 1.7

    node:only one

    2,数据准备

    这里采用的完结篇小说《凡人修仙传》,大概20MB,个人爱好。

    3,实验过程

    1)修改WordCount代码,主要是应用IK Analyzer中文分词法,这是一个开源的工具,参考http://code.google.com/p/ik-analyzer/

    2)为更方便查看任务进度,打包运行,注意要将IK Analyzer的包一起,我将打好的包以及工具包和测试文本都上传到共享http://pan.baidu.com/s/1jGwVSEy

    首先将测试文件上传到HDFS的input目录下,hadoop dfs -copyFromLocal part-all.txt input

    然后开始运行 hadoop jar chinesewordcount.jar input output

    等待运行完成,就不截图了。

    3)数据处理,因为生成的数据并没有排序,所以还是要进行一系列的处理

    head words.txt
    tail words.txt
     
    sort -k2 words.txt >0.txt
    head 0.txt
    tail 0.txt
    sort -k2r words.txt>0.txt
    head 0.txt
    tail 0.txt
    sort -k2rn words.txt>0.txt
    head -n 50 0.txt
    目标提取
    awk '{if(length($1)>=2) print $0}' 0.txt >1.txt
    最终显示结果
    head 1.txt -n 200 | sed = | sed 'N;s/\n//'


    4)结果

    Screenshot from 2014-04-13 14_26_30

    不过数据还是有很多单字的情况,这是很无用的,因此最终的记过可能还是要手动处理一下,最终的结果放到共享,有兴趣的可以查看下http://pan.baidu.com/s/1hqn66MC

    4,总结

    中文分词果然比较复杂,只能说继续努力。。

    欢迎一起学习交流,转载请注明http://www.ming-yue.cn/hadoop-chinese-wordcount/

    展开全文
  • 利用jieba和wordcloud生成词云

    千次阅读 2019-02-26 11:12:01
    利用wordcloud和jieba做一个词云 环境 ...python2对jieba的中文分词支持不是很好,所以使用python3。 python 3.6.1 jieba 0.39 matplotlib 1.0.4 scipy 1.0.0 wordcloud 1.3.1 numpy 1.13.3 PIL...
  • 中文文本需要通过分词获得单个的词语,jieba库是优秀的中文分词第三方库,jieba库的分词原理: 利用一个中文词库,确定汉字之间的关联概率 汉字间概率大的组成词组,形成分词结果 除了分词,用户还可以...
  • 由于wordcloud使用空格来进行形成词云,而中文没有空格,所以使用jieba库来分隔 ex:对政府工作报告的分析 import wordcloud import jieba f = open("工作报告.txt","r",encoding="utf-8") t = f.read() f.close() #...

空空如也

空空如也

1
收藏数 7
精华内容 2
关键字:

jieba中文分词