精华内容
下载资源
问答
  • hanlp使用
    2019-04-11 17:34:23

    算法的说明在here
    源码在here
    需要求出每个单词的邻居单词,最终需要的是每个单词的邻居个数,只要两个单词同时出现在长度为5的窗口则成为邻居,
    这个相比用textRank进行文本摘要的不同点是:点(单词)之间权重w全为1, 求和部分的邻居的权重=邻居 的 邻居个数(邻居有几个邻居)
    单词构成的图是无向图,A是B的邻居,则B也是A的邻居
    源码部分笔记:
    getTermAndRank函数是核心函数,
    遍历所有单词,每次都把前面的最多4个单词当成邻居(窗口为5)

    窗口的实现是queue,从头出(poll),从尾入(offer),每遍历完一个单词,就把它加入queue
    处理新的单词时,如果窗口的长度=5了,则从头部(poll)删除一个(离当前词最远的)

    更多相关内容
  • Java中文分词hanlp使用

    2019-12-29 15:38:36
    说明:使用hanlp实现分词、智能推荐、关键字提取、摘要等,更多功能参考官网 项目结构 该项目中,.jar和data文件夹和.properties需要从官网/github下载,data文件夹下载 项目配置 修改hanlp.prope...

    HanLP介绍:http://hanlp.linrunsoft.com/
    github地址:https://github.com/hankcs/HanLP
    说明:使用hanlp实现分词、智能推荐、关键字提取、摘要等,更多功能参考官网

    项目结构

    这里写图片描述

    该项目中,.jar和data文件夹和.properties需要从官网/github下载data文件夹下载

    项目配置

    修改hanlp.properties:

    #/Test/src/hanlp.properties:
    #本配置文件中的路径的根目录
    #root=E:/SourceCode/eclipsePlace/Test
    root=./
    ......

    配置文件的作用是告诉HanLP数据包即data文件夹的位置,root的值为data文件夹的父目录,可以使用绝对路径或相对路径。

    测试代码

    package com.test;
    
    import java.util.List;
    
    import com.hankcs.hanlp.HanLP;
    import com.hankcs.hanlp.seg.common.Term;
    import com.hankcs.hanlp.suggest.Suggester;
    import com.hankcs.hanlp.tokenizer.NLPTokenizer;
    
    public class MainTest {
        public static void main(String[] args) {
            System.out.println("首次编译运行时,HanLP会自动构建词典缓存,请稍候……\n");
            //第一次运行会有文件找不到的错误但不影响运行,缓存完成后就不会再有了
            System.out.println("标准分词:");
            System.out.println(HanLP.segment("你好,欢迎使用HanLP!"));
            System.out.println("\n");
    
            List<Term> termList = NLPTokenizer.segment("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程");
            System.out.println("NLP分词:");
            System.out.println(termList);
            System.out.println("\n");
    
            System.out.println("智能推荐:");
            getSegement();
            System.out.println("\n");
    
            System.out.println("关键字提取:");
            getMainIdea();
            System.out.println("\n");
    
            System.out.println("自动摘要:");
            getZhaiYao();
            System.out.println("\n");
    
            System.out.println("短语提取:");
            getDuanYu();
            System.out.println("\n");
        }
    
        /**
         * 智能推荐部分
         */
        public static void getSegement() {
            Suggester suggester = new Suggester();
            String[] titleArray = ("威廉王子发表演说 呼吁保护野生动物\n" + "《时代》年度人物最终入围名单出炉 普京马云入选\n" + "“黑格比”横扫菲:菲吸取“海燕”经验及早疏散\n"
                    + "日本保密法将正式生效 日媒指其损害国民知情权\n" + "英报告说空气污染带来“公共健康危机”").split("\\n");
            for (String title : titleArray) {
                suggester.addSentence(title);
            }
            System.out.println(suggester.suggest("发言", 1)); // 语义
            System.out.println(suggester.suggest("危机公共", 1)); // 字符
            System.out.println(suggester.suggest("mayun", 1)); // 拼音
        }
    
        /**
         * 关键字提取
         */
        public static void getMainIdea() {
            String content = "程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。";
            List<String> keywordList = HanLP.extractKeyword(content, 5);
            System.out.println(keywordList);
        }
    
        /**
         * 自动摘要
         */
        public static void getZhaiYao() {
            String document = "算法可大致分为基本算法、数据结构的算法、数论算法、计算几何的算法、图的算法、动态规划以及数值分析、加密算法、排序算法、检索算法、随机化算法、并行算法、厄米变形模型、随机森林算法。\n"
                    + "算法可以宽泛的分为三类,\n" + "一,有限的确定性算法,这类算法在有限的一段时间内终止。他们可能要花很长时间来执行指定的任务,但仍将在一定的时间内终止。这类算法得出的结果常取决于输入值。\n"
                    + "二,有限的非确定算法,这类算法在有限的时间内终止。然而,对于一个(或一些)给定的数值,算法的结果并不是唯一的或确定的。\n"
                    + "三,无限的算法,是那些由于没有定义终止定义条件,或定义的条件无法由输入的数据满足而不终止运行的算法。通常,无限算法的产生是由于未能确定的定义终止条件。";
            List<String> sentenceList = HanLP.extractSummary(document, 3);
            System.out.println(sentenceList);
        }
    
        /**
         * 短语提取
         */
        public static void getDuanYu() {
            String text = "算法工程师\n"
                    + "算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。\n"
                    + "\n" + "1职位简介\n" + "算法工程师是一个非常高端的职位;\n" + "专业要求:计算机、电子、通信、数学等相关专业;\n"
                    + "学历要求:本科及其以上的学历,大多数是硕士学历及其以上;\n" + "语言要求:英语要求是熟练,基本上能阅读国外专业书刊;\n"
                    + "必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。\n" + "\n" + "2研究方向\n"
                    + "视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师\n" + "\n" + "3目前国内外状况\n"
                    + "目前国内从事算法研究的工程师不少,但是高级算法工程师却很少,是一个非常紧缺的专业工程师。算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、雷达信号处理、生物医学信号处理等领域的一维信息算法处理。\n"
                    + "在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法:机器视觉成为此类算法研究的核心;另外还有2D转3D算法(2D-to-3D conversion),去隔行算法(de-interlacing),运动估计运动补偿算法(Motion estimation/Motion Compensation),去噪算法(Noise Reduction),缩放算法(scaling),锐化处理算法(Sharpness),超分辨率算法(Super Resolution),手势识别(gesture recognition),人脸识别(face recognition)。\n"
                    + "在通信物理层等一维信息领域目前常用的算法:无线领域的RRM、RTT,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。\n" + "另外数据挖掘、互联网搜索算法也成为当今的热门方向。\n"
                    + "算法工程师逐渐往人工智能方向发展。";
            List<String> phraseList = HanLP.extractPhrase(text, 10);
            System.out.println(phraseList);
        }
    }
    

    运行结果

    这里写图片描述

    展开全文
  • Hanlp基本使用

    千次阅读 2022-02-21 20:22:24
    Hanlp基本使用

    一、Hanlp基本介绍

    HanLP是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

    GitHub地址:https://github.com/hankcs/HanLP
    官网地址:https://www.hanlp.com/

    二、下载与配置

    pom.xml文件中引入依赖

    <dependency>
    	<groupId>com.hankcs</groupId>
    	<artifactId>hanlp</artifactId>
    	<version>portable-1.8.2</version>
    </dependency>
    

    引入上述依赖后,即可使用基本功能(除由字构词、依存句法分析外的全部功能)。
    用户自定义功能需安装数据包以及配置 hanlp.properties 文件
    数据包文件:data.zip
    HanLP中的数据分为词典和模型,其中词典是词法分析必需的,模型是句法分析必需的。用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除model文件夹。

    data
    │
    ├─dictionary
    └─model
    

    三、文件配置

    词典数据和 hanlp.properties 配置文件存放工程目录如图(存放位置可以随意,配置文件里面指定对应的词典数据文件位置即可)
    在这里插入图片描述
    hanlp.properties 配置文件修改,主要关注如下几个配置:

    • windows下使用只需要修改root指定数据包文件位置,如果要实现自定义词则在 CustomDictionaryPath 加上自定义文件即可。
    • linux中使用则除了root和CustomDictionaryPath需要相应修改,还需要重写默认的IO适配器。
    • 对于自定义词典数据量少的时候可以通过代码内写入到词典中,而不需要落地到词典文件中,如 CustomDictionary.insert(自定义词,“自定义词性 词频”);
    # 指定Hanlp数据包文件位置
    # root=D:/JavaProjects/HanLP/
    # root=/home/aword/
    root=src/main/resources/
    #自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一个目录,使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。
    #所有词典统一使用UTF-8编码,每一行代表一个单词,格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不填词性则表示采用词典的默认词性。
    CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt; 机构名词典.txt; 上海地名.txt ns;data/dictionary/person/nrf.txt nrf;
    #默认的IO适配器如下,该适配器是基于普通文件系统的。
    #IOAdapter=com.hankcs.hanlp.corpus.io.FileIOAdapter
    # 重写适配器,指定文件即可
    IOAdapter=com.aword.config.ResourceFileIoAdapter
    

    ResourceFileIoAdapter.java

    public class ResourceFileIoAdapter implements IIOAdapter {
        @Override
        public InputStream open(String s) throws IOException {
            //return  new FileInputStream(new ClassPathResource(path).getFile());
            return this.getClass().getClassLoader().getResourceAsStream(s);
        }
    
        @Override
        public OutputStream create(String s) throws IOException {
            return new FileOutputStream(new ClassPathResource(path).getFile());
        }
        
    //    @Override
    //    public InputStream open(String path) throws IOException {
    //        String tempDir = Files.createTempDirectory("hanlp").toAbsolutePath().toString();
    //        String cachePath = new File(tempDir + "/" + path).getPath().intern();
    //        if (IOUtil.isFileExisted(cachePath)) {
    //            return new FileInputStream(cachePath);
    //        }
    //        InputStream inputStream = IOUtil.getResourceAsStream("/" + path);
    //        return inputStream;
    //    }
    //
    //    @Override
    //    public OutputStream create(String path) throws IOException {
    //        String tempDir = Files.createTempDirectory("hanlp").toAbsolutePath().toString();
    //        String cachePath = new File(tempDir + "/" + path).getPath().intern();
    //        if (IOUtil.isResource(path)) {
    //            mkdir(cachePath);
    //            return new FileOutputStream(cachePath);
    //        }
    //        FileOutputStream fileOutputStream = new FileOutputStream(path);
    //        return fileOutputStream;
    //    }
    //
    //
    //    private void mkdir(String cachePath) {
    //        if (new File(cachePath).exists()) {
    //            return;
    //        }
    //        String dir = cachePath.endsWith(File.separator) ? cachePath : StringUtils.substringBeforeLast(cachePath, File.separator);
    //        new File(dir).mkdirs();
    //    }    
    
    }
    

    四、基本使用

    HanLP几乎所有的功能都可以通过工具类HanLP快捷调用,当你想不起来调用方法时,只需键入HanLP.,IDE应当会给出提示,并展示HanLP完善的文档,所有Demo都位于com.hankcs.demo下。
    Hanlp词性表:HanLP词性标注集
    第一个Demo

    System.out.println(HanLP.segment("你好,欢迎使用HanLP汉语处理包!"));
    

    标准分词
    算法详解:词图的生成

    List<Term> termList = StandardTokenizer.segment("商品和服务");
    System.out.println(termList);
    

    NLP分词

    System.out.println(NLPTokenizer.segment("我新造一个词叫幻想乡你能识别并标注正确词性吗?"));
    // 注意观察下面两个“希望”的词性、两个“晚霞”的词性
    System.out.println(NLPTokenizer.analyze("我的希望是希望张晚霞的背影被晚霞映红").translateLabels());
    System.out.println(NLPTokenizer.analyze("支援臺灣正體香港繁體:微软公司於1975年由比爾·蓋茲和保羅·艾倫創立。"));
    

    极速词典分词

    • 极速分词是词典最长分词,速度极其快,精度一般。
    • 在i7-6700K上跑出了4500万字每秒的速度。

    算法详解:《Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配》

    /**
     * 演示极速分词,基于AhoCorasickDoubleArrayTrie实现的词典分词,适用于“高吞吐量”“精度一般”的场合
     * @author hankcs
     */
    public class DemoHighSpeedSegment
    {
        public static void main(String[] args)
        {
            String text = "江西鄱阳湖干枯,中国最大淡水湖变成大草原";
            System.out.println(SpeedTokenizer.segment(text));
            long start = System.currentTimeMillis();
            int pressure = 1000000;
            for (int i = 0; i < pressure; ++i)
            {
                SpeedTokenizer.segment(text);
            }
            double costTime = (System.currentTimeMillis() - start) / (double)1000;
            System.out.printf("分词速度:%.2f字每秒", text.length() * pressure / costTime);
        }
    }
    

    用户自定义词典
    算法详解:《Trie树分词》

    /**
     * 演示用户词典的动态增删
     *
     * @author hankcs
     */
    public class DemoCustomDictionary
    {
        public static void main(String[] args)
        {
            // 动态增加
            CustomDictionary.add("攻城狮");
            // 强行插入
            CustomDictionary.insert("白富美", "nz 1024");
            // 删除词语(注释掉试试)
    //        CustomDictionary.remove("攻城狮");
            System.out.println(CustomDictionary.add("单身狗", "nz 1024 n 1"));
            System.out.println(CustomDictionary.get("单身狗"));
    
            String text = "攻城狮逆袭单身狗,迎娶白富美,走上人生巅峰";  // 怎么可能噗哈哈!
    
            // AhoCorasickDoubleArrayTrie自动机扫描文本中出现的自定义词语
            final char[] charArray = text.toCharArray();
            CustomDictionary.parseText(charArray, new AhoCorasickDoubleArrayTrie.IHit<CoreDictionary.Attribute>()
            {
                @Override
                public void hit(int begin, int end, CoreDictionary.Attribute value)
                {
                    System.out.printf("[%d:%d]=%s %s\n", begin, end, new String(charArray, begin, end - begin), value);
                }
            });
    
            // 自定义词典在所有分词器中都有效
            System.out.println(HanLP.segment(text));
        }
    }
    

    上述只简单列举几种基本的分词,更多分词及详细内容请参考 Hanlp官方文档

    文章仅供学习交流,侵权联系删除。

    展开全文
  • HanLP使用简介以蕊小说网 https://www.2569.info HanLP是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 目前,...

    话接上篇NLP的学习坑 自然语言处理(NLP)——简介 ,使用HanLP进行分词标注处词性。

    HanLP使用简介

    以蕊小说网 https://www.2569.info

    HanLP是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
    目前,基于深度学习的HanLP 2.0正处于alpha测试阶段。如果是java用户我们搜索的时候进入到官网可能看回浪费一些事件去搞清楚怎么使用,因为2.0目前貌似是python可以使用,而且在测试阶段,并且现在做了线上商业化api调用。
    多数文档是围绕2.0的线上api调用的,所以截至目前如果你是使用java那么直接看1.x分支进行使用就好了。github 地址:https://github.com/hankcs/HanLP/tree/1.x。
    根据文档说明有两种方式使用HanLP,第一是直接 maven 依赖,第二种就是 下载jar和配置文件。现在我们来体验下HanLP的使用,let's go

    Maven使用

    1、我们先建一个简单的maven项目 hanlpdemo

    为了方便用户,特提供内置了数据包的Portable版,pom.xml加入依赖,maven reload一下,下载包。

    <dependency>
        <groupId>com.hankcs</groupId>
        <artifactId>hanlp</artifactId>
        <version>portable-1.8.2</version>
    </dependency>
    

    2、写一个简单的测试方法

    /**
     * HanLP分词
     *
     * @param inputStr
     */
    public static void HanLpSegment(String inputStr) {
        //标准分词
        List<Term> termList = StandardTokenizer.segment(inputStr);
        System.out.println(termList);
        //标准分词封装
        System.out.println(HanLP.segment(inputStr));
        // NLP分词 词性标注和命名实体识别
        System.out.println(NLPTokenizer.segment(inputStr));
    }
    

    3、run一下看看结果

    分词有多种方式:标准分词、NLP分词、索引分词、 N-最短路径分词等等,其它的这里先不测试了。
    上面三种方法的分词中,前面两个已经出来结果了,并且标注了词性,而第三个为什么报错(打开失败:data/model/perceptron/large/cws.bin)?
    因为Maven的方式零配置,即可使用基本功能(除由字构词、依存句法分析外的全部功能)。如果用户有自定义的需求,可以参考方式二,使用hanlp.properties进行配置(Portable版同样支持hanlp.properties)。
    所以NLPTokenizer.segment方法应该是用到了其中的功能,我们使用第二种方式,配置hanlp.properties。既然已经依赖了maven就不用添加jar包了,直接下载data和配置hanlp.properties就行了。

    下载jar、data、hanlp.properties

    1、下载: data.zip

    下载解压后我们将data文件夹放到src/main/resources 下面,放到其它位置也可以,hanlp.properties里面要配置data的路径。

    2、下载jar和配置文件:hanlp-release.zip

    解压后我们只需要hanlp.properties文件,放到src/main/resources 下面,修改 root=D:/JavaProjects/HanLP/root=./src/main/resources


    这是第二种配置使用HanLP的方法,因为我们已经Maven依赖了所以这里就不用添加jar包了,如果不用maven还需要将jar添加进项目引用。

    3、再run一下

    成功运行起来了,大家可以看到NLPTokenizer.segment方法分词的结果和标准分词的结果不同。“2021年7月15日” 被标注成了时间/t,文档说NLPTokenizer会执行词性标注和命名实体识别,所以被标注成了时间/t命名实体。
    再来看下词性标注和命名实体是什么,这个说明更能解释这篇文章而已,看我上篇也有定义,反正定义不是我定义的,神似型不似而已怎么说都有理!

    词性标注是什么:

    词性是词汇基本的语法属性,也称为词类。词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。

    命名实体是什么:

    命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,其目的是识别语料中人名、地名、组织机构名等命名实体。
    命名实体是命名实体识别的研究主体,一般包括三大类(实体类、时间类和数字类)和七小类(人名、地名、机构名、时间、日期、货币和百分比)命名实体。

    最后

    有了NLP的概念了解,也有了NLP的工具,所以也算是要入门 NLP 了(囧)。目前没有实战的需求,只是个人兴趣学习下,反正时间浪费了也是浪费,希望后面又更多的学习和实践分享!

    参考:
    1、维基百科
    2、HanLp 官网
    3、HanLP github

    展开全文
  • 上篇文章我们讲解pinyin分词器的使用,本篇文章我们学习下业界公认的hanlp分词器。 上篇文章地址:https://blog.csdn.net/qq_43692950/article/details/122277313 hanlp是一个自然语言处理包,能更好的根据上下文...
  • HanLP-简单使用

    千次阅读 2022-04-13 17:54:32
    多任务模型 HanLP的工作流程为加载模型然后将其当作函数调用,例如下列联合多任务模型: import hanlp HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH) # 世界最大...
  • 第一次用这个记录下自己的学习进程以免以后忘记了,由于产品设计过程中使用HanLP,所以自己先研究下,可能研究不会那么深入,今天先来记录自己学习的第一步,使用Python还进行HanLP分词。 安装Java 下载jdk,下载...
  • 2020.12-HanLP使用记录(持续更新:分词,NER等) 目录 背景 HanLP-中文NER HanLP-中文分词 背景 在中文文本预处理场景中,现有多款工具,例如jieba等。但是通过个人的使用感官尝试,发现HanLP库的分词效果,...
  • python中Hanlp使用

    2020-05-23 14:43:40
    startJVM(getDefaultJVMPath(), "-Djava.class.path=D:\JavaProject\Hanlp\hanlp-1.7.7.jar;D:\JavaProject\Hanlp", "-Xms1g", "-Xmx1g") #HanLP分词 print("-" * 30 + "HanLP分词" + "-" * 30) HanLP = JClass('.
  • Hanlp使用Bug记录

    2018-10-10 15:09:07
    Hanlp是最近学习的一个自然语言处理包,本篇文章将一些使用过程之中遇到的bug放到这里做一个备忘记录,有时间一并联系作者更改。 -Predefine类的好多预定义tag没有在核心词典中。 这个造成的问题就是函数 /** * ...
  • hanlp使用笔记

    2020-01-15 14:32:37
    参考: https://www.hankcs.com/nlp/hanlp.html https://www.jb51.net/article/156797.htm https://www.cnblogs.com/huangyc/p/10279247.html
  • 1.在data/dictionary/custom/路径下新建文件 myDict.txt.,添加新的单词,...2.在hanlp配置文件中的CustomDictionaryPath后追加myDict.txt 3.工具类 public static List <String> getNewExtractKeyWord(S...
  • 分词工具Hanlp使用

    2019-04-09 18:12:52
    分词工具Hanlp教程: 一、安装jdk,eclipse 二、下载hanlp工具 方法1 maven方法,不用导入包 内置数据包的Portable版 为了方便用户,特提供内置了数据包的Portable版,只需在pom.xml加入: ...
  • 我跟据词向量的作者[6]所使用的分词工具来分词,会比不同工具(jieba)的效果要好,因为都是同一模式的分词,分出来的词应该都会存在于大型语料库中。实验证明思路是对的,最后结果是只有60几个词不在词向量里,其中大...
  • @jieba @hanlp
  • 使用hanlp 模块貌似要先安装tensorflow、numpy等模块 本文使用hanlp模块完成中英文分词、中英文命名体识别、中英文词性标注等功能 代码 #coding:utf-8 import hanlp,re content_Chinese = "xxx,副教授、硕士...
  • Hanlp的安装和使用

    千次阅读 2021-03-19 09:49:32
    Hanlp的安装和使用 目前开源界贡献了许多优秀的NLP工具, ·教学常用的NLTK ( Natural Language Toolkit ) ·斯坦福大学开发的CoreNLP ·国内哈工大开发的LTP(Language TechnologyPlatform ) ·何哈开发的HanLP ( Han...
  • FoolNLTK 及 HanLP使用

    千次阅读 2018-08-09 17:10:29
    使用命令hanlp segment进入交互分词模式,输入一个句子并回车, HanLP 会输出分词结果: $ hanlp segment 商品和服务 商品/n 和/cc 服务/vn 当下雨天地面积水分外严重 当/p 下雨天/n 地面/n 积水/n 分外/d 严重/a...
  • HanLP基本用法

    2021-08-13 15:18:12
    选择汉语言处理包HanLP实现这一目标, 本文将梳理了基于python的HanLP工具包的一些基本用法,便于日后需要时的查找使用HanLP基本用法简介安装基本功能语法分词、词性标注依存句法分析关键词提取摘要抽取感知机...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,736
精华内容 1,494
关键字:

hanlp使用

友情链接: 算法2.zip