精华内容
下载资源
问答
  • 2019-02-10 16:17:50

    目录

    API在线文档:

    编译好的jar包下载(包含依赖):

    Maven依赖:

    分词使用方法:

    分词算法效果评估:

    相关文章:


    word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词性标注、同义标注、反义标注、拼音标注等功能。同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

    注意:word1.3需要JDK1.8

    API在线文档:

    word 1.0 API

    word 1.1 API

    word 1.2 API

    编译好的jar包下载(包含依赖):

    链接: https://pan.baidu.com/s/1mnGQqx_5Yqv_KxS9HJCTcA 
    提取码: essu 

    Maven依赖:

    在pom.xml中指定dependency,可用版本有1.0、1.1、1.2、1.3:

    <dependencies>
        <dependency>
            <groupId>org.apdplat</groupId>
            <artifactId>word</artifactId>
            <version>1.3</version>
        </dependency>
    </dependencies>

    分词使用方法:

    1、快速体验

    运行项目根目录下的脚本demo-word.bat可以快速体验分词效果
    用法: command [text] [input] [output]
    命令command的可选值为:demo、text、file
    demo
    text 杨尚川是APDPlat应用级产品开发平台的作者
    file d:/text.txt d:/word.txt
    exit

    2、对文本进行分词

    移除停用词:List<Word> words = WordSegmenter.seg("杨尚川是APDPlat应用级产品开发平台的作者");
    保留停用词:List<Word> words = WordSegmenter.segWithStopWords("杨尚川是APDPlat应用级产品开发平台的作者");
                System.out.println(words);
    
    输出:
    移除停用词:[杨尚川, apdplat, 应用级, 产品, 开发平台, 作者]
    保留停用词:[杨尚川, 是, apdplat, 应用级, 产品, 开发平台, 的, 作者]

    3、对文件进行分词

    String input = "d:/text.txt";
    String output = "d:/word.txt";
    移除停用词:WordSegmenter.seg(new File(input), new File(output));
    保留停用词:WordSegmenter.segWithStopWords(new File(input), new File(output));

    4、自定义配置文件

    默认配置文件为类路径下的word.conf,打包在word-x.x.jar中
    自定义配置文件为类路径下的word.local.conf,需要用户自己提供
    如果自定义配置和默认配置相同,自定义配置会覆盖默认配置
    配置文件编码为UTF-8

    5、自定义用户词库

    自定义用户词库为一个或多个文件夹或文件,可以使用绝对路径或相对路径
    用户词库由多个词典文件组成,文件编码为UTF-8
    词典文件的格式为文本文件,一行代表一个词
    可以通过系统属性或配置文件的方式来指定路径,多个路径之间用逗号分隔开
    类路径下的词典文件,需要在相对路径前加入前缀classpath:
    
    指定方式有三种:
        指定方式一,编程指定(高优先级):
            WordConfTools.set("dic.path", "classpath:dic.txt,d:/custom_dic");
            DictionaryFactory.reload();//更改词典路径之后,重新加载词典
        指定方式二,Java虚拟机启动参数(中优先级):
            java -Ddic.path=classpath:dic.txt,d:/custom_dic
        指定方式三,配置文件指定(低优先级):
            使用类路径下的文件word.local.conf来指定配置信息
            dic.path=classpath:dic.txt,d:/custom_dic
    
    如未指定,则默认使用类路径下的dic.txt词典文件

    6、自定义停用词词库

    使用方式和自定义用户词库类似,配置项为:
    stopwords.path=classpath:stopwords.txt,d:/custom_stopwords_dic

    7、自动检测词库变化

    可以自动检测自定义用户词库和自定义停用词词库的变化
    包含类路径下的文件和文件夹、非类路径下的绝对路径和相对路径
    如:
    classpath:dic.txt,classpath:custom_dic_dir,
    d:/dic_more.txt,d:/DIC_DIR,D:/DIC2_DIR,my_dic_dir,my_dic_file.txt
    
    classpath:stopwords.txt,classpath:custom_stopwords_dic_dir,
    d:/stopwords_more.txt,d:/STOPWORDS_DIR,d:/STOPWORDS2_DIR,stopwords_dir,remove.txt

    8、显式指定分词算法

    对文本进行分词时,可显式指定特定的分词算法,如:
    WordSegmenter.seg("APDPlat应用级产品开发平台", SegmentationAlgorithm.BidirectionalMaximumMatching);
    
    SegmentationAlgorithm的可选类型为:   
    正向最大匹配算法:MaximumMatching
    逆向最大匹配算法:ReverseMaximumMatching
    正向最小匹配算法:MinimumMatching
    逆向最小匹配算法:ReverseMinimumMatching
    双向最大匹配算法:BidirectionalMaximumMatching
    双向最小匹配算法:BidirectionalMinimumMatching
    双向最大最小匹配算法:BidirectionalMaximumMinimumMatching
    全切分算法:FullSegmentation
    最少分词算法:MinimalWordCount
    最大Ngram分值算法:MaxNgramScore

    9、分词效果评估

    运行项目根目录下的脚本evaluation.bat可以对分词效果进行评估
    评估采用的测试文本有253 3709行,共2837 4490个字符
    评估结果位于target/evaluation目录下:
    corpus-text.txt为分好词的人工标注文本,词之间以空格分隔
    test-text.txt为测试文本,是把corpus-text.txt以标点符号分隔为多行的结果
    standard-text.txt为测试文本对应的人工标注文本,作为分词是否正确的标准
    result-text-***.txt,***为各种分词算法名称,这是word分词结果
    perfect-result-***.txt,***为各种分词算法名称,这是分词结果和人工标注标准完全一致的文本
    wrong-result-***.txt,***为各种分词算法名称,这是分词结果和人工标注标准不一致的文本

    10、分布式中文分词器

    1、在自定义配置文件word.conf或word.local.conf中指定所有的配置项*.path使用HTTP资源,同时指定配置项redis.*
    2、配置并启动提供HTTP资源的web服务器,将项目:https://github.com/ysc/word_web部署到tomcat
    3、配置并启动redis服务器

    11、词性标注(1.3才有这个功能)

    将分词结果作为输入参数,调用PartOfSpeechTagging类的process方法,词性保存在Word类的partOfSpeech字段中
    如下所示:
    List<Word> words = WordSegmenter.segWithStopWords("我爱中国");
    System.out.println("未标注词性:"+words);
    //词性标注
    PartOfSpeechTagging.process(words);
    System.out.println("标注词性:"+words);
    输出内容:
    未标注词性:[我, 爱, 中国]
    标注词性:[我/r, 爱/v, 中国/ns]

    12、refine

    我们看一个切分例子:
    List<Word> words = WordSegmenter.segWithStopWords("我国工人阶级和广大劳动群众要更加紧密地团结在党中央周围");
    System.out.println(words);
    结果如下:
    [我国, 工人阶级, 和, 广大, 劳动群众, 要, 更加, 紧密, 地, 团结, 在, 党中央, 周围]
    假如我们想要的切分结果是:
    [我国, 工人, 阶级, 和, 广大, 劳动, 群众, 要, 更加, 紧密, 地, 团结, 在, 党中央, 周围]
    也就是要把“工人阶级”细分为“工人 阶级”,把“劳动群众”细分为“劳动 群众”,那么我们该怎么办呢?
    我们可以通过在word.refine.path配置项指定的文件classpath:word_refine.txt中增加以下内容:
    工人阶级=工人 阶级
    劳动群众=劳动 群众
    然后,我们对分词结果进行refine:
    words = WordRefiner.refine(words);
    System.out.println(words);
    这样,就能达到我们想要的效果:
    [我国, 工人, 阶级, 和, 广大, 劳动, 群众, 要, 更加, 紧密, 地, 团结, 在, 党中央, 周围]
    
    我们再看一个切分例子:
    List<Word> words = WordSegmenter.segWithStopWords("在实现“两个一百年”奋斗目标的伟大征程上再创新的业绩");
    System.out.println(words);
    结果如下:
    [在, 实现, 两个, 一百年, 奋斗目标, 的, 伟大, 征程, 上, 再创, 新的, 业绩]
    假如我们想要的切分结果是:
    [在, 实现, 两个一百年, 奋斗目标, 的, 伟大征程, 上, 再创, 新的, 业绩]
    也就是要把“两个 一百年”合并为“两个一百年”,把“伟大, 征程”合并为“伟大征程”,那么我们该怎么办呢?
    我们可以通过在word.refine.path配置项指定的文件classpath:word_refine.txt中增加以下内容:
    两个 一百年=两个一百年
    伟大 征程=伟大征程
    然后,我们对分词结果进行refine:
    words = WordRefiner.refine(words);
    System.out.println(words);
    这样,就能达到我们想要的效果:
    [在, 实现, 两个一百年, 奋斗目标, 的, 伟大征程, 上, 再创, 新的, 业绩]

    13、同义标注

    List<Word> words = WordSegmenter.segWithStopWords("楚离陌千方百计为无情找回记忆");
    System.out.println(words);
    结果如下:
    [楚离陌, 千方百计, 为, 无情, 找回, 记忆]
    做同义标注:
    SynonymTagging.process(words);
    System.out.println(words);
    结果如下:
    [楚离陌, 千方百计[久有存心, 化尽心血, 想方设法, 费尽心机], 为, 无情, 找回, 记忆[影象]]
    如果启用间接同义词:
    SynonymTagging.process(words, false);
    System.out.println(words);
    结果如下:
    [楚离陌, 千方百计[久有存心, 化尽心血, 想方设法, 费尽心机], 为, 无情, 找回, 记忆[影像, 影象]]
    
    List<Word> words = WordSegmenter.segWithStopWords("手劲大的老人往往更长寿");
    System.out.println(words);
    结果如下:
    [手劲, 大, 的, 老人, 往往, 更, 长寿]
    做同义标注:
    SynonymTagging.process(words);
    System.out.println(words);
    结果如下:
    [手劲, 大, 的, 老人[白叟], 往往[常常, 每每, 经常], 更, 长寿[长命, 龟龄]]
    如果启用间接同义词:
    SynonymTagging.process(words, false);
    System.out.println(words);
    结果如下:
    [手劲, 大, 的, 老人[白叟], 往往[一样平常, 一般, 凡是, 寻常, 常常, 常日, 平凡, 平居, 平常, 平日, 平时, 往常, 日常, 日常平凡, 时常, 普通, 每每, 泛泛, 素日, 经常, 通俗, 通常], 更, 长寿[长命, 龟龄]]
    
    以词“千方百计”为例:
    可以通过Word的getSynonym()方法获取同义词如:
    System.out.println(word.getSynonym());
    结果如下:
    [久有存心, 化尽心血, 想方设法, 费尽心机]
    注意:如果没有同义词,则getSynonym()返回空集合:Collections.emptyList()
    
    间接同义词和直接同义词的区别如下:
    假设:
    A和B是同义词,A和C是同义词,B和D是同义词,C和E是同义词
    则:
    对于A来说,A B C是直接同义词
    对于B来说,A B D是直接同义词
    对于C来说,A C E是直接同义词
    对于A B C来说,A B C D E是间接同义词

    14、反义标注

    List<Word> words = WordSegmenter.segWithStopWords("5月初有哪些电影值得观看");
    System.out.println(words);
    结果如下:
    [5, 月初, 有, 哪些, 电影, 值得, 观看]
    做反义标注:
    AntonymTagging.process(words);
    System.out.println(words);
    结果如下:
    [5, 月初[月底, 月末, 月终], 有, 哪些, 电影, 值得, 观看]
    
    List<Word> words = WordSegmenter.segWithStopWords("由于工作不到位、服务不完善导致顾客在用餐时发生不愉快的事情,餐厅方面应该向顾客作出真诚的道歉,而不是敷衍了事。");
    System.out.println(words);
    结果如下:
    [由于, 工作, 不到位, 服务, 不完善, 导致, 顾客, 在, 用餐, 时, 发生, 不愉快, 的, 事情, 餐厅, 方面, 应该, 向, 顾客, 作出, 真诚, 的, 道歉, 而不是, 敷衍了事]
    做反义标注:
    AntonymTagging.process(words);
    System.out.println(words);
    结果如下:
    [由于, 工作, 不到位, 服务, 不完善, 导致, 顾客, 在, 用餐, 时, 发生, 不愉快, 的, 事情, 餐厅, 方面, 应该, 向, 顾客, 作出, 真诚[糊弄, 虚伪, 虚假, 险诈], 的, 道歉, 而不是, 敷衍了事[一丝不苟, 兢兢业业, 尽心竭力, 竭尽全力, 精益求精, 诚心诚意]]
    
    以词“月初”为例:
    可以通过Word的getAntonym()方法获取反义词如:
    System.out.println(word.getAntonym());
    结果如下:
    [月底, 月末, 月终]
    注意:如果没有反义词,getAntonym()返回空集合:Collections.emptyList()

    15、拼音标注

    List<Word> words = WordSegmenter.segWithStopWords("《速度与激情7》的中国内地票房自4月12日上映以来,在短短两周内突破20亿人民币");
    System.out.println(words);
    结果如下:
    [速度, 与, 激情, 7, 的, 中国, 内地, 票房, 自, 4月, 12日, 上映, 以来, 在, 短短, 两周, 内, 突破, 20亿, 人民币]
    执行拼音标注:
    PinyinTagging.process(words);
    System.out.println(words);
    结果如下:
    [速度 sd sudu, 与 y yu, 激情 jq jiqing, 7, 的 d de, 中国 zg zhongguo, 内地 nd neidi, 票房 pf piaofang, 自 z zi, 4月, 12日, 上映 sy shangying, 以来 yl yilai, 在 z zai, 短短 dd duanduan, 两周 lz liangzhou, 内 n nei, 突破 tp tupo, 20亿, 人民币 rmb renminbi]
    
    以词“速度”为例:
    可以通过Word的getFullPinYin()方法获取完整拼音如:sudu
    可以通过Word的getAcronymPinYin()方法获取首字母缩略拼音如:sd

    16、Lucene插件:

    1、构造一个word分析器ChineseWordAnalyzer
    Analyzer analyzer = new ChineseWordAnalyzer();
    如果需要使用特定的分词算法,可通过构造函数来指定:
    Analyzer analyzer = new ChineseWordAnalyzer(SegmentationAlgorithm.FullSegmentation);
    如不指定,默认使用双向最大匹配算法:SegmentationAlgorithm.BidirectionalMaximumMatching
    可用的分词算法参见枚举类:SegmentationAlgorithm
    
    2、利用word分析器切分文本
    TokenStream tokenStream = analyzer.tokenStream("text", "杨尚川是APDPlat应用级产品开发平台的作者");
    //准备消费
    tokenStream.reset();
    //开始消费
    while(tokenStream.incrementToken()){
        //词
        CharTermAttribute charTermAttribute = tokenStream.getAttribute(CharTermAttribute.class);
        //词在文本中的起始位置
        OffsetAttribute offsetAttribute = tokenStream.getAttribute(OffsetAttribute.class);
        //第几个词
        PositionIncrementAttribute positionIncrementAttribute = tokenStream.getAttribute(PositionIncrementAttribute.class);
        //词性
        PartOfSpeechAttribute partOfSpeechAttribute = tokenStream.getAttribute(PartOfSpeechAttribute.class);
        //首字母缩略拼音
        AcronymPinyinAttribute acronymPinyinAttribute = tokenStream.getAttribute(AcronymPinyinAttribute.class);
        //完整拼音
        FullPinyinAttribute fullPinyinAttribute = tokenStream.getAttribute(FullPinyinAttribute.class);
        //同义词
        SynonymAttribute synonymAttribute = tokenStream.getAttribute(SynonymAttribute.class);
        //反义词
        AntonymAttribute antonymAttribute = tokenStream.getAttribute(AntonymAttribute.class);
    
        LOGGER.info(charTermAttribute.toString()+" ("+offsetAttribute.startOffset()+" - "+offsetAttribute.endOffset()+") "+positionIncrementAttribute.getPositionIncrement());
        LOGGER.info("PartOfSpeech:"+partOfSpeechAttribute.toString());
        LOGGER.info("AcronymPinyin:"+acronymPinyinAttribute.toString());
        LOGGER.info("FullPinyin:"+fullPinyinAttribute.toString());
        LOGGER.info("Synonym:"+synonymAttribute.toString());
        LOGGER.info("Antonym:"+antonymAttribute.toString());
    }
    //消费完毕
    tokenStream.close();
    
    3、利用word分析器建立Lucene索引
    Directory directory = new RAMDirectory();
    IndexWriterConfig config = new IndexWriterConfig(analyzer);
    IndexWriter indexWriter = new IndexWriter(directory, config);
    
    4、利用word分析器查询Lucene索引
    QueryParser queryParser = new QueryParser("text", analyzer);
    Query query = queryParser.parse("text:杨尚川");
    TopDocs docs = indexSearcher.search(query, Integer.MAX_VALUE);

    17、Solr插件:

    1、下载word-1.3.jar
    下载地址:http://search.maven.org/remotecontent?filepath=org/apdplat/word/1.3/word-1.3.jar
    
    2、创建目录solr-5.1.0/example/solr/lib,将word-1.3.jar复制到lib目录
    
    3、配置schema指定分词器
    将solr-5.1.0/example/solr/collection1/conf/schema.xml文件中所有的
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>和
    <tokenizer class="solr.StandardTokenizerFactory"/>全部替换为
    <tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory"/>
    并移除所有的filter标签
    
    4、如果需要使用特定的分词算法:
    <tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory" segAlgorithm="ReverseMinimumMatching"/>
    segAlgorithm可选值有:  
    正向最大匹配算法:MaximumMatching
    逆向最大匹配算法:ReverseMaximumMatching
    正向最小匹配算法:MinimumMatching
    逆向最小匹配算法:ReverseMinimumMatching
    双向最大匹配算法:BidirectionalMaximumMatching
    双向最小匹配算法:BidirectionalMinimumMatching
    双向最大最小匹配算法:BidirectionalMaximumMinimumMatching
    全切分算法:FullSegmentation
    最少分词算法:MinimalWordCount
    最大Ngram分值算法:MaxNgramScore
    如不指定,默认使用双向最大匹配算法:BidirectionalMaximumMatching
    
    5、如果需要指定特定的配置文件:
    <tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory" segAlgorithm="ReverseMinimumMatching"
            conf="solr-5.1.0/example/solr/nutch/conf/word.local.conf"/>
    word.local.conf文件中可配置的内容见 word-1.3.jar 中的word.conf文件
    如不指定,使用默认配置文件,位于 word-1.3.jar 中的word.conf文件

    18、ElasticSearch插件:

    1、打开命令行并切换到elasticsearch的bin目录
    cd elasticsearch-1.5.1/bin
    
    2、运行plugin脚本安装word分词插件:
    ./plugin -u http://apdplat.org/word/archive/v1.2.zip -i word
    
    3、修改文件elasticsearch-1.5.1/config/elasticsearch.yml,新增如下配置:    
    index.analysis.analyzer.default.type : "word"
    index.analysis.tokenizer.default.type : "word"
    
    4、启动ElasticSearch测试效果,在Chrome浏览器中访问:    
    http://localhost:9200/_analyze?analyzer=word&text=杨尚川是APDPlat应用级产品开发平台的作者
    
    5、自定义配置
    修改配置文件elasticsearch-1.5.1/plugins/word/word.local.conf
    
    6、指定分词算法
    修改文件elasticsearch-1.5.1/config/elasticsearch.yml,新增如下配置:
    index.analysis.analyzer.default.segAlgorithm : "ReverseMinimumMatching"
    index.analysis.tokenizer.default.segAlgorithm : "ReverseMinimumMatching"
    
    这里segAlgorithm可指定的值有:
    正向最大匹配算法:MaximumMatching
    逆向最大匹配算法:ReverseMaximumMatching
    正向最小匹配算法:MinimumMatching
    逆向最小匹配算法:ReverseMinimumMatching
    双向最大匹配算法:BidirectionalMaximumMatching
    双向最小匹配算法:BidirectionalMinimumMatching
    双向最大最小匹配算法:BidirectionalMaximumMinimumMatching
    全切分算法:FullSegmentation
    最少分词算法:MinimalWordCount
    最大Ngram分值算法:MaxNgramScore
    如不指定,默认使用双向最大匹配算法:BidirectionalMaximumMatching

    19、Luke插件:

    1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问)
    
    2、下载并解压Java中文分词组件word-1.0-bin.zip:http://pan.baidu.com/s/1dDziDFz
    
    3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当前文件夹
    用压缩解压工具如winrar打开lukeall-4.0.0-ALPHA.jar,将当前文件夹里面除了META-INF文件夹、.jar、
    .bat、.html、word.local.conf文件外的其他所有文件拖到lukeall-4.0.0-ALPHA.jar里面
    
    4、执行命令 java -jar lukeall-4.0.0-ALPHA.jar 启动luke,在Search选项卡的Analysis里面
    就可以选择 org.apdplat.word.lucene.ChineseWordAnalyzer 分词器了
    
    5、在Plugins选项卡的Available analyzers found on the current classpath里面也可以选择 
    org.apdplat.word.lucene.ChineseWordAnalyzer 分词器
    
    注意:如果你要自己集成word分词器的其他版本,在项目根目录下运行mvn install编译项目,然后运行命令
    mvn dependency:copy-dependencies复制依赖的jar包,接着在target/dependency/目录下就会有所有
    的依赖jar包。其中target/dependency/slf4j-api-1.6.4.jar是word分词器使用的日志框架,
    target/dependency/logback-classic-0.9.28.jar和
    target/dependency/logback-core-0.9.28.jar是word分词器推荐使用的日志实现,日志实现的配置文件
    路径位于target/classes/logback.xml,target/word-1.3.jar是word分词器的主jar包,如果需要
    自定义词典,则需要修改分词器配置文件target/classes/word.conf

    已经集成好的Luke插件下载(适用于lucene4.0.0) :lukeall-4.0.0-ALPHA-with-word-1.0.jar

    已经集成好的Luke插件下载(适用于lucene4.10.3):lukeall-4.10.3-with-word-1.2.jar

    20、词向量:

    从大规模语料中统计一个词的上下文相关词,并用这些上下文相关词组成的向量来表达这个词。
    通过计算词向量的相似性,即可得到词的相似性。
    相似性的假设是建立在如果两个词的上下文相关词越相似,那么这两个词就越相似这个前提下的。
    
    通过运行项目根目录下的脚本demo-word-vector-corpus.bat来体验word项目自带语料库的效果
    
    如果有自己的文本内容,可以使用脚本demo-word-vector-file.bat来对文本分词、建立词向量、计算相似性

    分词算法效果评估:

    1、word分词 最大Ngram分值算法:
    分词速度:397.73047 字符/毫秒
    行数完美率:59.93%  行数错误率:40.06%  总的行数:2533709  完美行数:1518525  错误行数:1015184
    字数完美率:51.56% 字数错误率:48.43% 总的字数:28374490 完美字数:14632098 错误字数:13742392
    
    2、word分词 全切分算法:
    分词速度:67.032585 字符/毫秒
    行数完美率:57.2%  行数错误率:42.79%  总的行数:2533709  完美行数:1449288  错误行数:1084421
    字数完美率:47.95% 字数错误率:52.04% 总的字数:28374490 完美字数:13605742 错误字数:14768748
    
    3、word分词 双向最大最小匹配算法:
    分词速度:367.99805 字符/毫秒
    行数完美率:53.06%  行数错误率:46.93%  总的行数:2533709  完美行数:1344624  错误行数:1189085
    字数完美率:43.07% 字数错误率:56.92% 总的字数:28374490 完美字数:12221610 错误字数:16152880
    
    4、word分词 最少分词算法:
    分词速度:364.40622 字符/毫秒
    行数完美率:47.75%  行数错误率:52.24%  总的行数:2533709  完美行数:1209976  错误行数:1323733
    字数完美率:37.59% 字数错误率:62.4% 总的字数:28374490 完美字数:10666443 错误字数:17708047
    
    5、word分词 双向最小匹配算法:
    分词速度:657.13635 字符/毫秒
    行数完美率:46.34%  行数错误率:53.65%  总的行数:2533709  完美行数:1174276  错误行数:1359433
    字数完美率:36.07% 字数错误率:63.92% 总的字数:28374490 完美字数:10236574 错误字数:18137916
    
    6、word分词 双向最大匹配算法:
    分词速度:539.0905 字符/毫秒
    行数完美率:46.18%  行数错误率:53.81%  总的行数:2533709  完美行数:1170075  错误行数:1363634
    字数完美率:35.65% 字数错误率:64.34% 总的字数:28374490 完美字数:10117122 错误字数:18257368
    
    7、word分词 正向最大匹配算法:
    分词速度:662.2127 字符/毫秒
    行数完美率:41.88%  行数错误率:58.11%  总的行数:2533709  完美行数:1061189  错误行数:1472520
    字数完美率:31.35% 字数错误率:68.64% 总的字数:28374490 完美字数:8896173 错误字数:19478317
    
    8、word分词 逆向最大匹配算法:
    分词速度:1082.0459 字符/毫秒
    行数完美率:41.69%  行数错误率:58.3%  总的行数:2533709  完美行数:1056515  错误行数:1477194
    字数完美率:30.98% 字数错误率:69.01% 总的字数:28374490 完美字数:8792532 错误字数:19581958
    
    9、word分词 逆向最小匹配算法:
    分词速度:1906.6315 字符/毫秒
    行数完美率:41.42%  行数错误率:58.57%  总的行数:2533709  完美行数:1049673  错误行数:1484036
    字数完美率:31.34% 字数错误率:68.65% 总的字数:28374490 完美字数:8893622 错误字数:19480868
    
    10、word分词 正向最小匹配算法:
    分词速度:1839.1554 字符/毫秒
    行数完美率:36.7%  行数错误率:63.29%  总的行数:2533709  完美行数:930069  错误行数:1603640
    字数完美率:26.72% 字数错误率:73.27% 总的字数:28374490 完美字数:7583741 错误字数:20790749

    相关文章:

    1、中文分词算法 之 基于词典的正向最大匹配算法

    2、中文分词算法 之 基于词典的逆向最大匹配算法

    3、中文分词算法 之 词典机制性能优化与测试

    4、中文分词算法 之 基于词典的正向最小匹配算法

    5、中文分词算法 之 基于词典的逆向最小匹配算法

    6、一种利用ngram模型来消除歧义的中文分词方法

    7、一种基于词性序列的人名识别方法

    8、中文分词算法 之 基于词典的全切分算法

    9、9大Java开源中文分词器的使用方法和分词效果对比

    10、中文分词之11946组同义词

    11、中文分词之9271组反义词

    12、如何利用多核提升分词速度

    更多相关内容
  • word文档建立索引

    千次阅读 2021-01-25 16:54:21
    如果这个总结知识自己看看而不需要非常正式的话,我们的最直接想法就是使用word,非常快速方便。 问题 我们需要为每一篇文章的总结写一个小标题,并建立索引,以方便我们快速定位查看该篇文章的总结。 方法 使用目录...

    背景

    有的时候,我们要在一个文档里面要写多篇文章的抽取式总结,并且最终的总结文档图文并用。如果这个总结知识自己看看而不需要非常正式的话,我们的最直接想法就是使用word,非常快速方便。

    问题

    我们需要为每一篇文章的总结写一个小标题,并建立索引,以方便我们快速定位查看该篇文章的总结。

    方法

    使用目录的方法,步骤如下。

    1.写好标题(红色)(注:标号1不写也可以)和总结(黑色)。

    在这里插入图片描述

    2.选中标题,点击样式,选中随便一个标题即可,因为“生成目录”功能只能识别下面四个标题。

    在这里插入图片描述

    3.对下面那个标题我们也要生成一个目录标题。而且由于两个标题是平等关系,所以指定的目录标题也要是一样的,我都选择“副标题”

    在这里插入图片描述

    4.在最前面生成目录,点击前面的空白处,点击“引用”,点击“目录”,点击自动生成目录(我选的第一个)。

    在这里插入图片描述

    5.效果如下,之后我们便可以点击目录处链接跳转到对应页面内容,非常方便。

    在这里插入图片描述

    展开全文
  • OpenOffice在线的Writer是一个扩展,允许创建,编辑和查看doc和docx格式的任何Microsoft Word文档。它是一个文字处理器和出版工具。它允许创建大型文档,报告和书籍,并且足够简单的快速备忘录。 Open Office writer...
  • 3.1.2Word窗口及其组成Word窗口由标题栏、快速访问工具栏、文件选项卡、功能区、工作区、状态栏、文档视图工具栏、显示比例控制栏、滚动条、标尺等部分组成。在Word窗口的工作区中可以对创建或打开的文档进行各种...

    3.1.2Word窗口及其组成

    Word窗口由标题栏、快速访问工具栏、文件选项卡、功能区、工作区、状态栏、文档视图工具栏、显示比例控制栏、滚动条、标尺等部分组成。在Word窗口的工作区中可以对创建或打开的文档进行各种编辑、排版操作。Word窗口组成如图3-2所示。

    Word作为Windows环境下的一个应用程序,其窗口和窗口的组成与windows其他应用程序大同小异。下面仅简要介绍Word窗口及其组成,有关一般应用程序窗口及其组成的详细介绍,参见“第2章计算机系统”。

    1.标题栏

    标题栏位于Word窗口的顶端右侧,标题栏中含有Word控制菜单按钮、Word文档名、最小化、化(或还原)和关闭按钮,如图3—2所示。

    342f8bc6061fd85cf9a91f360f3bb5fd.png

    2.快速访问工具栏

    快速访问工具栏默认位于Word窗口的功能区上方,但用户可以根据需要修改设置,使其位于功能区下方。快速访问工具栏的作用是使用户能快速启动经常使用的命令。默认情况下,快速访问工具栏中只有数量较少的命令,用户可以根据需要,使用“自定义快速访问工具栏”命令添加或定义自己的常用命令。

    Word默认的快速访问工具栏包含保存、撤销、重复和自定义快速访问工具栏命令按钮,Word快速访问工具栏如图3—3所示。

    7045fde23d890128439ba4de7255fae0.png

    “文件”选项卡中提供了一组文件操作命令,例如“新建”、“打开”、“关闭”、“另存为”、“扣印”等。“文件”选项卡的另一个功能是提供了关于文档、最近使用过的文档等相关信息,分别可以通过执行“文件”选项卡中的相关命令实现。另外,“文件”选项卡还提供了Word帮助。实际上,MicrosoftOffice2010的每一个应用软件都提供联机帮助,当实际操作中遇到问题时,提醒用户要充分利用其求助功能。

    4.功能区

    Word2010与Word2003及以前的版本相比,一个显著的不同就是用各种功能区取代了传统的菜单操作方式。在Word功能区中,看起来像菜单的名称其实是功能区的名称,当单击这些名称时并不会打开菜单,而是切换到与之相对应的功能区面板。每个功能区根据功能的不同又分为若干个命令组(子选项卡),这些功能区及其命令组涵盖了word的各种功能。用户可以根据需要,通过执行“文件”一“选项”一“自定义功能区”命令来定义自己的功能区。Word默认含有8个功能区,分别是:“开始”、“插入”、“页面布局”、“引用”、“邮件”、“审阅”、“视图”和“加载项”功能区。

    1)“开始”功能区,

    “开始”功能区包括剪贴板、字体、段落、样式和编辑等几个命令组,它包含了有关文字编辑和排版格式设置的各种功能。

    2)“插入”功能区

    “插入”功能区包括页、表格、插图、链接、页眉和页脚、文本、符号和特殊符号等几个命令组,主要用于在文档中插入各种元素。

    3)“页面布局”功能区

    “页面布局”功能区包括主题、页面设置、稿纸、页面背景、段落、排列等几个命令组,用于帮助用户设置文档页面样式。

    4)“引用”功能区

    “引用”功能区包括目录、脚注、引文与书目、题注、索引和引文目录等几个命令组,用于实现在文档中插入目录、引文、题注等索引功能。

    5)“邮件”功能区

    “邮件”功能区包括创建、开始邮件合并、编写和插入域、预览结果和完成等几个命令组,该功能区的作用比较专一,专门用于在文档中进行邮件合并方面的操作。

    6)“审阅”功能区

    “审阅”功能区包括校对、语言、中文简繁转换、批注、修订、更改、比较和保护等几个命令组,主要用于对文档进行审阅、校对和修订等操作,适用于多人协作处理大文档。

    7)“视图”功能区.

    “视图”功能区包括文档视图、显示、显示比例、窗口和宏等几个命令组,主要用于帮助用户没置Word操作窗口的查看方式、操作对象的显示比例等,以便于用户获得较好的视觉效果。

    8)“加载项”功能区

    “加载项”功能区仅包括“菜单命令”一个组,加载项用于为Word配置附加属性,如自定义的工具栏或其他命令等。

    5.工作区

    工作区是水平标尺以下和状态栏以上的一个屏幕显示区域。在Word窗口的工作区中可以打开一个文档,并对它进行文本键入、编辑或排版等操作。Word可以打开多个文档,每个文档有一独立窗口,并在Windows任务栏中有一对应的文档按钮。一般情况下,Word窗口上显示标题栏、快速访问工具栏、“文件”选项卡、功能区、状态栏、文档视图工具栏、显示比例控制栏、滚动条、标尺等。显然,这样会缩小窗口工作区的面积。但是,可以通过最小化/展开功能区操作来扩大/缩小工作区,只需单击功能区右上角的“功能区最小化/展开功能区”按钮,即可实现功能区最小化或展开功能区。

    6.状态栏

    状态栏位于Word窗口的底端左侧,如图3—2所示。它用来显示当前的某些状态,如当前页

    面数、字数等。有用来发现校对错误的图标及对应校对的语言图标,还有用于将键入的文字插入

    到插入点处的插入图标。

    7.视图切换按钮

    所谓“视图”,简单说就是查看文档的方式。同一个文档可以在不同的视图下查看,虽然文档的显示方式不同,但是文档的内容是不变的。Word有5种视图:页面视图、阅读版式视图、Web版式视图、大纲视图和草稿视图,用户可以根据对文档的操作需求不同使用不同的视图。视图之间的切换可以使用“视图”功能区中的命令,但更简洁的方法是使用水平滚动条左端的视图切换按钿,如图3—5所示。

    ebe853efbb6167d1f1595186c602f4d9.png

    提示:图3—5中带方框的图标(“页面视图”)指明当前的视图状态。

    1)页面视图

    页面视图主要用于版面设计,页面视图显示文档的每一页面都与打印所得的页面相同,即“所见即所得”。在页面视图下可以像在普通视图下一样输入、编辑和排版文档,也可以处理页边距、文本框、分栏、页眉和页脚、图片和图形等。但在页面视图下占有计算机资源相应较多,使处理速度变慢。

    2)阅读版式视图

    “阅读版式视图”适于阅读长篇文章。阅读版式将原来的文章编辑区缩小,而文字大小保持不变。如果字数多,它会自动分成多屏。在该视图下同样可以进行文字的编辑工作,视觉效果好,眼睛不会感到疲劳。阅读版式视图的目标是增加可读性,可以方便地增大或减小文本显示区域的尺寸,而不会影响文档中的字体大小。想要停止阅读文档时,请单击“阅读版式”工具栏上的“关闭”按钮或按Esc或Alt+c,可以从阅读版式视图切换回来。如果要修改文档,只需在阅读时简单地编辑文本,而不必从阅读版式视图切换出来。

    3)Web版式视图

    使用Web版式视图,无需离开Word即可查看Web页在Web浏览器中的效果。

    4)大纲视图

    大纲视图适合于编辑文档的大纲,以便能审阅和修改文档的结构。在大纲视图中,可以折叠文档以便只查看到某一级的标题或子标题,也可以展开文档查看整个文档的内容。

    在大纲视图下,“大纲”工具栏替代了水平标尺。使用“大纲”工具栏中的相应按钮可以容易地“折叠”或“展开”文档,对大纲中各级标题进行“上移”或“下移”、“提升”或“降低”等调整文档结构的操作。

    5)草稿视图

    草稿视图取消了页面边距、分栏、页眉页脚和图片等元素,仅显示标题和正文,是最节省计算机系统硬件资源的视图方式。当然现在计算机系统的硬件配置都比较高,基本上不存在由于硬件配置偏低而使Word运行遇到障碍的问题。

    8.显示比例控制栏

    显示比例控制栏由“缩放级别”按钮和“缩放滑块”组成,用于更改正在编辑文档的显示比例。

    9.标尺

    标尺有水平标尺和垂直标尺两种。在草稿视图下只能显示水平标尺,只有在页面视图下才能显示水平和垂直两种标尺。标尺除了显示文字所在的实际位置、页边距尺寸外,还可以用来设置制表位、段落、页边距尺寸、左右缩进、首行缩进等。有两种方法可以隐藏/显示标尺:

    方法一:执行“视图”一“标尺”命令可显示/隐藏标尺。

    方法二:单击位于滚动条滑块上方的“标尺”按钮,可显示/隐藏标尺。

    隐藏了功能区和标尺后,窗口的工作区达到了。

    10.滚动条

    滚动条分水平滚动条和垂直滚动条。使用滚动条中的滑块或按钮可滚动工作区内的文档内容。

    11.插入点

    当Word启动后自动创建一个名为“文档l”的文档,其工作区是空的,只是在第一行第一列处有一个闪烁着的黑色竖条(或称光标),称为插入点。键入文本时,它指示下一个字符的位置。每输入一个字符插入点自动向右移动一格。在编辑文档时,可以移动“I”状的鼠标指针并单击一下来移动插入点的位置。也可以使用光标移动键来移动插入点到所希望的位置。在草稿视图下,还会出现一小段水平横条,称为文档结束标记。

    2829f2ca24f0d0090cbba57f30759f23.png

    2017年计算机一级考试MSOffice考点解析:Word窗口及其组成.doc

    下载Word文档到电脑,方便收藏和打印[全文共3614字]

    编辑推荐:

    8b95f2eb3d3f7ce4dc3bf1178c74941e.png

    8b95f2eb3d3f7ce4dc3bf1178c74941e.png

    8b95f2eb3d3f7ce4dc3bf1178c74941e.png

    8b95f2eb3d3f7ce4dc3bf1178c74941e.png

    8b95f2eb3d3f7ce4dc3bf1178c74941e.png

    下载Word文档

    展开全文
  • Word文档使用方法与教程:使用正确的部分和章节标题我们在前面的章节中介绍了预设样式,但是这些样式可用于快速创建章节,子标题和标题页。在“主页”功能区选项卡中找到样式,可以在其中找到许多文本格式设置选项。...


    Word文档使用方法与教程:

    使用正确的部分和章节标题

    我们在前面的章节中介绍了预设样式,但是这些样式可用于快速创建章节,子标题和标题页。在“主页”功能区选项卡中找到样式,可以在其中找到许多文本格式设置选项。当您需要一种格式化文本和内容的方法时,首先要查找要查找的内容的地方是“主页”功能区选项卡。

    创建新的空白Word文档时,请单击“主页”选项卡以查看预设样式的列表。

    f8828a406111dac17dead38915c23064.png

    (字体格式的样式类别)

    在上图中,选择了“普通”样式。这是默认样式,向Word指示您要输入选择为空白模板默认样式的字体和样式。请注意,有三种样式分别命名为“标题1”,“标题2”和“标题”。对于较长的技术文档,这三种样式最重要。这些样式用于创建目录(在下一节中介绍)。

    “标题”文本指示目录生成器的新章节。创建新章节或主要部分时,请使用此样式。大多数文档使用分页符来分隔章节或主要部分。我们还将在后面的部分中介绍分页符。

    “标题1”文本格式向目录生成器指示应该在清单中显示一个新的字节。子标题显示为新章节下的子部分。更进一步,“标题2”选项将文本设置为子节的子节。这使您可以在冗长的技术文档中创建细化的部分,这些内容可以在目录中注明。对于长文档,您应该始终有一个目录,以使读者更容易找到他们想要的内容。

    您会注意到,“样式”类别具有更多可用的选项和预设样式。您还可以自定义文档的样式,这在前面的章节中已经介绍过。

    创建目录

    我们没有在“参考”功能区选项卡中涵盖任何Word功能。此选项卡包含创建引文,查找研究链接,脚注和目录的几个功能。目录功能是冗长的技术文档中使用最多的功能。单击“参考”功能区选项卡,然后在“目录”部分的选项卡右侧找到“目录”按钮。

    74ec1ffee48bddc75da476dd4e1f7417.png

    (目录按钮)

    单击该按钮将打开一个带有选项列表的下拉列表。

    921c58890020740daf7d5068aa34206e.png

    (目录下拉选项)

    请注意,每个选项都有其自己的样式,但是“手动表”选项使您可以创建手动表。通常不需要这样做,因为自动创建目录可以选择在更改页码和标题时自动更新它们。例如,假设您创建了一个目录,但是稍后在前一章中添加了一些内容。这可以将所有后续章节的页码向下移动。使用手册表,您需要返回目录并更改每个章节的页码。如果您对技术文档进行几处更改,这可能会很乏味。您可以使用自动表格跳过此繁琐的步骤。

    单击“自动表1”,然后注意上一节中说明的包含预设样式的每个页面都有其自己的列表及其后继页码。这是在长文档中创建目录的最简单,最快和最方便的更新方式。

    如果要创建一个表,以后再对文档进行更改,则可以通过单击目录,然后单击“更新表”选项来完成。这将更新对章节标题,标题和页码的任何更改。除非您决定自定义表格中的任何文本,否则无需添加任何手动文本。

    添加分页符

    创建冗长的技术文档时,需要分页符将各章分开。您可以只创建没有章节的章节,但是分页符使您的读者更容易理解文档的不同部分。它们还为目录生成器提供了一种基于章节文本使用的样式来分隔页码的方法。专业文档使用分页符,因此对于较长的文档,最好知道如何使用它们。

    分页符控件位于“插入”功能区选项卡中。单击选项卡,您将在选项卡左侧的“页面”部分中找到控件。

    688dc6bd4220d483db86cac880032dd2.png

    (“插入”功能区选项卡中的页面控件)

    分页符使您可以控制何时创建新页面,而不管光标的位置和在页面上输入的文本量如何。通常,只有在您创建更多文本或添加跨越页面高度的图像时,才会创建一个新页面。当您的内容超出基于打印边距的页面高度时,将创建一个新页面,并将任何新内容推送到该新页面。使用分页符,您可以控制何时创建新的分页符。

    单击要停止文本并创建新页面的页面位置的“页面”部分中的按钮。分页符之前的所有内容仍将保留在前一页上,并创建一个新页面。分页后创建的内容将显示在下一页上。

    自定义边框和背景色

    Microsoft Word页面的标准背景是白色,并且页面没有可见的边框,但是可以更改这些默认设置。在“设计”功能区选项卡中,有两个控件可以处理这些首选项:页面颜色和页面边框。

    1f299f820e4206510037dccfb7d3f353.png

    (页面背景控件)

    我们在“桌面发布”一章中介绍了“水印”选项。此设计选项在文档上创建文本以保护您的版权。“页面颜色”和“页面边框”选项创建围绕您的内容的自定义颜色和边框。这可以用于桌面发布内容,但也可以用于定制技术文档的背景。例如,某些白皮书具有自定义的背景和边框,以使其更具吸引力并使它们与网站品牌颜色匹配。

    单击“页面颜色”按钮,将出现一个下拉菜单,其中列出了可供选择的颜色。

    388206359e91ee89d8ffcf3703e6c3e2.png

    (页面颜色选项)

    您可以从列出的任何预设颜色中进行选择,但是如果您不喜欢列出的颜色,也可以自定义颜色。单击“更多颜色”选项,然后将打开一个较大的调色板。您可以使用选择器选择一种自定义颜色,也可以输入页面背景所需颜色的十六进制值。

    对于页面边框,请单击“页面边框”按钮,然后会打开一个配置窗口。

    9b16edbd5062b562539c848f5257007c.png

    (页面边框配置窗口)

    这些选项类似于您在Word和Excel表格中看到的边框。您会注意到边框样式,颜色,宽度和插图与所有Microsoft Office软件的边框相似。Word还提供了此窗口左侧显示的预设设置。“阴影”选项可让您设置渐变的不透明度首选项和颜色。创建页面边框时,除非更改下拉菜单中的“应用于”设置,否则线条将显示在整个页面周围。使用页面边框,您可以创建一种样式,使页面与众不同。

    冗长的技术文档需要花时间来进行样式化,但是结果提供了一个已发布的文档,该文档与标准已发布的内容脱颖而出。这些样式和设置对于要发布的内容(例如小册子和白皮书)很有用。

    行号

    默认情况下,Microsoft Word为文档中的每一行编号,表格,脚注,尾注,文本框,框架以及页眉和页脚中的行除外。但是,它不显示这些型号。您必须指定是否要让Word显示行号以及要显示的行号。这在创建参考点的技术论文中特别有用。您可以在文档的全部或部分中显示行号,也可以以一定的间隔(例如每十行)显示行号。

    要显示行号,请转到“布局”选项卡。单击页面设置组中的行号,如下所示。行号在“中断”下方。

    d92475d93865bb5822e3e0f99b8e9d67.png

    如果单击“行号”按钮,您将看到以下下拉菜单:

    c39030af3e0f478b63ec2ff4b4cc0dc6.png

    如您所见,默认情况下未选择任何选项。您还可以选择:

    连续显示文档中的每个行号。Microsoft Word将在整个文档中将第一行标记为“ 1”,第二行标记为“ 2”,依此类推。

    在每个页面上重新启动意味着每个页面的第一行将被编号为“ 1”。

    重新启动每个部分意味着行号将从每个部分重新开始。您必须使用Microsoft Word标头才能执行此操作。

    禁止显示当前段落意味着您可以选择一个段落,然后选择此选项以使该段落的行没有编号。

    如果您需要更精确的规格(例如,按特定间隔进行行编号),请单击“行编号选项”。

    b80e40c82c7d0f003a1a1c76a7d97cf8.png

    单击“确定”按钮上方显示的“行号”按钮。

    284ca840b30bbf14ac6a444e2cad41f4.png

    您可以使用此窗口设置时间间隔。选中添加行编号框,然后指定要在其中开始编号行的页面。设置其余选项,然后单击“确定”。

    参考和引用

    如果您曾经写过学期论文,那么您会知道撰写书目和引文来源有多重要(而且很耗时)。但猜猜怎么了?Microsoft Word可帮助您快速轻松地完成所有这些操作。

    在Microsoft Word中创建书目或引用源时,您需要做的第一件事就是选择您要设置其格式的样式。为此:

    单击功能区中的“引用”选项卡。

    726f629804216be7b79523f91486b295.png

    单击“引文和书目”组下的“样式”下拉菜单,然后选择要应用的样式。

    336e06b1dee20d95514ee4aa00de79a3.png

    添加书目

    要将书目添加到文档中,请转到功能区中的“参考”选项卡。在“引文和书目”组中,选择“书目”。您可以从列出的书目布局中选择一种。

    33f41813cbed2b20a0f7b630c436cc7b.png

    创建索引

    索引只是您在文档中使用的术语列表以及这些术语出现的页码。这有点像词汇表,只是没有定义。您可以标记单词,短语,符号等,以使其包含在索引中。您在文档中标记它们,然后创建索引。让我们学习如何做。

    要将索引插入Microsoft Word文档,必须首先标记将要建立索引的条目。

    标记条目

    首先选择要索引的单词或短语。转到“引用”选项卡,然后在“索引”组中单击“标记条目”。

    260de48b83e86da19ac6041e255c2601.png

    然后,您将看到以下窗口:

    d3e3214a62009f221ead51fac8083799.png

    您选择的文本是将出现在索引中的文本。如果您希望其他内容出现在索引中,请在“主要条目”框中键入该内容。例如:如果您在文档中选择了“牛”一词,它将在上方的“主条目”框中显示为“牛”。如果要让“牛”显示为“牛”,请在“主条目”框中键入“牛”。您也可以输入一个子条目。这可能是“长角牛”。

    您还可以创建对另一个索引条目的交叉引用。如果要执行此操作,请在选项组中选择“交叉引用”。也许您想将牛与奶牛场交叉引用。

    现在,您可以指定索引页码的显示方式。您可以使用上方窗口底部的复选框将它们设置为粗体或斜体。

    如果要格式化索引的文本,请右键单击“主条目”或“子条目”框中的文本。然后,您将看到以下下拉菜单:

    080ff6ac4602ab64357713e4848f1d6a.png

    选择字体,然后单击它。然后,您将看到以下窗口:

    42474c1311ed59b527bbe3c82ba06f7e.png

    现在,您可以更改字体类型,样式,大小等。完成后,单击“确定”。完成标记条目后,单击标记。如果要标记所有条目,请单击“全部标记”。

    在多页上标记文本

    如果要标记较长的文本(例如,几页长),请按以下步骤操作。

    首先,将文本添加为书签。您可以通过选择文本,然后单击功能区上的“插入”选项卡来为文本添加书签。在“链接”组中,选择“书签”。我们将在一分钟内更深入地介绍这一点。

    现在,输入书签的名称,然后单击添加。

    现在,将光标放置在书签文本之后,然后转到“引用”选项卡并单击“标记输入”。命名。选择页面范围时,可以从“书签”下拉列表中选择书签。

    格式化标记

    格式标记是显示段落结尾,单词之间的空格,缩进等的标记。如果要查看文档中的格式标记,请转到“主页”选项卡,然后单击“显示/隐藏”,如下所示。默认情况下,格式标记是隐藏的。

    15837825df314a8d40ecc7cd8bfe82fa.png

    当显示格式标记时,您的文档现在如下所示:

    2b0ca63880cff35fdbc19219d8293108.png

    在文档中插入特殊字符

    特殊字符是指标点符号,符号或键盘上通常不可用的其他项目,例如版权符号,商标符号等。

    要插入特殊字符或符号:

    f657fde0d7656bef03f40df24036c703.png
    3e1d2880585855903fb70cdc14aa7542.png
    0f73d060ddfa2d03dabde7d6a6fe6888.png
    b688743f01e39e96f5ff0d1db3c296ce.png

    添加脚注

    如果需要在文档中添加脚注,可以通过在功能区中的“引用”选项卡上进行。转到“脚注”组。从那里,您可以插入脚注,查看和编辑脚注,还可以添加尾注。

    74ae1a68776c81b8e194970e5a8dbbc2.png

    添加书签

    您可以在Word中使用书签,就像在书签中标记书签一样,可以从上次停下来的地方继续阅读。通过选择文本,然后单击功能区上的“插入”选项卡,可以为文本添加书签。在“链接”组中,选择“书签”。

    8b6e261c31ba22b909fde6f187f36f63.png

    现在,输入书签的名称,然后单击添加。

    11a8e7fb886192a1a42008d29d075df1.png

    插入超链接

    超链接是指向网站或Internet上的位置的链接–如果阅读文档的人可以访问您的计算机文件,甚至是您的计算机。要将超链接插入文档,请转到“插入”选项卡,然后进入“链接”组。单击超链接按钮。

    您将看到以下窗口:

    9292989196fe2c15d770e1ba0e39266e.png

    在要显示的文本字段中,输入要在文档中显示的文本。这是人们可以单击以将其带到网页的文本。它不必是URL。您可以根据需要输入单词“ cow”。

    现在,让Word知道要链接的内容。

    转到左侧的列,然后选择文件或网页,文档中的位置,新文档或电子邮件链接的电子邮件地址。

    然后在计算机上,最近访问过的网页等上让Word知道要查找的位置。

    您也可以在底部字段中输入地址。

    完成后,单击“确定”。

    展开全文
  • MySQL使用全文索引(fulltext index) 及中文全文索引使用

    万次阅读 多人点赞 2019-07-24 10:52:56
    全文索引介绍 ----------------------------------------------------------------------------------------------------------------------------- 1.创建全文索引(FullText index) 旧版的MySQL的全文索引只能...
  • 说到索引,很多人都知道“索引是一个排序的列表,在这个列表中存储着索引的值和包含这个值的数据所在行的物理地址,在数据十分庞大的时候,索引可以大大加快查询的速度,这是因为使用索引后可以不用扫描全表来定位某...
  • MySql索引类型

    万次阅读 2018-07-04 22:15:19
    Mysql支持哪几种索引索引是在MySql的存储引擎层中实现的,而不是在服务器层从数据结构角度1、B+树索引(O(log(n))):关于B+树索引,可以参考 MySQL索引背后的数据结构及算法原理BTREE在MyISAM里的形式和Innodb稍有...
  • Word 文字处理实验报告

    千次阅读 2021-07-09 00:58:11
    ______________________ 年级(专业):_____________成绩:________ 实验时间:________________________实验地点:___________________________实验3-1:一、实验目的:掌握中文输入法及使用Word进行文字处理的基本...
  • 文件预览的效果图(附带导出pdf文件和打印功能): 实现方式如下: 1.打开模板word文件 , 在对应地方打上书签; 2.在php.ini中加上 extension=php_com_dotnet.dll ; 目前只支持windows系统 3.代码如下  用...
  • 一般的方法都是用插入分隔符的方法把文档分为二节,断开节间的链接,再分别设置页码即可。就如上面的朋友回答中说的一样。会的话是很方便的。所以还是推荐使用这种方法。为了交流,我这里说一下用IF域的高级页码设置...
  • 深入理解正排索引与倒排索引(设计思想和数据结构)
  • 6、可自动删除word目录索引。 7、可自定义页面底部版权信息。 8、可生成chm文件,及html站点(带搜索功能)。 9、转换图片时不失真,原版高清。 10、支持修改模板,通过调整HTML模板文件,可以实现无约束的个性化...
  • Android自定义View——实现联系人列表字母索引

    万次阅读 多人点赞 2016-11-18 13:53:32
    相信大家对这个列表字母索引已经不陌生了,在很多app中也随处可见,像没团的城市地址选择,微信联系人列表,手机通讯录…等等。既然是个这么nb这么实用的功能我们怎么能不Get到来呢,下面就让我们一起造一个出来吧一...
  • suwang word2chm 免费

    2011-06-17 11:06:39
    3、可将WORD文档中的交叉引用转换为超级链接。 4、可以选择大纲层次级数处理文档。 5、可设置生成封面。 6、可自动删除word内容中的目录索引。 7、可自定义页面底部版权信息。 8、可生成chm文件,及html站点...
  • Word应该是办公软件中使用频率最高的工具,但却一直不被很多人重视,以为它简单很容易学,但实际很多人并没有掌握其基本用法,以至于自己的工作效率一直提不高。今天分享的这些Word技巧包含了入门到精通,也许在你...
  • 推荐 Word、EXCEL必备工具箱

    千次阅读 2019-09-20 09:41:36
    EXCEL必备工具箱: EXCEL必备工具箱是一个同时支持EXCEL/WPS插件,自带免费多标签(类似于OfficeTab),安装后就可以使用,与...EXCEL必备工具箱智能识别当前是32/64位的EXCEL还是WPS,自动屏蔽WPS已有功能,额外增...
  • Python读取Word(.docx)正文信息的方法本文介绍用Python简单读取*.docx文件信息,一些python-word库就是对这种方法的扩展。介绍分两部分:Word(*.docx)文件简述Python提取Word信息Word(*.docx)文件简述大约在2008年...
  • 倒排索引、搜索引擎

    千次阅读 2017-03-27 21:05:07
    每个特征形成t维空间中的一个维度,链接特征空间原点和这个数值点形成一个向量,而Cosine相似性就是计算特征空间中两个向量之间的夹角。这个夹角越小,说明两个特征向量内容越相似。极端的情况就是两个完全相同的...
  • Word学习笔记分享

    千次阅读 多人点赞 2019-02-22 13:57:10
    第一章、Word 的常规排版 1-5 文字选择 Ctrl+鼠标选取——多选 Alt+鼠标选取——框选 1-11 文字效果 为文字添加填充与边框 1-13 字体其他效果 为字体添加着重号、删除线、上下标等效果 Ctrl+D ——打开字体选项栏 1-...
  • AOA-word综合题操作步骤(修正版)

    千次阅读 2021-07-22 05:47:14
    《AOA-word综合题操作步骤(修正版)》由会员分享,可在线阅读,更多相关《AOA-word综合题操作步骤(修正版)(7页珍藏版)》请在人人文库网上搜索。1、AOA-WORD综合题共23题,每题的知识点基本一样,操作步骤也类似。以下...
  • MySQL索引实现原理

    千次阅读 2019-06-11 19:06:39
    要提升查询效率一般会想到用索引,在数据库中,如果索引太多,应用程序的性能可能会受到影响,如果索引太少,又会对查询性能产生影响。所以,需要寻找一个平衡点,足够多的索引带来查询性能提高,又不因为索引过多...
  • 如何快速把word里的多个图片设置成一样大小如何快速把word里的多个图片设置成一样大小 如何快速把word里的多个图片设置成一样大小呢?这样有些时候似乎会让画面更有秩序感 1.按住Ctrl,选择所有图片: 2.单击鼠标右键,...
  • MySQL数据库的索引数据库的索引1、背景2、定义和特征3、索引的分类(功能上分类)4、MySQL下索引的基本操作4、索引 的底层实现原理(重点)5、索引的分类(实现上分类)参考 数据库的索引 1、背景 我以为我对Mysql...
  • Elasticsearch系列——(1.1)倒排索引原理

    万次阅读 多人点赞 2018-08-13 16:04:41
    关于es为什么搜索快,大家应该有所了解,但是到底什么是倒排索引?网上找到一篇介绍通俗易懂,转载如下:   见其名知其意,有倒排索引,对应肯定,有正向索引。  正向索引(forward index),反向索引...
  • 方法一1、用WORD根据文章的章节自动生成目录--1.在[格式]中选[样式与格式]--2.出现右边的一条“样式格式”栏,这里面主要就是用到标题1,标题2,标题3。把标题1,标题2,标题3分别应用到文中各个章节的标题上,设置...
  • 从 WordCount 到文档的倒排索引详解

    万次阅读 2016-06-13 18:10:13
    在很多大数据的应用场景中我们都有可能看到倒排索引的身影,我第一次接触倒排索引是在学习 Lucene 全文检索框架的时候。本文会从倒排索引开始说明,再补充讲解倒排索引文档及带权重的倒排索引文档。
  • 3、点击菜单栏中的“插入”选项卡,弹出界面分别为页、表格、插图、链接、页眉和页脚、文本、符号这七大块,且每一块所对应的具体应用显示在各自的菜单栏板块上。如图所示, 4、点击菜单栏中的“页面布局”选项...
  • 格式-样式和格式,然后在右边的任务空格可以看到,把光标放在页首,再依次选择“插入”-“引用”-“索引和目录”-“目录”-将三个选择框都打上勾-确定。完成。之后,要查看某个内容,可以按住ctrl键的同时点击...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 28,338
精华内容 11,335
关键字:

word链接索引功能