精华内容
下载资源
问答
  • 用VB实现自动统计Word文档页码,编辑页码,提取目录的源码
  • 创建目录Word目录的自动提取是基于大纲级别和段落样式。大纲级别就是段落所处层次级别编号,Word提供9级大纲级别,对应9种标题样式。标题样式设计我们在前面文章中已经介绍过(本文下方有文章链接),这里只...

    目录通常位于正文之前,由文档中的各级标题和页码组成,分为手动创建和自动创建两种方式。手动创建的目录修改起来很麻烦,我们一般采用自动创建的方式。

    创建目录

    Word中目录的自动提取是基于大纲级别和段落样式的。大纲级别就是段落所处层次的级别编号,Word提供9级大纲级别,对应9种标题样式。标题样式的设计我们在前面的文章中已经介绍过(本文下方有文章链接),这里只介绍自动提取目录的方法。

    (1) 按论文格式要求,目录放在正文的前面。在正文前插入一新页(在第1章的标题前插入一个分节符),光标移到新页的开始,添加“目录”二字,并设置好格式。

    (2) 新起一段落,单击“引用”选项卡→“目录”组→“目录”按钮,在下拉列表中选择“插入目录”选项,弹出如图3-29所示的“目录”对话框。设置“显示级别”为3级。

    (3) 在“目录”对话框中单击“修改”按钮,弹出“样式”对话框,在“样式”列表框中选中“目录1”选项;单击“修改”按钮,打开“修改样式”对话框,将一级目录的样式设置为三号、宋体、加粗;单击“确定”按钮,返回“样式”对话框。

    (4) 按步骤3的方法,设置二级目录和三级目录的样式。

    (5) 在“样式”对话框中单击“确定”按钮返回到“目录”对话框。

    (6) 其他不用修改,单击“确定”按钮后Word就自动生成目录。

    f84639b2fe4105601c15994fdf3b6a6c.png

    “索引和目录”对话框

    若有章节标题不在目录中,肯定是没有使用标题样式或样式使用不当的原因,而不是Word的目录生成有问题,请去相应章节检查。

    ff35d2f23746f33ebcfaca80e7f85980.png

    自动生成的目录

    上述是一个文档中的目录提取方法。如果章节分开保存在不同的文档中,则自动提取目录的方法如下:

    (1) 新建一个文档,用于创建论文目录,要求该文档与论文的文档在同一个文件夹下。

    (2) 在该文档中,按Ctrl+F9组合键,出现一对大括号,在其中输入“rd ch01.docx”,即 { rd ch01.docx},这里的ch01.docx为要创建目录的论文第1章的文件名。

    提示:有时,在输入rd后,文字立即消失,这是由于“显示/隐藏编辑标记”按钮没打开,在“开始”选项卡的“段落”组中单击“显示/隐藏编辑标记”按钮即可显示。

    (3) 将所有要创建目录的论文章名均按上一步进行操作,如下:

    { rd ch01.docx}

    { rd ch02.docx}

    { rd ch03.docx}

    { rd ch04.docx}

    { rd ch05.docx}

    ……

    (4) 单击“文件”选项卡中的“打开”按钮,在弹出的“打开”对话框中查找到该文档所在的文件夹,再单击“取消”按钮,关闭“打开”对话框。

    (5) 单击“引用”选项卡→“目录”组→“目录”按钮,在下拉列表中选择“插入目录”选项,弹出“目录”对话框,单击“确定”按钮,即可插入目录。

    更新域

    当文档做过修改后,其标题和页码可能会发生变化,此时就需要重新创建目录,手动操作不太方便,如果使用更新域的方式就可自动修改目录。

    具体操作步骤如下:

    (1) 在生成的目录区域选中目录区,单击“引用”选项卡→“目录”组→“更新目录”按钮。

    (2) 在弹出的“更新目录”对话框中选择“只更新页码”或“更新整个目录”,单击“确定”按钮就可以完成目录的修改。

    0a354096ac3865e89c8b74517bab45b1.png

    “更新目录”对话框

    常用的域有以下几种:

    Page域:插入当前页的页号。

    NumPages域:插入文档中的总页数。

    TOC域:建立并插入目录。

    StyleRef域:插入具有样式的文本。

    MergeField域:插入合并域,在邮件合并中使用,作用是将主文档中的占位符与数据源联系在一起,自动为不同“人员”生成相同格式内容的通知。

    更多关于word 2010应用的文章,请点击以下链接。


    word 2010高级应用:分节符的使用

    word 2010高级应用:设置纸张和页边距,设计样式

    word 2010基础应用:文档的审阅、修订、比较与合并

    在Word 2010中录入公式,分栏,添加水印,应用主题、模板和域

    word 2010基础应用:绘制图形和文本框(纯干货分享)

    word 2010入门:设置文档段落格式

    word 2010中的表格数据处理(数据排序与计算、表格与文字转换)

    word基础应用:插入图片和剪贴画(office办公应用 纯干货分享)

    word2010页面设置:手把手教你添加页眉、页脚、页码、边框和底纹

    word基础应用:表格的编辑(调整单元格、添加底纹、斜线表头等)

    展开全文
  • word中存在多个表格,每个表格会有一些使用不同颜色标注高亮文本,那么如何利用编程语言自动的提出这些高亮文本呢?这便是本文问题情境,针对此,我使用Java实现了这一功能。 针对上面,这个表格(只匹配表格...


    Email:1563178220@qq.com 内容可能有不到之处,欢迎交流。

    未经本人允许禁止转载

    问题情境

    在word中存在多个表格,每个表格会有一些使用不同颜色标注的高亮文本,那么如何利用编程语言自动的提出这些高亮文本呢?这便是本文的问题情境,针对此,我使用Java实现了这一功能。
    在这里插入图片描述

    针对上面,这个表格(只匹配表格中的红色、黄色、蓝色、绿色对应的文本),Java程序的输出结果为:
    在这里插入图片描述
    处理时,这里不考虑表格的表头。

    相关jar包

    使用maven可以配置相关jar包,具体如下:

    <!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
    		<dependency>
    			<groupId>org.apache.poi</groupId>
    			<artifactId>poi</artifactId>
    			<version>3.17</version>
    		</dependency>
    
    		<!-- https://mvnrepository.com/artifact/org.apache.poi/poi-ooxml -->
    		<dependency>
    			<groupId>org.apache.poi</groupId>
    			<artifactId>poi-ooxml</artifactId>
    			<version>3.17</version>
    		</dependency>
    

    同时,还需要下载poi-scratchpad-3.17.jar:

    在这里插入图片描述

    Java实现程序

    package com.qian.word;
    
    import java.io.FileInputStream;
    import java.io.IOException;
    import java.io.InputStream;
    import java.util.Arrays;
    import java.util.Iterator;
    import java.util.List;
    import org.apache.poi.xwpf.usermodel.XWPFDocument;
    import org.apache.poi.xwpf.usermodel.XWPFParagraph;
    import org.apache.poi.xwpf.usermodel.XWPFRun;
    import org.apache.poi.xwpf.usermodel.XWPFTable;
    import org.apache.poi.xwpf.usermodel.XWPFTableCell;
    import org.apache.poi.xwpf.usermodel.XWPFTableRow;
    
    public class WordRead {
    	public static void main(String[] args) throws IOException {
    		//设置要匹配的颜色--16进制颜色代码
    		String[] colors = {"FF0000", //红色
    				"FFFF00", //黄色
    				"0000FF", //蓝色
    				"00FF00" //绿色
    				};
    		
    		InputStream in = new FileInputStream("data/wordtext.docx"); //docx文件
    		@SuppressWarnings("resource")
    		XWPFDocument xdoc = new XWPFDocument(in);
    		Iterator<XWPFTable> itTable = xdoc.getTablesIterator();  //获取word文件中的表格
    		XWPFTable table;
    		int tableIndex = 0; //表格编号
    		System.out.println("表格编号" + "\t" +  "行" + "\t" + "列" + "\t" + "文本" + "\t" + "高亮颜色"  + "\t");
    		while (itTable.hasNext()) {  //循环word中的每个表格
    			tableIndex++;
    			table = itTable.next();
    			XWPFTableRow row;
    			List<XWPFTableCell> cells;
    			for (int i = 0; i < table.getNumberOfRows(); i++) {
    				if(i == 0)  //这里设置是否包含表头
    					continue;
    				row = table.getRow(i);  //获取word表格的每一行
    				cells = row.getTableCells();  //针对每一行的所有单元格
    				for (int j = 0; j < cells.size(); j++) {
    					XWPFTableCell cell = cells.get(j); //获取单个单元格
    					//获取单元格相同字体颜色+文字
    					XWPFParagraph paras = cell.getParagraphs().get(0); //获取包含段落的列表--只有一段
    					List<XWPFRun> runsLists = paras.getRuns();//获取段落中的列表
    					for(XWPFRun xL:runsLists){
    						String c = xL.getColor(); 
    						String text = xL.text(); 
    						if (c!=null&&Arrays.asList(colors).contains(c)) {
    							System.out.println(tableIndex + "\t" + i + "\t" + j + "\t" + text + "\t" + c  + "\t");
    						}
    					}
    				}
    			}
    		}
    	}
    }
    
    
    展开全文
  • 比如,下面这个图就是HTML里内容,我要把它提取出来写入到word里面,还要带上这本书标题,给word命名。写好了就可以批量处理!!!是不是很妙o( ̄︶ ̄)o 还好朋友会用一个sitemapX工具,把网页中目标路径都...

    看见朋友每天重复地从网页里把目录复制粘贴到word里,觉得很不智能。于是想到用Python的自动化办公功能,来解救他!比如,下面这个图就是HTML里的内容,我要把它提取出来写入到word里面,还要带上这本书的标题,给word命名。写好了就可以批量处理!!!是不是很妙o( ̄︶ ̄)o
    在这里插入图片描述
    还好朋友会用一个sitemapX工具,把网页中的目标路径都写入到一个txt文件中。
    在这里插入图片描述
    调用的库:
    import time
    import re
    import urllib.request
    import os
    import pypandoc
    from docx.oxml.ns import qn
    from docx import Document
    这个小项目做起来,还是有几个重点需要注意的地方:

    (1)每次解析30个HTML文件,之后需要更新原来的txt文件,不然每次处理的都是前30个HTML文件。

    #获取网页列表
    def input_html(txtname):
        with open(txtname,'r') as f:
            content = f.read()
        s1 = content.split('\n')#讲字符串转为列表
        html_num = len(s1)#链接总个数
        print('该文件含有{}个链接'.format(html_num))
        
        s2 = s1[30:]#剩下的链接
        new_html = '\n'.join(s2)#更新
        new_html_num = len(s2)#链接总个数
        print('完成这次任务,还剩{}个链接'.format(new_html_num))
        return new_html
    
    #创建新的文档,以时间作为区分
    import time
    nowtime = time.strftime("%Y%m%d%H%M%S", time.localtime())#当前时间作为新的文件表示
    with open("sitemap" + nowtime + ".txt", "w", encoding='utf-8') as f:
        f.write(input_html("sitemap.txt"))
        f.close()
    1234567891011121314151617181920

    在这里插入图片描述
    (2)读取HTML文件,提取其中所需要的的内容,需要使用正则表达式,主要提取两部分,一个是标题,一个是带有目录的内容。

    import re
    import urllib.request      #导入request模块
    def Parse_html(url):
        res = urllib.request.urlopen(url)      #调用urlopen()从服务器获取响应界面
        html = res.read().decode('utf-8')     #对返回的响应数据解码,并赋值给html
        return html
    html=Parse_html(url)
    #提取源文件一部分作为内容部分
    str1=re.findall('<div class="DetailInfo">([\s\S]*?)<div class="Column ElectronicIntro"',html)#取两者之间的部分
    str1[0]=str1[0].replace('<div class="Column ColumnCatalog" id="columnCatalog" style="display: none">','<div class="Column ColumnCatalog" id="columnCatalog" style="">')
    str1_1=re.sub('</span>[\s]*?<li>','</span>\n</li><li>',str1[0])#补缺失在部分</li>
    str1_2=re.sub('</span>[\s]*?</ul>','</span>\n</li></ul>',str1_1)#补缺失在部分</li>
    #提取源文件一部分作为标题部分
    str2=re.findall("<h1[\s\S]*?</h1>",html)#匹配含换行符[\s\S]*?,之间匹配任何字符,含换行符
    
    123456789101112131415

    怎样查看网页对应的目标图片链接呢?使用chrome浏览器打开上述网页,然后按F12,就会在右边看到这个网页的源代码,按照我下图的三步走,点击小箭头后,把鼠标移动到目标图片,悬浮即可,这个时候右边会高亮显示对应这个目标部分的网页源代码。就可以看到我用红色框框起来的部分,src后面引号的部分就是这个图片的连接。
    在这里插入图片描述

    这中间还是遇到了两个问题,一个是的缺失,会导致一部分内容不可显示;另外一个问题style=“display: none"这个部分会把目录隐藏,所以,需要将它替换成style=”"。这部分就涉及到了HTML的结构正则表达式

    (3)把提取的内容拼接起来,重新形成一个HTML文件。

    import os
    def write_html(title,content):
        html1 = open("n.html", "w")#写成html
        html1.write(title)#标题
        html1.write(content)#内容
        html1.close()
    #把处理好的内容写入HTML文件
    write_html(str2[0],str1_2)
    
    123456789

    (4)将HTML文件写入Word

    import pypandoc
    def html_docx(html_path,docx_path):
        f = open(html_path,"r",encoding='gbk')
        html1 = f.read()
        output = pypandoc.convert_text(html1, 'docx', 'html', outputfile=docx_path)  # 将 html 代码转化成docx
    #把新的HTML文件写入Word,自带格式
    html_docx("n.html","file1.docx")
    1234567

    这个阶段有个难点,就是pypandoc的导入,在公司用的服务器,调试起来没有问题,但是在家里的电脑报错了NO pandoc was found。具体见下图:

    在这里插入图片描述
    在网上找了很多方法尝试,主要是按照报错的指引去做的,可是都没有得到改善。最后找到一篇帖子https://blog.csdn.net/qq_43741748/article/details/105454719,《下载和安装Pandoc(Windows和Mac版本)》从Pandoc的官网下载https://www.pandoc.org/installing.html,直接运行安装问题就解决了。
    在这里插入图片描述
    (5)根据需求进一步调整Word内容,主要是字体调成微软雅黑,增加页脚,用内容的标题给文件命名,存储下来。

    #修改word样式,给文件命名,增加页脚
    from docx import Document
    document = Document('file1.docx')
    document.paragraphs[0].text=document.paragraphs[0].text.replace("[题库]","")
    document.paragraphs[0].text=document.paragraphs[0].text.replace("[电子书]","")
    f=document.paragraphs[0].text
    filename=f#取文件名
    sec = document.sections# word文档中章节 section 对象
    
    sec0 = sec[0]  # 获取章节对象
    font0 = sec0.footer  # 返回页脚对象
    #print(font0)
    # 设置页脚
    #print(font0.paragraphs)
    font0_par = font0.paragraphs[0]
    font0_par.add_run('                     星蓝海学习网-考研资格考试,电子书题库,视频答案详解')
    from docx.oxml.ns import qn
    document.styles['Normal'].font.name = u'微软雅黑'
    document.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'微软雅黑') # 将段落中的所有字体
    document.save('{}.docx'.format(filename))
    1234567891011121314151617181920

    对第一步的列表还需要循环遍历,属于基础就没有再赘述了,还有就是在循环遍历的时候,需要增加异常处理的部分。处理结果贴给大家看看,
    在这里插入图片描述
    在这里插入图片描述

    在docx文档处理的部分,标题还不能更改样式,日后还需要进一步完善!

     

    展开全文
  • word里怎么添加目录

    千次阅读 2011-06-04 14:01:00
    word里怎么添加目录呢添加目录的前提是,把文档标题设置标题级别,之后才能提取目录。具体操作如下:假如文章中标题格式为 第一节……大标题(一级) 1.1……小标题(二级) 1.1.1—……小标题下小标题(三级) ...
    word里怎么添加目录呢
    
    添加目录的前提是,把文档标题设置标题级别,之后才能提取目录。具体操作如下:
    假如文章中标题格式为 
    
    第一节……大标题(一级) 
    1.1……小标题(二级) 
    1.1.1—……小标题下的小标题(三级) 
    …… 
    第N节……大标题(一级) 
    n.1……小标题(二级) 
    n.1.1—……小标题下的小标题(三级) 
    
    
    自动生成文章目录的操作: 
    
    一、设置标题格式 
    
    1.选中文章中的所有一级标题; 
    2.在“格式”工具栏的左端,“样式”列表中单击“标题1”。 
    仿照步骤1、2设置二、三级标题格式为标题2、标题3。 
    
    二、自动生成目录 
    
    1.把光标定位到文章第1页的首行第1个字符左侧(目录应在文章的前面); 
    2.执行菜单命令“插入/引用/索引和目录”打开“索引的目录”对话框; 
    3.在对话框中单击“目录”选项卡,进行相关设置后,单击“确定”按钮,文章的目录自动生成完成。 
    
    友情提示: 
    目录页码应该与正文页码编码不同。 
    把光标定位在目录页末,执行“插入/分隔符/下一页/确定”操作,在目录与正文之间插入分页符; 
    执行“视图/页眉和页脚”命令,把光标定位到正文首页的页脚处,单击“页眉和页脚”工具栏上的“链接到前一个”按钮正文页脚与目录页脚的链接; 
    执行“插入/页码”命令,在“格式”中选择页码格式、选中“起始页码”为“1”,单击“确定。 
    至此完成正文的页码插入。 
    
    目录如果是多页,插入页码时可以选择与正文页码不同的页码格式。当然,如果目录只有一页,没有必要插入页码。
    展开全文
  • 比如,下面这个图就是HTML里内容,我要把它提取出来写入到word里面,还要带上这本书标题,给word命名。写好了就可以批量处理!!!是不是很妙o( ̄︶ ̄)o 还好朋友会用一个sitemapX工具,把网页中目标路径都...
  • 插入索引和目录的一个前提是,在文章中一定要把文章中将来要做目录的标题部分设置为标题格式。... 然后,你选择插入索引和目录,系统就自动提取这些设置了标题格式标题为目录了! 做毕业论...
  • 目录前言读取Word内容NPOINPOI安装NPOI提取Word内容用Costura.Fody打包DLLpython-docx读取PDF内容python-docx自动生成Word全局字体内容字体单元格合并最后前言Word就是那种很难用, 很丑陋, 但是你不得不用东西, 在...
  • 批量把所有文件名以.cht.txt结尾的文件全部提取到指定的目录中。 2.在指定的目录上级生成日志文件。 批量去除空格DleteSpace.bat 1.批量去除TXT文件中隔一个字一个空格的情况。 2.在指定的目录上级生成日志文件...
  • 没有设置标题样式,提取不出来目录。 最终汇总需要 清除Word的标题样式保留字体格式() 解决方式: 开始享用python+docx库解决。但是docx库在原始文档没有style情况下,无论如何添加不进去。 if match(run...
  • 目录前言读取Word内容NPOINPOI安装NPOI提取Word内容用Costura.Fody打包DLLpython-docx读取PDF内容python-docx自动生成Word全局字体内容字体单元格合并最后 前言 Word就是那种很难用, 很丑陋, 但是你不得不用东西...
  • 运行项目根目录脚本demo-word.bat可以快速体验分词效果 用法: command [text] [input] [output] 命令command可选值为:demo、text、file demo text 杨尚川是APDPlat应用级产品开发平台作者 file d:/text.txt...
  • 如今Python在自动化办公领域表现越来越亮眼,受到了很多非IT职场人士推崇,也引得更多人去了解、学习Python。但是很多初学者都会面临这么一个困惑:想把Python应用在工作中,却不知从何下手! 今天就给大家...
  • 3、导出表格到Excel多表:导出表格时将每一个WORD表格保存在单独工作表中,即WORD中有多少个表格,则在Excel中生成多少个工作表,逐一存放,同时还生成工作表目录。 4、导出表格到Excel单表:将当前文档中所有...
  • 导出表格时将每一个WORD表格保存在单独工作表中,即WORD中有多少个表格,则在Excel中生成多少个工作表,逐一存放,同时还生成工作表目录。 批量缩放图片 按指定倍数批量放大图片,或者按指定百分比批量缩小...
  • 对于从正文内容自动提取出来的目录,由于按住Ctrl键单击目录中的某条,可以直接跳转到正文的相应内容,目录条目与正文段落之间有必然的关联,因此我们可以考虑通过“大纲视图”完成内容的重新排序。(图1) 1. ...
  • 罗刚君Word精灵 v3.0.rar

    2019-07-13 05:22:16
    导出表格到Excel多表:导出表格时将每一个WORD表格保存在单独工作表中,即WORD中有多少个表格,则在Excel中生成多少个工作表,逐一存放,同时还生成工作表目录。 批量缩放图片:按指定倍数批量放大图片,或者按...
  • 提取指定目录Excel和Word文件,生成Excel列表,并自动生成链接。 采用VS2010开发,需要DotNet2.0支持。 需要源码请联系我,Q:78534014
  • 实例1:对未设大纲级别文档自动设置 1 实例2:多级人工序号怎样变自动多级符号 1 实例3:一步替换法对齐人工目录人名 2 实例4:对开头为第N章和第N节段落进行设置 3 实例5:删除多余半角空格 4 实例6:删除...
  • 实例023 自动启动多媒体光盘程序 29 实例024 为触摸屏程序添加虚拟键盘 30 实例025 触摸屏系统 31 1.8 窗体效果 33 实例026 半透明渐显窗体 33 实例027 窗口颜色渐变 34 实例028 带背景窗体 35 ...
  • 文章概要Word批量排版及自动生成目录多级标题自动编号(及编号变竖线修复)批量换行(或批量删除空行)图片显示不全Excel批量填充(给1000行数据添加序号如何点两下搞定,如何快捷提取1000人出生...
  • Word大型文档排版指南

    2011-12-01 12:34:18
    这是我自己写一本关于Word2003应用书籍,投稿机械工业出版社,被拒,发到这里来,希望能够帮助朋友们。本书主要讲解用Word排版大型文档经验和技巧,可供撰写毕业设计论文同学和写书作者参考,希望本书能...
  •  删除所有与Oracle相关的目录,包括: C:\Program file\Oracle目录。 ORACLE_BASE目录。 C:\Documents and Settings\系统用户名、LocalSettings\Temp目录下的临时文件。 七、 oracle中的数据库 八、 常用的工具 ...
  • 可以过滤学过单词(可以只提取单词或是只提取没有学过单词) 背单词小精灵是一款背单词软件,集成,小学,中学,高中,大学,四六级,GMT,托福,GRE,新概念,许国璋,外贸,医学,各种专业英语,及...
  • 您可以根据文字样式和对象属性提取和插入目录到WPS 2000 文档中,这使文档的目录编辑工作变得轻而易举。您不必费心费力去用手工编写您的文档目录,只要使用目录插入功能,整齐美观的目录就会出现在文档中。  具备两...
  • 为您提供云动PDF阅读器下载,云动pdf阅读器是一款PDF阅读软件,帮助... 轻松阅读 自动提取目录,精准定位阅读目标;丰富批注功能,高效办公;3大阅读模式,只为更好阅读体验 转换 实现PDF与Word/Excel/PPT/图片/CA
  • 基于asp.net网络硬盘

    2009-05-14 12:09:31
    10.文件提取功能,可同时定义多个文件的提取码,提取码可个性化定义,并可限制下载次数及天数。 11.上传码功能,可定义一个目录的外部允许上传密码,访客可凭此密码上传到此目录。 12.文件转发功能,可将多个文件...
  • 闪电pdf阅读器是一款好用PDF阅读软件,内存消耗小,极速打开pdf文件,具有多种极速阅读模式,目录自动提取、书签、搜索、全屏、打印等,支持打开PDF/ePub/MOBI/XPS/DjVu/CHM/CBZ/CBR等文档格式! 闪电PDF阅读器 v...
  • ·自动上传本地图片和word图片(word图片需使用从word粘贴功能) ·可对网页与关键静态文件进行Gzip压缩,减少服务器流量并加快网页打开速度 ·提供工具转换网站为utf-8编码,以实现多语言显示 ·Digg功能,加强...

空空如也

空空如也

1 2 3 4 5 ... 9
收藏数 175
精华内容 70
关键字:

word自动提取的目录