精华内容
下载资源
问答
  • Python读取word文档内容

    2021-04-27 05:35:06
    1,利用python读取纯文字的word文档,读取段落和段落里的文字。先读取段落,代码如下:1 '''2 #利用python读取word文档,先读取段落3 '''4 #导入所需库5 from docx import Document67 #打开word文档8 document = ...

    1,利用python读取纯文字的word文档,读取段落和段落里的文字。

    先读取段落,代码如下:

    1 '''

    2 #利用python读取word文档,先读取段落

    3 '''

    4 #导入所需库

    5 from docx import Document

    6

    7 #打开word文档

    8 document = Document("D:/路径/长恨歌.docx")

    9

    10 #获取所有段落

    11 all_paragraphs = document.paragraphs

    12 #打印看看all_paragraphs是什么东西

    13 print(type(all_paragraphs)) #,打印后发现是列表

    14 #是列表就开始循环读取

    15 for paragraph in all_paragraphs:

    16 #打印每一个段落的文字

    17 print(paragraph.text)

    效果:

    32f30f47ec3c231151fa3b78a58d152c.png

    再读取段落里的内容,代码如下:

    1 '''

    2 #利用python读取word文档

    3 '''

    4 #导入所需库

    5 from docx import Document

    6

    7 #打开word文档

    8 document = Document("D:/路径/长恨歌.docx")

    9

    10 #获取所有段落

    11 all_paragraphs = document.paragraphs

    12 #打印看看all_paragraphs是什么东西

    13 print(type(all_paragraphs)) #,打印后发现是列表

    14 #是列表就开始循环读取

    15 for paragraph in all_paragraphs:

    16 #打印每一个段落的文字

    17 #print(paragraph.text)

    18 #循环读取每个段落里的run内容

    19 for run in paragraph.runs:

    20 print(run.text) #打印run内容

    效果如下:

    77d3e471432da5fc92b7b5bcb71ff7b8.png

    其实都准确的获取了文字内容,但是paragraph是保留了word文档里的换行符,而run是没有保留的。

    2,利用python读取纯表格文档,那要读取的文字都是存储在单元格里,需要读取单元格里的内容:

    1 '''

    2 #利用python读取word文档,表格文档

    3 '''

    4 #导入所需库

    5 from docx import Document

    6

    7 #打开文件

    8 document = Document("D:/路径/长恨歌-表格.docx")

    9 #获取文档所有表格

    10 all_tables = document.tables

    11

    12 #打印all_tables类型

    13 print(type(all_tables)) #得到,即列表

    14 #开始循环读取表格列表

    15 for table in all_tables:

    16 #循环读取表格的每一行

    17 for row in table.rows:

    18 #print(row)

    19 #循环读取表格的每一个单元格

    20 for cell in row.cells:

    21 #打印单元格里的内容

    22 print(cell.text) #打印

    3,利用python读取word文档,文档是表格加文字组合而成的。这个就设计word文档格式问题了。将要处理的word文档后缀名改为zip,发现也可以打开,里面有几个文件如图:

    f00f4d2ee32836c4d86e510b59f9c29b.png

    点开word目录,发现有个document.xml,这就是我们要处理的文件。

    0a902e7158224de28bf13a02365d9ac4.png

    代码开始:

    1 '''

    2 #利用python读取word文档,表格文档

    3 '''

    4 #导入所需库

    5 import zipfile #解压文件库

    6 #先将要处理的word文档用zipfile进行压缩

    7 word = zipfile.ZipFile('D:/路径/长恨歌-文字+表格.docx')

    8

    9 #找到要处理的xml文件并以utf-8的格式读取

    10 xml = word.read('word/document.xml').decode('utf-8')

    11 #打印看看

    12 #print(type(xml)) #字符串

    13 #print(xml) #打印整个字符串

    14 #接下来分割字符串并存储到列表中

    15 xml_list = xml.split('') #以字符串进行分割字符串

    16 #打印看是否符合预期

    17 #print(type(xml_list)) #是列表

    18 #print(xml_list) #列表内容

    19

    20 #开始切片,找标签

    21 text_list = [] #新建空list用以存储切出来的数据

    22 #开始循环读取列表xml_list

    23 for i in xml_list:

    24 #条件查找

    25 if i.find('') + 1: #切片查找是如果没找到是会返回-1,我们+1让他返回0,再运行else分支

    26 text_list.append(i[:i.find('')]) #如果不是返回0就把找到的依次追加到text_list末尾

    27 else:

    28 pass

    29 #print(text_list)

    30 #再将得到的列表拆分为字符串

    31 text = ''.join(text_list) #以空字符串为间隔,将列表拆分为字符串

    32 print(text)

    第三个表格加文字的取出文字有点绕,多处理几遍就行了。

    标签:xml,word,读取,Python,text,文档,print

    来源: https://www.cnblogs.com/mafu/p/13968857.html

    展开全文
  • 本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:首先下载安装win32comfrom win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open('c:/test')...

    本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:

    首先下载安装win32com

    from win32com import client as wc

    word = wc.Dispatch('Word.Application')

    doc = word.Documents.Open('c:/test')

    doc.SaveAs('c:/test.text', 2)

    doc.Close()

    word.Quit()

    这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成

    doc.SaveAs('c:/test', 4)

    注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。

    在xp系统下面,应当,

    open(r'c:\text','r')

    wdFormatDocument = 0

    wdFormatDocument97 = 0

    wdFormatDocumentDefault = 16

    wdFormatDOSText = 4

    wdFormatDOSTextLineBreaks = 5

    wdFormatEncodedText = 7

    wdFormatFilteredHTML = 10

    wdFormatFlatXML = 19

    wdFormatFlatXMLMacroEnabled = 20

    wdFormatFlatXMLTemplate = 21

    wdFormatFlatXMLTemplateMacroEnabled = 22

    wdFormatHTML = 8

    wdFormatPDF = 17

    wdFormatRTF = 6

    wdFormatTemplate = 1

    wdFormatTemplate97 = 1

    wdFormatText = 2

    wdFormatTextLineBreaks = 3

    wdFormatUnicodeText = 7

    wdFormatWebArchive = 9

    wdFormatXML = 11

    wdFormatXMLDocument = 12

    wdFormatXMLDocumentMacroEnabled = 13

    wdFormatXMLTemplate = 14

    wdFormatXMLTemplateMacroEnabled = 15

    wdFormatXPS = 18

    照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

    当然你也可以用任意一种语言通过com来调用office API,比如PHP.

    from win32com import client as wc

    word = wc.Dispatch('Word.Application')

    doc = word.Documents.Open(r'c:/test1.doc')

    doc.SaveAs('c:/test1.text', 4)

    doc.Close()

    import re

    strings=open(r'c:\test1.text','r').read()

    result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)

    chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)

    question=open(r'c:\question','a+')

    question.write(chan)

    question.close()

    answer=open(r'c:\answeronly','a+')

    for i,a in enumerate(result):

    m=re.search('[A-D]',a)

    answer.write(str(i+1)+' '+m.group()+'\n')

    answer.close()

    chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)

    #不要(),容易引起歧义。

    希望本文所述对大家的Python程序设计有所帮助。

    本条技术文章来源于互联网,如果无意侵犯您的权益请点击此处反馈版权投诉

    本文系统来源:php中文网

    展开全文
  • (英文输入法状态下)“[0-9]{1,}... 如下图所示: word查找栏字符代码 注:要查找已被定义为通配符的字符,该字符前键入反斜杠 \ 。查找?、*、(、)、[ 、] 等的代码分别是\?、*、(、)、[、] 。 word替换栏字符代码

    (英文输入法状态下)“[0-9]{1,}”

    说明:
    [0-9]——任意数字(单个),
    [0-9]{1,}——1 个以上前一字符或表达式,即[0-9]{1,}指任意数字。
    如下图所示:
    在这里插入图片描述

    word查找栏字符代码
    在这里插入图片描述
    注:要查找已被定义为通配符的字符,该字符前键入反斜杠 \ 。查找?、*、(、)、[ 、] 等的代码分别是\?、*、(、)、[、] 。

    word替换栏字符代码
    在这里插入图片描述

    展开全文
  • 在各种情况下,可能需要将MS Word文档拆分为多个文档。例如,您可能需要为Word文档中的每个页面,每个部分或页面集合创建一个单独的文档。为了自动进行文档拆分,本文介绍了如何使用Java以编程方式拆分MS Word文档。...

    在各种情况下,可能需要将MS Word文档拆分为多个文档。例如,您可能需要为Word文档中的每个页面,每个部分或页面集合创建一个单独的文档。为了自动进行文档拆分,本文介绍了如何使用Java以编程方式拆分MS Word文档。以下各节提供了上述拆分条件的分步教程和代码示例。

    • 使用Java拆分Word文档
    • 使用页面范围分割Word文档
    • 按部分拆分Word文档

    Aspose.Words for Java是功能强大且功能丰富的文档处理API,可让您创建和处理MS Word文档。除了基本的和高级的Word自动化功能外,API还允许您将Word文档拆分为多个文档。如果想要测试这项新功能,可点击这里下载最新版试用。


    使用Java拆分Word文档

    首先,让我们看一下如何按页面拆分MS Word文档。在这种情况下,源文档的每一页都将转换为单独的Word文档。以下是拆分Word文档页面的步骤。

    • 使用Document类加载Word文档。
    • 创建一个DocumentPageSplitter对象,并使用Document对象对其进行初始化。
    • 循环浏览文档中的页面。
    • 使用DocumentPageSplitter.getDocumentOfPage(Int pageIndex)方法将每个页面检索到Document对象中。
    • 使用Document.save(String)方法保存文档。

    下面的代码示例演示如何使用Java拆分Word文档。

    // Open a Word document
    Document doc = new Document("Word.docx");
    
    // Split nodes in the document into separate pages
    DocumentPageSplitter splitter = new DocumentPageSplitter(doc);
    
    // Save each page as a separate document
    for (int page = 1; page <= doc.getPageCount(); page++)
    {
        Document pageDoc = splitter.getDocumentOfPage(page);
        pageDoc.save("SplitDocumentByPage_" + page + ".docx");
    }

    使用页面范围分割Word文档

    还可以定义要从源Word文档中拆分的页面范围。以下是执行此操作的步骤。

    • 使用Document类加载Word文档。
    • 创建一个DocumentPageSplitter对象,并使用Document对象对其进行初始化。
    • 使用DocumentPageSplitter.getDocumentOfPageRange(Int,Int)方法将页面集合检索到Document对象中。
    • 使用Document.save(String)方法保存文档。

    下面的代码示例演示如何使用Java按页面范围拆分Word文档。

    // Open a Word document
    Document doc = new Document("Word.docx");
    
    // Split nodes in the document into separate pages
    DocumentPageSplitter splitter = new DocumentPageSplitter(doc);
     
    // Get part of the document
    Document pageDoc = splitter.getDocumentOfPageRange(3,6);
    pageDoc.save("SplitDocumentByPageRange.docx");

    使用Java按部分拆分Word文档

    Aspose.Words for Java还允许您按分节符拆分Word文档。以下是执行此操作的步骤。

    • 使用Document类加载Word文档。
    • 使用Document.getSections()方法循环遍历文档的每个部分。
    • 使用Document.getSections()。get(index).deepClone()方法将节克隆为Section对象。
    • 创建一个新文档,然后使用Document.getSections()。add(Section)方法将克隆的部分添加到文档中。
    • 使用Document.save(String)方法保存文档。

    下面的代码示例演示如何使用Java按部分拆分Word文档。

    // Load a Word DOCX document
    Document doc = new Document("word.docx");
    
    for (int i = 0; i < doc.getSections().getCount(); i++) { // Split a document into smaller parts, in this instance split by section Section section = doc.getSections().get(i).deepClone(); // Create a new document Document newDoc = new Document(); newDoc.getSections().clear(); // Add section Section newSection = (Section) newDoc.importNode(section, true); newDoc.getSections().add(newSection); // Save each section as a separate document newDoc.save("splitted_" + i + ".docx"); }

    如果您有任何疑问或需求,请随时加入Aspose技术交流群(761297826),我们很高兴为您提供查询和咨询。

    展开全文
  • matlab搜索word文档

    2021-04-28 06:23:24
    一、matlab图怎么添加到word1、首先在matlab中打开将要添加的图2、在上方菜单中选择“edit”,然后点击“copy figure”,如图所示3、打开Word文档,右键空白区域,然后选择粘贴即可4、可以看到matlab的图已经成功...
  • c++如何读取word基本步骤(1)创建)一个 MFC 的程序工程。注意:在VC中对WORD进行操作需要在MFC AppWizard - Step 2 of4中的Automaiton选项上打上勾。(2)Ctrl+W 执行 ClassWizard(本文按照 VC6 操作,示例程序是在VC6 ...
  • 我这里演示的是第二种方法,即写代码生成 word文档,不多说废话,直接代码;/*** 镇街日报导出word*/@RequestMapping(params = "exportWordForTownDaily")public void exportWordForTownDaily(...
  • Java读取word文档解决方案

    千次阅读 2021-03-03 12:49:33
    java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,...
  • 毕业设计需要从库里取纪录生成word文档,我找了半天,主要有这么几种方法:1。改头,就是象excel似的Response.Buffer = TRUEResponse.ContentType = "application/vnd.ms-excel" '--excelResponse.ContentType = ...
  • 然后用网上的这段代码生成word文档。 打开时总是提示如下图(数据填入正确)public void createDoc() {//要填入模本的数据文件Map dataMap=new HashMap();getData(dataMap);//设置模本装置方法和路径,FreeMarker支持...
  • 一、前言最近看见朋友写了一个导出数据库生成word文档的业务,感觉很有意思,研究了一下,这里也拿出来与大家分享一波~先来看看生成的word文档效果吧下面我们也来一起简单的实现吧二、Java 导出数据库表信息生成Word...
  • 电脑word文档中审阅功能在哪腾讯视频/爱奇艺/优酷/外卖 充值4折起我们在使用word的时候,有时是需要使用到审阅功能的,那么今天小编跟大家分享下电脑word文档中审阅功能在哪。具体如下:1. 首先我们打开电脑,在桌面...
  • 在开发Web办公系统或文档系统时,PageOffice组件是众所周知的在线处理微软word/ppt/excel文档的强大工具,它对WORD文档的各种处理在API层面进行了封装,屏蔽了Office VBA接口的复杂性,而又不失VBA的强大功能,在此...
  • 页面拿到这个要显示的文档的相对路径对文档进行编辑在Word文档里面显示出来后台代码部分:@RequestMapping("check")public String check(String wid,Model model,HttpServletResponse respons...
  • 如何实现在线预览word文档, 或者说如何把word文档转换成html文档?使用poi转换效果不是很好, 处理复杂一点的表格会出现一点偏差?只需要预览不需要编辑的.请问大家, 有什么比较好的实现方式么?回答用微软或者谷歌的...
  • 电脑的word文档在哪里

    2021-07-29 01:43:46
    新文件如果您正在处理新创建的文件或者 Word、Excel 或 PowerPoint 临时文件(如 Outlook 中的电子邮件附件),然后关闭了文件而未保存,则可以按照以下步骤操作,打开最后自动保存的草稿:1.打开所使用的 Office 2010...
  • 回答:WPS查找重复值的方法如下:1、用WPSOffice表格打开需要查询的数据表格;2、把需要查询的数据点住,点击鼠标左键滑动,使...3、在上方功能菜单栏中,找到数据按钮;...计算机俗称电脑,是一种用于高速计算的电子计算机器...
  • asp生成word文档

    2021-06-11 10:29:06
    asp生成word文档今天在处理一个在线申请功能时候,需要生成word文档。在网上找了些资料学习,终于成功了。下面是个简单的例子。其中程序包括index.htm,createdoc.asp。在之前你需要做一个word模板,并另存为web页。...
  • 展开全部导出xls格式文件,有一个包xls。jar专门做这件事的jxl.jar 包下载InstallationJExcelApi comes packaged as a zipped tar file, called something like jexcelapi_2_0.tar.gz.To unpack on UNIX systems, at...
  • 搜索word包含文字内容

    千次阅读 2021-07-07 01:49:17
    win7怎么设置搜索word文档里包含的文字1.在开始菜单中或桌面上打开“计算机”2.然后在打开的“计算机”界面左上角有“组织”选项3.选择下拉菜单中的“文件夹和搜索选项”4.点击“搜索”5.然后选中“始终搜索文件名和...
  • Java根据word模板生成word文档之后台解析和实现及部分代码(一)后台主要工作是解析XML定义的标签文件,并获取到数据集,放入到Map中,然后调用Jacob.jar中提供的相关方法来实现替换。首先想多说一句就是jacob会每次...
  • 需求在开发项目途中遇到了一个需求,就是将一个整个HTML界面导出到word文档,其中包含了echarts图表,经过一番折腾,终于完成了~~~(鸡肋),过程中用到了几个插件,总结了一下几个步骤,希望可以帮到大家。...
  • 检查word文档的连续重复,例如“用户的的资料”或“需要需要用户输入”之类的情况。Word测试文档的内容由学生决定。 import re # 导入正则的一个模板 from docx import Document # 导入一个模板,来使用doc文件 ...
  • 在本文中,将学习如何在C ++应用程序中查找和替换Word文档中的文本。当需要一次性替换多个文档中的特定文本时,这可能会很有用。 查找和替换Word文档中的文本 使用正则表达式查找和替换文本 使用元字符替换文本 ...
  • 整个word生成过程是如何运转的?我在本项目中采用这个技术架构确定之后,开始考虑采用properties文件来定义相关的标签什么的,但是最后放弃了这个决定,采用了XML文件的形式,主要的原因是:XML文件能很好的表现层次...
  • 由于对word操作不熟悉,查阅了一下相关文档,这里简要记录一下如何使用python操作word。说明本代码来源于官方文档(https://python-docx.readthedocs.io/en/latest/),这里对代码做了一些注释。该代码记录了对word的...
  • 为防止非法使用、定义所有权、显示文档状态等多种目的,在 Word 文档中添加水印。在本文中,您将学习如何使用 Java 为 Word 文档添加水印。文章将分别演示如何将文字和图片水印插入到Word文档中。 给 Word 文档添加...
  • #利用python查找word文档中的关键词,支持多个文档和多个关键词 ''' # 导入所需库 import os,re from docx import Document global ur ur = "D:/test_doc" #全局变量读取输入路径 # key_word = '模糊查询' #全局...
  • 前两天帮同学实现在线预览word文档中的内容,而且需要提供可以下载的链接!在网上找了好久,都没有什么可行的方法,只得用最笨的方法来实现了。希望得到各位大神的指教。下面我就具体谈谈自己的实现过程,总结一下...
  • 原因:保存的地址出错了,文件保存到其他地方了。解决方法:1、首先打开Word软件,点击...本教程操作环境:windows10系统、Microsoft Office word2010版,Dell G3电脑。推荐教程:《Word教程》word文档明明保存了...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 86,454
精华内容 34,581
关键字:

word文档查字