精华内容
下载资源
问答
  • python读取word内容
    千次阅读
    2022-04-08 15:45:00

    # encoding=utf-8

    import docx

    #获取文档对象

    file=docx.Document("附件3:分解任务落实至XX室情况表(2022年2月).docx")

    print("段落数:"+str(len(file.paragraphs)))#段落数

    #输出每一段的内容

    for para in file.paragraphs:

        print(para.text)

        for paragraph in file.paragraphs:

            print(paragraph.text)#按表格读取全部数据

        for table in file.tables:

            for row in table.rows:

                for cell in row.cells:print(cell.text)

        table_num=len(para.tables)#获取文档的表格个数

        print(table_num)

        table_0=file.tables[0]#选取第一个表

        table_rows =len(table_0.rows)#获取第一个表的行数

        print(table_rows)

        tab=file.tables[0].rows[0].cells[0]#获取第一张表第一行第一列数据

        print(tab.text)

        par= file.paragraphs[2]#读取第三段数据

        print(par.text)

    更多相关内容
  • 本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下。 一,docx模块 Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档...
  • 本篇继续python操作word之旅:利用python获取word文档的内容

    上一篇,学习了是用python的docx库创建一个word文档,并且编辑了标题和正文。本篇继续python操作word之旅:利用python来获取word文档的内容。

    python脚本:

    # -*- coding: utf-8 -*-
    import os
    import sys
    import time
    import docx
    from docx.shared import RGBColor
    from docx.shared import Pt
    
    #提取word文档的内容
    def fetch_doc():
        doc_name = "念奴娇_赤壁怀古.docx"
        doc = docx.Document(doc_name)
        title=doc.paragraphs[0] #获取标题
    
        for run in title.runs:
            print("run=",run)
            print(run.text)
        for paragraph in doc.paragraphs: #获取所有的paragraphs
            print("text==",paragraph.text)
    
    if __name__ == '__main__':
        #create_doc()
        fetch_doc()

    运行结果:

    % python word_util.py

    run= <docx.text.run.Run object at 0x10f157790>

    念奴娇·赤壁怀古

    text== 念奴娇·赤壁怀古

    text== 大江东去,浪淘尽,千古风流人物。

    故垒西边,人道是,三国周郎赤壁。

    乱石穿空,惊涛拍岸,卷起千堆雪。

    江山如画,一时多少豪杰。

    遥想公瑾当年,小乔初嫁了,雄姿英发。

    羽扇纶巾,谈笑间,樯橹灰飞烟灭。

    故国神游,多情应笑我,早生华发。

    人生如梦,一尊还酹江月。

    说明:

    docx.Document(doc_name):带参数的Document相当于获取一个已经存在的word文档;

    doc.paragraphs:就是所有的 文档内容,包括标题;

    paragraph.text:某一个内容的文本。


     

    展开全文
  • 1.Word文档如下: 2.代码 # -*- coding: UTF-8 -*- from docx import Document def readSpecTable(filename, specText): document = Document(filename) paragraphs = document.paragraphs allTables = ...
  • 本文介绍用Python简单读取*.docx文件信息,一些python-word库就是对这种方法的扩展。 介绍分两部分: Word(*.docx)文件简述 Python提取Word信息 Word(*.docx)文件简述 大约在2008年以前,Office产品中Word用.doc...
  • Python可以利用python-docx模块处理word文档,处理方式是面向对象的。安装 :在cmd命令行中输入 pip install python-docx最后提示Successfully installed,表示成功地安装完成代码:# encoding=utf-8import docx#...

    Python可以利用python-docx模块处理word文档,处理方式是面向对象的。

    安装 :在cmd命令行中输入 pip install python-docx

    最后提示Successfully installed,表示成功地安装完成

    代码:# encoding=utf-8

    import docx

    #获取文档对象

    file=docx.Document("E:\\pythoncode\\T11308010102mayuwen.docx")

    print("段落数:"+str(len(file.paragraphs)))#段落数

    #输出每一段的内容

    for para in file.paragraphs:

    print(para.text)

    结果如图:

    70

    以上就是python读取word中的文本内容 的详细内容,更多请关注Gxl网其它相关文章!

    本条技术文章来源于互联网,如果无意侵犯您的权益请点击此处反馈版权投诉

    本文系统来源:php中文网

    展开全文
  • python读取word文档的方法

    千次阅读 2020-12-29 10:08:09
    本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:首先下载安装win32comfrom win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open('c:/test')...

    本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:

    首先下载安装win32com

    from win32com import client as wc

    word = wc.Dispatch('Word.Application')

    doc = word.Documents.Open('c:/test')

    doc.SaveAs('c:/test.text', 2)

    doc.Close()

    word.Quit()

    这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成

    doc.SaveAs('c:/test', 4)

    注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。

    在xp系统下面,应当,

    open(r'c:\text','r')

    wdFormatDocument = 0

    wdFormatDocument97 = 0

    wdFormatDocumentDefault = 16

    wdFormatDOSText = 4

    wdFormatDOSTextLineBreaks = 5

    wdFormatEncodedText = 7

    wdFormatFilteredHTML = 10

    wdFormatFlatXML = 19

    wdFormatFlatXMLMacroEnabled = 20

    wdFormatFlatXMLTemplate = 21

    wdFormatFlatXMLTemplateMacroEnabled = 22

    wdFormatHTML = 8

    wdFormatPDF = 17

    wdFormatRTF = 6

    wdFormatTemplate = 1

    wdFormatTemplate97 = 1

    wdFormatText = 2

    wdFormatTextLineBreaks = 3

    wdFormatUnicodeText = 7

    wdFormatWebArchive = 9

    wdFormatXML = 11

    wdFormatXMLDocument = 12

    wdFormatXMLDocumentMacroEnabled = 13

    wdFormatXMLTemplate = 14

    wdFormatXMLTemplateMacroEnabled = 15

    wdFormatXPS = 18

    照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

    当然你也可以用任意一种语言通过com来调用office API,比如PHP.

    from win32com import client as wc

    word = wc.Dispatch('Word.Application')

    doc = word.Documents.Open(r'c:/test1.doc')

    doc.SaveAs('c:/test1.text', 4)

    doc.Close()

    import re

    strings=open(r'c:\test1.text','r').read()

    result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)

    chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)

    question=open(r'c:\question','a+')

    question.write(chan)

    question.close()

    answer=open(r'c:\answeronly','a+')

    for i,a in enumerate(result):

    m=re.search('[A-D]',a)

    answer.write(str(i+1)+' '+m.group()+'\n')

    answer.close()

    chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)

    #不要(),容易引起歧义。

    希望本文所述对大家的Python程序设计有所帮助。

    本条技术文章来源于互联网,如果无意侵犯您的权益请点击此处反馈版权投诉

    本文系统来源:php中文网

    展开全文
  • 主要介绍了Python实现批量读取word中表格信息的方法,可实现针对word文档的读取功能,具有一定参考借鉴价值,需要的朋友可以参考下
  • Python读取word文档内容

    千次阅读 2021-04-27 05:35:06
    先读取段落,代码如下:1 '''2 #利用python读取word文档,先读取段落3 '''4 #导入所需库5 from docx import Document67 #打开word文档8 document = Document("D:/路径/长恨歌.docx")910 #获取所有段落11 all_...
  • python_docx读取word内容

    千次阅读 2022-04-10 13:08:46
    python读取word内容docx安装读取word读取文本内容paragraphs读取word中的表格tables行遍历 行列循环列遍历 列行循环按位置下标获取某个元素 docx安装 安装python-docx # pip install python-docx 读取word 测试...
  • 今天小编就为大家分享一篇使用python批量读取word文档并整理关键信息到excel表格的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 自动读取&转化word中表格内容
  • 实现将word内容按一定规律和方式写入excel 可用于提取word关键信息,在excel直观显示
  • 查询了很多有关资料,发现都是Python2版本操作Word文件的,所以就写了这篇短小的文章。 一、安装 docx pip install docx 完了之后,导入:import docx 发现报错:ModuleNotFoundError: No module named ...
  • python提取word内容并写入excle

    千次阅读 多人点赞 2021-03-05 09:55:37
    现在需要将每份会议文档中的 学习时间、学习内容、学习形式、主持人 四项关键信息提取出来,整理到 Excel 表格中: 在他真实需求中,会议通知四年积累下来有快 1000 份(四年开了这么多次会也是很厉害...),用...
  • 主要介绍了Python复制Word内容并使用格式设字体与大小实例代码,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
  • python如何获取word文件中某个关键字之后的表格一片春愁待酒浇。江上舟摇,楼上帘招。秋娘度与泰娘娇。风又飘飘,雨又萧萧。何日归家洗客袍?银字笙调,心字香烧。流光容易把人抛。红了樱桃,绿了芭蕉。用python对...
  • python读取word表格

    2020-11-21 01:25:02
    python调用com,如何完成word表格操作word中doc这个格式的文件是微软特有格式,微软没有向外公开任何的api接口文档,只能通过微软提供的OLE组件来提其COM接口,只要你的机器上安装...python操作word文档表格office 2...
  • 如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了。但是在Linux下还真是麻烦,一种方法是用OpenOffice的一个库来进行操作,那么意味这你要安装慢得要死的OpenOffice., 详细见下面的...
  • 将某个目录下所有word文档中内容提取出来并存入txt文件中。 文档中内容如下: 直接上代码: #!/usr/bin/env python # encoding: utf-8 ''' @file: 1_word.py @time: 2020/11/27 21:15 ''' import docx ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 80,239
精华内容 32,095
关键字:

python读取word内容