精华内容
下载资源
问答
  • python读取word文档
    2020-11-24 11:57:15

    如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了。

    但是在Linux下还真是麻烦,

    一种方法是用OpenOffice的一个库来进行操作,那么意味这你要安装慢得要死的OpenOffice., 详细见下面的网址:

    http://www.freewisdom.org/projects/python-markdown/odt2txt

    我是使用catdoc将word文档转换为txt文档, 然后用Python读取txt文档,存入数据库

    catdoc的下载地址是:

    http://vitus.wagner.pp.ru/software/catdoc/

    当然,如果你跟我一样是使用Ubuntu, 直接apt-get就可以安装了

    sudo apt-get install catdoc

    然后就可以进行操作了,以下是代码:

    import os

    doc_file = 'a.doc'

    text_file = '%s.text' % doc_file

    os.system("cat doc %s > %s" % (doc_file, text_file)

    f = open(text_file, 'r')

    content = f.read()

    os.system('rm %s' % text_file)

    更多相关内容
  • Python读取Word文档内容

    千次阅读 2022-04-08 15:45:00
    #获取文档对象 file=docx.Document("附件3:分解任务落实至XX室情况表(2022年2月).docx") print("段落数:"+str(len(file.paragraphs)))#段落数 #输出每一段的内容 for para in file.paragraphs: print...

    # encoding=utf-8

    import docx

    #获取文档对象

    file=docx.Document("附件3:分解任务落实至XX室情况表(2022年2月).docx")

    print("段落数:"+str(len(file.paragraphs)))#段落数

    #输出每一段的内容

    for para in file.paragraphs:

        print(para.text)

        for paragraph in file.paragraphs:

            print(paragraph.text)#按表格读取全部数据

        for table in file.tables:

            for row in table.rows:

                for cell in row.cells:print(cell.text)

        table_num=len(para.tables)#获取文档的表格个数

        print(table_num)

        table_0=file.tables[0]#选取第一个表

        table_rows =len(table_0.rows)#获取第一个表的行数

        print(table_rows)

        tab=file.tables[0].rows[0].cells[0]#获取第一张表第一行第一列数据

        print(tab.text)

        par= file.paragraphs[2]#读取第三段数据

        print(par.text)

    展开全文
  • 本文介绍用Python简单读取*.docx文件信息,一些python-word库就是对这种方法的扩展。 介绍分两部分: Word(*.docx)文件简述 Python提取Word信息 Word(*.docx)文件简述 大约在2008年以前,Office产品中Word用.doc...
  • 主要介绍了python读取word文档的方法,实例分析了Python基于win32com操作word文档的相关技巧,需要的朋友可以参考下
  • 1.Word文档如下: 2.代码 # -*- coding: UTF-8 -*- from docx import Document def readSpecTable(filename, specText): document = Document(filename) paragraphs = document.paragraphs allTables = ...
  • Python读取word文档内容

    2020-11-21 01:24:56
    1,利用python读取纯文字的word文档,读取段落和段落里的文字。先读取段落,代码如下:1 '''2 #利用python读取word文档,先读取段落3 '''4 #导入所需库5 from docx importDocument67 #打开word文档8 document = ...

    1,利用python读取纯文字的word文档,读取段落和段落里的文字。

    先读取段落,代码如下:

    1 '''

    2 #利用python读取word文档,先读取段落3 '''

    4 #导入所需库

    5 from docx importDocument6

    7 #打开word文档

    8 document = Document("D:/路径/长恨歌.docx")9

    10 #获取所有段落

    11 all_paragraphs =document.paragraphs12 #打印看看all_paragraphs是什么东西

    13 print(type(all_paragraphs)) #,打印后发现是列表

    14 #是列表就开始循环读取

    15 for paragraph inall_paragraphs:16 #打印每一个段落的文字

    17 print(paragraph.text)

    效果:

    2040899-20201113123511564-860494286.png

    再读取段落里的内容,代码如下:

    1 '''

    2 #利用python读取word文档3 '''

    4 #导入所需库

    5 from docx importDocument6

    7 #打开word文档

    8 document = Document("D:/路径/长恨歌.docx")9

    10 #获取所有段落

    11 all_paragraphs =document.paragraphs12 #打印看看all_paragraphs是什么东西

    13 print(type(all_paragraphs)) #,打印后发现是列表

    14 #是列表就开始循环读取

    15 for paragraph inall_paragraphs:16 #打印每一个段落的文字

    17 #print(paragraph.text)

    18 #循环读取每个段落里的run内容

    19 for run inparagraph.runs:20 print(run.text) #打印run内容

    效果如下:

    2040899-20201113123611041-956682909.png

    其实都准确的获取了文字内容,但是paragraph是保留了word文档里的换行符,而run是没有保留的。

    2,利用python读取纯表格文档,那要读取的文字都是存储在单元格里,需要读取单元格里的内容:

    1 '''

    2 #利用python读取word文档,表格文档3 '''

    4 #导入所需库

    5 from docx importDocument6

    7 #打开文件

    8 document = Document("D:/路径/长恨歌-表格.docx")9 #获取文档所有表格

    10 all_tables =document.tables11

    12 #打印all_tables类型

    13 print(type(all_tables)) #得到,即列表

    14 #开始循环读取表格列表

    15 for table inall_tables:16 #循环读取表格的每一行

    17 for row intable.rows:18 #print(row)

    19 #循环读取表格的每一个单元格

    20 for cell inrow.cells:21 #打印单元格里的内容

    22 print(cell.text) #打印

    3,利用python读取word文档,文档是表格加文字组合而成的。这个就设计word文档格式问题了。将要处理的word文档后缀名改为zip,发现也可以打开,里面有几个文件如图:

    2040899-20201113130319681-812327572.png

    点开word目录,发现有个document.xml,这就是我们要处理的文件。

    2040899-20201113130349545-1985365291.png

    代码开始:

    1 '''

    2 #利用python读取word文档,表格文档3 '''

    4 #导入所需库

    5 import zipfile #解压文件库

    6 #先将要处理的word文档用zipfile进行压缩

    7 word = zipfile.ZipFile('D:/路径/长恨歌-文字+表格.docx')8

    9 #找到要处理的xml文件并以utf-8的格式读取

    10 xml = word.read('word/document.xml').decode('utf-8')11 #打印看看

    12 #print(type(xml)) #字符串

    13 #print(xml) #打印整个字符串

    14 #接下来分割字符串并存储到列表中

    15 xml_list = xml.split('') #以字符串进行分割字符串

    16 #打印看是否符合预期

    17 #print(type(xml_list)) #是列表

    18 #print(xml_list) #列表内容

    19

    20 #开始切片,找标签

    21 text_list = [] #新建空list用以存储切出来的数据

    22 #开始循环读取列表xml_list

    23 for i inxml_list:24 #条件查找

    25 if i.find('') + 1: #切片查找是如果没找到是会返回-1,我们+1让他返回0,再运行else分支

    26 text_list.append(i[:i.find('')]) #如果不是返回0就把找到的依次追加到text_list末尾

    27 else:28 pass

    29 #print(text_list)

    30 #再将得到的列表拆分为字符串

    31 text = ''.join(text_list) #以空字符串为间隔,将列表拆分为字符串

    32 print(text)

    第三个表格加文字的取出文字有点绕,多处理几遍就行了。

    展开全文
  • 今天小编就为大家分享一篇使用python批量读取word文档并整理关键信息到excel表格的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 读取word文档内容(如果是以.doc后缀的文件需另存为.docx文件!) from docx import Document # 打开文件 srcdocx = Document(‘src.docx‘) # 遍历所有段落 for p in srcdocx.paragraphs: print(p.text) 输
  • 查询了很多有关资料,发现都是Python2版本操作Word文件的,所以就写了这篇短小的文章。 一、安装 docx pip install docx 完了之后,导入:import docx 发现报错:ModuleNotFoundError: No module named ...
  • 主要介绍了Python实现批量读取word中表格信息的方法,可实现针对word文档读取功能,具有一定参考借鉴价值,需要的朋友可以参考下
  • 本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下。 一,docx模块 Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档...
  • python读取word文档

    2020-12-10 15:56:05
    周末需要做一个统计word文档字数的问题,刚开始以为很简单,因为之前做过excel表格相关的任务,所以认为利用扩展模块应该比较简单。通过搜索,确实搜到了一个python操作word的模块,python-docx通过命令安装:pip ...

    周末需要做一个统计word文档字数的问题,刚开始以为很简单,因为之前做过excel表格相关的任务,所以认为利用扩展模块应该比较简单。

    通过搜索,确实搜到了一个python操作word的模块,python-docx

    通过命令安装:pip install python-docx

    使用代码示例:

    #读取docx中的文本代码示例

    import docx

    #获取文档对象

    file=docx.Document("D:\\temp\\word.docx")

    print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

    #输出每一段的内容

    for para in file.paragraphs:

    print(para.text)

    #输出段落编号及段落内容

    for i in range(len(file.paragraphs)):

    print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

    拿过来自己试了一下,却报了以下的错误:

    拿异常上百度搜了一下,大致的意思是python-docx这个模块貌似只支持docx文件,不支持doc。

    好吧,尝试另一种方法,使用antiword(这里使用的linux环境)

    先下载安装,地址:http://www.winfield.demon.nl/

    使用tar解压之后,分别用make  和 make install命令进行安装

    切换到安装的目录后,使用“./antiword” + doc文件名即可读取文件内容。

    展开全文
  • Python读写Word文档入门

    千次阅读 2021-11-06 00:22:31
    最近有同事需要批量出500个Word文档,按照1个Word文档耗时1分钟来算也需要8.33小时足足有1天工时。于是,这位同事找到了才哥帮忙,才哥接过需求花了不到30分钟写好脚本,运行脚本不...
  • python读取word文档中的表格内容

    千次阅读 2020-03-06 15:14:07
    https://blog.csdn.net/d1240673769/article/details/95997080
  • doc文件转docx文件 根目录文件自动读取 批量处理word文件中指定关键词后的表格导入excel
  • 这篇经验告诉你如何利用pythonpython-docx模块读取Word文档。工具/原料windows系统电脑一台python软件方法/步骤1第一,先安装python-docx模块。打开cmd命令窗口,输入pip install python-docx,就可通过管道安装...
  • python读取word表格

    2020-11-21 01:25:02
    python调用com,如何完成word表格操作word中doc这个格式的文件是微软特有格式,微软没有向外公开任何的api接口文档,只能通过微软提供的OLE组件来提其COM接口,只要你的机器上安装...python操作word文档表格office 2...
  • 首先需要安装相应的支持库:直接在命令行执行pip install python-docx示例代码如下:import docxfrom docx import Document #导入库path = "E:\\python_data\\1234.docx" #文件路径document = Document(path) #读入...
  • python读取word文档内嵌表格

    千次阅读 2019-12-30 17:41:49
    在使用python-docx包时想读取如下图所示表格中的嵌套表格内容 其他更加复杂的内嵌表格例子如下: 解决方案: 在网上没有找到可行的嵌套表格内容读取方法。查看python-docx包源代码找到以下两种解决方案: 方案一:...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 50,529
精华内容 20,211
关键字:

python读取word文档