精华内容
下载资源
问答
  • 中文编码问题总是让人头疼(尤其是mac...本篇文章主要来解决一个读取docx文件的基本操作。希望感兴趣的小伙伴可以坚持看下去同时欢迎提出宝贵的意见让我们一起进步!01:问题抛出与引入import docxpath = "C:\\Users\...

    中文编码问题总是让人头疼(尤其是mac本),想要用Python读取word中的内容。用open()经常报错,通过百度搜索+问身边小伙伴发现了Python有专门读取.docx的模块python_docx。本篇文章主要来解决一个读取docx文件的基本操作。希望感兴趣的小伙伴可以坚持看下去同时欢迎提出宝贵的意见让我们一起进步!

    01:问题抛出与引入import docx

    path = "C:\\Users\\qin\\Desktop\\1.docx"

    file_object=open(path,'rb')

    print(file_object.read())

    #输出结果如下所示:

    b'PK\\x03\\x04\\x14\\x00\\x06\\x00\\x08\\x00\\x00\\x00!\\x00J\\xbc\\x02qm\\x01\\x00\\x00

    (\\x06\\x00\\x00\\x13\\x00\\x08\\x02[Content_Types].xml \\xa2\\x04\\x02(\\xa0\.....

    一个很简单的docx文件,打印出来的结果却不是我们想要的。对此引入一个十分好用的docx模块,下面就详细介绍该模块的一些基本操作。

    02:安装docx模块pip install python_docx

    03:新建文档对象import docx

    from docx import Document

    # 新建文档,并将其保存名为“test.docx”的文件

    document = Document()

    document.save('test.docx')

    04:添加文档内容import docx

    from docx import Document

    from docx.shared import Inches

    document = Document('C:\\Users\\qin\\Desktop\\1.docx')

    document.add_heading('I like python', 0)#插入标题:0表示样式为title标题

    document.add_heading('一级标题', level=1)#插入1级标题

    p = document.add_paragraph('Python是一种计算机程序设计语言 ')#插入段落

    document.add_picture('C:\\Users\\qin\\Desktop\\1.png', width=Inches(1.25)) #添加图片并指定宽度

    table = document.add_table(rows=1, cols=3)  #添加一个表格,每行三列

    hdr_cells = table.rows[0].cells  #获取第一行的单元格列表对象

    hdr_cells[0].text = 'ID'    #为每一个单元格赋值

    hdr_cells[1].text = 'Name'

    hdr_cells[2].text = 'Age'

    new_cells = table.add_row().cells #为表格添加一行

    new_cells[0].text = '1'

    new_cells[1].text = 'Tom'

    new_cells[2].text = '15'

    document.add_page_break()   #添加分页符

    05:保存文档内容名字相同则将修改的文件内容保存;名字不同则将修改的文件内容另存为。import docx

    from docx import Document

    document.save('C:\\Users\\qin\\Desktop\\1.docx')#保存

    document.save('C:\\Users\\qin\\Desktop\\2.docx')#另存为

    06:读取文本内容import docx

    from docx import Document

    path = "C:\\Users\\qin\\Desktop\\1.docx"

    document = Document(path)

    for paragraph in document.paragraphs:

    print(paragraph.text)

    07:读取表格内容import docx

    from docx import Document

    path = "C:\\Users\\qin\\Desktop\\1.docx"

    document = Document(path)  # 读入文件

    tables = document.tables   # 获取文件中的表格集

    table = tables[0]  # 获取文件中的第一个表格

    for i in range(0, len(table.rows)):  # 从表格第一行开始循环读取表格数据

    result = f'{(table.cell(i, 0).text):<5}' + "" + f'{(table.cell(i, 1).text):<5}' + "" + f'{(table.cell(i, 2).text):<5}'

    # cell(i,0)表示第(i+1)行第1列数据,以此类推

    print(result)

    想要知道docx模块更多资料参考:https://python-docx.readthedocs.io/en/latest/

    展开全文
  • 这篇文章主要介绍了关于Python读写docx文件的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下Python读写word文档有现成的库可以处理。我这里采用 python-docx。可以用pip install python-docx...

    这篇文章主要介绍了关于Python读写docx文件的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下

    Python读写word文档有现成的库可以处理。我这里采用 python-docx。可以用pip install python-docx安装一下。

    这里说一句,ppt和excel也有类似的库哦,而且是直接读取文件里面的xml数据。所以doc格式得另找其他库处理,doc格式不是基于xml的。

    1、新建或打开文件。这个比较简单用docx的Document类,若指定路径则是打开文档;若没有指定路径则是新建文档

    #coding:utf-8

    import docx

    #新建文档

    doc_new = docx.Document()

    #读取文档

    doc = docx.Document(ur'C:\1.docx')

    2、保存文件。有打开,就有保存。用Document类的save方法,其中参数是保存的文件路径,或者要保存的文件流。一般指定路径即可。

    doc.save(path_or_stream)

    3、对象集合。python-docx包含了word文档的相关对象集合。

    doc.paragraphs #段落集合

    doc.tables #表格集合

    doc.sections #节 集合

    doc.styles #样式集合

    doc.inline_shapes #内置图形 等等...

    4、插入段落。段落是word最基本的对象之一。

    doc.add_paragraph(u'第一段',style=None) #插入一个段落,文本为“第一段”

    #默认是不应用样式,这里也可以不写style参数,或者指定一个段落样式

    doc.add_paragraph(u'第二段',style='Heading 2')

    #这些样式都是word默认带有的样式,可以直接罗列出来有哪些段落样式

    print [s.name for s in doc.styles if s.type==1]

    5、新增样式。这个帮助文档里面说得不仔细,而且还是英文的。我手头上的项目用到这个,就自己琢磨出怎么使用,如下。

    #coding:utf-8

    from docx import Document

    from docx.shared import RGBColor #这个是docx的颜色类

    #新建文档

    doc = Document()

    #新增样式(第一个参数是样式名称,第二个参数是样式类型:1代表段落;2代表字符;3代表表格)

    style = doc.styles.add_style('style name 1', 2)

    #设置具体样式(修改样式字体为蓝色,当然还可以修改其他的,大家自己尝试)

    style.font.color.rgb = RGBColor(0x0, 0x0, 0xff)

    6、应用字符样式。字符自然是在段落里面的,可以采用下面方法给段落追加文字和设置字符样式。

    #插入一个空白段落

    p = doc.add_paragraph('')

    p.add_run('123', style="Heading 1 Char")

    p.add_run('456')

    p.add_run('789', style="Heading 2 Char")

    #这样一个段落就应用了两个字符样式,中间“456”就没应用样式

    print p.text #输出结果是u'123456789' 也还是连续的

    7、设置字体。当然可以不用通过设置样式对某些字进行设置,也可以直接设置。

    p = doc.add_paragraph('')

    r = p.add_run('123')

    r.font.bold = True #加粗

    r.font.italic = True #倾斜 等等...

    8、表格操作。表格也是经常用到的一种对象类型。

    #新建一个2x3的表格,style可以不写

    table=doc.add_table(rows=2,cols=3,style=None)

    #可以用table 的rows和columns得到这个表格的行数和列数

    print len(table.rows)

    print len(table.columns)

    #遍历表格

    for row in table.rows:

    row.cells[0].text = '1'

    #print row.cells[0].text

    #新增行或列

    table.add_row()

    table.add_column()

    Word常见操作差不多就是这些。大家可以查看帮助文档,也可以用dir和help查看对象的方法属性和帮助。

    相关推荐:

    以上就是Python读写docx文件的方法的详细内容,更多请关注php中文网其它相关文章!

    article_wechat2021.jpg?1111

    本文原创发布php中文网,转载请注明出处,感谢您的尊重!

    展开全文
  • 这篇文章主要介绍了关于Python读写docx文件的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下Python读写word文档有现成的库可以处理。我这里采用 python-docx。可以用pip install python-docx...

    这篇文章主要介绍了关于Python读写docx文件的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下

    Python读写word文档有现成的库可以处理。我这里采用 python-docx。可以用pip install python-docx安装一下。

    这里说一句,ppt和excel也有类似的库哦,而且是直接读取文件里面的xml数据。所以doc格式得另找其他库处理,doc格式不是基于xml的。

    1、新建或打开文件。这个比较简单用docx的Document类,若指定路径则是打开文档;若没有指定路径则是新建文档

    #coding:utf-8

    import docx

    #新建文档

    doc_new = docx.Document()

    #读取文档

    doc = docx.Document(ur'C:\1.docx')

    2、保存文件。有打开,就有保存。用Document类的save方法,其中参数是保存的文件路径,或者要保存的文件流。一般指定路径即可。

    doc.save(path_or_stream)

    3、对象集合。python-docx包含了word文档的相关对象集合。

    doc.paragraphs #段落集合

    doc.tables #表格集合

    doc.sections #节 集合

    doc.styles #样式集合

    doc.inline_shapes #内置图形 等等...

    4、插入段落。段落是word最基本的对象之一。

    doc.add_paragraph(u'第一段',style=None) #插入一个段落,文本为“第一段”

    #默认是不应用样式,这里也可以不写style参数,或者指定一个段落样式

    doc.add_paragraph(u'第二段',style='Heading 2')

    #这些样式都是word默认带有的样式,可以直接罗列出来有哪些段落样式

    print [s.name for s in doc.styles if s.type==1]

    5、新增样式。这个帮助文档里面说得不仔细,而且还是英文的。我手头上的项目用到这个,就自己琢磨出怎么使用,如下。

    #coding:utf-8

    from docx import Document

    from docx.shared import RGBColor #这个是docx的颜色类

    #新建文档

    doc = Document()

    #新增样式(第一个参数是样式名称,第二个参数是样式类型:1代表段落;2代表字符;3代表表格)

    style = doc.styles.add_style('style name 1', 2)

    #设置具体样式(修改样式字体为蓝色,当然还可以修改其他的,大家自己尝试)

    style.font.color.rgb = RGBColor(0x0, 0x0, 0xff)

    6、应用字符样式。字符自然是在段落里面的,可以采用下面方法给段落追加文字和设置字符样式。

    #插入一个空白段落

    p = doc.add_paragraph('')

    p.add_run('123', style="Heading 1 Char")

    p.add_run('456')

    p.add_run('789', style="Heading 2 Char")

    #这样一个段落就应用了两个字符样式,中间“456”就没应用样式

    print p.text #输出结果是u'123456789' 也还是连续的

    7、设置字体。当然可以不用通过设置样式对某些字进行设置,也可以直接设置。

    p = doc.add_paragraph('')

    r = p.add_run('123')

    r.font.bold = True #加粗

    r.font.italic = True #倾斜 等等...

    8、表格操作。表格也是经常用到的一种对象类型。

    #新建一个2x3的表格,style可以不写

    table=doc.add_table(rows=2,cols=3,style=None)

    #可以用table 的rows和columns得到这个表格的行数和列数

    print len(table.rows)

    print len(table.columns)

    #遍历表格

    for row in table.rows:

    row.cells[0].text = '1'

    #print row.cells[0].text

    #新增行或列

    table.add_row()

    table.add_column()

    Word常见操作差不多就是这些。大家可以查看帮助文档,也可以用dir和help查看对象的方法属性和帮助。

    相关推荐:

    Python读写/追加excel文件Demo

    用Python读写Excel文档

    展开全文
  • 扫码加入千人跳槽求职QQ群或微信圈子,每日都有全国招聘信息哦 中文编码问题总是让人...本篇文章主要来解决一个读取docx文件的基本操作。希望感兴趣的小伙伴可以坚持看下去同时欢迎提出宝贵的意见让我们一起进步!0...

    扫码加入千人跳槽求职QQ群或微信圈子,每日都有全国招聘信息哦

    0371caaca5f896e8ce27acc2ab32a264.png   6d477a345a2318172807160ce235a4c1.png

    中文编码问题总是让人头疼(尤其是mac本),想要用Python读取word中的内容。用open()经常报错,通过百度搜索+问身边小伙伴发现了Python有专门读取.docx的模块python_docx。本篇文章主要来解决一个读取docx文件的基本操作。希望感兴趣的小伙伴可以坚持看下去同时欢迎提出宝贵的意见让我们一起进步!

    01:问题抛出与引入
    import docxpath = "C:\\Users\\qin\\Desktop\\1.docx"file_object=open(path,'rb')print(file_object.read())#输出结果如下所示:b'PK\x03\x04\x14\x00\x06\x00\x08\x00\x00\x00!\x00J\xbc\x02qm\x01\x00\x00(\x06\x00\x00\x13\x00\x08\x02[Content_Types].xml \xa2\x04\x02(\xa0\.....
    一个很简单的docx文件,打印出来的结果却不是我们想要的。对此引入一个十分好用的docx模块,下面就详细介绍该模块的一些基本操作。
    02:安装docx模块
    pip install python_docx
    03:新建文档对象
    import docxfrom docx import Document# 新建文档,并将其保存名为“test.docx”的文件document = Document()document.save('test.docx')
    04:添加文档内容
    import docxfrom docx import Documentfrom docx.shared import Inchesdocument = Document('C:\\Users\\qin\\Desktop\\1.docx')document.add_heading('I like python', 0)#插入标题:0表示样式为title标题document.add_heading('一级标题', level=1)#插入1级标题p = document.add_paragraph('Python是一种计算机程序设计语言 ')#插入段落document.add_picture('C:\\Users\\qin\\Desktop\\1.png', width=Inches(1.25)) #添加图片并指定宽度table = document.add_table(rows=1, cols=3)  #添加一个表格,每行三列hdr_cells = table.rows[0].cells  #获取第一行的单元格列表对象hdr_cells[0].text = 'ID'    #为每一个单元格赋值hdr_cells[1].text = 'Name'hdr_cells[2].text = 'Age'new_cells = table.add_row().cells #为表格添加一行new_cells[0].text = '1'new_cells[1].text = 'Tom'new_cells[2].text = '15'document.add_page_break()   #添加分页符
    05:保存文档内容

    名字相同则将修改的文件内容保存;名字不同则将修改的文件内容另存为

    import docxfrom docx import Documentdocument.save('C:\\Users\\qin\\Desktop\\1.docx')#保存document.save('C:\\Users\\qin\\Desktop\\2.docx')#另存为
    06:
    import docxfrom docx import Documentpath = "C:\\Users\\qin\\Desktop\\1.docx"document = Document(path)for paragraph in document.paragraphs:    print(paragraph.text)
    07:
    import docxfrom docx import Documentpath = "C:\\Users\\qin\\Desktop\\1.docx"document = Document(path)  # 读入文件tables = document.tables   # 获取文件中的表格集table = tables[0]  # 获取文件中的第一个表格for i in range(0, len(table.rows)):  # 从表格第一行开始循环读取表格数据    result = f'{(table.cell(i, 0).text):<5}' + "" + f'{(table.cell(i, 1).text):<5}' + "" + f'{(table.cell(i, 2).text):<5}'    # cell(i,0)表示第(i+1)行第1列数据,以此类推    print(result)

    转发到朋友圈是最高的赞赏

    5b794d773d12aff782e42062dbadc90d.png

    因为不是天生丽质,所以必须天生励志!

    展开全文
  • 扫码加入千人跳槽求职QQ群或微信圈子,每日都有全国招聘信息哦 中文编码问题总是让人...本篇文章主要来解决一个读取docx文件的基本操作。希望感兴趣的小伙伴可以坚持看下去同时欢迎提出宝贵的意见让我们一起进步!0...
  • 以上是开头,安装完后需要导入转载的代码读取所有docx文件中的内容发现没有读取到表格数据:from docx import Documentdef readDocx(docName):fullText = []doc = docx.Document(docName)paras = doc.paragraphsfor ...
  • 以上是开头,安装完后需要导入转载的代码读取所有docx文件中的内容发现没有读取到表格数据:from docx import Documentdef readDocx(docName):fullText = []doc = docx.Document(docName)paras = doc.paragraphsfor ...
  • 扫码加入千人跳槽求职QQ群或微信圈子,每日都有全国招聘信息哦 中文编码问题总是让人...本篇文章主要来解决一个读取docx文件的基本操作。希望感兴趣的小伙伴可以坚持看下去同时欢迎提出宝贵的意见让我们一起进步!0...
  • 我试图使用下面的代码从.docx获取文本,但问题是文本包含特殊字符(例如“ç”或“á”),并且代码没有正确地读取文件。在try:from xml.etree.cElementTree import XMLexcept ImportError:from xml.etree.ElementTree...
  • python读取docx文件,就是如此简单

    千次阅读 2020-05-02 22:02:53
    中文编码问题总是让人头疼(尤其是mac...本篇文章主要来解决一个读取docx文件的基本操作。希望感兴趣的小伙伴可以坚持看下去同时欢迎提出宝贵的意见让我们一起进步! 01:问题抛出与引入 import docx path = "C:\\...
  • 中文编码问题总是让人头疼(尤其是mac...本篇文章主要来解决一个读取docx文件的基本操作。希望感兴趣的小伙伴可以坚持看下去同时欢迎提出宝贵的意见让我们一起进步!01:问题抛出与引入import docxpath = "C:\\Users\...
  • 在日常工作中,可能需要对很多的docx文件进行批处理,例如教师在批阅学生提交的电子版作业时,需要填写日期等信息,假设一个年级有100人,那么100份作业就需要填写100次日期,这个工作是简单的、重复的,那么是不是...
  • Python 中可以读取 word 文件的库有 python-docx 和 pywin32。优点缺点python-docx跨平台只能处理 .docx 格式,不能处理.doc格式pywin32仅限 windows 平台.doc 和 .docx 都能处理pywin32这个库很强大,不仅仅可以...
  • 难点在于,docx文件里的图是用excel作的那种,结构都是散的,如果是单张图片,复制粘贴很简单。但这种excel生成的图,就很头大了,不知道有没有办法,将这个图转成PNG或者JPG格式,又或者不转格式,直接带着格式复制...
  • {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里云文件存储NAS是一个可共享访问,弹性扩展,高可靠,高性能的分布式文件系统。...
  • #Python使用docx包读取docx文件 在使用时,首先安装docx, 终端输入:pip install python-docx import docx data_path = '/Users/mac/Desktop/中医药3期/古籍文本/1550-急救良方.docx' data = docx.Document(data_...
  • python-docx文件定位读取过程(尝试替换)以上是开头,安装完后需要导入转载的代码读取所有docx文件中的内容发现没有读取到表格数据:from docx import Documentdef readDocx(docName):fullText = []doc = docx....
  • 我的环境,Windows10,Python3.6.3查询了很多有关资料,发现都是Python2版本操作Word文件的,所以就写了这篇短小的文章。一、安装 docxpip install docx完了之后,导入:import docx发现报错:ModuleNotFoundError: ...
  • 在日常工作中,可能需要对很多的docx文件进行批处理,例如教师在批阅学生提交的电子版作业时,需要填写日期等信息,假设一个年级有100人,那么100份作业就需要填写100次日期, 这个工作是简单的、重复的,那么是不是...
  • 备注:doc是微软的专有的文件...docx格式的文件本质上是一个ZIP文件,所以其实也可以把.docx文件直接改成.zip,解压后,里面的word/document.xml包含了Word文档的大部分内容,图片文件则保存在word/media里面。py...
  • python读取doc/docx文件

    万次阅读 2019-06-09 00:40:24
    仅此记录python读取doc/docx文件的方法,和常用简单的open txt文件完全不同(版本python 3.6 Win10) docx 使用docx包,python为其专用接口,python-docx,使用 pip install python-docx 安装即可,本人第一次...
  • 今天小编就为大家分享一篇python-docx文件定位读取过程(尝试替换),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 中文编码问题总是让人头疼,想要用Python读取word中的内容,用open()经常报错,上网一搜结果发现了Python有专门读取.docx的模块python_docx(只能读取.docx文件,不能读取.doc文件),用起来很方便。安装pyth...
  • 这里说一句,ppt和excel也有类似的库哦,而且是直接读取文件里面的xml数据。所以doc格式得另找其他库处理,doc格式不是基于xml的。 帮助文档:http://python-docx.readthedocs.org/en/latest/ 1、新建或打开文件。这...
  • 这里说一句,ppt和excel也有类似的库哦,而且是直接读取文件里面的xml数据。所以doc格式得另找其他库处理,doc格式不是基于xml的。1、新建或打开文件。这个比较简单用docx的Document类,若指定路径则是打开文档;若...
  • Python读写docx文件

    万次阅读 2017-03-21 22:00:55
    这里说一句,ppt和excel也有类似的库哦,而且是直接读取文件里面的xml数据。所以doc格式得另找其他库处理,doc格式不是基于xml的。 帮助文档:http://python-docx.readthedocs.org/en/latest/ ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 394
精华内容 157
关键字:

python读取docx文件

python 订阅