2016-12-22 14:17:04 Cloudox_ 阅读数 45270
  • Python自动化办公(面向2020, Python3.7,不断更新ing)

    本套课程覆盖内容比较广,有Python基础、词云制作、爬虫、可视化报表、专业的数据统计分析、Office文件自动化处理! 所涉及的代码,PPT,工具类完全开放给你,你可以根据所学知识,自行修改和优化。 爬虫内容: 1、获取某知名弹幕网站小视频. 2、获取某娱乐网站小姐姐图片. 3、获取某某博客的网页内容. 4、获取alibba股票信息并制成统计图. 说明:爬虫内容由基础到实战,可以批量爬取网站上的图片、视频和文字和股票信息! 数据分析内容: 由Panads函数库为主要技术手段,包含多个案例: 案例1:某大型租赁平台的发布的租赁数据、 案例2:商品销售数据、 案例3:IMDB电影排名统计 ..... 说明:有丰富的数据类型以及异常数据处理的讲解、含金量非常高! Office文件自动化处理:

    53 人正在学习 去看看 张同乐

由于需要解决大批量Excel处理的事情,与其手工操作还不如写个简单的代码来处理,大致选了一下感觉还是Python最容易操作。

安装库

Python环境

首先当然是配环境,不过选Python的一个重要原因就是Mac内是自带Python环境的,不需要额外的配置环境,省下了一笔工作,如果你用的是Windows系统,那就还需要配置一下Python的环境了,我Mac的Python版本是2.7。

第三方库

Python自己是不支持直接操作Excel的,但是Python强大之处就在于有大量好用的第三方库,这里我们选用读Excel的xlrd库和写Excel的xlwt库来操作。

关于第三方库的安装很简单,首先,去专门下载Python库的网站下载两个库的源码:
* 下载xlrd
* 下载xlwt

注意对于新手来说最简单的安装方式就是源码安装,不需要去折腾第三方库的管理器,直接点击这个先下载两个库的源码:

你看他后面也描述了类型是源码嘛。

下载好之后在mac中解压,得到文件夹,可以看到里面都是有一个 setup.py 文件的:

这里当然不是直接双击安装了,py类型表示它是一个Python代码文件,双击只会打开文件看代码。我们要使用终端,输入命令号进入当前所在的文件夹,比如我把文件放在了“下载”中,那么做法是:

$ cd Downloads/
$ cd xlwt-1.1.2
$ sudo python setup.py install

这里 cd 的意思是进入该文件夹,sudo 的意思是使用管理员权限安装,不使用的话会告诉你没有权限的,回车后会要你输入电脑密码,输入后回车即可,python 是执行 python代码文件的命令,install 就是安装了。

然后会看到刷刷刷一堆文字过去,最后告诉你 finished 了,就是安装完成了。

xlrd 也是同样的安装方式。

写代码

读写Excel的第三方库都安装好了,就可以开始写代码了。

我们在一个文件夹下创建一个 hello.py 文件,然后用sublime之类的文档编辑器打开它,开始编写代码。(PS:Python中 # 号开头表示注释)

读Excel

# -*- coding: utf-8 -*- 
import  xdrlib ,sys
import xlrd

#打开excel文件
def open_excel(file= 'test.xlsx'):
    try:
        data = xlrd.open_workbook(file)
        return data
    except Exception,e:
        print str(e)

#根据名称获取Excel表格中的数据   参数:file:Excel文件路径     colnameindex:表头列名所在行的索引  ,by_name:Sheet1名称
def excel_table_byname(file= 'test.xlsx', colnameindex=0, by_name=u'Sheet1'):
    data = open_excel(file) #打开excel文件
    table = data.sheet_by_name(by_name) #根据sheet名字来获取excel中的sheet
    nrows = table.nrows #行数 
    colnames = table.row_values(colnameindex) #某一行数据 
    list =[] #装读取结果的序列
    for rownum in range(0, nrows): #遍历每一行的内容
         row = table.row_values(rownum) #根据行号获取行
         if row: #如果行存在
             app = [] #一行的内容
             for i in range(len(colnames)): #一列列地读取行的内容
                app.append(row[i])
             list.append(app) #装载数据
    return list

#主函数
def main():
   tables = excel_table_byname()
   for row in tables:
       print row

if __name__=="__main__":
    main()

这个代码很多我都注释了,只讲几个要注意的地方,首先最开始我们设置了utp8编码,然后一定要记得导入xlrd包,这样才能使用它的函数去读取excel。里面的 main() 是主函数,python 会运行这个函数,这个函数调用了其余的函数来读取数据。这个代码实现的是将excel文件 test.xlsx 中的 Sheet1 表中的数据一行行读取出来并打印。

Excel中内容如下:

有两行内容。

要运行这个代码,需要用终端使用命令行,首先 cd 进入到代码所在的文件夹,代码和Excel文件都要放在这个文件夹里。然后使用 python hello.py 命令来运行这个代码文件:

以上就是 Python 读取并打印出来的内容,u 表示使用的是unicode编码,可以看到与Excel中是一致的。

创建Excel

使用xlwt库我们可以创建一个Excel:

# -*- coding: utf-8 -*- 
import xlwt

def testXlwt(file = 'new.xls'):
    book = xlwt.Workbook() #创建一个Excel
    sheet1 = book.add_sheet('hello') #在其中创建一个名为hello的sheet
    sheet1.write(0,0,'cloudox') #往sheet里第一行第一列写一个数据
    sheet1.write(1,0,'ox') #往sheet里第二行第一列写一个数据
    book.save(file) #创建保存文件

#主函数
def main():
   testXlwt()

if __name__=="__main__":
    main()

这个代码更简单,同样记得要在开头导入库。

代码中我们创建了一个excel,在其中添加一个sheet,写入两个数据,最后按照我们的命名保存了文件。

按照上面同样的方法运行代码后,终端中不会有打印的内容,但是我们去文件夹中看会得到一个名为 new.xls 的新excel文件,打开可以看到:

按照我们的方法写了数据,同时sheet名字也是hello。

值得注意的是,在xlwt库的说明中有这么一句话:

Library to create spreadsheet files compatible with MS Excel 97/2000/XP/2003 XLS files, on any platform, with Python 2.6, 2.6, 3.3+

也就是说,它只能创建 xls 的文件格式,不能创建现在的 xlsx 格式,其实有点老了,如果你把文件名写了 xlsx 格式,将会无法打开。

处理Excel内容

其实单独的读和写只是基本功,我们最终是想要处理Excel中的内容的。

这里我们假设一个使用场景,我们希望将Excel中所有第一列和第二列相同的行数据筛选出来保存到一个新的Excel中去。

那么我们的流程是:

  1. 打开目标Excel
  2. 读取内容
  3. 读取每一行的同时筛选第一列和第二列相等的行保留下来
  4. 创建一个新Excel
  5. 将筛选出来的内容写进去
  6. 保存新Excel

那么我们看代码:

# -*- coding: utf-8 -*- 
import  xdrlib ,sys
import xlrd
import xlwt

#打开excel文件
def open_excel(file= 'test.xlsx'):
    try:
        data = xlrd.open_workbook(file)
        return data
    except Exception,e:
        print str(e)

#根据索引获取Excel表格中的数据   参数:file:Excel文件路径     colnameindex:表头列名所在行的索引  ,by_index:表的索引
def excel_table_byindex(file= 'test.xlsx',colnameindex=0,by_index=0):
    data = open_excel(file) #打开excel文件
    table = data.sheets()[by_index] #根据sheet序号来获取excel中的sheet
    nrows = table.nrows #行数
    ncols = table.ncols #列数
    colnames =  table.row_values(colnameindex) #某一行数据 
    list =[] #装读取结果的序列
    for rownum in range(0,nrows): #遍历每一行的内容

         row = table.row_values(rownum) #根据行号获取行
         if row: #如果行存在
             app = [] #一行的内容
             for i in range(len(colnames)): #一列列地读取行的内容
                app.append(row[i])
             if app[0] == app[1] : #如果这一行的第一个和第二个数据相同才将其装载到最终的list中
                list.append(app)
    testXlwt('new.xls', list) #调用写函数,讲list内容写到一个新文件中
    return list

#将list中的内容写入一个新的file文件
def testXlwt(file = 'new.xls', list = []):
    book = xlwt.Workbook() #创建一个Excel
    sheet1 = book.add_sheet('hello') #在其中创建一个名为hello的sheet
    i = 0 #行序号
    for app in list : #遍历list每一行
        j = 0 #列序号
        for x in app : #遍历该行中的每个内容(也就是每一列的)
            sheet1.write(i, j, x) #在新sheet中的第i行第j列写入读取到的x值
            j = j+1 #列号递增
        i = i+1 #行号递增
    # sheet1.write(0,0,'cloudox') #往sheet里第一行第一列写一个数据
    # sheet1.write(1,0,'ox') #往sheet里第二行第一列写一个数据
    book.save(file) #创建保存文件

#主函数
def main():
   tables = excel_table_byindex()
   for row in tables:
       print row

if __name__=="__main__":
    main()

这次我们开头要导入xlrd和xlwt两个库,因为既要读也要写。

代码内容基本与上面两个差不多,有一点点加深,在读取的时候我们判断了第一列和第二列数据相同的行才加到list中去。在写的时候我们用了两个for循环来对新excel中的一个个单元格写数据,使用了i和j两个变量来记录位置。此外在获取sheet的时候,与上面的不同,这里是通过sheet的序号(这里是0)来获取的,上面的是通过sheet名称来获取。

我们要处理的Excel中的内容是这样的:

按道理我们筛选后只应该保留第一行的内容,运行完后我们得到了一个新的Excel文件,里面的内容如下:

可以看到和预期是相符的。

这里只是简单的例子,两个库的操作还有很多,能够进行的处理也有很多,如果要处理大量数据,可能还要考虑内存,分批次来处理,总之,本文只是一个入门,尽量追求零基础也能学着使用来解放劳动力,更多的用法,就看自己琢磨了。

可以下载我的示例工程:https://github.com/Cloudox/PYReadWriteExcelDemo


版权所有:http://blog.csdn.net/cloudox_

2019-06-13 14:51:03 dxdfe 阅读数 1159
  • Python自动化办公(面向2020, Python3.7,不断更新ing)

    本套课程覆盖内容比较广,有Python基础、词云制作、爬虫、可视化报表、专业的数据统计分析、Office文件自动化处理! 所涉及的代码,PPT,工具类完全开放给你,你可以根据所学知识,自行修改和优化。 爬虫内容: 1、获取某知名弹幕网站小视频. 2、获取某娱乐网站小姐姐图片. 3、获取某某博客的网页内容. 4、获取alibba股票信息并制成统计图. 说明:爬虫内容由基础到实战,可以批量爬取网站上的图片、视频和文字和股票信息! 数据分析内容: 由Panads函数库为主要技术手段,包含多个案例: 案例1:某大型租赁平台的发布的租赁数据、 案例2:商品销售数据、 案例3:IMDB电影排名统计 ..... 说明:有丰富的数据类型以及异常数据处理的讲解、含金量非常高! Office文件自动化处理:

    53 人正在学习 去看看 张同乐

基于python的office操作

记录一些用python做文档处理的知识以备以后再用。

pdf操作

因为今天要交申报材料,需要一些证书的pdf,在手机上拍照用app扫描全能王做pdf的话会留水印,除非交钱注册vip,另外在网上找的一些pdf在线处理网站也是各种需要注册缴费,干脆自己学下用python处理算了。

首先用扫描全能王得到证书的jpg文档(直接拍也行,但是扫描全能王可以抓边框做锐化,还是挺好的,我要是经常用就注册了),然后用python把jpg转pdf,教程如下(注意照片必须是竖着的,如果照片是横着的,会横着缩放到pdf里,我还没搞明白这是怎么回事,也不能旋转再转pdf,因为转的时候会在图片两边生成黑边然后一起输入pdf,还得裁剪掉黑边,太麻烦还不如一开始就准备好竖着的图片)

https://blog.csdn.net/ycc297876771/article/details/81005298blog.csdn.net

程序如下:

import sys

from reportlab.lib.pagesizes import portrait

from reportlab.pdfgen import canvas

def imgtopdf(input_paths, outputpath):

(maxw, maxh) = [Image.open](https://link.zhihu.com/?target=http%3A//Image.open)(input_paths).size #确认图片尺寸

c = canvas.Canvas(outputpath, pagesize=portrait((maxw, maxh))) #按图片尺寸生成空白pdf

c.drawImage(input_paths, 0, 0, maxw, maxh) #把图片抄到pdf

c.showPage()

[c.save](https://link.zhihu.com/?target=http%3A//c.save)()

imgtopdf(“2b.jpg”, “2b.pdf”) #根据默认文件夹下的图片生成pdf

如果需要合并多个pdf,则采用如下教程:一个用于合并pdf的简单Python脚本如果需要合并多个pdf,则采用如下教程,对默认文件夹下所有pdf进行合并,注意某些pdf合成会失败,不知道是不是版本问题:

一个用于合并pdf的简单Python脚本www.jianshu.com

程序如下:

import PyPDF2

import os

import re

def main():

# find all the pdf files in current directory.

mypath = os.getcwd()

pattern = r"\.pdf$"

file_names_lst = [mypath + "\\" + f for f in os.listdir(mypath) if [re.search](https://link.zhihu.com/?target=http%3A//re.search)(pattern, f, re.IGNORECASE)

and not [re.search](https://link.zhihu.com/?target=http%3A//re.search)(r'Merged.pdf',f)]

# merge the file.

opened_file = [open(file_name,'rb') for file_name in file_names_lst]

pdfFM = PyPDF2.PdfFileMerger()

for file in opened_file:

pdfFM.append(file)

# output the file.

with open(mypath + "\\Merged.pdf", 'wb') as write_out_file:

pdfFM.write(write_out_file)

# close all the input files.

for file in opened_file:

file.close()

if __name__ == '__main__':

	main()

如果要清除某些页面:

#Python#用软件删除PDF中的空白页,竟然收费?!果断用Pythonwww.jianshu.com

程序如下:

import PyPDF2

original = r'1.pdf'

new = r'2.pdf'

original_pdf = PyPDF2.PdfFileReader(original)

page8 = original_pdf.getPage(8)

page16 = original_pdf.getPage(16)

pdfWriter = PyPDF2.PdfFileWriter()

pdfWriter.addPage(page8)

pdfWriter.addPage(page16)

with open(new, 'wb') as f:

pdfWriter.write(f)
2019-03-29 11:29:18 hanli1992 阅读数 234
  • Python自动化办公(面向2020, Python3.7,不断更新ing)

    本套课程覆盖内容比较广,有Python基础、词云制作、爬虫、可视化报表、专业的数据统计分析、Office文件自动化处理! 所涉及的代码,PPT,工具类完全开放给你,你可以根据所学知识,自行修改和优化。 爬虫内容: 1、获取某知名弹幕网站小视频. 2、获取某娱乐网站小姐姐图片. 3、获取某某博客的网页内容. 4、获取alibba股票信息并制成统计图. 说明:爬虫内容由基础到实战,可以批量爬取网站上的图片、视频和文字和股票信息! 数据分析内容: 由Panads函数库为主要技术手段,包含多个案例: 案例1:某大型租赁平台的发布的租赁数据、 案例2:商品销售数据、 案例3:IMDB电影排名统计 ..... 说明:有丰富的数据类型以及异常数据处理的讲解、含金量非常高! Office文件自动化处理:

    53 人正在学习 去看看 张同乐

python无法处理.doc文件,所以先将.doc文件转化为.docx文件,再处理.docx

一、.doc转化为.docx、.pdf、.txt……

python无法处理.doc文件,但可以处理.docx文件,先将.doc转为.docx

from win32com import client as wc
 
#word = wc.Dispatch("Word.Application")
#启动独立的进程,推荐这种
word = wc.DispatchEx("Word.Application")
 
# 后台运行,不显示,不警告
w.Visible = False
w.DisplayAlerts = 0
 
doc = word.Documents.Open(r'D:\Projects\CA\script\CA0218748520031015-DNAv01.DOC')
doc.SaveAs(r'D:\Projects\CA\script\CA0218748520031015-DNAv01.docx', 12, False, '', True, '', False, False, False, False)  #12为docx
doc.Close()
word.Quit()

若将参数“12”换成“2”,就可将.doc转成.txt

根据参数设置可以将word文件转换成任意格式文件

wdFormatDocument 0
wdFormatDocument97 0
wdFormatTemplate 1
wdFormatTemplate97 1
wdFormatText 2
wdFormatTextLineBreaks 3
wdFormatDOSText 4
wdFormatDOSTextLineBreaks 5
wdFormatRTF 6
wdFormatEncodedText 7
wdFormatUnicodeText 7
wdFormatHTML 8
wdFormatWebArchive 9
wdFormatFilteredHTML 10
wdFormatXML 11
wdFormatXMLDocument 12
wdFormatXMLDocumentMacroEnabled 13
wdFormatXMLTemplate 14
wdFormatXMLTemplateMacroEnabled 15
wdFormatDocumentDefault 16
wdFormatPDF 17
wdFormatXPS 18
wdFormatFlatXML 19
wdFormatFlatXMLMacroEnabled 20
wdFormatFlatXMLTemplate 21
wdFormatFlatXMLTemplateMacroEnabled 22

word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML明显比wdFormatHTML要干净许多。

二、读取.docx

  
#读取.docx
import docx
 
#获取文档对象
file=docx.Document(r'D:\Projects\CA\script\CA0218748520031015-DNAv01.docx')
print("段落数:"+str(len(file.paragraphs)))
 
#输出每一段的内容
for para in file.paragraphs:
    print(para.text)
 
#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
    print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

 

2018-10-21 21:21:58 qq_39591494 阅读数 307
  • Python自动化办公(面向2020, Python3.7,不断更新ing)

    本套课程覆盖内容比较广,有Python基础、词云制作、爬虫、可视化报表、专业的数据统计分析、Office文件自动化处理! 所涉及的代码,PPT,工具类完全开放给你,你可以根据所学知识,自行修改和优化。 爬虫内容: 1、获取某知名弹幕网站小视频. 2、获取某娱乐网站小姐姐图片. 3、获取某某博客的网页内容. 4、获取alibba股票信息并制成统计图. 说明:爬虫内容由基础到实战,可以批量爬取网站上的图片、视频和文字和股票信息! 数据分析内容: 由Panads函数库为主要技术手段,包含多个案例: 案例1:某大型租赁平台的发布的租赁数据、 案例2:商品销售数据、 案例3:IMDB电影排名统计 ..... 说明:有丰富的数据类型以及异常数据处理的讲解、含金量非常高! Office文件自动化处理:

    53 人正在学习 去看看 张同乐

Python操作office之excel

一、什么是Excel?

Microsoft Excel是Microsoft为使用Windows和Apple Macintosh操作系统的电脑编写的一款电子表格软件。直观的界面、出色的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。在1993年,作为Microsoft Office的组件发布了5.0版之后,Excel就开始成为所适用操作平台上的电子制表软件的霸主。

二、在Jupyter notebook对Excel进行操作

Excel表格内容如下:
在这里插入图片描述

2.1、安装openpyxl

pip install openpyxl

2.2、导入openpyxl

%cd F:\python_test1\Python_office  # 进入工作目录
# 安装openpyxl
# pip install openpyxl
import openpyxl # 导入openpyxl
wb = openpyxl.load_workbook("yankerp1.xlsx")
# wb是一个object openpyxl.load_workbook就是把yankerp1.xlsx这个文档赋值给wb 那么wb就是那个yankerp1.xlsx这个文件

2.3、导入工作簿

SH = wb.active # 导入工作簿使用active

2.4、取坐标位置的值

SH["A1"].value
SH["A2"].value
SH["A3"].value

2.5、更改坐标值及获取坐标内容:

SH["A3"].value
>>>张三
SH["A3"] = "ZhangSan"
SH["A3"].value
>>>ZhangSan
SH["A1"].coordinate
>>>A1

2.6、获取当前工作簿名称:

SH.title
>>>成绩单

更改工作簿名称:

SH.title = "学生成绩单"
SH.title
>>> 学生成绩单

2.7、保存更改后的Excel到新的Excel

wb.save("学生成绩单")

更改后打开如下:
在这里插入图片描述

三、自我练习

原始表1:

%cd F:\python_test1\Python_office

import openpyxl
from openpyxl.styles import Font
WB = openpyxl.load_workbook("学生.xlsx")

Sheet1 = WB["Sheet1"]
Sheet2 = WB["Sheet2"]

index = 2
for i in Sheet1.rows:
    if i[0].coordinate != "A1" and i[1].value > 60:
        print(i[0].value, i[1].value)
        Sheet2["A" + str(index)] = i[0].value
        Sheet2["B" + str(index)] = i[1].value
        index += 1
    Sheet2.title = "及格同学"
    Sheet1.cell(row=9, column=1).value = "平均分数"
    Sheet1.cell(row=9, column=2).value = "=average(B2,B8)"
    Sheet1.title = "同学平均分数表"
    Sheet1["A2"] = "延凯"
    Sheet1["A3"] = "张三"
    
    fount = Font(bold=True, size=14)
    Sheet1["A9"].font = fount
WB.save("student1.xlsx")

在这里插入图片描述

在这里插入图片描述

2012-12-05 14:22:20 scmsgxz 阅读数 17
  • Python自动化办公(面向2020, Python3.7,不断更新ing)

    本套课程覆盖内容比较广,有Python基础、词云制作、爬虫、可视化报表、专业的数据统计分析、Office文件自动化处理! 所涉及的代码,PPT,工具类完全开放给你,你可以根据所学知识,自行修改和优化。 爬虫内容: 1、获取某知名弹幕网站小视频. 2、获取某娱乐网站小姐姐图片. 3、获取某某博客的网页内容. 4、获取alibba股票信息并制成统计图. 说明:爬虫内容由基础到实战,可以批量爬取网站上的图片、视频和文字和股票信息! 数据分析内容: 由Panads函数库为主要技术手段,包含多个案例: 案例1:某大型租赁平台的发布的租赁数据、 案例2:商品销售数据、 案例3:IMDB电影排名统计 ..... 说明:有丰富的数据类型以及异常数据处理的讲解、含金量非常高! Office文件自动化处理:

    53 人正在学习 去看看 张同乐
这里测试的环境是:windows xp,office 2007,python 2.5.2,pywin32 build 213,原理是利用win32com接口直接调用office API,好处是简单、兼容性好,只要office能处理的,python都可以处理,处理出来的结果和office word里面“另存为”一致。

#!/usr/bin/env python

#coding=utf-8

from win32com import client as wc

word = wc.Dispatch('Word.Application')

doc = word.Documents.Open('d:/labs/math.doc')

doc.SaveAs('d:/labs/math.html', 8 )

doc.Close()

word.Quit()

关键的就是doc.SaveAs(‘d:/labs/math.html’, 8 )这一行,网上很多文章写成:doc.SaveAs(‘d:/labs/math.html’, win32com.client.constants.wdFormatHTML),直接报错:

AttributeError: class Constants has no attribute ‘wdFormatHTML’

当然你也可以用上面的代码将word文件转换成任意格式文件(只要office 2007支持,比如将word文件转换成PDF文件,把8改成17即可),下面是office 2007支持的全部文件格式对应表:

wdFormatDocument = 0
wdFormatDocument97 = 0
wdFormatDocumentDefault = 16
wdFormatDOSText = 4
wdFormatDOSTextLineBreaks = 5
wdFormatEncodedText = 7
wdFormatFilteredHTML = 10
wdFormatFlatXML = 19
wdFormatFlatXMLMacroEnabled = 20
wdFormatFlatXMLTemplate = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML = 8
wdFormatPDF = 17
wdFormatRTF = 6
wdFormatTemplate = 1
wdFormatTemplate97 = 1
wdFormatText = 2
wdFormatTextLineBreaks = 3
wdFormatUnicodeText = 7
wdFormatWebArchive = 9
wdFormatXML = 11
wdFormatXMLDocument = 12
wdFormatXMLDocumentMacroEnabled = 13
wdFormatXMLTemplate = 14
wdFormatXMLTemplateMacroEnabled = 15
wdFormatXPS = 18

照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API,比如PHP.

原文链接 : [url]http://www.fuchaoqun.com/2009/03/use-python-convert-word-to-html-with-win32com/[/url]

Python word

阅读数 1974

没有更多推荐了,返回首页