2011-09-13 13:17:19 binger819623 阅读数 2704

March 12th, 2009 | by 超群.com | 知识共享署名-非商业性使用-相同方式共享,转载请保留链接。
这里测试的环境是:windows xp,office 2007,python 2.5.2,pywin32 build 213,原理是利用win32com接口直接调用office API,好处是简单、兼容性好,只要office能处理的,python都可以处理,处理出来的结果和office word里面“另存为”一致。

#!/usr/bin/env python
 
#coding=utf-8
 
from win32com import client as wc
 
word = wc.Dispatch('Word.Application')
 
doc = word.Documents.Open('d:/labs/math.doc')
 
doc.SaveAs('d:/labs/math.html', 8)
 
doc.Close()
 
word.Quit()
关键的就是doc.SaveAs(‘d:/labs/math.html’, 8)这一行,网上很多文章写成:doc.SaveAs(‘d:/labs/math.html’, win32com.client.constants.wdFormatHTML),直接报错:

AttributeError: class Constants has no attribute ‘wdFormatHTML’

当然你也可以用上面的代码将word文件转换成任意格式文件(只要office 2007支持,比如将word文件转换成PDF文件,把8改成17即可),下面是office 2007支持的全部文件格式对应表:

wdFormatDocument                    =  0
wdFormatDocument97                  =  0
wdFormatDocumentDefault             = 16
wdFormatDOSText                     =  4
wdFormatDOSTextLineBreaks           =  5
wdFormatEncodedText                 =  7
wdFormatFilteredHTML                = 10
wdFormatFlatXML                     = 19
wdFormatFlatXMLMacroEnabled         = 20
wdFormatFlatXMLTemplate             = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML                        =  8
wdFormatPDF                         = 17
wdFormatRTF                         =  6
wdFormatTemplate                    =  1
wdFormatTemplate97                  =  1
wdFormatText                        =  2
wdFormatTextLineBreaks              =  3
wdFormatUnicodeText                 =  7
wdFormatWebArchive                  =  9
wdFormatXML                         = 11
wdFormatXMLDocument                 = 12
wdFormatXMLDocumentMacroEnabled     = 13
wdFormatXMLTemplate                 = 14
wdFormatXMLTemplateMacroEnabled     = 15
wdFormatXPS                         = 18照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API,比如PHP.

 

2017-04-14 18:08:01 chenlu5201314 阅读数 516

以Microsoft office 2007为例


1、取消全部的英文单词或字符串下红色波浪线的显示




2、取消指定的英文单词或字符串下红色波浪线的显示


2012-04-01 16:23:42 titanseason 阅读数 74

Java利用OpenOffice将word等office文档转换成PDF

 

1. 需要用的软件

    OpenOffice 下载地址http://www.openoffice.org/

    JodConverter 下载地址http://sourceforge.net/projects/jodconverter/files/JODConverter/也可以直接从附件里面下载

 

 

2.启动OpenOffice的服务

    我到网上查如何利用OpenOffice进行转码的时候,都是需要先用cmd启动一个soffice服务,启动的命令是:soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;"。

    但是实际上,对于我的项目,进行转码只是偶尔进行,然而当OpenOffice的转码服务启动以后,该进程(进程名称是soffice.exe)会一直存在,并且大约占100M的内存,感觉非常浪费。于是我就想了一个办法,可以将执行该服务的命令直接在JAVA代码里面调用,然后当转码完成的时候,直接干掉这个进程。在后面的JAVA代码里面会有解释。

    所以,实际上,这第2步可以直接跳过

 

 

3.将JodConverter相关的jar包添加到项目中

    将JodConverter解压缩以后,把lib下面的jar包全部添加到项目中

 

 

4. 下面就是重点喽,详见Java代码解析

 

附件里面有现成的可以用的项目示例,直接导入eclipse就可以运行

 

/**
	 * 将Office文档转换为PDF. 运行该函数需要用到OpenOffice, OpenOffice下载地址为
	 * http://www.openoffice.org/
	 * 
	 * <pre>
	 * 方法示例:
	 * String sourcePath = "F:\\office\\source.doc";
	 * String destFile = "F:\\pdf\\dest.pdf";
	 * Converter.office2PDF(sourcePath, destFile);
	 * </pre>
	 * 
	 * @param sourceFile
	 *            源文件, 绝对路径. 可以是Office2003-2007全部格式的文档, Office2010的没测试. 包括.doc,
	 *            .docx, .xls, .xlsx, .ppt, .pptx等. 示例: F:\\office\\source.doc
	 * @param destFile
	 *            目标文件. 绝对路径. 示例: F:\\pdf\\dest.pdf
	 * @return 操作成功与否的提示信息. 如果返回 -1, 表示找不到源文件, 或url.properties配置错误; 如果返回 0,
	 *         则表示操作成功; 返回1, 则表示转换失败
	 */
	public static int office2PDF(String sourceFile, String destFile) {
		try {
			File inputFile = new File(sourceFile);
			if (!inputFile.exists()) {
				return -1;// 找不到源文件, 则返回-1
			}

			// 如果目标路径不存在, 则新建该路径
			File outputFile = new File(destFile);
			if (!outputFile.getParentFile().exists()) {
				outputFile.getParentFile().mkdirs();
			}

			String OpenOffice_HOME = "D:\\Program Files\\OpenOffice.org 3";//这里是OpenOffice的安装目录, 在我的项目中,为了便于拓展接口,没有直接写成这个样子,但是这样是绝对没问题的
			// 如果从文件中读取的URL地址最后一个字符不是 '\',则添加'\'
			if (OpenOffice_HOME.charAt(OpenOffice_HOME.length() - 1) != '\\') {
				OpenOffice_HOME += "\\";
			}
			// 启动OpenOffice的服务
			String command = OpenOffice_HOME
					+ "program\\soffice.exe -headless -accept=\"socket,host=127.0.0.1,port=8100;urp;\"";
			Process pro = Runtime.getRuntime().exec(command);
			// connect to an OpenOffice.org instance running on port 8100
			OpenOfficeConnection connection = new SocketOpenOfficeConnection(
					"127.0.0.1", 8100);
			connection.connect();

			// convert
			DocumentConverter converter = new OpenOfficeDocumentConverter(
					connection);
			converter.convert(inputFile, outputFile);

			// close the connection
			connection.disconnect();
			// 关闭OpenOffice服务的进程
			pro.destroy();

			return 0;
		} catch (FileNotFoundException e) {
			e.printStackTrace();
			return -1;
		} catch (ConnectException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}

		return 1;
	}
 

 

 

2019-04-15 23:11:54 u011236348 阅读数 1284

前言

更多内容,请访问我的 个人博客


先来了解一下收/发邮件有哪些协议:

  • SMTP协议
    SMTP(Simple Mail Transfer Protocol),即简单邮件传输协议。相当于中转站,将邮件发送到客户端。
  • POP3协议
    POP3(Post Office Protocol 3),即邮局协议的第3个版本,是电子邮件的第一个离线协议标准。该协议把邮件下载到本地计算机,不与服务器同步,缺点是更易丢失邮件或多次下载相同的邮件。
  • IMAP协议
    IMAP(Internet Mail Access Protocol),即交互式邮件存取协议。该协议连接远程邮箱直接操作,与服务器内容同步。
  • Exchange服务
    Exchange服务是一个设计完备的邮件服务器产品,提供了通常所需要的全部邮件服务功能。除了常规SMTP/POP协议服务之外,它还支持IMAP4 、LDAP和NNTP协议。

Python内置对SMTP/POP3/IMAP的支持。更多详情请移步 Python官方教程


SMTP发送邮件

Python对SMTP支持有 smtplibemail 两个模块,email 负责构造邮件,smtplib 负责发送邮件。

构造邮件

构造最简单的纯文本邮件,如下:

from email.mime.text import MIMEText

msg = MIMEText('hello, send by Python...', 'plain', 'utf-8')

注意到构造 MIMEText 对象时,第一个参数就是邮件正文,第二个参数是MIME的subtype,传入 'plain' 表示纯文本,最终的MIME就是 'text/plain',最后一定要用 utf-8 编码保证多语言兼容性。

发送邮件

import smtplib

# 输入Email地址和口令:
from_addr = 'test_from_addr@qq.com'
password = 'Password'
# 输入收件人地址:
to_addr = 'test_to_addr@qq.com'
# 输入SMTP服务器地址:
smtp_server = smtp.qq.com

server = smtplib.SMTP(smtp_server, 25) # SMTP协议默认端口是25
# server.starttls() # 如果是SSL,则用 587 端口,再加上这句代码就行了
server.set_debuglevel(1)    # 打印出和SMTP服务器交互的所有信息
server.login(from_addr, password)   # 登录SMTP服务器
server.sendmail(from_addr, [to_addr], msg.as_string())    # 发邮件
server.quit()

sendmail() 方法就是发邮件,由于可以一次发给多个人,所以传入一个 list,邮件正文是一个 stras_string() 把MIMEText对象变成 str

注意: QQ邮件等需要手动开通 SMTP服务 , 邮箱设置 => 账号 => POP3/SMTP服务,如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Us8n4iFW-1571988396212)(https://blog.pangao.vip/pic/Python使用POP3和SMTP协议收发邮件-1.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-afbnavct-1571988396213)(https://blog.pangao.vip/pic/Python使用POP3和SMTP协议收发邮件-2.png)]

此时,我们就可以收到邮件了,如下:

image

添加邮件标题、收/发件人

邮件主题、显示发件人、收件人等信息并不是通过SMTP协议发送的,而是包含在 MIMEText 对象中,如下:

from email import encoders
from email.header import Header
from email.mime.text import MIMEText
from email.utils import parseaddr, formataddr

import smtplib

def _format_addr(s):
    name, addr = parseaddr(s)
    return formataddr((Header(name, 'utf-8').encode(), addr))

from_addr = 'test_from_addr@qq.com'
password = 'Password'
to_addr = 'test_to_addr@qq.com'
smtp_server = smtp.qq.com

msg = MIMEText('hello, send by Python...', 'plain', 'utf-8')
msg['From'] = _format_addr('发件人昵称 <%s>' % from_addr)
msg['To'] = _format_addr('收件人昵称 <%s>' % to_addr)
msg['Subject'] = Header('这是个有主题的邮件', 'utf-8').encode()

server = smtplib.SMTP(smtp_server, 25)
server.set_debuglevel(1)
server.login(from_addr, password)
server.sendmail(from_addr, [to_addr], msg.as_string())
server.quit()

收到的邮件,如下:

image

收件人并不是我们设置的 “收件人昵称”,是因为很多邮件服务商在显示邮件时,会把收件人名字自动替换为用户注册的名字,这无伤大雅。

添加抄送,暗送

# ccto_list 抄送
# bccto_list 暗送

msg['from'] = user
msg['to'] = ','.join(to_list)   #注意,不是分号
msg['cc'] = ','.join(ccto_list)
msg['subject'] = subject
server.sendmail(sender,to_list+ccto_list+bccto_list, str(msg))

发送HTML邮件

要发送HTML邮件很简单,在构造 MIMEText 对象时,把HTML字符串传进去,再把第二个参数由 plain 变为 html ,如下:

msg = MIMEText('<html><body><h1>Hello</h1>' +
    '<p>send by <a href="http://blog.pangao.vip">PanGao’s blog</a>...</p>' +
    '</body></html>', 'html', 'utf-8')

发送附件

要想发送附件,需要构造一个 MIMEMultipart 对象代表邮件本身,然后往里面加上一个 MIMEText 作为邮件正文,再继续往里面加上表示附件的 MIMEBase 对象,如下:

from email.mime.multipart import MIMEMultipart
from email.mime.base import MIMEBase

# 邮件对象:
msg = MIMEMultipart()
msg['From'] = _format_addr('发件人昵称 <%s>' % from_addr)
msg['To'] = _format_addr('收件人昵称 <%s>' % to_addr)
msg['Subject'] = Header('这是个有主题的邮件', 'utf-8').encode()

# 邮件正文是MIMEText:
msg.attach(MIMEText('send with file...', 'plain', 'utf-8'))

# 添加附件就是加上一个MIMEBase,从本地读取一个图片:
with open('/Users/pangao/Downloads/test.png', 'rb') as f:
    # 设置附件的MIME和文件名,这里是png类型:
    mime = MIMEBase('image', 'png', filename='test.png')
    # 加上必要的头信息:
    mime.add_header('Content-Disposition', 'attachment', filename='test.png')
    mime.add_header('Content-ID', '<0>')
    mime.add_header('X-Attachment-Id', '0')
    # 把附件的内容读进来:
    mime.set_payload(f.read())
    # 用Base64编码:
    encoders.encode_base64(mime)
    # 添加到MIMEMultipart:
    msg.attach(mime)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xWmH1v4O-1571988396216)(https://blog.pangao.vip/pic/Python使用POP3和SMTP协议收发邮件-5.png)]

发送图片

由于 mac 自带的邮件会自动把图片附件插入邮件正文中,所以样式很好看。但是普通邮件可能没这么便捷(抱歉,我没见过普通邮件。。。小小得瑟一下)

如果要把一个图片嵌入到邮件正文中怎么做?直接在HTML邮件中链接图片地址行不行?答案是,大部分邮件服务商都会自动屏蔽带有外链的图片,因为不知道这些链接是否指向恶意网站。

要把图片嵌入到邮件正文中,我们只需按照发送附件的方式,先把邮件作为附件添加进去,然后,在HTML中通过引用 src="cid:0" 就可以把附件作为图片嵌入了。如果有多个图片,给它们依次编号,然后引用不同的 cid:x 即可。

把上面代码加入 MIMEMultipartMIMETextplain 改为 html,然后在适当的位置引用图片,如下:

msg.attach(MIMEText('<html><body><h1>Hello</h1>' +
    '<p><img src="cid:0"></p>' +
    '</body></html>', 'html', 'utf-8'))

同时支持HTML和Plain格式

如果我们发送HTML邮件,收件人通过浏览器或者Outlook之类的软件是可以正常浏览邮件内容的,但是,如果收件人使用的设备太古老,查看不了HTML邮件怎么办?

办法是在发送HTML的同时再附加一个纯文本,如果收件人无法查看HTML格式的邮件,就可以自动降级查看纯文本邮件。

利用 MIMEMultipart 就可以组合一个HTML和Plain,要注意指定subtype是 alternative,如下:

msg = MIMEMultipart('alternative')
msg['From'] = ...
msg['To'] = ...
msg['Subject'] = ...

msg.attach(MIMEText('hello', 'plain', 'utf-8'))
msg.attach(MIMEText('<html><body><h1>Hello</h1></body></html>', 'html', 'utf-8'))
# 正常发送msg对象...

加密SMTP

使用标准的25端口连接SMTP服务器时,使用的是明文传输,发送邮件的整个过程可能会被窃听。要更安全地发送邮件,可以加密SMTP会话,实际上就是先创建SSL安全连接,然后再使用SMTP协议发送邮件。

某些邮件服务商,例如Gmail,提供的SMTP服务必须要加密传输。我们来看看如何通过Gmail提供的安全SMTP发送邮件。

必须知道,Gmail的SMTP端口是587,因此,修改代码如下:

smtp_server = 'smtp.gmail.com'
smtp_port = 587
server = smtplib.SMTP(smtp_server, smtp_port)
server.starttls()
# 剩下的代码和前面的一模一样:
server.set_debuglevel(1)
...

只需要在创建 SMTP 对象后,立刻调用 starttls() 方法,就创建了安全连接。后面的代码和前面的发送邮件代码完全一样。

POP3收取邮件

Python内置一个 poplib 模块,实现了POP3协议,可以直接用来收邮件。

注意到POP3协议收取的不是一个已经可以阅读的邮件本身,而是邮件的原始文本,这和SMTP协议很像,SMTP发送的也是经过编码后的一大段文本。

要把POP3收取的文本变成可以阅读的邮件,还需要用email模块提供的各种类来解析原始文本,变成可阅读的邮件对象。

所以,收取邮件分两步:

第一步:用 poplib 把邮件的原始文本下载到本地;

第二部:用 email 解析原始文本,还原为邮件对象。

通过POP3下载邮件

POP3协议本身很简单,以下面的代码为例,我们来获取最新的一封邮件内容:

from email.parser import Parser
import poplib

# 输入邮件地址, 口令和POP3服务器地址:
email = 'pangao1990@qq.com'
password = 'Password'
pop3_server = 'pop.qq.com'

# 连接到POP3服务器:
server = poplib.POP3_SSL(pop3_server)
# 可以打开或关闭调试信息:
server.set_debuglevel(1)

# 身份认证:
server.user(email)
server.pass_(password)

# list()返回所有邮件的编号:
resp, mails, octets = server.list()

# 获取最新一封邮件, 注意索引号从1开始:
index = len(mails)
resp, lines, octets = server.retr(index)

# lines存储了邮件的原始文本的每一行,
# 可以获得整个邮件的原始文本:
msg_content = b'\r\n'.join(lines).decode('utf-8')
# 稍后解析出邮件:
msg = Parser().parsestr(msg_content)

# 可以根据邮件索引号直接从服务器删除邮件:
# server.dele(index)
# 关闭连接:
server.quit()

但是这个 Message 对象本身可能是一个 MIMEMultipart 对象,即包含嵌套的其他 MIMEBase 对象,嵌套可能还不止一层。

所以我们要递归地打印出 Message 对象的层次结构:

from email.header import decode_header
from email.utils import parseaddr


def print_info(msg, indent=0):
    if indent == 0:
        for header in ['From', 'To', 'Subject']:
            value = msg.get(header, '')
            if value:
                if header == 'Subject':
                    value = decode_str(value)
                else:
                    hdr, addr = parseaddr(value)
                    name = decode_str(hdr)
                    value = u'%s <%s>' % (name, addr)
            print('%s%s: %s' % ('  ' * indent, header, value))
    if (msg.is_multipart()):
        parts = msg.get_payload()
        for n, part in enumerate(parts):
            print('%spart %s' % ('  ' * indent, n))
            print('%s--------------------' % ('  ' * indent))
            print_info(part, indent + 1)
    else:
        content_type = msg.get_content_type()
        if content_type == 'text/plain' or content_type == 'text/html':
            content = msg.get_payload(decode=True)
            charset = guess_charset(msg)
            if charset:
                content = content.decode(charset)
            print('%sText: %s' % ('  ' * indent, content + '...'))
        else:
            print('%sAttachment: %s' % ('  ' * indent, content_type))


def decode_str(s):
    value, charset = decode_header(s)[0]
    if charset:
        value = value.decode(charset)
    return value


def guess_charset(msg):
    charset = msg.get_charset()
    if charset is None:
        content_type = msg.get('Content-Type', '').lower()
        pos = content_type.find('charset=')
        if pos >= 0:
            charset = content_type[pos + 8:].strip()
    return charset


print_info(msg) #解析

# From: 木叶 <pangao1990@qq.com>
# To:  <mail@pangao.vip>
# Subject: 测试主题
# Text: 测试内容
# 
# ...

更多编程教学请关注公众号:潘高陪你学编程

image


2015-02-14 10:19:23 s592652578 阅读数 879

此方法采用了一个插件:jacob-1.15-M4,这个插件可以将office转换成html,在此我只介绍了一种,将Exl转换成html,转换后的html中有的border线为0.5px,在有的浏览器中不识别0.5px的border线,需要将生成的css中的0.5px,转换成1px,在系统中如果需要多次转换的话建议写一个单例模式,否则的话转换几次之后你电脑的内存就被撑爆了,原因很简单,就是每一次转换都会启动一次Exl程序,启动的多了系统内存就沾满了,所以,建议还是写成单例模式,废话不多说,直接贴代码:

插件需要下载的可以点击此处下载:http://download.csdn.net/detail/s592652578/8446163

package com.odon.common.util;
 
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.FileReader;
import java.io.IOException;
 
import com.jacob.activeX.ActiveXComponent;
import com.jacob.com.Dispatch;
import com.jacob.com.Variant;
 
public classExlToHtm {
 
   //单例模式
   private static ExlToHtm exlToHtm=null;
 
   public static ExlToHtm getExlToHtm(){
      if(exlToHtm==null)
         exlToHtm=new ExlToHtm();
      return exlToHtm;
   }
 
   public static final int EXCEL_HTML = 44; 
   public static final ActiveXComponent app = new ActiveXComponent("Excel.Application");//启动exl
 
   /** 
    * EXCEL转HTML 
    * @param xlsfile EXCEL文件全路径 
    * @param htmlfile转换后HTML存放路径 
    */ 
   public synchronized void  excelToHtml(String xlsfile, Stringhtmlfile){ 
      //    ActiveXComponentapp = new ActiveXComponent("Excel.Application"); //启动exl
      try { 
         app.setProperty("Visible",newVariant(false));  
         Dispatchexcels = app.getProperty("Workbooks").toDispatch();  
         Dispatchexcel = Dispatch.invoke(  
                excels,  
                "Open",  
                Dispatch.Method,  
                new Object[] { xlsfile,new Variant(false),  
                      new Variant(true) },new int[1]).toDispatch();  
         Dispatch.invoke(excel,"SaveAs",Dispatch.Method,newObject[] {  
                htmlfile,newVariant(EXCEL_HTML)},newint[1]);  
         Variantf = newVariant(false);  
         Dispatch.call(excel,"Close",f); 
      }catch (Exception e){  
         e.printStackTrace();  
      }finally{
         app.invoke("Quit",new Variant[] {});
      }  
   }
 
   /**
    * 修改css样式
    * @param filePath
    * @param cssPath
    */
   public static void readCss(StringfilePath,String cssPath) { 
      BufferedReaderbr = null; 
      Stringline = null; 
      StringBufferbuf = newStringBuffer(); 
      Stringcontent = null;
      Filetxt=newFile(cssPath);
      FileOutputStreamfos = null;
      try { 
         fos= newFileOutputStream(txt);
         // 根据文件路径创建缓冲输入流 
         br= newBufferedReader(newFileReader(filePath));
         // 循环读取文件的每一行,对需要修改的行进行修改,放入缓冲对象中 
         while ((line = br.readLine())!=null){ 
            // 此处根据实际需要修改某些行的内容 
            if(line.indexOf(":.5pt")>-1){
                line= line.replace(":.5pt",":1pt");
                line= line + "\r";
            }
            buf.append(line);
         } 
         //判断文件是否存在
         if(!txt.exists()){
            txt.createNewFile();
         }
         content= buf.toString();
         byte bytes[]=newbyte[1024];
         bytes=content.getBytes();   //新加的
         intb=content.length();  //改
         fos.write(bytes,0,b);
      }catch(Exception e) { 
         e.printStackTrace(); 
      }finally{ 
         // 关闭流 
         if (br !=null) { 
            try { 
                br.close(); 
            }catch(IOException e) { 
                br= null; 
            } 
         } 
         if( fos !=null){
            try {
                fos.close();
            }catch(Exception e2) {
                e2.printStackTrace();
            }
         }
      } 
   } 
}


没有更多推荐了,返回首页