精华内容
下载资源
问答
  • word文档转html格式

    2017-05-16 23:36:55
    1.在包含word文档的文件夹下执行本jar,即可将文件夹内的word文档转为html格式 2.在项目中引用此jar包,调用saveToHtml()传入一个包含word文件的目录,会将该目下的doc、docx文件转换为html格式
  • word转html(支持doc和docx)以及word分割同一格式多个word文件,包含所需的jar(pom.xml)
  • Word文件转换成HTML格式

    千次阅读 2017-11-28 16:51:48
    首先引用:Microsoft.Office.Interop.Word.dll 若果 是.net 4.0以上版本添加... // 将word文件中的数据读取为html语句 public static string DocToHtml(object wordFileName) { //在此处放置用户代码以初始化页面

    首先引用:Microsoft.Office.Interop.Word.dll

    若果 是.net 4.0以上版本添加引用,如果不是4.0以上版本可能没有这个,可以网上下载一个Microsoft.Office.Interop.Word.dll。

           // 将word文件中的数据读取为html语句
            public static string DocToHtml(object wordFileName)
            {
                //在此处放置用户代码以初始化页面 
                Word.Application word = new Word.Application();
                Type wordType = word.GetType();
                Word.Documents docs = word.Documents;
                //打开文件 
                Type docsType = docs.GetType();
                Word.Document doc = (Word.Document)docsType.InvokeMember("Open", System.Reflection.BindingFlags.InvokeMethod, null, docs, new Object[] { wordFileName, true, true });
                //转换格式,另存为 
                Type docType = doc.GetType();
                string wordSaveFileName = wordFileName.ToString();
                string strSaveFileName = wordSaveFileName.Substring(0, wordSaveFileName.Length - 3) + "html";
                object saveFileName = (object)strSaveFileName;
                docType.InvokeMember("SaveAs", System.Reflection.BindingFlags.InvokeMethod, null, doc, new object[] { saveFileName, Word.WdSaveFormat.wdFormatFilteredHTML });
                docType.InvokeMember("Close", System.Reflection.BindingFlags.InvokeMethod, null, doc, null);
                //退出 Word 
                wordType.InvokeMember("Quit", System.Reflection.BindingFlags.InvokeMethod, null, word, null);
                return saveFileName.ToString();
            }


    例如:   <asp:FileUpload ID="fu_NewsContent" runat="server" />

           if (fu_NewsContent.HasFile)
            {
                    string fileName = fu_NewsContent.PostedFile.FileName;
                    int extendNameIndex = fileName.LastIndexOf(".");
                    string extendName = fileName.Substring(extendNameIndex);
                    if (extendName == ".doc")
                    {
                        string serverPath = Server.MapPath("~/UploadFiles/WordFiles/" + DateTime.Now.Year + "/" + DateTime.Now.Month + "/" + DateTime.Now.Day + "/");
                        if (!Directory.Exists(serverPath))
                            Directory.CreateDirectory(serverPath);   //创建路径
                        DateTime now = DateTime.Now;
                        string fileTime = now.ToString("yyyyMMddHHmmss") + now.Millisecond.ToString() + extendName;
                        fileName = serverPath + fileTime;
                        fu_NewsContent.PostedFile.SaveAs(fileName);   //保存word
    
                        string workHtml = CommonHelp.WordToHtml.DocToHtml(fileName);//转换
                        StreamReader fread = new StreamReader(workHtml, System.Text.Encoding.GetEncoding("gb2312"));
                        string ssRead = fread.ReadToEnd();
                        ssRead = ssRead.Replace("src=\"", "src=\"/UploadFiles/WordFiles/" + DateTime.Now.Year + "/" + DateTime.Now.Month + "/" + DateTime.Now.Day + "/");
                        string News_Content = Encoding.Default.GetBytes(ssRead);
                        string News_FileUrl = "/UploadFiles/WordFiles/" + DateTime.Now.Year + "/" + DateTime.Now.Month + "/" + DateTime.Now.Day + "/" + fileTime;
                        fread.Close();
                        fread.Dispose();
                    }
                    else               
                      return;  
             }



    展开全文
  • word转html格式文件

    2012-12-03 10:55:12
    此工具借用微软word软件接口将word文档转成html或者htm格式(含有一个java类为转换word方法可以借鉴),因此必须先安装微软的word软件方可使用
  • php word转html格式

    热门讨论 2009-06-02 11:28:27
    这个PHP函数可以将word文件内容转换成html格式,注意:不是直接将word文件转html文件,而是对其内容进行转换输出。
  • Word转Html的原理是这样的: 1、客户上传Word文档到服务器 2、服务器调用OpenOffice程序打开上传的Word文档 3、OpenOffice将Word文档另存为Html格式 4、Over 至此可见,这要求服务器端安装OpenOffice软件,其实也...

    有个博友写的比较详细,参考地址:http://www.cnblogs.com/luckyxiaoxuan/archive/2012/06/13/2548331.html


    将Word转Html的原理是这样的:

    1、客户上传Word文档到服务器

    2、服务器调用OpenOffice程序打开上传的Word文档

    3、OpenOffice将Word文档另存为Html格式

    4、Over

    至此可见,这要求服务器端安装OpenOffice软件,其实也可以是MS Office,不过OpenOffice的优势是跨平台,你懂的。恩,说明一下,本文的测试基于 MS Win7 Ultimate X64 系统。

    下面就是规规矩矩的实现。

    1、下载OpenOffice,http://download.openoffice.org/index.html So easy...

    2、下载Jodconverter http://www.artofsolving.com/opensource/jodconverter 这是一个开启OpenOffice进行格式转化的第三方jar包。

    3、泡杯热茶,等待下载。

    4、安装OpenOffice,安装结束后,调用cmd,启动OpenOffice的一项服务:C:\Program Files (x86)\OpenOffice.org 3\program>soffice -headless -accept="socket,port=8100;urp;"


    5、打开eclipse

    6、喝杯热茶,等待eclipse打开。

    7、新建eclipse项目,导入Jodconverter/lib 下得jar包。

     * commons-io

     * jodconverter

     * juh

     * jurt

     * ridl

     * slf4j-api

     * slf4j-jdk14 

     * unoil

     * xstream


    8、Coding...

    查看代码
    
    package com.mzule.doc2html.util;
    
    import java.io.BufferedReader;
    import java.io.File;
    import java.io.FileInputStream;
    import java.io.FileNotFoundException;
    import java.io.IOException;
    import java.io.InputStreamReader;
    import java.net.ConnectException;
    import java.util.Date;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    
    import com.artofsolving.jodconverter.DocumentConverter;
    import com.artofsolving.jodconverter.openoffice.connection.OpenOfficeConnection;
    import com.artofsolving.jodconverter.openoffice.connection.SocketOpenOfficeConnection;
    import com.artofsolving.jodconverter.openoffice.converter.OpenOfficeDocumentConverter;
    
    /**
     * 将Word文档转换成html字符串的工具类
     * 
     * @author MZULE
     * 
     */
    public class Doc2Html {
    
        public static void main(String[] args) {
        System.out
            .println(toHtmlString(new File("C:/test/test.doc"), "C:/test"));
        }
    
        /**
         * 将word文档转换成html文档
         * 
         * @param docFile
         *                需要转换的word文档
         * @param filepath
         *                转换之后html的存放路径
         * @return 转换之后的html文件
         */
        public static File convert(File docFile, String filepath) {
        // 创建保存html的文件
        File htmlFile = new File(filepath + "/" + new Date().getTime()
            + ".html");
        // 创建Openoffice连接
        OpenOfficeConnection con = new SocketOpenOfficeConnection(8100);
        try {
            // 连接
            con.connect();
        } catch (ConnectException e) {
            System.out.println("获取OpenOffice连接失败...");
            e.printStackTrace();
        }
        // 创建转换器
        DocumentConverter converter = new OpenOfficeDocumentConverter(con);
        // 转换文档问html
        converter.convert(docFile, htmlFile);
        // 关闭openoffice连接
        con.disconnect();
        return htmlFile;
        }
    
        /**
         * 将word转换成html文件,并且获取html文件代码。
         * 
         * @param docFile
         *                需要转换的文档
         * @param filepath
         *                文档中图片的保存位置
         * @return 转换成功的html代码
         */
        public static String toHtmlString(File docFile, String filepath) {
        // 转换word文档
        File htmlFile = convert(docFile, filepath);
        // 获取html文件流
        StringBuffer htmlSb = new StringBuffer();
        try {
            BufferedReader br = new BufferedReader(new InputStreamReader(
                new FileInputStream(htmlFile)));
            while (br.ready()) {
            htmlSb.append(br.readLine());
            }
            br.close();
            // 删除临时文件
            htmlFile.delete();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        // HTML文件字符串
        String htmlStr = htmlSb.toString();
        // 返回经过清洁的html文本
        return clearFormat(htmlStr, filepath);
        }
    
        /**
         * 清除一些不需要的html标记
         * 
         * @param htmlStr
         *                带有复杂html标记的html语句
         * @return 去除了不需要html标记的语句
         */
        protected static String clearFormat(String htmlStr, String docImgPath) {
        // 获取body内容的正则
        String bodyReg = "<BODY .*</BODY>";
        Pattern bodyPattern = Pattern.compile(bodyReg);
        Matcher bodyMatcher = bodyPattern.matcher(htmlStr);
        if (bodyMatcher.find()) {
            // 获取BODY内容,并转化BODY标签为DIV
            htmlStr = bodyMatcher.group().replaceFirst("<BODY", "<DIV")
                .replaceAll("</BODY>", "</DIV>");
        }
        // 调整图片地址
        htmlStr = htmlStr.replaceAll("<IMG SRC=\"", "<IMG SRC=\"" + docImgPath
            + "/");
        // 把<P></P>转换成</div></div>保留样式
        // content = content.replaceAll("(<P)([^>]*>.*?)(<\\/P>)",
        // "<div$2</div>");
        // 把<P></P>转换成</div></div>并删除样式
        htmlStr = htmlStr.replaceAll("(<P)([^>]*)(>.*?)(<\\/P>)", "<p$3</p>");
        // 删除不需要的标签
        htmlStr = htmlStr
            .replaceAll(
                "<[/]?(font|FONT|span|SPAN|xml|XML|del|DEL|ins|INS|meta|META|[ovwxpOVWXP]:\\w+)[^>]*?>",
                "");
        // 删除不需要的属性
        htmlStr = htmlStr
            .replaceAll(
                "<([^>]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:'[^']*'|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>",
                "<$1$2>");
        return htmlStr;
        }
    
    }

    类组织的不好,博友凑合看,代码注释比较详细了,不多说。

    两个公开的方法是独立使用的,toHtmlString(...)方法是转化文件并获取html代码,以备存入数据库。

    参考了 http://dangry.iteye.com/blog/858787,表示感谢。
    展开全文
  • 很易用的PDF格式转换器,支持PDF转换Word/DOC、PDF转换图片格式( JPG/BMP/GIF/PNG/TIF)、PDF转换TXT、PDF转换HTML、PDF转换Flash/SWf
  • 段很短的代码,可以将word转html格式的代码,当然word自己也带的,另存为里面就有的,喜欢的朋友可以试试。
  • 为什么会想起来将上传的word文档转换成html格式呢?设想,如果一个系统需要发布在页面的文章都是来自word文档,一般会执行下面的流程:使用word打开文档,Ctrl+A,进入发布文章页面,Ctrl+V。看起来也不麻烦,但是,...

    为什么会想起来将上传的word文档转换成html格式呢?设想,如果一个系统需要发布在页面的文章都是来自word文档,一般会执行下面的流程:使用word打开文档,Ctrl+A,进入发布文章页面,Ctrl+V。看起来也不麻烦,但是,如果文档中包含大量图片呢?尴尬的事是图片都需要重新上传吧?

    如果可以将已经编写好的word文档上传到服务器就可以在相应页面进行展示,将会是一件非常惬意的事情,最起码信息发布人员会很开心。程序员可能就不会这么想了,囧。

    将Word转Html的原理是这样的:

    1、客户上传Word文档到服务器

    2、服务器调用OpenOffice程序打开上传的Word文档

    3、OpenOffice将Word文档另存为Html格式

    4、Over

    至此可见,这要求服务器端安装OpenOffice软件,其实也可以是MS Office,不过OpenOffice的优势是跨平台,你懂的。恩,说明一下,本文的测试基于 MS Win7 Ultimate X64 系统。

    下面就是规规矩矩的实现。

    1、下载OpenOffice,http://download.openoffice.org/index.html So easy...

    2、下载Jodconverter http://www.artofsolving.com/opensource/jodconverter 这是一个开启OpenOffice进行格式转化的第三方jar包。

    3、泡杯热茶,等待下载。

    4、安装OpenOffice,安装结束后,调用cmd,启动OpenOffice的一项服务:C:\Program Files (x86)\OpenOffice.org 3\program>soffice -headless -accept="socket,port=8100;urp;"

    5、打开eclipse

    6、喝杯热茶,等待eclipse打开。

    7、新建eclipse项目,导入Jodconverter/lib 下得jar包。

    8、Coding...

    查看代码
    package com.mzule.doc2html.util;
    
    import java.io.BufferedReader;
    import java.io.File;
    import java.io.FileInputStream;
    import java.io.FileNotFoundException;
    import java.io.IOException;
    import java.io.InputStreamReader;
    import java.net.ConnectException;
    import java.util.Date;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    
    import com.artofsolving.jodconverter.DocumentConverter;
    import com.artofsolving.jodconverter.openoffice.connection.OpenOfficeConnection;
    import com.artofsolving.jodconverter.openoffice.connection.SocketOpenOfficeConnection;
    import com.artofsolving.jodconverter.openoffice.converter.OpenOfficeDocumentConverter;
    
    /**
     * 将Word文档转换成html字符串的工具类
     * 
     * @author MZULE
     * 
     */
    public class Doc2Html {
    
        public static void main(String[] args) {
        System.out
            .println(toHtmlString(new File("C:/test/test.doc"), "C:/test"));
        }
    
        /**
         * 将word文档转换成html文档
         * 
         * @param docFile
         *                需要转换的word文档
         * @param filepath
         *                转换之后html的存放路径
         * @return 转换之后的html文件
         */
        public static File convert(File docFile, String filepath) {
        // 创建保存html的文件
        File htmlFile = new File(filepath + "/" + new Date().getTime()
            + ".html");
        // 创建Openoffice连接
        OpenOfficeConnection con = new SocketOpenOfficeConnection(8100);
        try {
            // 连接
            con.connect();
        } catch (ConnectException e) {
            System.out.println("获取OpenOffice连接失败...");
            e.printStackTrace();
        }
        // 创建转换器
        DocumentConverter converter = new OpenOfficeDocumentConverter(con);
        // 转换文档问html
        converter.convert(docFile, htmlFile);
        // 关闭openoffice连接
        con.disconnect();
        return htmlFile;
        }
    
        /**
         * 将word转换成html文件,并且获取html文件代码。
         * 
         * @param docFile
         *                需要转换的文档
         * @param filepath
         *                文档中图片的保存位置
         * @return 转换成功的html代码
         */
        public static String toHtmlString(File docFile, String filepath) {
        // 转换word文档
        File htmlFile = convert(docFile, filepath);
        // 获取html文件流
        StringBuffer htmlSb = new StringBuffer();
        try {
            BufferedReader br = new BufferedReader(new InputStreamReader(
                new FileInputStream(htmlFile)));
            while (br.ready()) {
            htmlSb.append(br.readLine());
            }
            br.close();
            // 删除临时文件
            htmlFile.delete();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        // HTML文件字符串
        String htmlStr = htmlSb.toString();
        // 返回经过清洁的html文本
        return clearFormat(htmlStr, filepath);
        }
    
        /**
         * 清除一些不需要的html标记
         * 
         * @param htmlStr
         *                带有复杂html标记的html语句
         * @return 去除了不需要html标记的语句
         */
        protected static String clearFormat(String htmlStr, String docImgPath) {
        // 获取body内容的正则
        String bodyReg = "<BODY .*</BODY>";
        Pattern bodyPattern = Pattern.compile(bodyReg);
        Matcher bodyMatcher = bodyPattern.matcher(htmlStr);
        if (bodyMatcher.find()) {
            // 获取BODY内容,并转化BODY标签为DIV
            htmlStr = bodyMatcher.group().replaceFirst("<BODY", "<DIV")
                .replaceAll("</BODY>", "</DIV>");
        }
        // 调整图片地址
        htmlStr = htmlStr.replaceAll("<IMG SRC=\"", "<IMG SRC=\"" + docImgPath
            + "/");
        // 把<P></P>转换成</div></div>保留样式
        // content = content.replaceAll("(<P)([^>]*>.*?)(<\\/P>)",
        // "<div$2</div>");
        // 把<P></P>转换成</div></div>并删除样式
        htmlStr = htmlStr.replaceAll("(<P)([^>]*)(>.*?)(<\\/P>)", "<p$3</p>");
        // 删除不需要的标签
        htmlStr = htmlStr
            .replaceAll(
                "<[/]?(font|FONT|span|SPAN|xml|XML|del|DEL|ins|INS|meta|META|[ovwxpOVWXP]:\\w+)[^>]*?>",
                "");
        // 删除不需要的属性
        htmlStr = htmlStr
            .replaceAll(
                "<([^>]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:'[^']*'|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>",
                "<$1$2>");
        return htmlStr;
        }
    
    }

    类组织的不好,博友凑合看,代码注释比较详细了,不多说。

    两个公开的方法是独立使用的,toHtmlString(...)方法是转化文件并获取html代码,以备存入数据库。

    参考了http://dangry.iteye.com/blog/858787,表示感谢

    展开全文
  • 使用Java将HTML转成Word格式文件

    万次阅读 2018-06-14 09:18:49
    转载自 使用Java将HTML转成Word格式文件import java.io.ByteArrayInputStream; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import org.apache.poi.poifs.filesystem....

    转载自  使用Java将HTML转成Word格式文件

    import java.io.ByteArrayInputStream;
    import java.io.File;
    import java.io.FileOutputStream;
    import java.io.IOException;
    
    import org.apache.poi.poifs.filesystem.DirectoryEntry;
    import org.apache.poi.poifs.filesystem.DocumentEntry;
    import org.apache.poi.poifs.filesystem.POIFSFileSystem;
    
     
    
    public class HtmlToWord {
    
     public static boolean writeWordFile() {
    
      boolean w = false;
      String path = "c:/";
      
      try {
       if (!"".equals(path)) {
        
        // 检查目录是否存在
        File fileDir = new File(path);
        if (fileDir.exists()) {
         
         // 生成临时文件名称
         String fileName = "a.doc";
         String content = "<html>" +
               "<head>你好</head>" +
              "<body>" +
                "<table>" +
                 "<tr>" +
                  "<td>信息1</td>" +              
                  "<td>信息2</td>" +              
                  "<td>t3</td>" +              
                 "<tr>" +
                "</table>" +
                "</body>" +
                "</html>";
         
         byte b[] = content.getBytes();
         ByteArrayInputStream bais = new ByteArrayInputStream(b);
         POIFSFileSystem poifs = new POIFSFileSystem();
         DirectoryEntry directory = poifs.getRoot();
         DocumentEntry documentEntry = directory.createDocument("WordDocument", bais);
         FileOutputStream ostream = new FileOutputStream(path+ fileName);
         poifs.writeFilesystem(ostream);
         bais.close();
         ostream.close();
         
        }
       }
    
      } catch (IOException e) {
       e.printStackTrace();
      }
    
      return w;
     }
     
     public static void main(String[] args){
      writeWordFile();
     }
     
    }

    展开全文
  • 利用POI将word转换成html实现在线阅读
  • word文档自动转成html格式

    千次阅读 2011-05-20 16:58:00
    1.准备工作 需要一个...相关代码: 1)格式转换类: @Controller @SessionAttributes("userSession") public class WordToHtmlController { private Logger logger = Logger.getL
  • 把jacob.jar加载到工程里。 在C:\WINDOWS\system32;C:\Program Files\Java\jdk1.5.0_04\bin;C:\Program Files\Java\jdk1.5.0_04\jre\bin;下添加jacob.dll文件。 OfficeToXML.java文件是实现代码。...
  • word转html

    2016-12-30 16:44:00
    word文件转为html格式,支持图片抽取
  • Python:将Word转成HTML

    千次阅读 2019-01-29 13:29:55
    图片在转换结果中,会以Base64编码的方式编码。...html = PyDocX.to_html("test.docx") f = open("test.html", 'w', encoding="utf-8") f.write(html) f.close() 通过网页上传...
  • C#将word转换为HTML格式

    千次阅读 2017-11-21 11:28:00
    假如C盘有个简历,AA.doc,我把它转化为html StringBuilder sb=newStringBuilder();Microsoft.Office.Interop.Word.ApplicationClass appclass =newMicrosoft.Office.Interop....
  • word格式转html文件

    2010-12-01 16:57:39
    word格式转html文件,用word软件打开即可使用。
  • word转换成html

    千次阅读 2013-06-17 15:21:47
    word转换成html,然后在qt中将html显示出来。 其中先要将word文档解析xml文档,这里需要base64方法,具体介绍如下: Base64是一种基于64个可打印字符来表示二进制数据的表示方法。由于2的6次方等于64,所以每6个...
  • java word2007转html word2003转html 下载下来直接可以用 包含所有jar
  • 批量的把html 文件转换成word,不需要电脑上有word软件!并且支持本地图片,html链接的图片必须在本地,可以把图片转换到word里!
  • pdf转换成word转换器免费版是一款专业的pdf转换成word软件,完美支持pdf文件转换成word文档,转换后可再次编辑,支持图文混合排版,支持表格转换,支持...pdf转换成word转换器是一款小巧、方便且免费的pdf转Word工具...
  • word批量转换成html

    千次阅读 2015-09-25 11:36:50
    制作chm,首先得将一个个word文档拆分,然后将其转换成html格式,该项目的用户手册word版就有800多页呢,拆word后,,一个个手动转换html么。百度了一下如何批量转换,没找到合适的方法(搜索方式有问题么
  • java实现在线预览--poi实现word、excel、ppt转html

    万次阅读 多人点赞 2019-07-31 18:39:43
    java实现在线预览- -之poi实现word、excel、ppt转html
  • 主要介绍了Java实现将word转换为html的方法,结合实例形式分析了java针对doc与docx格式文件的相关转换操作技巧,需要的朋友可以参考下
  • C#.NET Word 转成 Html

    千次阅读 2014-03-25 16:29:25
     这是我google后参考前辈的代码自己写了一段word转html的代码,记录一下自己的学习经历。 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Th
  • Java把html转成word

    万次阅读 2016-06-03 11:04:48
    Java把html转成word
  • 完美解决doc、docx格式word转换为Html

    热门讨论 2015-09-27 16:57:53
    由于项目需要,需要在线预览文档,所以就想转换为htmL格式; 此项目为maven项目,引入的包可能需要一些时间; maven项目转换为eclipse项目命令是:mvn eclipse:eclipse,然后导入到eclipse; jar引入完成后,绝对100...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 89,394
精华内容 35,757
关键字:

word转成html格式