精华内容
下载资源
问答
  • doc转html小工具

    2015-04-27 19:35:13
    doc转html小工具,VC++编写,
  • doc转html的php程序

    2015-08-11 14:41:29
    简单的doc文件html文件格式 但是有个别doc文档不了 docx的也不了
  • 通过aspose word for java 将doc 转html

    千次阅读 2019-05-14 18:01:58
    通过aspose word for java 将doc 转html 遇到图片失真变形问题,原因是由于doc读取其中矢量图时将它们默认转化成png格式,由此变形导致的; 解决方案:使用高版本jar包 设置适量文件类型为不转换方式; ...

    通过aspose word for java 将doc 转html
    遇到图片失真变形问题,原因是由于doc读取其中矢量图时将它们默认转化成png格式,由此变形导致的;
    解决方案:使用高版本jar包 设置适量文件类型为不转换方式;
    HtmlSaveOptions saveOptions = new HtmlSaveOptions(SaveFormat.HTML);
    saveOptions.setMetafileFormat(HtmlMetafileFormat.EMF_OR_WMF);
    这样保证html中图片格式不发生变化;但是出现对于wmf格式浏览器不显示问题;我的解决方案是,转html过程将wmf格式在程序中生成jpeg格式并上传后并替换wmf文件;
    希望大神指点。。。

    展开全文
  • 转载请注明出处。原文地址:... doc转html获取带样式内容,并在ueditor中显示 工具类: 获取返回的内容,存到数据库。 package com.wb.core.utils; import org.apache.poi.hwpf.HWPFDocument; import...

    转载请注明出处。原文地址:https://blog.csdn.net/qq_39098505/article/details/81541191

    doc转html获取带样式内容,并在ueditor中显示

    工具类:

    获取返回的内容,存到数据库。

    package com.wb.core.utils;
    import org.apache.poi.hwpf.HWPFDocument;
    import org.apache.poi.hwpf.converter.WordToHtmlConverter;
    import org.apache.poi.xwpf.converter.xhtml.XHTMLConverter;
    import org.apache.poi.xwpf.converter.xhtml.XHTMLOptions;
    import org.apache.poi.xwpf.usermodel.XWPFDocument;
    import org.w3c.dom.Document;
    
    import javax.xml.parsers.DocumentBuilderFactory;
    import javax.xml.parsers.ParserConfigurationException;
    import javax.xml.transform.OutputKeys;
    import javax.xml.transform.Transformer;
    import javax.xml.transform.TransformerException;
    import javax.xml.transform.TransformerFactory;
    import javax.xml.transform.dom.DOMSource;
    import javax.xml.transform.stream.StreamResult;
    import java.io.*;
    public class DocToHtml {
    	public static void main(String argv[]) {
            try {
            	String content=wordToHtml("D:\\a.doc");
            	System.out.println(content);
            	String content1=wordToHtml("D:\\b.docx");
            	System.out.println(content1);
            } catch (Exception e) {
                e.printStackTrace();
            }        	     
        }   
    	 public static String wordToHtml(String filePath) throws Exception{
    		 if(filePath.endsWith(".doc")){
    			 String content=convert2Html(filePath);
    			 return content;
    		 }
    		 if(filePath.endsWith(".docx")){
    			 String content=docxToHtml(filePath);
    			 return content;
    		 }
    		 return null;
    	 }
    	//docx转html
    	//生成html文件
    	//输出html标签和内容
        public static String docxToHtml(String sourceFileName) throws Exception {
        	String htmlPath=sourceFileName.substring(0,sourceFileName.indexOf("."))+".html";
    		XWPFDocument document = new XWPFDocument(new FileInputStream(sourceFileName));
    		XHTMLOptions options = XHTMLOptions.create().indent(4);
    		File outFile = new File(htmlPath);
    		outFile.getParentFile().mkdirs();
    		OutputStream out = new FileOutputStream(outFile);
    		XHTMLConverter.getInstance().convert(document,out, options);		
    		ByteArrayOutputStream baos = new ByteArrayOutputStream();
    		XHTMLConverter.getInstance().convert(document, baos, options); 				
    		baos.close();
    		String content =new String(baos.toByteArray());
    		//替换UEditor无法识别的转义字符
    		String htmlContent1=content.replaceAll("“","\"").replaceAll("”","\"").replaceAll("—","-");
    		return htmlContent1;    	
        }
        //doc 转 html 
        public static String convert2Html(String fileName)
                throws TransformerException, IOException,
                ParserConfigurationException {
    
            HWPFDocument wordDocument = new HWPFDocument(new FileInputStream(fileName));//WordToHtmlUtils.loadDoc(new FileInputStream(inputFile));
             //兼容2007 以上版本
            WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
                    DocumentBuilderFactory.newInstance().newDocumentBuilder()
                            .newDocument());
            wordToHtmlConverter.processDocument(wordDocument);
            //解析html
            Document htmlDocument = wordToHtmlConverter.getDocument();      
            ByteArrayOutputStream out = new ByteArrayOutputStream();
            DOMSource domSource = new DOMSource(htmlDocument);      
            StreamResult streamResult = new StreamResult(out);
            TransformerFactory tf = TransformerFactory.newInstance();
            Transformer serializer = tf.newTransformer();    
            serializer.setOutputProperty(OutputKeys.ENCODING, "GB2312");
            serializer.setOutputProperty(OutputKeys.INDENT, "yes");
            serializer.setOutputProperty(OutputKeys.METHOD, "HTML");
            serializer.transform(domSource, streamResult);
            out.close();
            String htmlContent=new String(out.toByteArray());
            //替换UEditor无法识别的转义字符
            String htmlContent1=htmlContent.replaceAll("“","\"").replaceAll("”","\"").replaceAll("—","-");       
            return htmlContent1;
        }
       
    }
    

     

    1.在ueditor.all.js文件内搜索allowDivTransToP,找到如下的代码,将true设置为false,即不使用默认的过滤处理,默认是过滤掉html,style的。

     2.在下边的addInputRule方法中将switch代码段中的case style,script都给注释或者删掉,防止UEditor将html,<style>转化成其他标签

    3.在ueditor.config.js中添加xss的白名单html,head,body,style,不过滤这些标签,就可以在UEditor上显示样式。

    注意:如果还是不显示样式,看下引入的是不是ueditor.all.js。

    展开全文
  • doc转html在tomcat8下乱码

    千次阅读 2017-07-03 09:26:43
    项目中有使用WordToHtmlConverter将word文档HTML页面的功能,在tomcat6中运行没有问题,最近迁移到tomcat8后出现了乱码问题,docx正常但是doc文档转html会出现乱码。使用sublimetext直接打开生成的jsp页面是乱码...

    项目中有使用WordToHtmlConverter将word文档转成HTML页面的功能,在tomcat6中运行没有问题,最近迁移到tomcat8后出现了乱码问题,docx正常但是doc文档转html会出现乱码。

    使用sublimetext直接打开生成的jsp页面是乱码的但是装上ConvertToUTF8插件是可以转成正常文字的

    TransformerFactory tf = TransformerFactory.newInstance();  
    Transformer serializer = tf.newTransformer();  
    serializer.setOutputProperty(OutputKeys.ENCODING, "GB2312");  
    serializer.setOutputProperty(OutputKeys.INDENT, "yes");  
    serializer.setOutputProperty(OutputKeys.METHOD, "html");  
    serializer.transform(domSource, streamResult);  
    out.close();  
    writeFile(new String(out.toByteArray()), outPutFile);  
    File file = new File(path);
    fos = new FileOutputStream(file);
    bw = new BufferedWriter(new OutputStreamWriter(fos,"GB2312"));

    测试将上面两处设计字符编码的地方都修改成utf-8,生成的文件乱码并且无法转成正常文字,推测doc文档转html代码后默认使用GB2312,为什么在运行后的页面上显示乱码还不知道,但是发现转换成的jsp页面头部少一行代码:

    <%@ page language='java' contentType='text/html; charset=GB2312' pageEncoding='utf-8'%>

    于是在写文件之前将这行代码加在new String(out.toByteArray())前面就可以在页面上显示正常的文字了。

    展开全文
  • linux下实现doc转html

    千次阅读 2018-09-15 21:57:37
    1. 概述 windows下借助.net好解决这个问题. 尝试python java php 都被... ...soffice --headless --convert-to html:HTML test.doc soffice --headless --convert-to pdf:PDF test.doc 支持的类型: ...自 ...

    1. 概述

    windows下借助.net好解决这个问题.

    尝试python java php 都被坑了,尤其是docx之前的word版本。

    最终解决办法:libreoffice

    2. 安装

    yum install libreoffice libreoffice-headless

    源码:

    http://downloadarchive.documentfoundation.org/libreoffice/old/3.4.5.2/

    3. 使用

    soffice --headless --convert-to html:HTML test.doc

    soffice --headless --convert-to pdf:PDF test.doc

    支持的类型:

    https://ask.libreoffice.org/en/question/2641/convert-to-command-line-parameter/

    https://cgit.freedesktop.org/libreoffice/core/tree/filter/source/config/fragments/filters

    可以加--outdir指定输出目录

    输出pdf中文会有乱码,博客有说法是没有中文字体库

    http://www.cnblogs.com/heimirror/p/3792460.html

    转自 快问文档 www.kuaiwen.net 

    展开全文
  • apach poi实现doc转html图片显示问题

    千次阅读 2016-08-12 16:36:07
    图片显示不出来,官方文档说了暂时没提供图片显示功能,需要自己去实现,我在stackoverflow上找到的一段代码,解决了这个问题InlineImageWordToHtmlConverter.javapackage com.gildata.poi;import java.util.Base64;...
  • python实现doc转docx,以及docx转html

    千次阅读 2020-04-08 21:50:54
    python里面实现doc转html貌似有点麻烦,这里先把doc转为docx,然后再转为html,代码如下 import win32com.client as wc # doc转docx用 from pydocx import PyDocX # docx转html用 ''' doc文件docx文件 ...
  • Doc、DocxHTML

    千次阅读 2017-07-27 15:41:03
    如何将doc、docx、txt、srt、lrc格式的文件HTML呢? doc转HTML需要用到Java写的 POIOfficeTool.exe 直接上代码: doc、docx转HTML public void Doc2Html(string srcFilePath, string targetFilePath) { ...
  • poi-tl实现根据模板生成合同和html转docdoc转docx的Demo,可以直接运行,jdk1.8, poi-tl 是新的1.6版本的,
  • [python]wordpdf、doc转docx、word转html

    万次阅读 热门讨论 2018-03-07 10:58:44
    python Word文件转换为pdf文件(doc/docx文件转化为pdf文件)# -*- encoding: utf-8 -*- import os from win32...def doc2pdf(doc_name, pdf_name): """ :word文件pdf :param doc...
  • html 转doc文档

    千次阅读 2017-08-25 09:58:16
    html转doc的场景可能比较少见,但近期就遇到了一个,例如一份合同,需要后台不定期修改编辑,保存后,前端可直接下载doc。如果一份内容需要编辑,我能想到的就只有利用在线编辑器直接编辑html内容了,所以我考虑的...
  • Java 使用jacob ppt文件pptx,doc转docx
  • 文档格式转换(html2doc,html2pdf,ConvertDoc)
  • 如标题所示,Spire.Doc支持获取Word文档中段落(Paragraph)和文本范围(TextRange)的样式,例如标题(Title)、标题1(Heading 1)、副标题(Subtitle)等。当然,我们也可以根据标题样式获取对应的文本。在此基础...
  • doc/docx 批量转换html txt工具

    千次阅读 2019-12-06 15:30:33
    用python处理信息时经常需要面对doc/docx文档,这两者机制还不一样,偏偏拿到的文件既有doc格式又有docx的,很头疼。 python的第三方库python-docx适用于写入,但对于读取信息并不友好(python-docx会把每一行解析...
  • Aspose pdf html,doc,png 示例

    热门讨论 2013-01-10 18:25:02
    Aspose pdf html,doc,png 示例,可用,无码 surfsky.cnblogs.com
  • 主要介绍了Python实现将HTML转换成doc格式文件的方法,涉及Python htmlparser及docx模块的相关使用技巧,需要的朋友可以参考下
  • doc md

    千次阅读 2019-04-23 18:05:07
    有一个网站不错,在线的, 它会把图片成 base64编码,最好还是将图片保存一下,使用链接的方式,不然md文档太大。 https://word-to-markdown.herokuapp.com/ 使用 unoconv 和 pandoc (抄的,未验证) # 安装工具 ...
  • 如何将html网页转换成为一个doc文档? html页面通过查后台数据库显示出来一些值在页面上,在页面上面添加一个转换为doc文档的按钮。
  • python学习:HTML转换成doc

    千次阅读 2015-09-20 10:26:48
    python学习:HTML转换成doc网页上的一些文章,因为有格式的原因,它们在网页上的源码都是带有html标签的,用css来进行描述。本文利用HTML Parser和docx两个模块,对网页进行解析并存储到word文档中。转换出来的格式...
  • 完美解决doc、docx格式word转换为Html

    热门讨论 2015-09-27 16:57:53
    由于项目需要,需要在线预览文档,所以就想转换为htmL格式; 此项目为maven项目,引入的包可能需要一些时间; maven项目转换为eclipse项目命令是:mvn eclipse:eclipse,然后导入到eclipse; jar引入完成后,绝对100...
  • word完美转htmldoc、docx 图片base64编码)

    万次阅读 热门讨论 2019-08-20 14:43:04
    由于我选择将预览修改后的文档保存到S3里面,所以我选择将word中的图片直接成base64编码,上传到S3中,好处就是不需要额外的地方(例如 mongo)存储保存这些图片,缺点就是成的html文本的大小会比相应的word文件...
  • libreoffice6.0转换dochtml碰到的坑

    千次阅读 2018-08-17 14:48:15
    libreoffice6.0转换dochtml的命令是是这样的, libreoffice6.0 --invisible --convert-to html --outdir (目标文件夹) (源doc文件) 但是有一天,发现在Ubuntu环境转换出来的html文件和在linux环境转换出来...
  • 将word(doc、docx)转换成html 然后可以调用网页控件将其显示出来
  • xml格式的doc文档转html

    千次阅读 2018-01-29 11:29:07
    //讲转换后的结果输出到 stm 中即 F:\123.html Result result=new StreamResult(stm); //根据XSL文件创建准个转换对象 Transformer transformer=TransformerFactory.newInstance().newTransformer(template); /...
  • POI Word DOC格式转Html

    千次阅读 2013-07-18 10:23:30
    if (ext.equals("doc")) { fileInputStream = new FileInputStream(input); HWPFDocument hwpfDocument = new HWPFDocument(fileInputStream); Document document = DocumentBuilderFactory.new...
  • Html转Word(doc,docx),带样式以及图片转换,无缝对接
  • POI实现DOC/DOCX转HTML

    万次阅读 热门讨论 2014-03-13 13:59:52
    1.使用HWPF处理DOC public class DocToHtml { private static final String encoding = "UTF-8"; public static String convert2Html(String wordPath) throws FileNotFoundException, Tra

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 435,596
精华内容 174,238
关键字:

doc转html