精华内容
下载资源
问答
  • Java 读取word文件内容

    2019-10-16 10:33:26
    public static String getDocx(String uri){ //解析docx模板并获取document对象 XWPFDocument document;... //获取XWPFRun对象输出整个文本内容 StringBuffer tempText = new StringBuffer(); try ...
    public static String getDocx(String uri){
            //解析docx模板并获取document对象
            XWPFDocument document;
            //获取XWPFRun对象输出整个文本内容
            StringBuffer tempText = new StringBuffer();
            try {
                document = new XWPFDocument(POIXMLDocument.openPackage(uri));
            //获取整个文本对象
            List<XWPFParagraph> allParagraph = document.getParagraphs();
            for (XWPFParagraph xwpfParagraph : allParagraph) {
                    List<XWPFRun> runList = xwpfParagraph.getRuns();
                    for (XWPFRun xwpfRun : runList) {
                        tempText.append(xwpfRun.toString());
                    }
            }
            Document doc = Jsoup.parse(tempText.toString());
    		if (doc == null) {
    			return null;
    		}
    		// 获取
    		Elements matchElements = doc.select("evaluation");
    		Iterator<Element> i = matchElements.iterator();
    		//测评标题
    		String title = "";
    		//测评题目
    		List<String> question_arry=new ArrayList<String>();
    		//问题对应的选项
    		List<String> optionContent_arry=new ArrayList<String>();
    		//选项对应的权值
    		List<String> option_scoreArry=new ArrayList<String>();
    
    		while (i.hasNext()) {
    			Element el = i.next();
    			title = el.select("title").text();
    			
    			Elements tm = doc.select("tm");
    			Iterator<Element> j = tm.iterator();
    			while (j.hasNext()) {
    				Element el_tm = j.next();
    				question_arry.add(el_tm.select("tm1").text());
    				//获取选项
    				Elements tm_xx = el_tm.select("option");
    				Iterator<Element> k = tm_xx.iterator();
    				String option = "";
    				String score = "";
    				while (k.hasNext()) {
    					Element el_xx = k.next();
    					option = option+el_xx.text()+"#";
    					score = score+el_xx.attr("score")+"#";
    				}
    				optionContent_arry.add(option.substring(0, option.length()-1));
    				option_scoreArry.add(score.substring(0, score.length()-1));
    			}
    		}
    		System.out.println("测评标题:"+title);
    		System.out.println("测评标题:"+question_arry);
    		System.out.println("测评选项:"+optionContent_arry);
    		System.out.println("选项权值:"+option_scoreArry);
           /* //存放文档新地址
            String newPath="";
            //读取源文档内容到新文档
            File file = new File(newPath);
            if(!file.getParentFile().exists()){
                file.getParentFile().mkdir();
                file.getParentFile().createNewFile();
            }
            FileOutputStream stream = new FileOutputStream(newPath);
            document.write(stream);//写入新文档
            stream.close();*/
            
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
            //文档内容
            return tempText.toString();
        }

    下面附上我本地的word文件内容

    <evaluation>
    <title class="one">关于个人喜好的测试</title>
    <tm>
    <tm1>你多少岁啦</tm1>
    <option score="15">10</option>
    <option score="25">12</option>
    <option score="35">14</option>
    <option score="45">16</option>
    </tm>
    <tm>
    <tm1>你喜欢什么颜色</tm1>
    <option score="15">红色</option>
    <option score="25">黑色</option>
    <option score="35">蓝色</option>
    <option score="45">白色</option>
    </tm>
    </evaluation>
    
    

     

    展开全文
  • 如图所示,假如我要读取word文件内容,业务概述存一行条数据,业务类型存一条数据,办理时限存一条数据,以此类推。那我读取word文件的时候改如何区分他们分别存入呢,不要问我为什么,因为有上万个这样的文档,手动...
  • java读取不同版本文档内容以及字体大小,实现对文档格式进行匹配!
  • 本代码实现使用Java程序读取word文档成网页,将word文档按原样在网页输出。项目编码为UTF-8,文件编码也是utf8,再不要说乱码这种骚话了,选择utf8加载项目就不会乱码
  • Java 读取Word文档中的文本内容

    万次阅读 2019-04-25 16:53:26
    这篇文章将介绍如何使用Free Spire.Doc for Java组件在Java应用程序中读取Word文档的文本内容。Free Spire.Doc for Java提供了两种方法来读取Word文档中的内容,一种是直接获取文档中的所有文本内容,另一种是遍历...

    这篇文章将介绍如何使用Free Spire.Doc for Java组件在Java应用程序中读取Word文档的文本内容。Free Spire.Doc for Java提供了两种方法来读取Word文档中的内容,一种是直接获取文档中的所有文本内容,另一种是遍历文档的每个段落,然后获取段落中的文本,下面将逐一介绍这两种方法。

    Word文档如下:

    导入jar文件

    在开始前,我们需要导入jar文件。下载Free Spire.Doc for Java并解压缩,然后从lib文件夹下,导入Spire.Doc.jar包到你的Java应用程序中。

    (对于maven工程,可以在pom.xml文件中添加对Free Spire.Doc for Java的依赖,参考这篇文章:如何通过Maven仓库安装Spire Java系列组件)

    示例代码

    方法一 直接获取所有文本

    Document类的getText()方法,支持直接获取整个Word文档的所有文本,两行代码就能搞定。

    import com.spire.doc.*;
    
    import java.io.IOException;
    
    public class TextReader {
        public static void main(String[] args) throws IOException {
            //加载Word文档
            Document doc = new Document("Input.docx");
    
            //获取文本
            System.out.println(doc.getText());
        }
    }

    方法二 遍历段落获取文本

    这种方式方法比方法一更加灵活,除了可以获取指定段落的文本外,还可以获取段落的其他属性比如字体、字体大小、对齐方式等。

    import com.spire.doc.*;
    import com.spire.doc.documents.Paragraph;
    
    import java.io.IOException;
    
    public class ParagraphReader {
        public static void main(String[] args) throws IOException {
            //加载Word文档 
            Document doc = new Document("Input.docx");
    
            //遍历文档中的节和段落,获取每个段落的文本         
            for(int i = 0; i < doc.getSections().getCount(); i++) {
                Section section = doc.getSections().get(i);
                for (int j = 0; j < section.getParagraphs().getCount(); j++) {
                    Paragraph paragraph = section.getParagraphs().get(j);
                    System.out.println(paragraph.getText());
                }
            }
        }
    }
    读取结果(内容太长,没有截全):

     

    展开全文
  • Java读取Word表格内容

    2018-06-09 22:07:28
    通过Java读取word表格中的内容,将内容存到数据库中,将Word中的图片存到硬盘中
  • Java读取Word文档

    2016-04-12 16:56:38
    Java读取Word文档
  • java 读取word文档中的内容 转载自“博客园”文章:https://www.cnblogs.com/braveym/p/13701204.html

    java 读取word文档中的内容

    转载自“博客园”文章:https://www.cnblogs.com/braveym/p/13701204.html

    展开全文
  • Java读取Word文档页数

    2017-10-19 10:19:59
    里面包含一个word转pdf的jar,和一个读取pdf的jar。可以实现Java读取Word文档的页数。
  • java读取word文档里面的内容(包括doc和docx格式)

    千次阅读 热门讨论 2019-11-30 20:19:47
    java读取word文档里面的内容(包括doc和docx格式) java读取word文档里面的内容(包括doc和docx格式),使用POI架包 使用的POI架包如下 poi-3.16.jar poi-examples-3.16.jar poi-excelant-3.16.jar poi-ooxml-3.16.jar ...

    java读取word文档里面的内容(包括doc和docx格式)

    java读取word文档里面的内容(包括doc和docx格式),使用POI架包

    使用的POI架包如下
    poi-3.16.jar
    poi-examples-3.16.jar
    poi-excelant-3.16.jar
    poi-ooxml-3.16.jar
    poi-ooxml-schemas-3.16.jar
    poi-scratchpad-3.16.jar

    目前POI的最新发布版本是3.10_FINAL.该版本保护的jar包有:
    在这里插入图片描述
    很多人都困惑POI那么多Jar到底应该导入哪一个。

    实际上很多时候我们只利用POI来操作Excel。甚至只用xls这一种格式。

    那么就没有必要全部都导入了。具体应该使用哪个JAR包请参考以下内容:
    在这里插入图片描述

    当我们只要使用xls格式时、只要导入poi-version-yyyymmdd.jar就可以了。

    当我们还要使用xlsx格式、还要导入poi-ooxml-version-yyyymmdd.jar。

    至于poi-ooxml-schemas-version-yyyymmdd.jar这个jar基本不太会用到的。

    当我们需要操作word、ppt、viso、outlook等时需要用到poi-scratchpad-version-yyyymmdd.jar。

    读取word文档中,doc后缀的文件

    直接上代码

    //读取word文档中,doc后缀的文件
    	public static List<String> searchWordDoc(String fileUrl){
    		List<String> docList = new ArrayList<String>();
    		String content=null;
    		//读取字节流,读取文件路径
    		InputStream input = null;
    		try {
    			input = new FileInputStream(new File(request.getSession().getServletContext().getRealPath(fileUrl)));
    			WordExtractor wex = new WordExtractor(input);
    			content = wex.getText();
    			//System.out.println(content);
    			docList.add(content);
    		} catch (Exception e) {
    			e.printStackTrace();
    		}
    		return docList;
    	}
    
    

    将文件路径传进来,最后得到的使一个List集合,是一行一行的读取,每一行的内容对应List的下标

    读取word文档中,docx后缀的文件

    直接上代码

    	public static List<String> searchWordDocX(String fileUrl){
    		//读取文件路径
    		OPCPackage opcPackage = null;
    		String content = null;
    		List<String> docxList = new ArrayList<String>();
    		try {
    			opcPackage = POIXMLDocument.openPackage(request.getSession().getServletContext().getRealPath(fileUrl));
    			XWPFDocument xwpf = new XWPFDocument(opcPackage);
    			POIXMLTextExtractor poiText = new XWPFWordExtractor(xwpf);
    			content = poiText.getText();
    			docxList.add(content);
    		} catch (IOException e) {
    			e.printStackTrace();
    		}
    		return docxList;
    	}
    
    

    将文件路径传进来,最后得到的使一个List集合,是一行一行的读取,每一行的内容对应List的下标

    最后附上jar包下载位置

    百度网盘:https://pan.baidu.com/s/1Y4BLto_mEUkS7Xhx1GJmzA
    提取码:vor5

    展开全文
  • java利用poi读取word文档内容所依赖的jar包。poi可以读取doc、docx格式文档。
  • Java读取word文档

    千次阅读 2017-04-07 15:21:49
    读取word文档
  • </dependency> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-scratchpad</artifactId> <version>4.0.0</version> </dependency> 第一种java后台接收的是文件路径 public String readWord(String...
  • java读取word文档

    2011-11-13 14:23:27
    java可以快速读取word里面的内容,如题所示
  • jacob官方文档,java读取word文档
  • java 读取word文件

    2009-11-07 10:48:37
    java io读取word文件的基本操作 简单易用 其中用到组件tm-extractors-0.4.jar 说明:需要把tm-extractors-0.4.jar放到类路径下面
  • java读取word文档.doc

    2011-01-11 15:08:44
    java读取word文档 这是我收集的资料 加以汇总 希望对你有用~~
  • 主要介绍了使用Java读取Word文件的简单例子分享,包括读取word文件的表格数据的示例,需要的朋友可以参考下
  • Java读取word文件

    2017-08-19 10:24:37
    Java读取word文件需要使用Apache poi.jar,可以在这里下载点击打开链接 代码如下: package com.ssh.util; import java.io.File; import java.io.FileInputStream; import java.io.InputStream; import org....
  • Java读取Word文档

    2019-09-19 08:24:29
    1.下载pageoffice3.jar(http://zhuozhengsoft.com/PageOffice/) 2.add pageoffice3.jar to Library 3.创建POI对象 PoiParseWord poiParseWord=new PoiParseWord... 其他操作看文档API调用即可,此处只点出基本步骤
  • [Java] Java读取Word文档

    2017-08-16 11:28:00
    最近需要做一些NLP 方面的工作,使用的是Java,在此总结一下使用Java读取Word(.doc)格式文件的方法。 Apache基金会非常厉害,开源工具包POI就可以处理微软家的文档,甚至包括Excel和PowerPoint。我们就使用POI来做...
  • import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import org.apache.poi.hwpf.HWPFDocument; impo...
  • java读取word内容

    2018-01-24 13:49:03
    暂时只写读取word内容的方法。 依赖的jar: poi-3.9-20121203.jar poi-ooxml-3.9-20121203.jar xmlbeans-2.3.0.jar   package com.word; import java.io.File; import java.io.FileInputStream; ...
  • 这几天一直都在做用java读取关于办公软件内容的事 很是让你麻烦 在网上找了好多 都不怎么好使 现在我将我自己考虑到的东东 和大家分享 package AttainContent; /*****显示Word中的内容*******/ import java....

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 53,376
精华内容 21,350
关键字:

java读取word文档内容

java 订阅