精华内容
下载资源
问答
  • java读取doc

    2020-03-25 17:19:25
    import com.spire.doc.Document; import com.spire.doc.Section; import com.spire.doc.documents.Paragraph;...import java.io.File; import java.io.FileWriter; import java.io.IOException; i...
    package com.test;
    
    import com.spire.doc.Document;
    import com.spire.doc.Section;
    import com.spire.doc.documents.Paragraph;
    
    import java.io.File;
    import java.io.FileWriter;
    import java.io.IOException;
    import java.util.ArrayList;
    import java.util.Arrays;
    
    public class Main
    {
        /**
         * 获取文件下所有的文件路径
         *
         * @param path
         * @param listFileName
         */
        public static void getAllFileName(String path, ArrayList<String> listFileName) {
            File file = new File(path);
            File [] files = file.listFiles();
            String [] names = file.list();
            if(names != null) {
                String[] completNames = new String[names.length];
                for (int i = 0; i < names.length; i++) {
                    completNames[i] = path + "\\" + names[i];
                }
                listFileName.addAll(Arrays.asList(completNames));
            }
    
            for(File a:files){
                if(a.isDirectory()){
                    getAllFileName(a.getAbsolutePath()+"\\", listFileName);
                }
            }
        }
    
        /**
         * 获取word文档中的文本内容
         *
         * @param filePath 文件路径
         * @return word文档中的文本内容
         */
        private static String getDocText(String filePath) {
            Document document = new Document();
            document.loadFromFile(filePath);
            //获取文档中的文本保存为String
            String text = document.getText();
            int len = text.length();
            int firstIndex = text.indexOf("JAVA");
            if(firstIndex != -1){
                return text.substring(text.indexOf("JAVA")+5, len);
            }else{
                return text;
            }
        }
    
        public static void writeIntoFile(String content, String txtFileName ) {
            FileWriter fWriter= null;
            try {
                fWriter = new FileWriter(txtFileName,true);
            } catch (IOException e) {
                e.printStackTrace();
            }
            try {
                fWriter.write(content);
            }catch(IOException ex){
                ex.printStackTrace();
            }finally{
                try{
                    fWriter.flush();
                    fWriter.close();
                } catch (IOException ex) {
                    ex.printStackTrace();
                }
            }
        }
    
        public static void main(String args[] ) throws IOException {
            ArrayList<String> listFileNames = new ArrayList<String>();
            getAllFileName("F:\\data\\401-500", listFileNames);
            for(String name:listFileNames){
              if( name.indexOf(".doc")!=-1 || name.indexOf(".docx")!=-1);
              String content = getDocText(name);
              String name_id = name.substring(name.indexOf(".")-3, name.indexOf("."));
              name_id = name_id.replaceFirst("^0*", "");
              String sql = "insert into pest.patient_report(name, report)  values('"+ name_id + "','" + content + "');\n";
              writeIntoFile(sql,"F:\\read_word_sql");
            }
        }
    }
    
    
    展开全文
  • java 读取doc

    2019-05-13 18:53:27
    //读取doc文件 publicStringreadWORD(Stringfile)throwsException{ StringreturnStr=""; try{ WordExtractorwordExtractor=newWordExtractor(newFileInputStream(newFile(file))); returnStr=wordEx...
    // 读取doc文件
    public String readWORD(String file) throws Exception {
    String returnStr = "";
    try {
    WordExtractor wordExtractor = new WordExtractor(new FileInputStream(new File(file)));
    returnStr = wordExtractor.getText();
    } catch (FileNotFoundException e) {
    e.printStackTrace();
    } catch (IOException e) {
    e.printStackTrace();
    }
    return returnStr;
    }
    
    public static void main(String[] args) throws  Exception {
    String textt=readWORD("E:\\work\\HBwork\\试卷说明.doc");
    System.out.println(textt);//读取的内容

    }

    //--------------------------------------

    导包:

    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-scratchpad</artifactId>
        <version>3.15</version>
    </dependency>

     

     

    展开全文
  • 本文永久地址:https://my.oschina.net/bysu/blog/1528130相关jar下载地址:...import java.io.FileInputStream;import org.apa...

    本文永久地址:https://my.oschina.net/bysu/blog/1528130

    相关jar下载地址:

    http://mirror.bit.edu.cn/apache/poi/dev/bin/poi-bin-3.17-beta1-20170701.tar.gz

    import java.io.File;

    import java.io.FileInputStream;

    import org.apache.poi.POIXMLDocument;

    import org.apache.poi.POIXMLTextExtractor;

    import org.apache.poi.hwpf.extractor.WordExtractor;

    import org.apache.poi.openxml4j.opc.OPCPackage;

    import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

    import org.apache.poi.xwpf.usermodel.XWPFDocument;

    public class ReadFromDoc {

    public static void main(String[] args) {

    System.out.println(readWord("D:\\workspace\\java\\大学英语.doc"));

    }

    public static String readWord(String filePath) {

    String text = "";

    File file = new File(filePath);

    // 2003

    if (file.getName().endsWith(".doc")) {

    try {

    FileInputStream stream = new FileInputStream(file);

    WordExtractor word = new WordExtractor(stream);

    text = word.getText();

    // 去掉word文档中的多个换行

    text = text.replaceAll("(\\r\\n){2,}", "\r\n");

    text = text.replaceAll("(\\n){2,}", "\n");

    stream.close();

    } catch (Exception e) {

    e.printStackTrace();

    }

    } else if (file.getName().endsWith(".docx")) { // 2007

    try {

    OPCPackage oPCPackage = POIXMLDocument.openPackage(filePath);

    XWPFDocument xwpf = new XWPFDocument(oPCPackage);

    POIXMLTextExtractor ex = new XWPFWordExtractor(xwpf);

    text = ex.getText();

    // 去掉word文档中的多个换行

    text = text.replaceAll("(\\r\\n){2,}", "\r\n");

    text = text.replaceAll("(\\n){2,}", "\n");

    System.out.println("ok");

    } catch (Exception e) {

    e.printStackTrace();

    }

    }

    return text;

    }

    }

    展开全文
  • java读取doc文档

    2013-06-26 09:41:44
    java读取doc文档的一些小例子,供大家参考。
  • 24 25 26 public final class HWPFDocFixture 27 { 28 public static final String DEFAULT_TEST_FILE = "test.doc"; 29 30 public byte[] _tableStream; 31 public byte[] _mainStream; 32 public ...

    使用poi:

    package org.apache.poi.hwpf;

    19

    20 import org.apache.poi.hwpf.model.FileInformationBlock;

    21 import org.apache.poi.poifs.filesystem.DocumentEntry;

    22 import org.apache.poi.poifs.filesystem.POIFSFileSystem;

    23 import org.apache.poi.POIDataSamples;

    24

    25

    26 public final class HWPFDocFixture

    27 {

    28 public static final String DEFAULT_TEST_FILE = "test.doc";

    29

    30 public byte[] _tableStream;

    31 public byte[] _mainStream;

    32 public FileInformationBlock _fib;

    33 private String _testFile;

    34

    35 public HWPFDocFixture(Object obj, String testFile)

    36 {

    37 _testFile = testFile;

    38 }

    39

    40 public void setUp()

    41 {

    42 try

    43 {

    44 POIFSFileSystem filesystem = new POIFSFileSystem(

    45 POIDataSamples.getDocumentInstance().openResourceAsStream(_testFile));

    46

    47 DocumentEntry documentProps =

    48 (DocumentEntry) filesystem.getRoot().getEntry("WordDocument");

    49 _mainStream = new byte[documentProps.getSize()];

    50 filesystem.createDocumentInputStream("WordDocument").read(_mainStream);

    51

    52 // use the fib to determine the name of the table stream.

    53 _fib = new FileInformationBlock(_mainStream);

    54

    55 String name = "0Table";

    56 if (_fib.getFibBase().isFWhichTblStm())

    57 {

    58 name = "1Table";

    59 }

    60

    61 // read in the table stream.

    62 DocumentEntry tableProps =

    63 (DocumentEntry) filesystem.getRoot().getEntry(name);

    64 _tableStream = new byte[tableProps.getSize()];

    65 filesystem.createDocumentInputStream(name).read(_tableStream);

    66

    67 _fib.fillVariableFields(_mainStream, _tableStream);

    68 }

    69 catch (Throwable t)

    70 {

    71 t.printStackTrace();

    72 }

    73 }

    74

    75 public void tearDown()

    76 {

    77 }

    78

    79 }

    2014年4月18日 15:59

    展开全文
  • java读取doc,docx文件源码,请大家参考。lib有在我的资源里边找
  • java读取doc,docx文档所必备的一些jar整理如下,敬请参考。
  • java 读取doc docx txt 文件例子

    热门讨论 2010-09-17 14:29:22
    java 读取doc,docx,txt文件,代码已做了很好的封装,可以在项目中使用!有问题给我发邮箱!
  • 这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码。我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码。于是在网上搜寻了...
  • 场景:因要处理大量行业数据每个(大部分)单个项目文件中包含一份文档说明部分是txt,另外大部分是doc/docx.通过 百度得到需要poi方式 读取。大体是参考此处博主文章:...
  • 我想在java中读一个word文件import org.apache.poi.poifs.filesystem.*;import org.apache.poi.hpsf.DocumentSummaryInformation;import org.apache.poi.hwpf.*;import org.apache.poi.hwpf.extractor.*;import org....
  • 六个jar包:后台代码:import java.io.File;import java.io.FileInputStream;import java.io.InputStream;import org.apache.poi.hwpf.extractor.WordExtractor;public class Test {public String readWord(String ...
  • Java 读取Doc/Docx 文档

    万次阅读 2019-08-01 16:20:00
    Java后台系统中常常会遇到读取文档内容的需求,今天把 Java 读取两种格式的word文档写了一个简单的工具类附上: 1. 需要添加 Apache.poi 的依赖 <!-- apache poi--> <dependency> <groupId>...
  • java读取doc、docx、slx、xlsx等word和excel文件,方法都集合在Read类中,返回一个HTML路径,可以用在WEB开发上,功能强大
  • Java读取doc文档

    2017-07-04 10:20:21
    这里我们使用WordExtractor读取Word文档,WordExtractor来自于Apache的poi类库项目,官方下载地址:...import java.io.FileInputStream; import org.textmining.text.extraction.WordExtractor; publi
  • zip文件解压,直接导入到eclipse里 有两个类 分别支持读取word和pdf转word,pdf转word样式百分百保留,license证书已pj,如需商业用途请购买正版证书
  • 读取文件信息所需依赖org.apache.poipoi4.1.2org.apache.poipoi-scratchpad4.1.2org.apache.poipoi-ooxml4.1.2org.apache.pdfboxpdfbox2.0.12org.apache.pdfboxfontbox2.0.12读取doc文件内容public static String ...
  • JAVA读取DOC报名表数据

    2019-05-24 16:55:27
    在各种各样考试中,尤其是在艰苦边远地区,组织考试报名常常采取向邮箱发报名表的方式,缺乏专门的考试报名系统,此时需要将DOC报名表的数据提取出来,对数据进行筛选和统计,本次讲一下如何用JAVA提取类似报名表中...
  • 使用java方便读取word 中的内容,效率高
  • JAVA 读取 Doc、Docx 及注意点

    万次阅读 2017-12-08 22:14:01
    读取doc private static String s_of_Doc(File file){ String str = &amp;amp;quot;&amp;amp;quot;; try { FileInputStream fis = new FileInputStream(file); HWPFDocument do...
  • 展开全部PDFBox是一个开源的对pdf文件进行操作的库...同时FontBox1.0.jar加入classpath,否则报错62616964757a686964616fe4b893e5b19e31333339653637importjava.io.FileInputStream;importjava.io.FileNotFoundExce...
  • 对与Java读取word可以直接使用,有需要的可以下载,希望能帮到大家
  • 小弟是用poi读取doc的public static String docString(String filePath) { File file = new File(filePath); String result = ""; try { FileInputStream fis = new FileInputStream(file); ...
  • java读取 doc、ppt、excel

    2012-03-20 10:28:30
    由于项目是面向手机...曾尝试用poi读取这些文件然后转为html,但再涉及格式、图片方面很是差强人意,后来没办法采用一个很二的方案 doc、ppt、excel等微软的办公工具,可以用jocob把文件转化为html,它实际上是调
  • java 读取doc并写入txt

    2010-06-08 14:03:16
    import java.io.BufferedWriter;import java.io.File;import java.io.FileInputStream;import java.io.FileWriter;import java.text.SimpleDateFormat;import java.util.Date; /*** poi-3.0.1-FINA...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 807
精华内容 322
关键字:

java读取doc

java 订阅