精华内容
下载资源
问答
  • java-如何从Apache POI获得脚注和段落
    2020-12-19 14:03:04

    我有从Apache POI中的.doc文件获取段落的代码,但我也想获取脚注.另外,这是获取段落的唯一方法吗?

    到目前为止的代码:

    InputStream stream = ...

    HWPFDocument document = new HWPFDocument(stream);

    Range range = document.getRange();

    StyleSheet stylesheet = document.getStyleSheet();

    for (int i = 0; i < range.numParagraphs(); i++) {

    Paragraph paragraph = range.getParagraph(i);

    String text = paragraph.text();

    }

    有任何想法吗?

    解决方法:

    你可以试试这个…

    WordExtractor extractor = new WordExtractor(document);

    paragraphs.addAll(Arrays.asList(extractor.getParagraphText()) );

    footnotes.addAll(Arrays.asList(extractor.getFootnoteText()) );

    extractor.close();

    标签:apache-poi,java

    来源: https://codeday.me/bug/20191118/2031308.html

    更多相关内容
  • apache poi word提取段落

    2020-12-19 14:03:08
    此方法返回文档所有段落的列表,这些列表可以存储在列表变量中并通过迭代循环获取。让我们看一个使用Java程序提取段落的示例。Apache POI提取段落示例package poiexample;import java.io.FileInputStream;import org...

    本文概述

    要提取段落文本,我们使用XWPFDocument类的getParagraphs()方法。此方法返回文档所有段落的列表,这些列表可以存储在列表变量中并通过迭代循环获取。

    让我们看一个使用Java程序提取段落的示例。

    Apache POI提取段落示例

    package poiexample;

    import java.io.FileInputStream;

    import org.apache.poi.openxml4j.opc.OPCPackage;

    import org.apache.poi.xwpf.usermodel.XWPFDocument;

    import org.apache.poi.xwpf.usermodel.XWPFParagraph;

    public class ReadParagraphExample {

    public static void main(String[] args) {

    try(FileInputStream fis = new FileInputStream("srcmini.docx")) {

    XWPFDocument doc = new XWPFDocument(OPCPackage.open(fis));

    java.util.List paragraphs = doc.getParagraphs();

    for (XWPFParagraph paragraph: paragraphs){

    System.out.println(paragraph.getText());

    }

    }catch(Exception e) {

    System.out.println(e);

    }

    }

    }

    输入:

    输出:

    Apache POI (Poor Obfuscation Implementation) is a project design and developed by Apache Software

    Foundation. It is a collection of pure Java libraries, used to read and write Microsoft office

    files such as Word, PowerPoint etc. The purpose was to design a cross-platform API that can

    manipulate various file formats of Microsoft Office and Open Office Documents.

    展开全文
  • POI无法读取到word每一段所在的页码。我给出了代码和所有的解释,用POI读取word中的页码。也算是小方法了,基本很准确,为什么要加一个基本呢?因为,分页标志符号在第一行为空白行的时候没有分页符!!所以你的文档...
  • I have code to get paragraphs from a .doc file in Apache POI, but I'd like to get footnotes also. Also, is this the only way to get paragraphs?Code so far:InputStream stream = ...HWPFDocument document...

    I have code to get paragraphs from a .doc file in Apache POI, but I'd like to get footnotes also. Also, is this the only way to get paragraphs?

    Code so far:

    InputStream stream = ...

    HWPFDocument document = new HWPFDocument(stream);

    Range range = document.getRange();

    StyleSheet stylesheet = document.getStyleSheet();

    for (int i = 0; i < range.numParagraphs(); i++) {

    Paragraph paragraph = range.getParagraph(i);

    String text = paragraph.text();

    }

    Any ideas?

    解决方案

    You could try this...

    WordExtractor extractor = new WordExtractor(document);

    paragraphs.addAll(Arrays.asList(extractor.getParagraphText()) );

    footnotes.addAll(Arrays.asList(extractor.getFootnoteText()) );

    extractor.close();

    展开全文
  • 我想获得每个段落或行的字体大小。 我试图寻找用类似的方法在这里为Apache POI文档页面上的docx文件,但无法找到一个。我试过这种方法,但它给出-1 as font size和font-name as null 。File file = new File...

    我有一个docx格式的MS-Word文档。 我想获得每个段落或行的字体大小。 我试图寻找用类似的方法在这里为Apache POI文档页面上的docx文件,但无法找到一个。

    我试过这种方法,但它给出-1 as font size和font-name as null 。

    File file = new File(fileName);

    FileInputStream fis = new FileInputStream(file.getAbsolutePath());

    XWPFDocument document = new XWPFDocument(fis);

    List paragraphs = document.getParagraphs();

    System.out.println("Total no of paragraph in Docx : "+paragraphs.size());

    for (XWPFParagraph para : paragraphs) {

    XWPFStyle style = document.getStyles().getStyle(para.getStyleID());

    System.out.println(para.getText());

    int pos = 0;

    for (XWPFRun run : para.getRuns()) {

    System.out.println("Current run IsBold : " + run.isBold());

    System.out.println("Current run IsItalic : " + run.isItalic());

    System.out.println("Current Font Size : " + run.getFontSize());

    System.out.println("Current Font Name : " + run.getFontName());

    }

    }

    fis.close();

    更新:我发现了这个 ,但无法获得字体大小。

    提前致谢。

    展开全文
  • } } } 当前处理方式存在一些局限性 无法确定图片在段落的具体位置信息.(该问题可通过对文档流处理的优化解决) 如果一个段落有多个图片,可能只解析一个 .docx 网上对标签解析的方式,实测不可行.poi实际有提供获取的...
  • 接上话特定位置插入表格、段落、图片思路在word中做个标记,通常这个标记独自占据一个段落,例如标记示例我们想要在标记处插入一个表格,一个段落,一幅图片,其中插入段落可以使用上话提到的文本替换方式,也可以用...
  • } } /* * 获取测试登记测试报告的表格占页数 * 1)每获取一次页数,就删除一个表格,然后生成一个word(直到表格删除完) * 2)然后生成一个pdf,获取一下页数 */ public static Map getPagesInTable(String source...
  • poi doc hwpf 读取列表段落序号 import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.model.ListData; import org.apache.poi.hwpf.model.ListLevel; import org.apache.poi.hwpf.model.List...
  • 我使用apache-poi突出显示docx中的一个句子。 我在下面编写了代码,如果在我必须突出显示的句子中(或之前)没有XWPFFieldRun ,则该代码可以正常工作。 XWPFFieldRun可以像章节引用,或类似的东西。private void ...
  • 使用poi获取word标题即可。嵌套结构就是标题的大小级别。POI获取WORD标题开源中国开源中国发表于2014-08-2300:10:28publicclassWordUtil{//2003publicstaticListgetWordTitles2003(Stringpath)throwsIOException{...
  • 有word文档(docx),查找某个段落的所在页的页码,用于生成word目录; 或者有比较好的方法可以生成word目录
  • POI中的Word API仍然处于不稳定状态,但是您应该能够通过以下两种方式之一迭代这些段落:XWPFDocument doc = new XWPFDocument(fis);List paragraphs = doc.getParagraphs();for (XWPFParagraph p : paragraphs) {......
  • 该页面定义了文本中的包装位置. 您可以尝试使用适当的EditorKit在JEditorPane中加载文档来实现该功能(例如,参见DocxEditorKit实现的尝试http://java-sl.com/docx_editor_kit.html它提供了基本功能,您可以尝试在此处...
  • 前言(背景介绍):Apache POI是Apache基金会下一个开源的项目,用来处理office系列的文档,能够创建和解析word、excel、ppt格式的文档。其中对word文档的处理有两个技术,分别是HWPF(.doc)和XWPF(.docx)。如果你对这两...
  • 一:利用poi获取word文档 导入poi import org.apache.poi.ooxml.POIXMLProperties; import org.apache.poi.xwpf.extractor.XWPFWordExtractor; import org.apache.poi.xwpf.usermodel.XWPFDocument; import org....
  • import org.apache.poi.hwpf.HWPFDocument;import org.apache.poi.hwpf.model.StyleDescription;import org.apache.poi.hwpf.model.StyleSheet;import org.apache.poi.hwpf.usermodel.Paragraph;import org.apache.p...
  • 前言(背景介绍):Apache POI是Apache基金会下一个开源的项目,用来处理office系列的文档,能够创建和解析word、excel、ppt格式的文档。其中对word文档的处理有两个技术,分别是HWPF(.doc)和XWPF(.docx)。如果你对这两...
  • 特定位置插入表格、段落、图片 思路 在word中做个标记,通常这个标记独自占据一个段落,例如 标记示例 我们想要在标记处插入一个表格,一个段落,一幅图片,其中插入段落可以使用上话提到的文本替换方式,...
  • POI对Word的操作,特别是针对生成报告模板时,向word中写入文本和图片。
  • java poi获取word文档自动生成的序号

    千次阅读 2020-01-16 16:58:55
    POI不能获取word自动生成的序号,但是可以自己根据级别自己写出来。 maven <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-scratchpad</artifactId> ...
  • Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docxAtitit word ppt excel等文档... //分章节Section、段落Paragraph、字符串CharacterRun抽取 11.3. //直接抽取幻灯片的全部内容21.4. //一...
  • POI 获取Word大纲

    千次阅读 2019-06-09 21:23:54
    此文参考了前人文章,链接如下 ... 但前辈由于持续探索与更新,没有给出一份完整代码, ...判断段落是否设置了大纲级别的代码para.getCTP().getPPr().getOutlineLvl()是有可能报空指针异常的.如果报异...
  • poi中复制段落样式到下一行

    千次阅读 2019-05-24 08:42:41
    package com.poi.service; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.p...
  • java 使用POI操作word获取样式

    千次阅读 2019-10-15 17:09:20
    XWPFDocument对象也就是我们所说的word文档对象,只有拥有此对象你才能操作word,poi实际上是将word解析成一个xml然后在读取里面的内容,所以你在操作word之前必须对一些概念有一定的了解,否则也是寸步难行。...
  • 工作上需要用到POI来处理Word文档,于是这几天都在熟悉POI的API 一、Word文档格式 二、代码示例 /** * 读取指定word文档 * @param file * @return */ private static void readWordFile(File file) throws ...
  • POI获取WORD信息

    2019-07-16 08:04:52
    最近由于工作需要,调研了一下关于poi获取word字体信息方面的方法,在这里mark一下。 首先word格式分为doc和docx,分别利用HWPFDocument和XWPFDocument对文档进行解析,话不多说,直接贴代码: 解析doc格式 ...
  • //设置居中格式 paragraph.setJustification((byte) 1); /*0-left, 1-center, 2-right, 3-left and right*/
  • poi获取word文档大纲,2007以上版本,即使用XWPFDocument: XWPFDocument doc = new XWPFDocument(is) ; List<XWPFParagraph> paras = doc .getParagraphs () ; XWPFStyles styles =doc .getStyles () ; ...
  • 我正在尝试从MS docx文件中获取样式信息,使用粗体,斜体等添加的样式编写文件内容没有问题.字体大小等,但阅读文件内容和获取样式信息并不是那么清楚.我尝试过使用XWPFDocument,这个API似乎没有能力读取样式.我现在...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,428
精华内容 571
关键字:

poi获取段落位置