精华内容
下载资源
问答
  • doc文件格式
    千次阅读
    2020-05-02 14:47:18

    find . -type f -exec dos2unix {} \;

    更多相关内容
  • 主要介绍了Python实现将HTML转换成doc格式文件的方法,涉及Python htmlparser及docx模块的相关使用技巧,需要的朋友可以参考下
  • MS-DOC 文件格式概述

    千次阅读 2012-09-08 15:17:06
    MS-DOC 文件格式概述 Microsoft Office Word 2003、Microsoft Word 2002、Microsoft Word 2000 和 Microsoft Word 97 都使用 MS DOC 二进制文件格式作为其默认文件格式。这种文件格式适用于任何具有 .doc 或 .dot...

    MS-DOC 文件格式概述

    Microsoft Office Word 2003、Microsoft Word 2002、Microsoft Word 2000 和 Microsoft Word 97 都使用 MS DOC 二进制文件格式作为其默认文件格式。这种文件格式适用于任何具有 .doc 或 .dot 扩展名的文件。 Word 文档中的基本数据单位是字符,它可能包括格式字符和其他不可见字符,以及 ANSI 和 Unicode 字符。所有字符数据都驻留在 Word 文档流 中。该流的开头是一个称为文件信息块 (FIB) 的结构,其中包含指向文件中所有数据的指针。

    Gg615596.note(zh-cn,office.14).gif注释:

    在 Microsoft Word 中执行大多数编程任务的推荐方法是使用 Word 主互操作程序集 (该链接可能指向英文页面)。这些程序集是一组提供可用于 Microsoft Word 的完整对象模型的 .NET 类。本系列文章只涉及高级场景,如未安装 Microsoft Word 的场景。

    MS-DOC 文件格式的重要组件

    以下是在处理 .doc 文件时必须了解的一些最重要的结构。

    • 2.1.1 WordDocument Stream

                      Word 文档流是 .doc 文件中的主要流,其中包含文件中的所有数据(表格除外,表格存储在 1Table stream or 0Table stream中)。

      • File Information Block

        文件信息块从 Word 文档流的偏移 0x00 开始。它指定文件中所有其他数据的位置。位置由一对整数指定,第一个整数指定位置,第二个整数指定大小。这些整数出现在文件信息块的子结构中,如 FibRgFcLcb97。位置名称带有前缀 fc。大小名称带有前缀 lcb。

      • Clx 结构

        Clx 结构是由零个或多个 Prc 结构组成的包含属性信息的数组,后跟一个 Pcdt 结构,该结构又包含一个 PlcPcd 结构。

    • Character

      字符可以是文本字符或非文本字符(如段落标记或对象锚点)。其大小可能因它是 ANSII、Unicode 还是控制字符而异。文档中的相邻字符在二进制文件中不一定相邻。

      • Character Position (CP)

        字符位置 (CP) 是一个无符号的 32 位整数,它给出字符在文档文本中的索引位置。

      • Pcd 结构

        Pcd 结构指定文本在 Word 文档流中的位置,同时指定文本的一些属性。

    • Plc

      PLC 结构是一个 CP 数组,后跟一个数据元素数组。不同的 Plc 结构具有不同的名称和功能,例如 Plcbkf 结构,它由书签和指向书签的指针组成。

    • PlcPcd 结构

      PlcPcd 结构是一个 PLC 结构,它将一个 CP 数组映射到 Pcd 结构。换言之,它将流中的字符位置映射到文档文本中的字符。

    从 Word 文件提取文本

    用于检索文本的正式算法在 MSDN 上开放规范文档中的 2.4.1 Retrieving Text下发布,并且在“示例”部分的 3.1 Example of a Clx下给出了一个介绍部分过程的示例。以下是该过程的简化版本。

    从 Word 文档提取文本

    1. 将 .doc 文件读入数据流。

    2. 开始在 Word 文档流的偏移 0 处读取文件信息块 (FIB)。有关详细信息,请参阅 2.5.15 How to read the FIB

    3. 在文件信息块内,找到 FibRgFcLcb97 结构。此结构从 FIB 的第 154 个字节开始。它由一系列的 4 字节字段组成。

    4. 在第 268 个字节处读取 FibRgFcLcb97.fcClx 字段,在第 272 个字节处读取 FibRgFcLcb97.lcbClx 字段。这些字段指定 Clx 的偏移位置和大小。

    5. 在 FibRgFcLcb97.fcClx 字段指定的偏移处开始从表格流中读取 Clx 结构。

    6. Clx 结构内,找到 Pcdt,其后紧跟可变长度的 Prc 结构的 .RgPrc 数组

      对于数组中的每个成员:

      1. 读取 .clxt 属性,该属性是 Prc 结构的 0 字节。如果 .clxt = 0x02,表明您已找到 Pcdt。

      2. 如果 .clxt = 0x01,读取后面 2 个字节作为有符号整数,然后跳过该数量的字节来到数组的下一成员。

    7. Pcdt 结构内,找到 PlcPcd 结构,该结构从 Pcdt 的第 5 个字节开始。

    8. 加载 PlcPcd.aPcd 数组和 PlcPcd.aCp 数组。这些数组的成员通过索引值彼此对应。

    9. 对于 PlcPcd.aPcd 中的每个 Pcd 结构:

      1. 在当前 Pcd 结构的第 46 位处读取 Pcd.Fc.fCompressed 字段的值。如果为 0,则 Pcd 结构指代一个 16 位的 Unicode 字符。如果为 1,则指代一个 8 位的 ANSI 字符。

      2. 读取 Pcd.Fc 的值(当前 Pcd 的第 2-5 个字节)以及相应的 CP 值。

        •                             如果是 Unicode,则位于当前 CP 值所指定的字符位置处的文本的起始偏移量等于在 Word 文档流中的 Pcd.Fc 值,且每个字符占两个字节。

        •                             如果是 ANSI,则位于当前 CP 处的文本开始于 Pcd.Fc 值的一半的偏移量处,且每个字符占一个字节。

        在任一种情况下,当前 CP 指定的字符数都等于数组中下一个 CP 的值减去当前 CP 的值。

    结论

    本文只是 MS-DOC 格式的一个样本。借助本文提供的工具,您可以进行简单的数据恢复。经过进一步研究后,您可以开始恢复格式信息和其他元数据,并最终执行“保存”操作。

    展开全文
  • Java代码实现doc后缀文件转换成docx后缀文件,eclipse下直接运行
  • 用python将doc文件批量转为docx文件,用python将doc文件批量转为docx文件,
  • 受控文件清单(表格模板、DOC格式).doc
  • 微软 二进制 office word 文件 doc 格式,包含2003 ,2007, 很详细的资料
  • 文件补发申请表(表格模板、DOC格式).doc
  • Js word格式doc文件下载

    千次阅读 2021-04-20 16:49:43
    一、 下载方式 a) 获取后端传过来的url 静态资源 ...ii. Window.location.href = url下载 ...二、 下载doc文件流示例 a) 后端主要代码 b) 前端主要代码 Axios Api请求如下: export const reportDownload

    一、 下载方式

    a) 获取后端传过来的url 静态资源

    • 通过a标签做点击操作

    • Window.location.href = url下载

    • Window.open(url)下载

    b) 文件流下载(application/json; application/octet-stream)

    • 文件流获取转换blob对象模拟a标签点击下载

    二、 下载doc文件流示例

    a) 后端主要代码
    在这里插入图片描述

    b) 前端主要代码

    • Axios Api请求如下:
    export const reportDownload = row => {
      return request({
        url:  '/api/diagnose/download/'+ row.id + '/' + row.filetype ,
        method: 'get',
        responseType: "blob",
        headers: {
          'Content-Type': 'application/json; application/octet-stream'
        },
        data: row
      })
    };
    
    • response数据如下:
      在这里插入图片描述

    • 获取数据并模拟a标签点击:

    const blob = new Blob([res.request.response], {type: 'application/msword'});
    const fileName = decodeURI(res.headers['content-disposition'].split('=')[1]) +".doc";
    if ("download" in document.createElement("a")) {
    	// 非IE下载
    	const elink = document.createElement("a");
    	elink.download = fileName;
    	elink.style.display = "none";
    	elink.href = URL.createObjectURL(blob);
    	document.body.appendChild(elink);
    	elink.click();
    	URL.revokeObjectURL(elink.href); // 释放URL 对象
    	document.body.removeChild(elink);
    } else {
    	// IE10+下载
    	navigator.msSaveBlob(blob, fileName);
    } 
    

    三、 文件流下载关键点说明

    a) 后端

    • 设置字符集和文件后缀名
    response.setContentType("application/msword;" + "charset = UTF-8"); 
    
    • 设置文件名称,这里encode必须设置,前端decodeURI解析,否则中文乱码
    response.setHeader("Content-Disposition", "attachment; filename=" + java.net.URLEncoder.encode(diagnoseReport.getName(), "UTF-8"));
    
    • 设置response字符集
    response.setCharacterEncoding("UTF-8");
    

    b) 前端

    • Ajax请求api中的response类型必须添加(因为response回传不存在blob类型,默认字符串,会导致下载的文件无法解析)
    responseType: "blob"
    
    • blob获取需要标注文件类型
    new Blob([res.request.response], {type: 'application/msword'});
    
    • 获取文件名字,用decodeURI解码
    decodeURI(res.headers['content-disposition'].split('=')[1]) +".doc";
    
    展开全文
  • 浏览器在线预览文件(支持pdf、excel、ppt、doc、jpg、png格式) PS:excel、ppt、doc格式只支持公网地址,如:http://xxx/x.odc
  • doc公式转化问题

    0 提出问题

    现在很多论文投稿甚至是毕业论文都要求doc格式的文档(Word2003以前的版本文档),如果大家像我一样习惯使用WPS或者更高级版本的Word,并且在编辑公式过程中未使用MathType而是使用WPS或者高版本Word自带的公式编辑器,在docx版本转化doc版本时就会遇到一下问题:一公式很模糊,二公式表现为图片形式且不可编辑。

    如图所示:

    如图所示:公式模糊,且为图片格式,无法编辑。

    2 解决方法

    2.1 安装MathType

            建议安装到C盘目录下,防止后续操作出现系统错误。

    2.2 将MathType加载到Word

    2.2.1 Word操作

            打开word,单击 文件---->选项—>信任中心---->信任中心设置—>受信任位置—>添加新位置,将C:\Program Files\Microsoft Office\root\Office16\STARTUP\ 添加入受信任路径。

    2.2.2 MathType操作

            找到MythType安装目录,将mathtype中的
            (1)C:\Program Files (x86)\MathType\MathPage\64的“MathPage.wll”;(注意自己电脑只能装的Office是32位还是64位,如果是32位,则为C:\Program Files (x86)\MathType\MathPage\32文件夹的“MathPage.wll”文件
            (2)C:\Program Files (x86)\MathType\Office Support\64的“MathType Commands 6 For Word 2013.dotm”和同目录下

            (3)“WordCmds.dot”

    这三个文件。复制到Office 安装路径中的:C:\Program Files\Microsoft Office\root\Office16\STARTUP 中。

             Notes:

            (1)如果PPT中也需要的话建议把同目录下:“MathType AddIn (PowerPoint 2013).ppam”文件一起复制过去

            (2)如果找不到同名文件,找最新版本的复制到指定文件夹即可,本人最新版本为2013版。

    复制操作完成后,如下图所示 :

     2.2.3 重启Word

            已加载完成MathType

     2.3 MathType加载项为灰色解决方案

    本人的操作不太记得了

    2.3.1如果是WPSMath Type是灰色,可直接下载VBA插件解决[1]

            (参考[1])wps,word如何加载mathtype_jarreyer的博客-CSDN博客_wps加载mathtypewps,word插入mathtype时显示灰色解决方案1.WPS加载mathtype方案1.1 选择开发工具-加载宏1.2 在已安装好的mathtype路径中找到模板文件,导入模板加载项1.3 若mathtype加载项某些选项卡为灰色,很可能是因为缺少服务的缘故,需下载VBA插件1.3.1 下载vba插件vba插件分享链接:https://pan.baidu.com/s/173BD8tUZ5VBM_NYbnGnAqA提取码:25pt–来自百度网盘超级会员V3的分享1.3.2 安装https://blog.csdn.net/topsogn/article/details/119247606

    (1)下载插件,链接:https://pan.baidu.com/s/173BD8tUZ5VBM_NYbnGnAqA 提取码:25pt
    (2) 安装插件后加载宏
    (3)关闭WPS文档,再重新打开

    2.3.2 如果是Office Word,查看Word

            是否有加载项,如果没有,请直接加载。

     2.4 Convert Equations 报错

     2.4.1 点击“是”,查看官方文档

             按照官方文档操作,重新试一次,看是否可以转化成功,如果成功,即结束;如果不成功,官方文档不靠谱,不要慌,继续看。

    2.4.2 官方解决失败

    (1)查看Word启示路径,将其改为:"C:\Program Files\Microsoft Office\Office16"

    如下图所示:

     再试,如果还是不行,不要慌,我还有办法。

    (2)使用WinWord.EXE打开文件

            该程序位于C:\Program Files\Microsoft Office\root\Office16目录下

            建议使用管理员方式打开,全文公式转化,不要一个一个转,容易出现:只能转化一次,第二次转化失败,或者闪退。

            如出现上述问题,不要慌,最后一个办法:

    (3)重新找一台电脑,重复上述步骤。

            如果还是失败,不要慌,最最后一个办法,如果信任我,我可以帮忙转化。

    3.结束语

            该问题的解决可能包含但不局限于上述问题,如有别的问题,自己想办法解决,学生就是要做难的事情。

    展开全文
  • doc是一种文档格式,一般用Microsoft Word打开。.doc,是电脑文件常见扩展名的一种。...微软的“doc格式是一种自己的专属格式,其档案可容纳更多文字格式、脚本语言及复原等资讯,比其他的文件格式如R...
  • doc文件转为txt文件

    千次阅读 2021-01-07 14:30:31
    doc文件转为txt文件需要几步? 答:需要两步, 1.先将doc转为docx。因为python-docx只能处理docx的文件,而无法处理doc文档。docx本质是xml文件比doc更小些。这里需要的包为win32com,如果没有,则pip即可。 ...
  • 微软DOC二进制文件格式解析 从框架的视角介绍了微软DOC97-2007的二进制细节
  • http://feifei.im/archives/93————————————————————————...做个总结记录,下次要用直接查,省的忘了……方法1.poi读取doc + itext生成pdf (实现最方便,效果最差,跨平台)方法2.jodconver...
  • android读取Word的Doc文件转为HTML格式
  • richtextbox只能显示rtf格式,那我们如何将word文档doc格式转化为rtf格式显示在richtextbox上呢?这就是答案。。。
  • 解析word:doc,docx的两种思路

    千次阅读 2020-06-28 10:13:32
    两种思路: 用相应的库直接读取文件 doc转换成docx python在windows与linux下读取doc文件 ...
  • android读取Word的Doc文件

    热门讨论 2011-08-05 16:18:30
    android读取Word的Doc文件,包括表格和图片和文字内容
  • doc文件转换为docx文件

    千次阅读 2020-12-13 23:48:30
    doc文件转换为docx文件doc文件和docx文件的区别代码实现 ...的介绍,我自己暂时用到理解就是doc文件格式是以前word版本才使用的文件格式。 代码实现 def doc_to_docx(file_dir): docfiles = [] for root, dirs, files
  • Java实现DOC文件转DOCX文件

    千次阅读 2021-10-09 09:28:20
    1.文件较小少于500段,使用spire.doc.free转化 <dependency> <groupId>e-iceblue</groupId> <artifactId>spire.doc.free</artifactId> <version>3.9.0</version> &...
  • 用python将doc文件转换成docx文件

    千次阅读 2022-01-17 16:30:46
    用python3将doc文件批量转换成docx文件
  • 1,当在门户网站的下载专区下载doc文件时,直接打开生成压缩包形式,并且解压过后不是对应得doc文档,如下截图所示:2.解决方法: 2.1 将部署root包下web.xml文档打开 2.2 将文档中标注的zip改成docx。 2.3改好后...
  • Python 批量转化doc文件为docx文件

    千次阅读 2021-12-06 16:55:09
    使用Python转化doc文件转化为docx文件,可处理多文件
  • .net NPOI读写Doc文件

    千次阅读 2020-06-06 17:44:49
    1、NuGet安装NPOI ...XWPFDocument doc = new XWPFDocument(stream); foreach (var para in doc.Paragraphs) { string text = para.ParagraphText; //获得文本 if(text.Trim()!="") Console.WriteLine(text);
  • vue前端上传doc文件并读取文件内容

    千次阅读 2021-06-16 16:59:05
    1. 上传文件 如iview中的: ...Uploadaction="":before-upload="handleBeforeUpload"accept=".doc,.docx"> <Button:loading="uploadLoading">上传文件</Button> </Upload> 2. 读取文件
  • 第6章 图像文件格式.doc 第6章 图像文件格式.doc 第6章 图像文件格式.doc
  • shp文件格式及说明.doc

    2010-05-03 17:22:20
    shp文件格式及说明.doc shp文件格式及说明.doc shp文件格式及说明.doc shp文件格式及说明.doc
  • .xls .xlsx .ppt .pptx .doc .docx .pdf .csv .png/.jpg/.jpeg/.etc .txt .htm/.html .avi/.mpg/.mpeg/.mp4 .mp3/.wav/.etc
  • helloworld.doc

    2020-01-17 18:20:50
    可以解决将数据渲染成doc文件,然后下载。...xml格式doc文件。可以解决导出doc问题 xml格式doc文件。可以解决导出doc问题 xml格式doc文件。可以解决导出doc问题 xml格式doc文件。可以解决导出doc问题

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 614,428
精华内容 245,771
关键字:

doc文件格式

友情链接: cache-page.rar