-
2019-09-19 13:44:16
由于工作的需要,需要将几百份的txt文本转成word格式,作为python小白,通过python顺利的完成了工作,分享出来,供大家参考。代码从简单到复杂,便于大家理解。
一、将一个txt文本内容读取到word中的代码
from urllib3 import *
from re import *
import os
import hashlib
def TXTRead_Writeline():
ms=open(“D:\文本版\1097.txt”) #读取文件
for line in ms.readlines(): #逐行写入
with open(“C:\Users\word版\1097.doc”,“a”) as mon:
mon.write(line)
TXTRead_Writeline()二、将多个txt文本内容读取到一个word
from urllib3 import *
from re import *
import re
import os
import hashlib
import requests
from bs4 import BeautifulSoup
import bs4
for filename in os.listdir(“D:\文本版”):
with open(“D:\文本版\”+filename) as f: #读取每个文件
for line in f.readlines(): #将每个文件文本同意逐行写入一个word中
with open(“word版/全部文书整理版.doc”,“a”) as mom:
mom.write(’\n’+line)
三、将多个txt文本逐一读取到多个word
from urllib3 import *
from re import *
import re
import os
import requests
for filename in os.listdir(“D:\文本版”):
with open(“D:\文本版”+filename) as f: #读取每个文本
ms=re.sub(r’.txt’,’.doc’,filename) #将文本后缀进行修改
for line in f.readlines():
with open(“word版/”+ms,“a”) as mom: #写入每个word中
mom.write(line)
f.close()
mom.close()更多相关内容 -
word转txt格式 WORD转TXT格式转换器 v1.0
2020-10-29 09:41:16WORD转TXT格式转换器(txt格式转换器)支持将word格式转换成为txt格式。如果你有大量的 Word 文档要放在手机上阅读,使用txt格式转换器(txt转换器)能将 DOC 格式转换为 TXT,txt转换器支持批量 -
Word转Txt格式转换器V1.0免费绿色版
2019-08-07 00:53:32Word转Txt是一个好用的word转换器,它能够把doc或者docx文本快速转换为txt文本,转换后移出了word里的... word转txt格式转换器使用说明: 1、打开word文件所在文件夹。 2、保存txt文件所在文件夹。 3、点击开始转换即可 -
海鸥Word转Txt格式转换器 v1.0 完全免费版.zip
2019-07-13 04:17:57海鸥Word转Txt格式转换器完全免费版是一款Windows操作系统下的简单实用美观免费的Word转Txt格式转换器。所有功能集成在同一界面实现,易于操作和使用。而且它是一款绿色软件,无需安装,即可使用,小巧实用,不写... -
Delphi Word.Application将Word文档转换为txt格式.rar
2019-07-10 11:00:22Delphi 将Word文档转换为txt格式,程序是将word 存储为TXT格式,但其实是经过了转换,因为TXT是纯文本格式,不可能直接存的,需要经过一系列处理,去除格式,以下代码完成此项功能: MSWord := CreateOLEObject('... -
Neat Converter Setup 2.1.0 万能文本格式转换工具 word pdf txt等.exe
2022-04-23 09:16:03Neat Converter Setup 2.1.0 万能文本格式转换工具 word pdf txt等.exe -
python批量word转txt(无视文档损坏/不需要依赖库/1秒300个)
2018-10-30 19:55:25【使用方法:将需要转换的文档放入passage文件夹(如有需要变更可以改程序代码),将程序放在passage文件夹外,自动转换所有文件夹内的docx文件,命名为同名+"_xml2txt"的txt文档,文件夹内允许有其他格式文件存在,... -
支持扫描版PDF文件转为Word、TXT等
2021-05-31 14:44:36支持扫描版PDF文件转为Word文件格式保留原布局和图形,(特殊加密的PDF文件及无法转换)。...8.转TXT格式需要用到超文本浏览框 9.关闭当前已加载的文件,并没有卸载驱动可以继续加载转换。 10.关闭窗口时卸载驱动 -
怎样把word文档改成TXT格式.doc
2021-09-12 07:50:47怎样把word文档改成TXT格式.doc -
npoi操作word.txt
2020-05-14 10:54:14npoi读取word文档,并且支持保存文档内的图片,该代码已经在docx格式文档上面使用成功,欢迎各位程序员下载使用 -
【pywin32】python抽取word/PDF文档文本中转化为txt格式存储
2019-11-19 12:59:07文章目录前言一、环境说明二、安装pywin32三、测试3.1 说明3.2 结果四、说明4.1 注意事项4.2 源码获取五、PDF获取内容到存储到txt格式文本5.1 测试文本说明5.2 实验步骤5.2 结果验证5.3 源码获取 前言 ...文章目录
前言
无论是在机器学习、数据挖掘还是深度学习等等,首先要做的就是数据预处理,所以数据预处理这块还是很重要的,因此博主将学习一下关于数据预处理相关的知识。
关于数据预处理的基本概念知识,可查看博主此篇订阅号文章。
一、环境说明
博主所使用的环境是:
1、window10
2、anaconda4.6
3、python3.6
4、pycharm二、安装pywin32
通过命令:
pip install pywin32
安装即可,具体如下图所示 (这里可爱的博主之前安装过所以会有Requirement,相关提示)
安装方法也特别的简单和网上的教程也特别的多,这里就不在一一赘述了。三、测试
3.1 说明
测试文件:如下图所示(至于里面的内容随便填写奥)
3.2 结果
四、说明
4.1 注意事项
基本没有什么难度,特别要注意的一点就是分割文件名:以下是博主通过fnmatch库获取的绝对路径下的文件名。
def Word2Txt(filePath,savePath=''): # 1、切分文件路径为文件目录和文件名 dirs,filename = os.path.split(filePath) print('原始路径:',dirs) print('原始文件名:',filename) # 2、修改切分后的文件后缀 new_name = "" #设置一个新的文件名 if fnmatch.fnmatch(filename,'*.doc'): # 如果文件名后缀是以docx结尾的,则 new_name = filename[:-4] + '.txt' # 截取直到倒数后四位,保留除后四位其余的内容 elif fnmatch.fnmatch(filename,'*.docx'): new_name = filename[:-5] + '.txt' # 截取直到倒数后5位,保留除后五位其余的内容 else: print('格式不正确,仅支持doc or docx 格式') return
以及获取测试文件路径要格外的注意:以下是我的测试文件存储路径,在pycharm中的一个相关路径
if __name__ == '__main__': filePath = os.path.abspath(r'../dataSet/Corpus/wordtotxt/test_word2.docx') # 获取绝对路径 Word2Txt(filePath)# 函数实例化 print('word信息抽取到txt格式中完成')
4.2 源码获取
到此处关于从word中抽取内容到存储到txt格式中就算完成了,接下来将学习关于从PDF中获取内容存储到txt格式中。
五、PDF获取内容到存储到txt格式文本
5.1 测试文本说明
随便准备一个pdf文件,例如,如下就是博主准备的测试文件
5.2 实验步骤
5.2 结果验证
基本和同word文档中抽取内容原理是一样的5.3 源码获取
https://github.com/jiajikang-nlp/data_preprocess/tree/master/source_code此链接下名为pdf2txt.py文件
2019年11月20日凌晨12点更新
为了将抽取文档信息更为人性化,将多格式的文本信息抽取封装到一起,源码如下所示:
""" author:jjk datetime:2019/11/19 coding:utf-8 project name:Pycharm_workstation Program function: 多格式的文本信息抽取工具 """ import fnmatch,os from win32com import client as wc from win32com.client import Dispatch """ 功能描述:抽取多文档文本,默认保存在根目录下,支持自定义 参数描述:1、filePath:文件路径;2、savePath:保存路径 """ def Files2Txt(filePath,savePath=''): # 1、切分文件路径为文件目录和文件名 dirs, filename = os.path.split(filePath) print('原文件路径:',dirs) print('原文件名:',filename) # 2、修改切分后的文件名后缀 typename = os.path.splitext(filename)[-1].lower() # 切分文件名获取后缀 print('typename=',typename) new_name = TranType(filename,typename) # 文件名,文件类型名 # 3、设置新的文件保存路径 if savePath =='': savePath =dirs else: savePath = savePath new2txtPath = os.path.join(savePath,new_name) print('新的文件名:',new2txtPath) # 4、加载文本提取的处理程序 wordapp = wc.Dispatch('Word.Application') # 启动应用程序 mytxt = wordapp.Documents.Open(filePath) # 打开文件路径 # 5、保存文本信息 mytxt.SaveAs(new2txtPath,4) mytxt.close() """ 功能描述:根据文件后缀修改文件名 参数描述:1、filePath:文件路径;2、typename:文件后缀 返回数据:new_name 返回修改后的新的文件名 """ def TranType(filename,typename): new_name = '' if typename == '.pdf':# pdf-->txt if fnmatch.fnmatch(filename,'*.pdf'): new_name = filename[:-4] + '.txt' else:return elif typename == '.doc' or typename == '.docx': # word-->txt if fnmatch.fnmatch(filename,'*.doc'): new_name = filename[:-4] + '.txt' elif fnmatch.fnmatch(filename,'*.docx'): new_name = filename[:-5] + '.txt' else:return else: print('警告:您输入【',typename,'】数据不合法,本抽取工具仅支持doc/docx/pdf格式文件,请输入正确格式') return return new_name if __name__ == '__main__': filePath = os.path.abspath(r'../dataSet/Corpus/wordtotxt/test_word1.docx') Files2Txt(filePath)
源码获取
https://github.com/jiajikang-nlp/data_preprocess/tree/master/source_code此链接下名为extractTxt.py文件 -
vba按原格式批量合并word文档
2019-04-28 09:46:52功能:把一个文件夹下面的word文档按原文档的格式批量合并成一个word文档。 准备工作 把 合并文件.docm和需要合并的word文档(例如:测试用的文档1.docx、测试用的文档1.docx)放入一个文件夹里面 调用宏方法 打开... -
C++ 生成Word,Excel,Txt实例程序
2019-10-14 17:08:15基于C++项目,生成WORD,EXCEL,TXT格式的自定义内容,VS2013开发的一个工程DLL带设计模式,使用很简单不再敖述。 -
Table表格导出为Excel、csv、txt、sql、json、xml、Word格式
2017-09-09 15:35:04改文件中有基于bootstrap的demo,和用于其他前端框架的js文件,文件夹中有相应的说明,其他的我也不知道有什么好说的了 -
vue实现word,pdf文件的导出功能
2020-12-09 17:00:59vue实现word或pdf文档导出的功能,我的项目是:后端返回一个文档流(下图),然后前端对文档流做处理进行下载,代码如下: import axios from 'axios'; axios.get(`url`, { //url: 接口地址 responseType: `... -
java 实现word转txt
2020-05-30 18:44:17java 实现word转txt http://sourceforge.net/projects/jacob-project/,下载jacob.jar包 下载的文件目录如下所示: 2.将.dll文件拷贝到%JAVA_HOME%/jre/bin。注意:根据jdk版本选择对应的.dll文件。 3.拷贝jacob....java 实现word转txt
- http://sourceforge.net/projects/jacob-project/,下载jacob.jar包
下载的文件目录如下所示:
2.将.dll文件拷贝到%JAVA_HOME%/jre/bin。注意:根据jdk是32位或64位选择对应的.dll文件。
3.拷贝jacob.jar到自己的项目中。
4.代码如下所示:
package com.paperCompare.util; import com.jacob.activeX.ActiveXComponent; import com.jacob.com.Dispatch; import com.jacob.com.Variant; public class Word2TxtUtil { public static void word2Txt(String wordPath,String txtPath) { ActiveXComponent app = new ActiveXComponent("Word.Application"); app.setProperty("Visible", new Variant(false)); Dispatch doc1 = app.getProperty("Documents").toDispatch(); Dispatch doc2 = Dispatch.invoke( doc1, "Open", Dispatch.Method, new Object[]{wordPath, new Variant(false), new Variant(true)}, new int[1] ).toDispatch(); Dispatch.invoke( doc2, "SaveAs", Dispatch.Method, new Object[]{txtPath,new Variant(7)//7为txt格式, 8保存为html格式 }, new int[1] ); Variant f = new Variant(false); Dispatch.call(doc2, "Close", f); } public static void main(String[] args) { Word2TxtUtil.word2Txt("G:\\EclipseCode\\MyCode3\\paperCompre-authors\\src\\main\\webapp\\upload\\1590809006292基于BS模式的学生成绩管理系统.docx", "G:\\EclipseCode\\MyCode3\\paperCompre-authors\\src\\main\\webapp\\upload\\1590809006292基于BS模式的学生成绩管理系统.txt"); } }
- http://sourceforge.net/projects/jacob-project/,下载jacob.jar包
-
RemoteSensing期刊word模板remote sensing,latex remote sensing期刊模板(txt为微云链接)
2020-07-17 18:36:38该期刊所该期刊所属遥感领域,为...这里,我们提供了其word版本的格式模板。 该期刊所属遥感领域,为2区。这里,我们提供了其word版本的格式模板。 该期刊所属遥感领域,为2区。这里,我们提供了其word版本的格式模板。 -
如何将word文档转换成txt记事本格式?
2019-06-14 19:28:55word文档是我们平时最常见的文字处理软件,它提供了许多易于使用的文档创建工具,同时也提供...那么如何快速将word转换成txt记事本格式呢?将word转换成txt的方法是什么?下面我就使用smallpdf转换器这款pdf转换器来...word文档是我们平时最常见的文字处理软件,它提供了许多易于使用的文档创建工具,同时也提供了丰富的功能集供创建复杂的文档使用。在使用的时候我们有时为了更方便的保存或者打开,我们会将它转换成txt记事本格式来保存在我们的电脑上或是桌面上,这样下次打开就非常的方便了。那么如何快速将word转换成txt记事本格式呢?将word转换成txt的方法是什么?下面我就使用smallpdf转换器这款pdf转换器来演示一下如何转换。接下来我把转换流程分享给大家吧。
1、首先打开smallpdf转换器进入界面后点击左边的“pdf转换成其他文件”里面的“文件转txt”。
2、如何点击下方的“添加文件”如何添加进去我们要转换的word文档。
3、我们还可以在上方“自定义”中选择我们转换成txt记事本后的存储位置。
4、准备好后我们就点击右下角的“开始转换”就可以快速的将我们的word文档转换成txt格式了。
5、最后转换完成我们就点击文件右侧“打开”就可以查看我们转换后的txt记事本了。
好了整个教程就是这些了。在刚刚使用过程中,小编发现这个pdf转换器的转换速度和准确率还是不错的,如果你有文件或者pdf文件需要转换的,可以考虑使用看看。 -
word或txt数据导入excel方法
2013-06-13 22:12:00word或txt数据导入excel方法,教你省时省力的将Word文档或txt文档中的数据导入excel文档中 -
pdf 转换成 word/txt 格式
2012-12-04 13:51:58所有的pdf转换成word格式,或者是txt格式,都可以转换,简单实用。 -
word,exce,txt,ppt,图片格式转换pdf 脱离office
2017-02-09 11:10:29使用apose控件转换,完全脱离office电脑不用装office 并提供apose,word,dll 和 apose....word,exce,txt,ppt,图片格式转换pdf 如何需要打印的话,只用写一个pdf打印方法就可以了 非常简单实用,免安装程序,清晰,完整 -
TXT转DOC,TXT转XLS,TXT转WORD,TXT转EXCEL
2011-07-25 13:50:49去掉背景,去除超链接,清除制表符,删除隐藏文字,替换""成“”,图片全设为嵌入型,首行缩进2,去段中不分页部份,转项目编号到文字,删除非嵌入型图片,清除换行带的下划线格式,去掉页脚页媚,Word转html,Word转TXT. ... -
PDF.Converter.2.2.2.2 (PDF格式转换工具,支持PDF与Word/PPT/HTML/TXT/图像格式间的互相转换)
2019-09-05 13:40:08一款可以一键转换PDF为其他文档的应用程序,该软件主要的功能就是格式转换,并且是对整个文档转换,不能...Apowersoft PDF Converter最大的特点就是支持的格式多,图像、Word、PPT、HTML、TXT类型的文档都是可以转换 -
基于DEV实现服务器端文件预览 Word execl PPt PDf Image Txt
2019-04-22 11:30:29实现本地和服务器端文件打开预览,支持格式(ppt execl Word Image Txt Pdf) -
WORD转换成TXT格式
2010-06-05 11:28:38在DELPHI中将WORD文档转换成.TXT格式,便于保存等操作 -
C# 文件在线预览(word execl ppt Image txt pdf)
2019-04-17 09:15:511.文件不需下载 2.在线打开预览 3.支持多种格式 -
Word、PDF、PPT、TXT 格式之间的转换方法
2013-09-06 11:14:24Word、PDF、PPT、TXT 格式之间的转换方法 -
PDF转换器 、可转为Word、Excel、txt、PowerPoint
2019-04-27 09:21:111:无需安装Word、Excel 即可将PDF 转 Word;PDF 转 Excel ;PDF 转 PowerPoint; 2:将 PDF 文件内容导出为任何可支持的格式转换(.docx、.doc、.rtf、.xlsx、.xml、.pptx、.html 或 .txt) -
txt,word,wps到html格式转换的写法
2009-01-15 08:26:35txt,word,wps到html格式转换的写法 -
pdf转word工具.txt
2020-03-10 11:38:36特别好用的PDF转word工具,下载后按照安装教程安装无需破解即可使用,此免费在线转软件可将PDF文档保存至Microsoft Word DOCX格式的可编辑文档,与其它许多转换软件相比,可提供更优质的质量。