精华内容
下载资源
问答
  • 文章目录前言一、环境说明二、安装pywin32三、测试3.1 说明3.2 结果四、说明4.1 注意事项4.2 源码获取五、PDF获取内容到存储到txt格式文本5.1 测试文本说明5.2 实验步骤5.2 结果验证5.3 源码获取 前言    ...

    前言

           无论是在机器学习、数据挖掘还是深度学习等等,首先要做的就是数据预处理,所以数据预处理这块还是很重要的,因此博主将学习一下关于数据预处理相关的知识。
           关于数据预处理的基本概念知识,可查看博主此篇订阅号文章


    一、环境说明

    博主所使用的环境是:

    1、window10
    2、anaconda4.6
    3、python3.6
    4、pycharm

    二、安装pywin32

    通过命令:pip install pywin32 安装即可,具体如下图所示 (这里可爱的博主之前安装过所以会有Requirement,相关提示)
    在这里插入图片描述
    安装方法也特别的简单和网上的教程也特别的多,这里就不在一一赘述了。

    三、测试

    3.1 说明

    测试文件:如下图所示(至于里面的内容随便填写奥)
    在这里插入图片描述

    3.2 结果

    在这里插入图片描述在这里插入图片描述

    四、说明

    4.1 注意事项

    基本没有什么难度,特别要注意的一点就是分割文件名:以下是博主通过fnmatch库获取的绝对路径下的文件名。

    def Word2Txt(filePath,savePath=''):
        # 1、切分文件路径为文件目录和文件名
        dirs,filename = os.path.split(filePath)
        print('原始路径:',dirs)
        print('原始文件名:',filename)
        # 2、修改切分后的文件后缀
        new_name = "" #设置一个新的文件名
        if fnmatch.fnmatch(filename,'*.doc'): # 如果文件名后缀是以docx结尾的,则
            new_name = filename[:-4] + '.txt' # 截取直到倒数后四位,保留除后四位其余的内容
        elif fnmatch.fnmatch(filename,'*.docx'):
            new_name = filename[:-5] + '.txt'  # 截取直到倒数后5位,保留除后五位其余的内容
        else:
            print('格式不正确,仅支持doc or docx 格式')
            return
    

    以及获取测试文件路径要格外的注意:以下是我的测试文件存储路径,在pycharm中的一个相关路径

    if __name__ == '__main__':
        filePath = os.path.abspath(r'../dataSet/Corpus/wordtotxt/test_word2.docx') # 获取绝对路径
        Word2Txt(filePath)# 函数实例化
        print('word信息抽取到txt格式中完成')
    

    4.2 源码获取

    此链接名为wordTotxt.py文件

    到此处关于从word中抽取内容到存储到txt格式中就算完成了,接下来将学习关于从PDF中获取内容存储到txt格式中。



    五、PDF获取内容到存储到txt格式文本

    5.1 测试文本说明

    随便准备一个pdf文件,例如,如下就是博主准备的测试文件
    在这里插入图片描述

    5.2 实验步骤

    在这里插入图片描述

    5.2 结果验证

    在这里插入图片描述在这里插入图片描述
    基本和同word文档中抽取内容原理是一样的

    5.3 源码获取

    https://github.com/jiajikang-nlp/data_preprocess/tree/master/source_code此链接下名为pdf2txt.py文件



    2019年11月20日凌晨12点更新

    为了将抽取文档信息更为人性化,将多格式的文本信息抽取封装到一起,源码如下所示:

    """
     author:jjk
     datetime:2019/11/19
     coding:utf-8
     project name:Pycharm_workstation
     Program function: 多格式的文本信息抽取工具
    """
    
    import fnmatch,os
    from win32com import client as wc
    from win32com.client import Dispatch
    
    """
    功能描述:抽取多文档文本,默认保存在根目录下,支持自定义
    参数描述:1、filePath:文件路径;2、savePath:保存路径
    """
    
    def Files2Txt(filePath,savePath=''):
        # 1、切分文件路径为文件目录和文件名
        dirs, filename = os.path.split(filePath)
        print('原文件路径:',dirs)
        print('原文件名:',filename)
    
        # 2、修改切分后的文件名后缀
        typename = os.path.splitext(filename)[-1].lower() # 切分文件名获取后缀
        print('typename=',typename)
        new_name = TranType(filename,typename) # 文件名,文件类型名
    
        # 3、设置新的文件保存路径
        if savePath =='':
            savePath =dirs
        else:
            savePath = savePath
        new2txtPath = os.path.join(savePath,new_name)
        print('新的文件名:',new2txtPath)
    
        # 4、加载文本提取的处理程序
        wordapp = wc.Dispatch('Word.Application')  # 启动应用程序
        mytxt = wordapp.Documents.Open(filePath)  # 打开文件路径
        # 5、保存文本信息
        mytxt.SaveAs(new2txtPath,4)
        mytxt.close()
    
    """
    功能描述:根据文件后缀修改文件名
    参数描述:1、filePath:文件路径;2、typename:文件后缀
    返回数据:new_name 返回修改后的新的文件名
    """
    def TranType(filename,typename):
        new_name = ''
        if typename == '.pdf':# pdf-->txt
            if fnmatch.fnmatch(filename,'*.pdf'):
                new_name = filename[:-4] + '.txt'
            else:return
        elif typename == '.doc' or typename == '.docx': # word-->txt
            if fnmatch.fnmatch(filename,'*.doc'):
                new_name = filename[:-4] + '.txt'
            elif fnmatch.fnmatch(filename,'*.docx'):
                new_name = filename[:-5] + '.txt'
            else:return
        else:
            print('警告:您输入【',typename,'】数据不合法,本抽取工具仅支持doc/docx/pdf格式文件,请输入正确格式')
            return
        return new_name
    
    if __name__ == '__main__':
        filePath = os.path.abspath(r'../dataSet/Corpus/wordtotxt/test_word1.docx')
        Files2Txt(filePath)
    

    源码获取
    https://github.com/jiajikang-nlp/data_preprocess/tree/master/source_code此链接下名为extractTxt.py文件

    展开全文
  • word文档是我们平时最常见的文字处理软件,它提供了许多易于使用的文档创建工具,同时也提供...那么如何快速将word转换成txt记事本格式呢?将word转换成txt的方法是什么?下面我就使用smallpdf转换器这款pdf转换器来...

    word文档是我们平时最常见的文字处理软件,它提供了许多易于使用的文档创建工具,同时也提供了丰富的功能集供创建复杂的文档使用。在使用的时候我们有时为了更方便的保存或者打开,我们会将它转换成txt记事本格式来保存在我们的电脑上或是桌面上,这样下次打开就非常的方便了。那么如何快速将word转换成txt记事本格式呢?将word转换成txt的方法是什么?下面我就使用smallpdf转换器这款pdf转换器来演示一下如何转换。接下来我把转换流程分享给大家吧。
    1、首先打开smallpdf转换器进入界面后点击左边的“pdf转换成其他文件”里面的“文件转txt”。
    在这里插入图片描述
    2、如何点击下方的“添加文件”如何添加进去我们要转换的word文档。
    在这里插入图片描述
    3、我们还可以在上方“自定义”中选择我们转换成txt记事本后的存储位置。
    在这里插入图片描述
    4、准备好后我们就点击右下角的“开始转换”就可以快速的将我们的word文档转换成txt格式了。
    在这里插入图片描述
    5、最后转换完成我们就点击文件右侧“打开”就可以查看我们转换后的txt记事本了。
    在这里插入图片描述
    好了整个教程就是这些了。在刚刚使用过程中,小编发现这个pdf转换器的转换速度和准确率还是不错的,如果你有文件或者pdf文件需要转换的,可以考虑使用看看。

    展开全文
  • docx格式转txt格式先将doc格式转换为docx格式运用python-docx工具包来操作word文档乱码问题通过给定分隔符切分文段,并且保留分隔符 先将doc格式转换为docx格式 这里可以参考我的另一个博客: doc转docx. def doc_to_...

    先将doc格式转换为docx格式

    这里可以参考我的另一个博客: doc转docx.

    def doc_to_docx(file_dir):
        docfiles = []
        for root, dirs, files in os.walk(file_dir):
            for file in files:
                if os.path.splitext(file)[1] == '.doc':
                    docfiles.append(os.path.join(root, file))
            word = wc.Dispatch("Word.Application")  # 打开word应用程序
            for docfile in docfiles:
                doc = word.Documents.Open(docfile)  # 打开word文件
                doc.SaveAs('{}x'.format(docfile), 12)  # 另存为后缀为".docx"的文件,其中参数12指docx文件
                doc.Close()  # 关闭原来word文件
                os.remove(docfile)
            word.Quit()
            print("完成!")  
    

    运用python-docx工具包来操作word文档

    首先下载docx工具包,在命令行中输入pip install docx,就可以安装docx工具包。
    

    接着,读取word文档里面的文本和表格内容(因为我暂时处理的主要是这两种格式,所以只探究了如何提取这两种格式文本的方法)。

    from docx import Document #导入方法
    document = Document(filename) #注意这里的filename必须是包含绝对路径的文件名
    
    # 读取每段资料
    l = [paragraph.text.encode('utf-8') for paragraph in document.paragraphs]
     # 输出并观察结果,也可以通过其他手段处理文本即可
    pattern = r'(。|!|?|;)'
    for i in l:
    	list = []
    	seg = i.decode('utf-8')
    	seg = re.split(pattern, seg)
    	seg.append("")
    	seg = ["".join(i) for i in zip(seg[0::2], seg[1::2])]
    for word in seg:
    # 读取表格材料,并输出结果
    tables = [table for table in document.tables]
    for table in tables:
                    for row in table.rows:
                        for cell in row.cells:
                            print(cell.text.encode('utf-8').decode('utf-8'), '\t', )                                        
    

    乱码问题

    最开始的时候,会出现一些乱码问题,上网查询了一下是编码问题,具体操作就是给定指定的编码格式utf-8,这里以后再去详细了解,我主要就靠着给含有文本的变量名定义decode(‘utf-8’)来使得编码成功解析出汉字(如果尝试的变量名没有decode后缀,可以先encode(‘utf-8’)再decode(‘utf-8’))例如代码里面的:

    seg = i.decode('utf-8')
    cell.text.encode('utf-8').decode('utf-8')
    

    通过给定分隔符切分文段,并且保留分隔符

    在提取文本时,我需要将大段的文本通过我要求的字符来切分成一句一句的句子,同时,需要保留分隔符在句尾。平常运用的split方法会直接将切分符号去掉,满足不了要求(这里,我没想到运用split方法能切分文段且保留标记的办法),网上找到了一个方法,特此记录学习一下。贴一下博客链接: 保留分隔符在句尾.

    pattern = r'(。|!|?|;)'	#定义需要切割的分割符,加上()保留分隔符
    seg = re.split(pattern, seg)	#通过split先进行切分
    seg.append("")
    seg = ["".join(i) for i in zip(seg[0::2], seg[1::2])]
    
    

    写进txt文件里面

     output = open(filename, 'w', encoding='utf-8')
     for sentence in seg:
         output.write(sentence + '\n')
     
    
    展开全文
  • 由于工作的需要,需要将几百份的txt文本转成word格式,作为python小白,通过python顺利的完成了工作,分享出来,供大家参考。代码从简单到复杂,便于大家理解。 一、将一个txt文本内容读取到word中的代码 from ...

    由于工作的需要,需要将几百份的txt文本转成word格式,作为python小白,通过python顺利的完成了工作,分享出来,供大家参考。代码从简单到复杂,便于大家理解。
    一、将一个txt文本内容读取到word中的代码
    from urllib3 import *
    from re import *
    import os
    import hashlib
    def TXTRead_Writeline():
    ms=open(“D:\文本版\1097.txt”) #读取文件
    for line in ms.readlines(): #逐行写入
    with open(“C:\Users\word版\1097.doc”,“a”) as mon:
    mon.write(line)
    TXTRead_Writeline()

    二、将多个txt文本内容读取到一个word
    from urllib3 import *
    from re import *
    import re
    import os
    import hashlib
    import requests
    from bs4 import BeautifulSoup
    import bs4
    for filename in os.listdir(“D:\文本版”):
    with open(“D:\文本版\”+filename) as f: #读取每个文件
    for line in f.readlines(): #将每个文件文本同意逐行写入一个word中
    with open(“word版/全部文书整理版.doc”,“a”) as mom:
    mom.write(’\n’+line)
    三、将多个txt文本逐一读取到多个word
    from urllib3 import *
    from re import *
    import re
    import os
    import requests
    for filename in os.listdir(“D:\文本版”):
    with open(“D:\文本版”+filename) as f: #读取每个文本
    ms=re.sub(r’.txt’,’.doc’,filename) #将文本后缀进行修改
    for line in f.readlines():
    with open(“word版/”+ms,“a”) as mom: #写入每个word中
    mom.write(line)
    f.close()
    mom.close()

    展开全文
  • 有时候需要把大量的docx文件另存为其它格式,比如pdf、doc、rtf、txt,或者反向转换,可以用VBA批量处理。启动word,按下Alt+F11,打开Microsoft Visual Basic for Applications,点击 插入>模块,将下面的代码...
  • 本软件可以把CHM文件转换成word文档、txt文档、网页文件等二十多种格式
  • 在中国知网上下载的论文都是专门的caj形式,那么如何转化为Word形式便于编辑呢,一起来看吧 方法一: 1.最简单的一种就是用迅捷在线转化器,登陆迅捷官网首页 迅捷官网点击转到 2.点击CAJ转word,注册用户 3.选择想...
  • word存为txt文本、rtf格式的文件

    千次阅读 2011-11-28 14:10:28
    采用OLE的方式实现word转换为文本等格式 function WordToTxt( sDocFile: string ): string; var WordApp: Variant; begin WordApp := CreateOleObject( 'Word.Basic' ); if not VarIsEmpty(WordApp) then ...
  • java 实现wordtxt

    2020-05-30 18:44:17
    java 实现wordtxt http://sourceforge.net/projects/jacob-project/,下载jacob.jar包 下载的文件目录如下所示: 2.将.dll文件拷贝到%JAVA_HOME%/jre/bin。注意:根据jdk版本选择对应的.dll文件。 3.拷贝jacob....
  • rtf格式word格式

    千次阅读 2019-04-16 13:07:44
    可是,就算是打开的txt文件,最后居然没有保存选项,只能另存为,而且,还不能存成txt格式。那,我们从mac那里拷下来的rtf文件该怎么转成txt呢,一起来看看吧。 工具/原料 电脑 word 方法/步骤 首先...
  • .NET Word 文件格式转换

    千次阅读 2015-08-14 11:20:11
    在微软Word中,可以在“文件—另存为—保存类型”中实现Word文件格式的转换。这篇文章,旨在介绍使用我司控件产品Spire.Doc实现.NET平台上Word文档的格式转换。支持:.doc/.docx 和TXT, RTF, HTML, XML文件的相互...
  • python实现pdf转word/txt

    万次阅读 2018-04-16 15:17:20
    依赖包: pdfminer3k ...可以通过pip安装;... # 检测文档是否提供txt转换,不提供就忽略 ... print('对象数量:\n','页面数:%s\n'%...此脚本只能将pdf文件转换成纯文本文件,没有任何格式
  • 以前预览PDF格式采用UIWebview,或者利用CGPDFDocumentGetPage显示。 今天发现QLPreviewController也可以实现预览PDF的功能,步骤如下: 1,在项目中导入QuickLook框架 2,引入QuickLook头文件,在项目中准备一下...
  • xlx,xlxs,txtword,ppt等格式都可以。 实现步骤: 一、安装openoffice插件,启动服务。 安装步骤可参考: https://blog.csdn.net/Howinfun/article/details/80759008 说明: 服务器端安装openoffice插件...
  • 参考博文: ... 打开pdf 的几种方式: 1.webview浏览pdf,使用谷歌的文档服务,(但是面临翻墙的问题,不推荐): mWebView.loadUrl("...amp;url="......
  • 前言 有时需要看英文论文,奈何英语水平不太好,看完10几页的文档很吃力;于是到网上找了一大堆方法,一个一个尝试,还好有几个勉强能用...看看效果,总体上还是不错的,格式上没太大变化: 还支持文档免费下载,..
  • 默认的ContentType为 text/html 也就是网页格式.以下为一些常用的 ContentType :(经过测试成功的)--------------------------------------------------------------显示为网页 ---------------------------------
  • 1.以下拿导出excel举例,其他格式大体相同,只有写入相应格式时不一样 table-export.js中绑定的监听事件: 调用tableExport: $( exportTable ) .tableExport ( { type : 'excel' , escape: ...
  • 最近跟我同事一起做的项目要求读取txt,word,excel,ppt,pdf,html中的内容,... * 获取txt的文件内容 新建的默认格式 ,其它三种格式会乱码 * * @param txtFile * @return */ public String GetTxtContent(Fil
  • 1.概述我们都知道,Android原生并没有提供浏览office文档格式的相关Api,在安卓端想要实现在线预览office文档的功能显然很是复杂,我们手机安装QQ浏览器时,在手机打开office文档时会提示如图, 这就是这篇文章的主角–...
  • 可以把各种文档,如word , excl , ppt , pdf , txt 等转换成Jpeg , bmp , emf等格式文件。
  • 问题描述:代码中设置图片为嵌入型,但是生成word之后图片没有格式。 代码:object range = wordApp.Selection.Range; ;//wordDoc.Paragraphs.Last.Range; object linkToFile = false; //默认 object ...
  • 除了导出png、PPT格式和PDF导出不行,其他的都能正常导出来。 看下导出的具体效果吧。 其实简单就是给导出按钮下面的选项绑定事件,调用tableExport.js导出方法,还有就是注意jqgrid表格里面的内容有些是不必要导出...
  • 利用FreeMarker模板生成的word文档,其它格式文档同理,如pdf,txt,java,xml等等 需要向项目中加入freemarker的JAR文件,可以通过下面的链接获得Freemarker的最新版本: ...1、把要生成的模板文件填入freemarker...
  • word,txt 转 pdf,html实现在线预览功能

    千次阅读 2018-09-28 15:34:34
    之前项目需要在线预览WORD文档,用到的是jacob,但是需要在服务器安装OFFICE才行,比较麻烦,最近项目里又有很多在线预览的功能,同事发现了个更强大的转换器,贼好用,废话不多说直接上代码: import org.aspectj....
  • Python将word转化为txt文本

    千次阅读 2020-09-04 09:23:16
    word转化为txt文本 再次运行测试代码,转化后得到的是一个列表格式的数据,然后根据自己的需求进行下一步处理或保存到文件。 5. docx模块的其他用法 word文档(docx)的读取和写入:docx模块 参考:...
  • Perl Word文档转为TXT文件

    千次阅读 2014-03-04 20:13:55
    #!/usr/bin/perl -w# usage: perl convertword.pluse strict;use warnings;use Cwd;use File::Spec::Functions qw( catfile );...use Win32::OLE::Const 'Microsoft Word';$Win32::OLE::Warn = 3;# 获取当前

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 66,631
精华内容 26,652
关键字:

word是txt格式吗