精华内容
下载资源
问答
  • IDEA创建Scratch File,即划痕文档,也称临时文件、草图,快捷键Ctrl+Alt+Shift+Insert调出,或者New-Scratch File。用来进行文本的临时处理,如XML、Json格式化(快捷键:Ctrl+Alt+L)等。 在草图中可以右键改变...

    IDEA创建Scratch File,即划痕文档,也称临时文件、草图,快捷键Ctrl+Alt+Shift+Insert调出,或者New-Scratch File。用来进行文本的临时处理,如XML、Json格式化(快捷键:Ctrl+Alt+L)等。
    在草图中可以右键改变文本格式,支持txt、html、java、json、xml、log、protobuf等。
    这些草图保存在.IdeaIC2018.2\config\scratches中。

    展开全文
  • 文本文件和字符集

    2019-06-19 23:59:15
    文本:纯文本、富文本 ...富文本:RTF 是RICH TEXT FORMAT(丰富文本格式)的缩写。可以保持文本内容以外的内容。 将字符转换为二进制码的过程,成为编码; 将二进制转换为字符的过程,叫做解码; ...

    文本:纯文本、富文本

    纯文本:没有任何文本修饰的文本;只能保存单一的文本内容,没有任何粗体、下划线、斜体、图形、符号或者特殊字符。代码全为纯文本!纯文本在计算机底层也会转换为二进制保存。

    富文本:RTF 是RICH TEXT FORMAT(丰富的文本格式)的缩写。可以保持文本内容以外的内容。

        将字符转换为二进制码的过程,成为编码;

        将二进制转换为字符的过程,叫做解码;

        编码和解码的过程为:字符集

    乱码:编写程序时,如果发现乱码,就首先检查字符集是否正确,有的编辑器会改变源文件的编码

    常用的字符集:

        Unicode:万国码,包含实际上所有的语言和字符,最常用的是:UTF-8

     

     

     

     

     

     

     

    展开全文
  • 众所周知,python最强大的地方在于,python社区汇总拥有丰富的第三方库,开源的特性,使得越来越多的技术开发者来完善。 python的完美性。 未来人工智能,大数据方向,区块链的识别和进阶都将以python为中心来...

    引言

    众所周知,python最强大的地方在于,python社区汇总拥有丰富的第三方库,开源的特性,使得有越来越多的技术开发者来完善。

    python的完美性。

    未来人工智能,大数据方向,区块链的识别和进阶都将以python为中心来展开。

    咳咳咳! 好像有点打广告的嫌疑了。

    当前互联网信息共享时代,最重要的是什么?是数据。最有价值的是什么?是数据。最能直观体现技术水平的是什么?还是数据。

    所以,今天我们要分享的是:如何来获取各个文件格式的文本信息。

    普通文件的格式 一般分为: txt普通文本信息,doc word文档,html网页内容,excel表格数据,以及特殊的mht文件。

    一、Python处理html网页信息

    html类型的文本数据,内容是由前端代码书写的标签+文本数据的格式,可以直接在chrome浏览器打开,清楚 的展示出文本的格式。

    python 获取html文件的内容和获取txt文件的方法相同,直接打开文件读取就可以了。

    读取代码如下:

     

    file 是html文件的文本内容。是一个网页标签的格式内容。

    Python处理excel表格信息

    python拥有直接操作excel表格的第三方库xlwt,xlrd。调用对应的方法就可以读写excel表格数据。

    读取excel操作代码如下:

     

    其中row是表格数据对应的行数, cell获取具体行数,列数的具体数据。

    三、Python读取doc文档数据

    python读取doc文档是最麻烦的。处理逻辑复杂。处理的方式也有很多种。

    python 没有直接处理doc文档的第三方库,但是有一个处理docx的第三方库。可以通过将doc文件转换为docx文件,再调用第三方python库pydocx来读取doc文档的内容。

    这里需要注意的是,不要直接修改doc的后缀来修改成docx文件。直接通过修改后缀获取的docx文件,pydocx无法读取内容。

    我们可以使用另外一个库来修改doc为docx。

    具体代码如下:

     

    代码所需的包接口:

     

    python处理docx文档的方法有很多种,具体使用情况,根据个人需求来决定。

    No.1 解压docx文件

    docx文件的原理,本质上就是一个压缩的zip文件,通过解压以后,就可以获取原来文件的各个内容。

    docx解压后的文件结构如下:

    docx文件的文本内容存储结构如下:

    文本内容存储于word/document.xml文件中。

    第一种方法,我们就可以先将docx还原成zip压缩文件,再解压zip文件,读取word/document.xml文件的内容就ok了。

    具体操作代码如下:

     

    最后获取到的就是docx文档的所有文本数据了。

    No.2 将docx文档转换成python能够处理的文本格式

    第一种方法,是依据docx文档的原理来获取数据,流程有点繁琐,有没有能直接读取docx文档内容的方法呢?答案,肯定是没有的,别想了,洗洗回家睡吧。

    直接读取docx文档的方法没有,有没有能够将docx文档转换成python能够轻松处理的文本格式呢?

    这个可以有,前面说了,python拥有大量丰富的第三方库(先夸一波我大python),历经千辛万苦终于找到了,一个能转换docx文档格式的第三方库,pydocx,pydocx库中有个方法pydocx.to_html()就可以直接将docx文档转换为html文件,怎么样?意不意外,惊喜不惊喜!

    第二种方法,转换文本格式的代码如下:

     

    获取到的response是html文件内容。

    四、Python处理mht文件

    mht文件是一种只能在IE浏览器上展示的文本格式,在chrome浏览器中打开是一堆的乱码。

    No.1 伪造IE请求mht文件内容

    最基础的读取mht文本的方法就是伪造IE浏览器请求。

    调用requests库,发送get请求网页链接,构造IE的请求头信息。

    理论上来说,这种方法是可行的。但是呢,不建议用,原因大家都懂得。

    No.2 转换文件格式

    好了说正经的方法,猜测mht文件能否修改成其他文件格式来直接读取呢?

    docx,不行;html,不行;excel,更不用说了。

    真相只有一个!!!

    直接修改后缀得到的docx,无法读取。

    so,我们想到的方法是什么呢。没错,就是修改成doc文档。

    方法是匪夷所思的,但也是灵感一现。

    mht可以直接通过修改后缀转换成doc文档,doc文档读取文本内容的方法具体参考上面读取doc文档的方法。

    如何获取html文本的内容?

    html文本的内容是网页结构标签数据,取出文本的方式是:re正则,或者xpath。

    后续,小伙伴有需要的话,会再开一章详细了解re,xapth的使用规则。

    展开全文
  • 众所周知,python最强大的地方在于,python社区汇总拥有丰富的第三方库,开源的特性,使得越来越多的技术开发者来完善 python的完美性。 未来人工智能,大数据方向,区块链的识别和进阶都将以python为中心来展开。 ...

    引言

    众所周知,python最强大的地方在于,python社区汇总拥有丰富的第三方库,开源的特性,使得有越来越多的技术开发者来完善

    python的完美性。

    未来人工智能,大数据方向,区块链的识别和进阶都将以python为中心来展开。

    咳咳咳! 好像有点打广告的嫌疑了。

    当前互联网信息共享时代,最重要的是什么?是数据。最有价值的是什么?是数据。最能直观体现技术水平的是什么?还是数据。

    所以,今天我们要分享的是:如何来获取各个文件格式的文本信息。

    普通文件的格式 一般分为: txt普通文本信息,doc word文档,html网页内容,excel表格数据,以及特殊的mht文件。

    一,python处理html网页信息。

    html类型的文本数据,内容是由前端代码书写的标签+文本数据的格式,可以直接在chrome浏览器打开,清楚 的展示出文本的格式。

    python 获取html文件的内容和获取txt文件的方法相同,直接打开文件读取就可以了。

    读取代码如下:

     with open(html_path, "r", encoding="utf-8") as f:
                file = f.read()
    

    file 是html文件的文本内容。是一个网页标签的格式内容。

    二,python处理excel表格信息。

    python拥有直接操作excel表格的第三方库xlwt,xlrd。调用对应的方法就可以读写excel表格数据。

    读取excel操作代码如下:

            filepath = "C:\\Users\Administrator\Desktop\新建文件夹\笨笨 前程6份 武汉.xls"
            sheet_name = "UserList"
            rb = xlrd.open_workbook(filepath)
    
            sheet = rb.sheet_by_name(sheet_name)
    
            # clox_list = [0, 9, 14, 15, 17]
            for row in range(1, sheet.nrows):
                w = WriteToExcel()
                # for clox in clox_list:
                name = sheet.cell(row, 0).value
                phone = sheet.cell(row, 15).value
                address = sheet.cell(row, 9).value
                major = sheet.cell(row, 14).value
                age = sheet.cell(row, 8).value
    

    其中row是表格数据对应的行数, cell获取具体行数,列数的具体数据。

    三,python读取doc文档数据。

    python读取doc文档是最麻烦的。处理逻辑复杂。处理的方式也有很多种。

    python 没有直接处理doc文档的第三方库,但是有一个处理docx的第三方库。可以通过将doc文件转换为docx文件,再调用第三方python库pydocx来读取doc文档的内容。

    这里需要注意的是,不要直接修改doc的后缀来修改成docx文件。直接通过修改后缀获取的docx文件,pydocx无法读取内容。

    我们可以使用另外一个库来修改doc为docx。

    具体代码如下:

     def doSaveAas(self, doc_path):
            """
            将doc文档转换为docx文档
    
            :rtype: object
            """
    
            docx_path = doc_path.replace("doc", "docx")
            word = wc.Dispatch('Word.Application')
            doc = word.Documents.Open(doc_path)  # 目标路径下的文件
            doc.SaveAs(docx_path, 12, False, "", True, "", False, False, False, False)  # 转化后路径下的文件
            doc.Close()
            word.Quit()
    

    代码所需的包接口:
    在这里插入图片描述
    python处理docx文档的方法有很多种,具体使用情况,根据个人需求来决定。

    No.1 解压docx文件。

    docx文件的原理,本质上就是一个压缩的zip文件,通过解压以后,就可以获取原来文件的各个内容。

    docx解压后的文件结构如下:
    在这里插入图片描述
    docx文件的文本内容存储结构如下:

    文本内容存储于word/document.xml文件中。
    在这里插入图片描述
    第一种方法,我们就可以先将docx还原成zip压缩文件,再解压zip文件,读取word/document.xml文件的内容就ok了。

    具体操作代码如下:

     def get_content(self):
            """
            获取docx文档的文本内容
            :rtype: object
            """
            os.chdir(r"C:\Users\Administrator\Desktop\新建文件夹")  # 改变目录到文件的目录
            #
            os.rename("51 2014.09.12 1份Savannah.docx", "51 2014.09.12 1份Savannah.ZIP")  # 重命名为zip文件
    
            f = zipfile.ZipFile('51 2014.09.12 1份Savannah.ZIP', 'r')  # 进行解压
    
            xml = f.read("word/document.xml")
    
            wordObj = BeautifulSoup(xml.decode("utf-8"))
            # print(wordObj)
            texts = wordObj.findAll("w:t")
            content = []
            for text in texts:
                content.append(text.text)
            content_str = "".join(content)
            return content_str
    

    最后获取到的就是docx文档的所有文本数据了。

    No.2 将docx文档转换成python能够处理的文本格式。

    第一种方法,是依据docx文档的原理来获取数据,流程有点繁琐,有没有能直接读取docx文档内容的方法呢?答案,肯定是没有的,别想了,洗洗回家睡吧。

    直接读取docx文档的方法没有,有没有能够将docx文档转换成python能够轻松处理的文本格式呢?

    这个可以有,前面说了,python拥有大量丰富的第三方库(先夸一波我大python),历经千辛万苦终于找到了,一个能转换docx文档格式的第三方库,pydocx,pydocx库中有个方法pydocx.to_html()就可以直接将docx文档转换为html文件,怎么样?意不意外,惊喜不惊喜!

    第二种方法,转换文本格式的代码如下:

        def docx_to_html(self, docx_path):
            """
            docx文档转换成html响应
            :rtype: object
            """
            # docx_path = "C:\\Users\Administrator\Desktop\新建文件夹\\51 2014.09.12 1份Savannah.docx"
            response = PyDocX.to_html(docx_path)
    

    获取到的response是html文件内容。

    四,python处理mht文件。

    mht文件是一种只能在IE浏览器上展示的文本格式,在chrome浏览器中打开是一堆的乱码。

    No.1 伪造IE请求mht文件内容

    最基础的读取mht文本的方法就是伪造IE浏览器请求。

    调用requests库,发送get请求网页链接,构造IE的请求头信息。

    理论上来说,这种方法是可行的。但是呢,不建议用,原因大家都懂得。

    在这里插入图片描述

    No.2 转换文件格式

    好了说正经的方法,猜测mht文件能否修改成其他文件格式来直接读取呢?

    docx,不行;html,不行;excel,更不用说了。

    真相只有一个!!!

    直接修改后缀得到的docx,无法读取。

    so,我们想到的方法是什么呢。没错,就是修改成doc文档。

    方法是匪夷所思的,但也是灵感一现。

    mht可以直接通过修改后缀转换成doc文档,doc文档读取文本内容的方法具体参考上面读取doc文档的方法。

    如何获取html文本的内容?

    html文本的内容是网页结构标签数据,取出文本的方式是:re正则,或者xpath。

    后续,小伙伴有需要的话,会再开一章详细了解re,xapth的使用规则。

    如果有问题的话,也可以随时留言,感谢观看!!

    展开全文
  • csharp文本文件读写

    万次阅读 2007-05-14 16:29:00
    下面是一个简单的文本文件读操作 using System; using System.IO; class FileTest { static void Main(string [] args) { string filename="testfile.txt"; //打开文件并显示其内容 StreamReader reader=null; try {...
  • 文件类型格式大全

    千次阅读 2011-10-15 00:21:52
    文件类型大全 ★图像文件的后缀名 进入多媒体世界后,大家会看到各种各样精彩的图片,会发现许多种后缀名。的确,由于各个公司在开发图形有关的软件时都自制标准,导致今日在图形方面太多的格式
  • RTF文件格式分析

    千次阅读 2016-07-15 15:28:06
    RTF是文本格式的一种,是RichTextFormat的缩写,意即丰富文本格式,主要用于各种文字处理软件之间的文本交换,其特点是保持原文字设置不变。如将WPS文件另存为RTF格式,用Word进行编辑处理,原WPS下设置的字形、...
  • 文本格式和二进制格式的区别

    千次阅读 2012-09-25 17:43:51
    关于二进制文件和文本文件,他们之间到底什么不同呢?在这篇文章里,我用自己的方式来解读!不对之处,望各位牛人多指点,或联系我jiadongkai@gmail.com.  我们都知道,在机器层面,所有的信息都是0/1,所有的...
  • 文件格式、后缀名、图片格式详解

    千次阅读 2019-03-12 08:51:19
    常见的文件后缀名 .ACA:Microsoft的代理使用的角色文档 .acf:系统管理配置 .acm:音频压缩管理驱动程序,为Windows系统提供各种声音格式的编码和解码功能 .aif:声音文件,支持压缩,可以使用WindowsMedia...
  • http content-type常见文件格式类型

    万次阅读 2017-12-04 15:58:42
    Content-Type,一般是指网页中存在的Content-Type,用于定义网络文件类型和网页的编码,决定浏览器将以什么形式、什么编码读取这个文件,比如用PHP输出图片文件、JSON数据、XML文件等非HTML内容时,就必须用header...
  • 基于Huffman编码的文本文件压缩程序(一) 从8.5号以来,我一直在写一个基于Huffman编码的文本文件压缩程序,但是我发现困难比想像中的要大得多,Huffman编码是那么简洁明了的一种思想,那么直观的实现算法,对于...
  • 文件包括两种类型文本文件和二进制文件。 文本文件:一般由单一特定编码的字符组成,如UTF-8编码,内容容易统一展示和阅读。大部分文本文件都可以通过文本编辑软件或文字处理软件创建、修改和阅读。由于文本文件...
  • 最近要用到一个富文本编辑器,记得遥远的年代,调过Kingeditor、Ueditor。。。但是那些都很重,,,于是最近经常再留意这件事,直到最近看到一个wangEditor,体验了一下,又轻又好用,功能也相对丰富够用。 官网地址...
  • 使用IDropTarget接口同时支持文本文件拖放 关于Windows的外壳扩展编程,拖放是比较简单的一种,在网上可以找到不少介绍这个技巧的文章。大部分是介绍使用MFC的COleDropTarget实现的,我觉得一般使用...
  • idea中创建xml文件无法识别,显示成普通文本原因新的改变功能快捷键合理的创建标题,助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、...
  • 常用的文件后缀都有哪些

    千次阅读 2019-07-21 06:49:39
    ACA Microsoft的代理使用的角色文档 acf 系统管理配置 acm 音频压缩管理驱动程序,为Windows系统提供各种声音格式的编码和解码功能 aif 声音文件,支持压缩,可以使用Windows Media Player和QuickTime Player播放 AIF...
  • MIME类型-多媒体文件格式

    千次阅读 2010-01-23 00:53:00
    最早的HTTP协议中,并没有附加的数据类型信息,所有传送的数据都被客户程序解释为超文本标记语言HTML 文档,而为了支持多媒体数据类型,HTTP协议中就使用了附加在文档之前的MIME数据类型信息来标识数据类型。...
  • C++文件格式

    千次阅读 2012-11-17 11:54:05
    C++文件格式   APS:存放二进制资源的中间文件,VC把当前资源文件转换成二进制格式,并存放在APS文件中,以加快资源装载速度。资源辅助文件。 .BMP:位图资源文件。 .BSC:浏览信息文件,由浏览信息维护工具...
  • 用户可以在富文本域中编辑包含字体、颜色、段落属性等丰富格式文本,还可以方便地添加附件。实际上,Notes的表单的布局设计本身就是保存在一个富文本域里。为了保存大段的文本格式信息以及附件,富文本域没有...
  • elementUI文件上传 判断文件类型

    千次阅读 2020-04-18 16:19:17
    判断文件类型文件上传文件个数限制获取文件流错误信息删除合理的创建标题,助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右...
  • .acm:音频压缩管理驱动程序,为Windows系统提供各种声音格式的编码和解码功能 .aif:声音文件,支持压缩,可以使用Windows Media Player和QuickTime Player播放 .AIF:音频文件,使用Windows Media Player播放 .AIFC...
  • hdfs文件存储格式

    千次阅读 2018-11-13 10:36:00
    hdfs 文件存储格式 hdfs 文件存储格式分为两大类 行存储和列存储 行存储,将一整行存储在一起,是一种连续的存储方式,例如SequenceFile,MapFile,缺点是如果只需要行中的某一列也必须把整行都读入内存当中 列存储 列...
  • WMV文件格式

    千次阅读 2013-10-16 09:48:14
    格式的简单说明: 如图1,每一个WMA文件,它的头16个字节是固定的,为十六进制的“30 26 B2 75 8E 66 CF 11 A6 D9 00 AA 00 62 CE 6C”,用来标识这个是否为WMA文件。接下来的8个字节为一个整数,表示整个WMA文件...
  • 使用IDropTarget接口同时支持文本文件拖放(二)2008-01-12 07:47在这里我们最感兴趣的是cfFormat和tymed两个数据。cfFormat是标准的“粘帖板”数据类型比如CF_TEXT之类。tymed表示数据所依附的媒介,比如内存,磁盘...
  • VC文件格式

    千次阅读 2007-01-20 14:20:00
    VC文件格式作者 fevair 18:11 | 静态链接网址 | 最新回复 (0) | 引用 (0) | C++/VC .opt 工程关于开发环境的参数文件。... .clw ClassWizard信息文件,实际上是INI文件格式,兴趣可以研究一下.时候ClassWizard出
  • 常见的图片文件格式

    千次阅读 2018-01-09 22:47:21
    为Windows位图,它是Windows操作系统中的标准图像文件格式,能够被多种Windows应用程序所支持。 TIFF格式 是Mac中广泛使用的图像格式,它由Aldus和微软联合开发,最初是出于跨平台存储扫描图像的需要而设计的
  • 流媒体/流媒体文件格式详解

    万次阅读 2017-05-31 20:34:41
    摘 要 流媒体文件格式在流媒体系统中占有重要地位,设计合理的文件格式是提高流媒体服务器工作效率最直接和最有效的办法。该文在剖析常用流媒体系统和文件格式的基础上,特别地对美国xiph.org基金会的开源流媒体...
  • Las与Laz点云文件格式的区别

    千次阅读 2019-01-22 14:46:28
    Las与Laz点云文件格式的区别Las与Laz点云文件的读取LasLaz点集压缩LASzip功能快捷键合理的创建标题,助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格...
  • 文件格式

    千次阅读 2008-06-06 09:40:00
    .ACA:Microsoft的代理使用的角色文档 .acf:系统管理配置 .acm:音频压缩管理驱动程序,为Windows系统提供各种声音格式的编码和解码功能 .aif:声音文件,支持压缩,可以使用Windows Media Player和QuickTime Player...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 94,703
精华内容 37,881
关键字:

丰富格式文本的文件类型有哪些