精华内容
下载资源
问答
  • 自己收集的电子书处理工具(exe转txt chm转txt html转txt 小说章节分割器 txt合并工具)
  • 批量将txt转换为html

    2019-04-22 10:00:15
    写了一个批处理,目录下的txt文件全部自动转换为网页格式,自动换行,无乱码
  • JS将html转换成txt

    千次阅读 2013-10-30 11:24:51
    //将html转换成txt function css_js_html($str,$encode = 'GB2312'){ $str = preg_replace("//is", "", $str); $str = preg_replace("//is", "", $str); $str = preg_replace("//i", "\n", $str); $...

    //将html转换成txt

    function css_js_html($str,$encode = 'GB2312'){

    $str = preg_replace("/<style .*?<\/style>/is", "", $str);

    $str = preg_replace("/<script .*?<\/script>/is", "", $str);

    $str = preg_replace("/<br \s*\/?\/>/i", "\n", $str);

    $str = preg_replace("/<\/?p>/i", "\n\n", $str);

    $str = preg_replace("/<\/?td>/i", "\n", $str);

    $str = preg_replace("/<\/?div>/i", "\n", $str);

    $str = preg_replace("/<\/?blockquote>/i", "\n", $str);

    $str = preg_replace("/<\/?li>/i", "\n", $str);

    $str = preg_replace("/\&amp\;/i", "&", $str);

    $str = preg_replace("/\&amp/i", "&", $str);

    $str = preg_replace("/\&lt\;/i", "<", $str);

    $str = preg_replace("/\&lt/i", "<", $str);

    $str = preg_replace("/\&ldquo\;/i", '"', $str);

    $str = preg_replace("/\&ldquo/i", '"', $str);

    $str = preg_replace("/\&lsquo\;/i", "'", $str);

    $str = preg_replace("/\&lsquo/i", "'", $str);

    $str = preg_replace("/\&rsquo\;/i", "'", $str);

    $str = preg_replace("/\&rsquo/i", "'", $str);

    $str = preg_replace("/\&gt\;/i", ">", $str);

    $str = preg_replace("/\&gt/i", ">", $str);

    $str = preg_replace("/\&rdquo\;/i", '"', $str);

    $str = preg_replace("/\&rdquo/i", '"', $str);

    $str = strip_tags($str);

    $str = html_entity_decode($str, ENT_QUOTES, $encode);

    $str = preg_replace("/\&\#.*?\;/i", "", $str);

    return $str;

    }

    展开全文
  • chm转txt html

    2009-05-10 00:26:29
    chm转换为htmltxt的工具,绿色免费软件!
  • java实现html转txt

    热门讨论 2008-09-10 22:39:36
    只需要把html读出来,放到方法里面,就能得到html的文本,很好的方法,我找了好久,现在发上来
  • html批量转换成txt文档

    2012-01-14 12:54:10
    html转换txt文档的工具。主要适用那些想把网页版的小说转换成一个txt文档的软件。很实用。
  • RTF转HTML,HTML转TXT(Java版)

    千次阅读 2010-07-08 15:45:00
    本文是关于如何RTF转成HTMLHTML转TXT的例子,其中涉及到Java编码转换,如何还原转义HTML字符等常见问题。

    想要做一个RTF转换TXT的代码,找了一圈,好不容易找了个折中的方法,先转HTML,然后提取HTML中的纯文本部分,下面把整个方法介绍一下。

    一、第三方开发包

    先简单介绍一下RTF格式相关的内容,摘自百度百科:

    作为微软公司的标准文件,早期外间需要数十美元向微软付款,才能购买一本薄薄的RTF标准文件。不过随着采用RTF格式标准的软件愈来愈多,RTF格式也愈来愈普遍,微软公司就把标准文件公开,放在网上供开发者下载。现时可供下载的各个RTF版本标准文件如下:
      RTF 1.9.1 specification (March 2008)
      RTF 1.8 specification (April 2004)
      RTF 1.6 specification (May 1999)
      RTF 1.5 specification (April 1997)
      RTF 1.3 and 1.5 specifications
      RTF 1.0 specification (June 1992)
      RTF格式是许多软件都能够识别的文件格式。比如Word、WPS Office、Excel等都可以打开RTF格式的文件,这说明这种格式是较为通用的。
      RTF是Rich Text Format的缩写,意即多文本格式。这是一种类似DOC格式(Word文档)的文件,有很好的兼容性,使用Windows“附件”中的“写字板”就能打开并进行编辑。使用“写字板”打开一个RTF格式文件时,将看到文件的内容;如果要查看RTF格式文件的源代码,只要使用“记事本”将它打开就行了。这就是说,你完全可以像编辑HTML文件一样,使用“记事本”来编辑RTF格式文件。
    

    忘记怎么找到WebCAT了,可能找太多、太乱,当时的关键词也没记住,http://webcat.sourceforge.net/,JavaDoc可以从这里http://webcat.sourceforge.net/javadocs/访问。WebCAT是葡萄牙里斯本大学的一个XXX什么的开发的(WebCAT was developed at the XLDB group of the Department of Informatics of the Faculty of Sciences of the University of Lisbon in Portugal.),其中提供的RTF2HTML可以很方便地把RTF文件转换成HTML文件,而且速度也还可以。不过只是针对文本,不能保留图片等资源,有些遗憾,但是并不影响转TXT的目的。

    二、RTF转HTML

    new RTF2HTML().convertRTFToHTML(new File(filename)),方法convertRTFToHTML会返回一个转换成HTML格式的字符串。

    三、HTML转TXT

    当得到HTML格式文本后,就可以做HTML转TXT了,WebCAT里并不提供HTML转TXT,所以得自己实现。思路是先去除所有的HTML标记,之后将HTML转义字符还原成原始字符即可。对于去除HTML标记,用正则表达式还是比较方便的,另外就是如何还原HTML转义字符,自己写太麻烦而且还有可能无法覆盖所有情况,所以可以去网上找出现成的代码,这里找到的是一个叫做StringUtils的类,其中有一个unescapeHTML(String, int)方法就是用于反转HTML字符,如将“&nbsp;”转成空格。

    四、查看系统信息

    利用StringlistSystemInfo可以查看一些系统信息,具体实现请参考下面代码,对于打印出来的系统信息,有几项内容需要注意一下:

    sun.jnu.encoding=Cp1252
    file.encoding=UTF-8

    file.encoding决定了Java做文件输出时的文件编码,sun.jnu.encoding表示读取文件时采用的什么样的字符编码。

    五、开始测试

    环境查看

    C:/Workspace/php eclipse/Tester/bin>java -Dfile.encoding=UTF-8 -cp "C:/Workspace/eclipse/RTF/Document Parser;" Main -s
    -- listing properties --
    java.runtime.name=Java(TM) SE Runtime Environment
    sun.boot.library.path=C:/Program Files/Java/jre6/bin
    java.vm.version=16.3-b01
    java.vm.vendor=Sun Microsystems Inc.
    java.vendor.url=http://java.sun.com/
    path.separator=;
    java.vm.name=Java HotSpot(TM) Client VM
    file.encoding.pkg=sun.io
    user.country=US
    sun.java.launcher=SUN_STANDARD
    sun.os.patch.level=Service Pack 2
    java.vm.specification.name=Java Virtual Machine Specification
    user.dir=C:/Documents and Settings/Administrat...
    java.runtime.version=1.6.0_20-b02
    java.awt.graphicsenv=sun.awt.Win32GraphicsEnvironment
    java.endorsed.dirs=C:/Program Files/Java/jre6/lib/endorsed
    os.arch=x86
    java.io.tmpdir=C:/DOCUME~1/ADMINI~1/LOCALS~1/Temp/
    line.separator=
    
    java.vm.specification.vendor=Sun Microsystems Inc.
    user.variant=
    os.name=Windows XP
    sun.jnu.encoding=Cp1252
    java.library.path=C:/WINDOWS/system32;.;C:/WINDOWS/Sun/...
    java.specification.name=Java Platform API Specification
    java.class.version=50.0
    sun.management.compiler=HotSpot Client Compiler
    os.version=5.1
    user.home=C:/Documents and Settings/Administrator
    user.timezone=
    java.awt.printerjob=sun.awt.windows.WPrinterJob
    file.encoding=UTF-8
    java.specification.version=1.6
    user.name=KNIGHTRCOM
    java.class.path=C:/Documents and Settings/Administrat...
    java.vm.specification.version=1.0
    sun.arch.data.model=32
    java.home=C:/Program Files/Java/jre6
    java.specification.vendor=Sun Microsystems Inc.
    user.language=en
    awt.toolkit=sun.awt.windows.WToolkit
    java.vm.info=mixed mode, sharing
    java.version=1.6.0_20
    java.ext.dirs=C:/Program Files/Java/jre6/lib/ext;C:...
    sun.boot.class.path=C:/Program Files/Java/jre6/lib/resour...
    java.vendor=Sun Microsystems Inc.
    file.separator=/
    java.vendor.url.bug=http://java.sun.com/cgi-bin/bugreport...
    sun.cpu.endian=little
    sun.io.unicode.encoding=UnicodeLittle
    sun.desktop=windows
    sun.cpu.isalist=pentium_pro+mmx pentium_pro pentium+m...
    

    RTF转TXT。

    C:/Workspace/php eclipse/Tester/bin>java -Dfile.encoding=UTF-8 -cp "C:/Workspace/eclipse/RTF/Document Parser;" Main

    说明一下参数,-D后面可以让我们主动设置环境变量,所以我们可以设置下Java输出文件时所使用的编码;另外,我们在程序中使用了WebCAT提供的工具类,这些工具类位于解压后的Document Parser文件夹中,所以执行Main类时,需要将文件夹Document Parser放入环境变量中,以便程序可以顺利的找到相关类。

    六、关于编码

    如果字符编码设置不正确,很大可能会导致乱码现象。这个问题历来都是很棘手的,但是我们在开发过程中可以分析环境以及要读入的文件,然后得出一个正确的解决方案。程序首先是读入RTF然后转换成HTML,这个功能是WebCAT提供的,所以不用关注太多细节问题,但是在调试时发现,转换后的HTML是乱码的!其实这个跟Web开发中request.getParameter得到的结果是乱码的问题有相似之处,都是因为Java没有采用正确的文字编码读取输入字符造成的,在我的开发环境中,由于默认的编码格式是Cp1252(即sun.jnu.encoding的值),所以原本的GB2312就会错误的编码解读导致乱码。这时我们只需要把字符串重新按照正确编码读取一下就OK了。具体步骤是先用Cp1252编码把错误编码的String转成原始的byte,然后再用正确编码GB2312将byte转String还原原始文件的字符内容,代码请参考executeRTF2TXT中的new String(result.getBytes("Cp1252"), "GB2312");这句。

    上面描述的是读取文本时产生的乱码现象,另外一个就是写文件的乱码,FileWriter.getEncoding()方法可以获取当前文件是以什么编码保存的,它的值依赖于file.encoding,所以在运行程序时添加一个-D选项设置这个值就可以了,如果有多个环境变量需要指定,可以多用几个-D。

    七、源代码

    为了删除无用空格,特地在程序中添加了一个StringUtils.trimThroughLines方法用于删除所有行中无效空格,其中正则的具体含义可以参考http://blog.csdn.net/rcom10002/archive/2009/08/19/4462284.aspx。程序的所有源码如下(展开查看):


    展开全文
  • Python 将HTML转换为TXT

    千次阅读 2014-09-05 07:24:09
    CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-9-5 @author: guaguastd @name: html_to_text.py ...from login import google_api_request from html import cleanHtml while True:

    CODE:

    #!/usr/bin/python 
    # -*- coding: utf-8 -*-
    
    '''
    Created on 2014-9-5
    @author: guaguastd
    @name: html_to_text.py
    '''
    
    from login import google_api_request
    from html import cleanHtml
    
    while True:
        query = raw_input("Input query(None to quit): ")
        if query.strip() == '':
            break
        
        #people_feed = google_login_http("people", "query", query)
        #people_feed = google_api.people().search(query=query).execute()
        #print json.dumps(people_feed['items'], indent=1)
        people_feed = google_api_request(0, action='search', query=query)
        
        for user in people_feed['items']:
            userId = user['id']
            activity_feed = google_api_request(1, action='list', collection='public', maxResults='100', userId=userId)
            #print json.dumps(activity_feed, indent=1)
            print '\nPrimary content including HTML tag:'
            print activity_feed['items'][0]['object']['content']
            print '\nConverted content without HTML tag:'
            print cleanHtml(activity_feed['items'][0]['object']['content'])

    RESULT:

    Input query(None to quit): Tim O'Reilly
    
    Primary content including HTML tag:
    ABC World News covers @HomeDepot credit card data breach, recommends @BillGuard to protect yourself! <a href="https://www.youtube.com/watch?v=_ynH_rvWHXw">BillGuard on ABC World News Tonight With David Muir</a> … (Minute <a href="https://www.youtube.com/watch?v=_ynH_rvWHXw&t=1m25s">1:25</a>)
    
    Converted content without HTML tag:
    ABC World News covers @HomeDepot credit card data breach, recommends @BillGuard to protect yourself! BillGuard on ABC World News Tonight With David Muir … (Minute 1:25 )
    


    展开全文
  • 1 HTM(HTML)转TXT 所需软件:HTML2TXT.exe 说明:启动软件,单击“添加文件”按钮找到需要转换的HTML文件;选择一个输出文件夹,然后单击“开始”按钮即可得到反编译后的HTM文件。 2 CHM转TXT 所需软件:CHM ...
  • txt转HTML-Builder修改版

    2013-06-16 19:44:40
    txt转HTML-Builder,讲txt文本转化为小说站
  • 教你怎样将txt/html转成chm

    千次阅读 2014-07-04 13:42:16
    将txt或者html文件成chm,需要我们


    将txt或者html文件转成chm,需要借助一个小工具,我使用的是免费的软件htm2chm,下载地址:

    http://download.csdn.net/detail/v_xchen_v/7591991


    如果你想将txt转成chm首先要把它转成html格式的文件,使用下面这个在线编辑器可以方便的将txt格式的文字转换成html格式的文字:

    http://kindeditor.net/demo.php


    软件使用的步骤显示:

    1,点击生成器,并选择你要转化的文件所在的文件夹

    2,左边显示即将被转化的文件,你可以将他们重命名

    3,保存文件,这个文件是.hcc后缀的文件,存储的位置在窗体上面显示

    4,再选择编辑功能,然后打开刚才你存好的hcc文件

    5,点击生成按钮,ok,我们的chm就生成好了!




    展开全文
  • 继上篇《RTF转HTML,HTML转TXT(Java版)》,此篇为威力加强版! 加强了命令行操作!改善HTML反转义字符效率!添加使用帮助说明!自由转换TXT和HTML格式!
  • 能够doc,txt,xml,html格式文件转换成txt文件
  • 去掉背景,去除超链接,清除制表符,删除隐藏文字,替换""成“”,图片全设为嵌入型,首行缩进2,去段中不分页部份,转项目编号到文字,删除非嵌入型图片,清除换行带的下划线格式,去掉页脚页媚,Word转html,Word转TXT. ...
  • 简易txt转html

    千次阅读 2019-01-29 02:58:05
    txt是遵循markdown的规则写的 #!/usr/bin/env python # -*- coding:utf-8 -*- import re import markdown #读取txt a=open('test.txt') b=a.read() print(type(b)) abc=markdown.markdown(b) a.close() #正则表达式...
  • shell 实现txt转换成html

    万次阅读 2011-09-15 14:34:17
    原理: awk命令,分割格式化的txttxt文件格式以“|”分割开的)成数组,然后拼接成html格式(html - head - title - body - table) shell源码 # !/bin/sh file_input='txt.log' file_ou
  • doc/docx 批量转换html txt工具

    千次阅读 2019-12-06 15:30:33
    用python处理信息时经常需要面对doc/docx文档,这两者机制还不一样,偏偏拿到的文件既有doc格式又有docx的,很头疼。...最后想了想,把word文档统一转化成python可以直接处理的txt会方便很多。翻墙找了...
  • python doc word文件转txthtml

    千次阅读 2016-10-18 19:42:57
    下载pywin32 ...doc.SaveAs(os.path.join(parent,'html',title+'.html') ,8) os.mkdir(os.path.join(parent,'txt')) doc.SaveAs(os.path.join(parent,'txt', title + '.txt'),4) # -*- c
  • HTML转TXT V1.0 简体中文绿色版

    千次阅读 2013-11-14 18:00:43
    文件: crb_html2txt.rar 大小: 130KB 下载: 下载 管理员在2009年8月13日编辑了该文章文章。 --> --> 阅读(5
  • python2/3安装PDFMiner.sixPDF转HTML/TXT

    千次阅读 2018-12-04 17:45:03
    PDFMiner.six是PDFMiner的一个分支,使用六个用于Python 2 + 3兼容性 PDFMiner是从PDF文档中提取信息的...它包含一个PDF转换器,可以PDF文件转换为其他文本格式(如HTML)。它具有可扩展的PDF解析器,可用于文本...
  • shell 实现txt转换成html(含shell脚本和完整的测试样例)
  • HTML 读写txt文件与转换base64编码

    千次阅读 2014-07-15 11:06:56
    一、html写如入txt文件当中 var fso = new ActiveXObject("Scripting.FileSystemObject"); var f = fso.createtextfile("d:\\a.txt",2,true); f.write("hello world!"); f.close();  二、htmltxt中读取...
  • 将TXT转换成CSV

    千次阅读 2019-05-05 20:46:41
    import re import pandas as pd file = open("C:/Users/zZ/Desktop/evsam2/evaltask2_sample_data/en_sample_data/sample.positive_short.txt","r") texts = [] for line in file: text = [] index = line.f...
  • java把word转htmltxt

    千次阅读 2010-05-19 21:59:00
    最近项目中需要在页面中预览word文件,虽说...在网上找了一下,发现poi可以把word装换成txt,但是格式都丢了,只有光秃秃的文本,又搜jacob, 网友们众说纷纭, 最后还是自己sourceforge上下载jacob并阅读doc搞定了. 1 got
  • [Python]HTML转换为TXT的脚本

    千次阅读 2007-01-04 20:10:00
    朋友给我发了一些文章,是HTML格式的。但是我的A1200手机只适合看txt格式的书,所以写了一个脚本,把某个目录下的所有.htm文件转换成txt,并放到txt目录下。 1 from formatter import AbstractFormatter, NullWriter...
  • 写这篇文章是因为,在做项目的时候,需求里面,提到了这么一个功能... 看到这个需求以后我想到了这这样一种实现方式:首先里用openoffice各种类型的文档转换成pdf,然后再利用imagsiopdf成图片。经试验这样处理
  • 10、PDF转TXT PDF2TXT使用虚拟打印机技术,可以让您从任意的程序中创建PDF/PS文档,以及BMP、TIFF、PNG、GIF、PCX等多种光栅图像,让您可以非常方便地创建、管理您的文件档案,她是您办公自动化领域中必不可少的一...
  • EDF转TXT,EDF转mat,rec转TXT eeg

    千次阅读 2018-03-10 13:31:00
    https://files.cnblogs.com/files/myohao/edfsample.zip 转载于:https://www.cnblogs.com/myohao/p/8538887.html
  • 此软件可PDFepub、jpg、txthtml、swf、docx,多pdf合并
  • COCO数据集josn转txt格式

    千次阅读 2019-06-25 10:46:09
    3、xml转txt格式 思路: 把coco_train2014.json文件转换为xml; coco_label-6.py:xml格式文件转换txt文件保存在labels 得到文件labels,获取labels里文件名,生成文件名列表,从而生成训练集文件路径 代码实现...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 220,167
精华内容 88,066
关键字:

如何将html转txt