精华内容
下载资源
问答
  • 网页文本保存网页文本保存网页网页文本保存网页文本保存保存
  • 网上撷取文章内容.一拖即存,这样网页文本快速保存下载,方便编辑网页文本
  • 今天小编就大家分享一篇python实现汉字保存文本的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  • 一篇文章有很多小节,我想把所有的小节下下来,合并到一个文本文件中比如novel.txt。这样可以放在手机上,躺在被窝里看。于是写了这样一个小程序。这个小程序只是针对该网站的布局来写的,因此非常的不灵活。 这件...

    起因:本人特别喜欢看小说,网上有很多连载的小说。比如这样一个网站http://www.yi-see.com/art_5165_9215.html 下面是网站的截图:



    一篇文章有很多小节,我想把所有的小节下下来,合并到一个文本文件中比如novel.txt。这样可以放在手机上,躺在被窝里看。于是写了这样一个小程序。这个小程序只是针对该网站的布局来写的,因此非常的不灵活。

    这件事情看起来很复杂,首先需要从网站中把各个小节的超链接提取出来,然后连接每一个超链接,找到小说内容所在的标签,提取出内容下载到本地文件。每一项工作都很难实现,不像一个小程序能够完成的任务。但是因为有了她,一切都简单了。这就是牛逼的HTML分析库Jsoup。Jsoup接口做的非常的友好,大家一看就知道什么意思。

    首先用Jsoup来实现提取各小节的网址的功能。共分三步

    第一步:和网站建立连接,一句代码搞定。Document doc = Jsoup.connect(url).get();url为网站的网址。

    第二步:提取所有的超链接地址,一句代码搞定。Elements links = doc.select("a[href]");这句代码的意思是把所有含有属性href的a标签提取出来。

    第三步:在第二步中提取了所有的超链接,但是我们想要的是每一小节的超链接,下面就要对超链接进行筛选,通过观察网站的源代码,我们发现每一小节的地址都是以read开头,Jsoup牛逼的地方就体现出来了,它提供了通过正则表达式对元素进行筛选的功能。Elements links = doc.select("a[href~=read.*]");如果要跟正则表达式等号前面要加一个~符号。

    下面就是提取出来的网址:

    <read_83437_5165.html>  (第1节)

     <read_83440_5165.html>  (第4节)

     <read_83438_5165.html>  (第2节)

     <read_83441_5165.html>  (第5节)

     <read_83439_5165.html>  (第3节)

     <read_83442_5165.html>  (第6节)

    我们会发现,网址不是按顺序排列的,这样提取内容时,顺序也会发生问题,还需要对网址排序,排序很容易,见代码。

    然后分析网页的结构找到小说内容所在的标签,会发现小说内容位于标签<td>中,而且该标签还有一个属性<td class=”ART”>提取小说内容也就非常简单了二句代码搞定。

    text=doc2.select("td[class=ART]").first();

    String str=text.html().replaceAll("<br />", "\r\n");

    最后就是把内容保存到本地文件了非常简单,见代码


    import org.jsoup.Jsoup;
    import org.jsoup.helper.Validate;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;
    import java.io.IOException;
    import java.io.PrintWriter;
    
    public class JsoupTest {
        public static void main(String[] args) throws IOException {
            Validate.isTrue(args.length == 1, "usage: supply url to fetch");
            String url = args[0];
    		PrintWriter output = new PrintWriter("F:/novel.txt","gb2312");
            Document doc = Jsoup.connect(url).get();
            Elements links = doc.select("a[href~=read.*]");
            String stringLink[]=new String[288];
            print("\nLinks: (%d)", links.size());
            for (Element link : links) {
            	String temp=link.text();
            	int index=Integer.valueOf(temp.substring(1, temp.length()-1));
            	stringLink[index]=link.attr("abs:href");
            }
            Document doc2;
            Element text;
            for(int i=1;i<288;i++)
            {
            	print("%s",stringLink[i]);
            	doc2=Jsoup.connect(stringLink[i]).get();
            	text=doc2.select("td[class=ART]").first();
                String str=text.html().replaceAll("<br />", "\r\n");
                output.write(str);
                output.write("<--------------------------------------------------------------------->\n");
                output.flush();
            }   
        }
    



    展开全文
  • 将网页内容保存为pdf

    千次阅读 2012-01-05 17:07:55
    发现一个很不错的网页,想把它网页保存为pdf。但是浏览器并没有这个功能。浏览器可以帮你保存成 txt文本文件 html格式 图片   是不是就没有办法了? 答案是有,利用浏览器提供的打印功能。不过不是直接用真正的...

    博客已搬家至360converter博客平台,此文链接:http://blog.360converter.com/archives/961

    展开全文
  • 如何[url=http://shuma.qincai.net/tags-%B5%E7%BB%B0-p1.html][/url]内容另存为文本文件格式 不会贴图 网页的[文件]->'另存' 选中后,在[保存网页]对话框中,'保存类型''文本文件(*.TXT)' 如何...
  • 代码如下: <html> <body> <textarea id="content">Type code ...随便在textarea里维护一些内容: 点击save,会自动内容作为text文本下载: 文本文件打开如下: 要获取更多Jerry的原创文章,请关注公众号"汪子熙":

    代码如下:

    <html>
    <body>
        <textarea id="content">Type code here</textarea>
        <p><a id="save-btn" href="" download="noname.txt">Save</a></p>
        <script>
          var content, btn;
          content = document.querySelector( "#content" );
          btn = document.querySelector( "#save-btn" );
          content.addEventListener( "change", function(){
            var f = function(){
              btn.setAttribute( "href", "data:text/paint; utf-8," + content.value );
            }
            return f(), f;
          }() ); 
        </script>
    </body>
    </html>
    

    打开这个html,显示如下。随便在textarea里维护一些内容:

    点击save,会自动将其内容作为text文本下载:

    文本文件打开如下:

    要获取更多Jerry的原创文章,请关注公众号"汪子熙":

    展开全文
  • 保存本页如果仅仅是document.execCommand("saveAs"),弹出按默认的另存对话框。

    <a href="#" οnclick=document.execCommand("saveAs","ture","filename.txt")>保存本页</a>

    如果仅仅是document.execCommand("saveAs"),弹出按默认的另存为对话框。

    展开全文
  • 如何将网页保存保存为PDF格式?

    万次阅读 2019-03-22 23:39:03
    如何将网页保存保存为PDF格式? 如上例所示,将网页在WPS中打开后(参考上例,不再放图),依次点击左上角“文件”、“另存”菜单: 选取文件要保存的路径,输入要保存的文件名和文件类型,注意:文件类型要选...
  • 自己写的小软件 MDict 快速查询 设置好后 拖入选中词语即可...文本拖即存 设置好后 拖入选中的文本即可查询 需要 。net 3.5 我的电脑是:win7,使用的是MDict for PC 1.0RC 其他系统和其他版本的MDict我没测试过
  • js将文本内容模拟下载的形式保存到本地 自定义文件类型,.json, .html, .txt 等 var eleTextarea = document.querySelector('textarea'); var eleButton = document.querySelector('input[type="button"]'); // ...
  • 欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 ...
  • 用过IE浏览器的用户都知道,IE有一个很方便的功能,那就是可以把当前网页的所有内容(包括图片等)保存为一个文件,供以后离线浏览。如果你正在苦恼什么自己喜欢用的谷歌浏览器什么没有这样的功能呢?那么你读完...
  • 用xpath提取网页内容,最后爬取的内容保存为json格式。 用Xpath方法提取网页内容保存为json格式 打开虚拟环境在 Scrapy shell 中调试 提取标题文字 按照上述方法对文章作者评论数点赞数等进行提取
  • 我们在将网页内容、带有格式的文档内容复制、粘贴到Word里,会把网页和源文档原有的格式也一并粘贴上去了。如果我们只是想要纯文本内容,可以单击“编辑”菜单→“选择性粘贴”→“无格式文本”,复制的东西粘贴...
  • 段代码在服务器中没有权限,可以保存在本地,存htm文件,运行即可,就可以把文本内容excel文件了
  • 网页批量另存为文本或其它格式适合批量保存网页内容或小说等。内有操作说明。
  • 免责声明:本站所有文章和图片均来自用户分享和网络收集,文章和图片版权归原作者及原出处所有,仅供学习与参考,请勿用于商业用途,如果损害了您的权利,请联系网站客服处理。
  • 易语言保存txt文本

    千次阅读 2019-09-28 10:19:46
    写到文件 (“c:\66.txt”, 到字节集 (编辑框2.内容)) 写到文件 (取特定目录 (3) + 编辑框1.内容 + “.txt”, 到字节集 (编辑框2.内容))
  • 问题描述:假设网页有个文本框之类的东西,想通过点击某一按钮后,用户在文本框中输入的内容直接保存在本地某个文件中。同理,也想通过页面直接读取本地文件中的内容。   问题分析:因为整个处理过程不涉及到后台...
  • 若依系统富文本编辑框内容保存到后台样式被过滤问题 一.需求 进入页面,富文本编辑框里回显这条新闻内容,如下图, 然后可以在富文本编辑框里对它实现再编辑,编辑之后html代码提交保存到后台数据库。可以点击...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 257,937
精华内容 103,174
关键字:

怎样将网页内容保存为文本