精华内容
下载资源
问答
  • 把整个网页下载下来的方法

    千次阅读 2019-10-27 19:56:02
    在这个网站上根据教程先wget安装完成 https://blog.csdn.net/qq_31163325/article/details/84344774 然后键盘 win + r 输入 wget -m -U “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)” -r -k -nc ...

    win10系统
    在这个网站上根据教程先把wget安装完成
    https://blog.csdn.net/qq_31163325/article/details/84344774

    然后键盘 win + r
    输入

    wget -m -U “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)” -r -k -nc -P 输入你要保存的目录 和 文件夹名称 需要下载的地址

    下面是参照例子:
    wget -m -U “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)” -r -k -nc -P D:\xxx https://www.xxx.com

    下载后的文件夹,是层层包裹的,需要你一进去,里面就会出现你下载好的网页

    在这里插入图片描述

    展开全文
  • 1.按f12,控制台调出来。...2.按键盘ctrl+shift+p,调出功能搜索,然后选择功能:Capture full size screenshot(只输前几个字母就能找到),敲下回车,网页就会弹出下载图片框,保存就行了。 ...

    1.按f12,把控制台调出来。

    2.按键盘ctrl+shift+p,调出功能搜索,然后选择功能:Capture full size screenshot(只输前几个字母就能找到),敲下回车,网页就会弹出下载图片框,保存就行了。

    展开全文
  • 我用软件自动下载网页源码,作为监控网站用的,发现字数超过三万字,整个文本的汉字都成乱码,没办法分析,拿去转换编码也没办法矫正。以下是代码 con = (HttpURLConnection) url.openConnection(); con....
  • 我们在前面讲到httpclient抓取网页内容的时候 通常都是获取到页面的源代码content存入数据库。 详见下文: HTTPClient模块的HttpGet和HttpPost httpclient常用基本抓取类 那么如果我们除了获得页面源代码之外 还想...


    我们在前面讲到httpclient抓取网页内容的时候 通常都是获取到页面的源代码content存入数据库。

    详见下文:

    HTTPClient模块的HttpGet和HttpPost

    httpclient常用基本抓取类

    那么如果我们除了获得页面源代码之外 还想把页面保存到本地存成html应该怎么做呢?


    其实很简单 我们先来看访问页面获取content的代码

    	private static String getUrlContent(DefaultHttpClient httpPostClient,
    			String urlString) throws IOException, ClientProtocolException {
    		HttpGet httpGet = new HttpGet(urlString);
    		HttpResponse httpGetResponse = httpPostClient.execute(httpGet);// 其中HttpGet是HttpUriRequst的子类
    		httpPostClient.getParams().setParameter(
    				CoreConnectionPNames.CONNECTION_TIMEOUT, 10000);// 连接时间20s
    		httpPostClient.getParams().setParameter(
    				CoreConnectionPNames.SO_TIMEOUT, 8000);// 数据传输时间60s
    		if (httpGetResponse.getStatusLine().getStatusCode() == 200) {
    			HttpEntity httpEntity = httpGetResponse.getEntity();
    			if (httpEntity.getContentEncoding() != null) {
    				if ("gzip".equalsIgnoreCase(httpEntity.getContentEncoding()
    						.getValue())) {
    					httpEntity = new GzipDecompressingEntity(httpEntity);
    				} else if ("deflate".equalsIgnoreCase(httpEntity
    						.getContentEncoding().getValue())) {
    					httpEntity = new DeflateDecompressingEntity(httpEntity);
    				}
    			}
    			String result = enCodetoString(httpEntity, encode);// 取出应答字符串
    			// System.out.println(result);
    			return result;
    		}
    		return "";
    	}

    	public static String enCodetoStringDo(final HttpEntity entity,
    			Charset defaultCharset) throws IOException, ParseException {
    		if (entity == null) {
    			throw new IllegalArgumentException("HTTP entity may not be null");
    		}
    		InputStream instream = entity.getContent();
    		if (instream == null) {
    			return null;
    		}
    		try {
    			if (entity.getContentLength() > Integer.MAX_VALUE) {
    				throw new IllegalArgumentException(
    						"HTTP entity too large to be buffered in memory");
    			}
    			int i = (int) entity.getContentLength();
    			if (i < 0) {
    				i = 4096;
    			}
    			Charset charset = null;
    			try {
    				// ContentType contentType = ContentType.get(entity);
    				// if (contentType != null) {
    				// charset = contentType.getCharset();
    				// }
    			} catch (final UnsupportedCharsetException ex) {
    				throw new UnsupportedEncodingException(ex.getMessage());
    			}
    			if (charset == null) {
    				charset = defaultCharset;
    			}
    			if (charset == null) {
    				charset = HTTP.DEF_CONTENT_CHARSET;
    			}
    			Reader reader = new InputStreamReader(instream, charset);
    			CharArrayBuffer buffer = new CharArrayBuffer(i);
    			char[] tmp = new char[1024];
    			int l;
    			while ((l = reader.read(tmp)) != -1) {
    				buffer.append(tmp, 0, l);
    			}
    			return buffer.toString();
    		} finally {
    			instream.close();
    		}
    	}

    我们得到content之后就可以直接 把它存成本地文件 就 可以了。

    我们可以参考

     

    java读写txt


    把txt后缀改成html即可

    1. public static void writeToFile(String fileName, String content) {  
    2.         String time = DATE_FORMAT.format(Calendar.getInstance().getTime());  
    3.           
    4.         File dirFile = null;  
    5.         try {  
    6.             dirFile = new File("e:\\" + time);  
    7.             if (!(dirFile.exists()) && !(dirFile.isDirectory())) {  
    8.                 boolean creadok = dirFile.mkdirs();  
    9.                 if (creadok) {  
    10.                     System.out.println(" ok:创建文件夹成功! ");  
    11.                 } else {  
    12.                     System.out.println(" err:创建文件夹失败! ");  
    13.                 }  
    14.             }  
    15.         } catch (Exception e) {  
    16.             e.printStackTrace();  
    17.         }  
    18.         String fullPath = dirFile + "/" + fileName + ".txt";  
    19.         write(fullPath, content);  
    20.     }  
    21.   
    22.     /** 
    23.      * 写文件 
    24.      *  
    25.      * @param path 
    26.      * @param content 
    27.      */  
    28.     public static boolean write(String path, String content) {  
    29.         String s = new String();  
    30.         String s1 = new String();  
    31.         BufferedWriter output = null;  
    32.         try {  
    33.             File f = new File(path);  
    34.             if (f.exists()) {  
    35.             } else {  
    36.                 System.out.println("文件不存在,正在创建...");  
    37.                 if (f.createNewFile()) {  
    38.                     System.out.println("文件创建成功!");  
    39.                 } else {  
    40.                     System.out.println("文件创建失败!");  
    41.                 }  
    42.             }  
    43.             BufferedReader input = new BufferedReader(new FileReader(f));  
    44.             while ((s = input.readLine()) != null) {  
    45.                 s1 += s + "\n";  
    46.             }  
    47.             System.out.println("原文件内容:" + s1);  
    48.             input.close();  
    49.             s1 += content;  
    50.             output = new BufferedWriter(new FileWriter(f));  
    51.             output.write(s1);  
    52.             output.flush();  
    53.             return true;  
    54.         } catch (Exception e) {  
    55.             e.printStackTrace();  
    56.             return false;  
    57.         } finally {  
    58.             if (output != null) {  
    59.                 try {  
    60.                     output.close();  
    61.                 } catch (IOException e) {  
    62.                     e.printStackTrace();  
    63.                 }  
    64.             }  
    65.         }  
    66.     }  



    展开全文
  • 小伙伴们,BOSS让做一个效果,类似360浏览器截取整个网页为一张图片的功能如何实现? 补充下:是用户登录过的网页,采用这个截取功能,记录下来
  • 当我们在网页上看到一个好看的H5页面,或者是相当酷炫的JS动画,一个很自然的想法就是F12,然后下载资源占为己有。ctrl+s保存的话,所有的文件都保存在一个文件夹,看上去很乱,如何好多级文件夹,手动整理文件夹很...

    当我们在网页上看到一个好看的H5页面,或者是相当酷炫的JS动画,一个很自然的想法就是F12,然后下载资源占为己有。ctrl+s保存的话,所有的文件都保存在一个文件夹,如果好多级文件夹看上去很乱,下图是ctrl+s之后的情况(js,css,img都在一起)

    手动整理文件夹很难,比如下面的这种情况

    img文件夹有多级,现在我们就需要安装chrome的Save All Resources插件了,插件下载地址

    https://github.com/jxdingx/chrome-SaveAllResources

    浏览器窗口输入【chrome://extensions/】进入chrome扩展程序,添加解压后的插件

    加载成功之后如下图

    然后我们F12,选ResourceSaver 然后Save All Resources就可完整保存一个网页所有内容了

    下载之后是一个是一个压缩包文件,如果后缀是txt的,改后缀为.zip,然后解压就行了

    下载下来的内容,已分文件夹保存好,就可以本地离线访问了。

    亲测有效,记得点赞。

    参考链接:

    https://chromecj.com/productivity/2019-07/2783.html

    https://github.com/jxdingx/chrome-SaveAllResources

    https://www.cnblogs.com/JerryMouseLi/p/11113756.html

    展开全文
  • 很多时候,要想把网页取出来便于在无网络或授课时拿来使用,但一般的方法则是右键保存为图片什么的,有的还是要使用特定的浏览器才能搞定,的确不是很好。 这里介绍的是一种不算新的但比较好用的方法,那就是使用...
  • 如何在Chrome 浏览器中截取整个网页

    千次阅读 2019-03-08 14:03:21
    由于经常要用到网页截图功能,但是又没有安装截图插件,直接可以用以下命令快速截图想要的图片。 步骤: 1、快捷键 F12或者Ctrl + Shift + I 开启开发人员工具功能,如下图会出现许多网页开发者需要的相关工具。 ...
  • 网页转换助手 http://www.html22.com/zh/ 只需将网址填入,就可以将整个网页下来以pdf或者word文档保存,极其适用于百度文库!!!
  •  作者的思路是:把整个HTML页面都存成字符串,用正则表达式能与匹配的字符串找出来,掐头去尾找到图片的url,最后用URLConnection与网页建立连接图片存下来。  小女发现这段代码中的getPicSrc的函数没有用,...
  • 今天爬知乎的时候把整个html写进本地文件,拟先用浏览器打开,观察爬虫请求到的网页大致什么样子,再做解析页面的策略 但浏览器打开.html文件后页面一直跳转,如下 解决方案: 用文本编辑器打开html文件,按...
  • 你是不是看到好的网站,想把整个网页捉回慢慢欣赏,如果你也曾像我一样费尽千辛万苦,只为了重复捉取同一网站的档案而做一些机械性的动作Teleport Ultra 简直是我们的救星!它可迅速、确实地将整个网站复制在你的电脑...
  • python爬虫自动下载网页链接

    万次阅读 2018-11-20 11:14:25
    需求分析 今天遇到一个简单的需求,需要下载澳大利亚电力市场NEM日前市场的发电商报价数据...这个网页很简单,没有验证码,甚至不需要登录,因此自动下载的pytho...
  • Linux 如何使用 wget 下载整个网站

    万次阅读 2017-02-09 20:29:11
    Linux 如何使用 wget 下载整个网站近期要去缅甸呆半个月,想顺便 W3SCHOOL.COM 上面的 HTML/CSS/JS/PHP 教程温习一遍。但是有一个问题,缅甸的网速很慢,我们住的酒店 wifi 不稳定,今年 1 月份和 6 月份我也在...
  • 最终效果预览 1.新建文档 参数:宽1680px、高1100px,背景亮灰色(#F9F9F9) ...网上有很多栅格系统可供下载,是我们建立属于自己的栅格系统最好的参考。如果你以前没有使用过栅格系统...下载完成后,来到“templat
  • 下载整个网站的软件

    千次阅读 2007-02-26 13:24:00
    下载整个网站的软件这几天在网上搜集资料。...最麻利的办法是,管它三七二十一,整个网站全部下载下来,再慢慢看。省心省时。试着用了一个软件,很爽。一不用注册,二是中文界面,三是给个网址就埋头干活没那么多
  • public class ImplementsCmd { public static void implcmd(String cmd){//在java中调用执行cmd命令 Process p; System.out.println(cmd); try { p = Runtime.getRuntime().exec(cmd);...
  • 优爱酷批量长网页整页截图系统软件是一款全球首创逐屏加载技术,智能实现自动滚动浏览器滚动条、逐屏加载页面、并将完整的整个网页保存为图片格式(png,gif,bmp,jpg)、PDF格式的一款批量网页截图效率工具,支持 txt...
  • 于是呢,我就在网上找资源,之前是有资源的,但是由于现在正在上映,所以网上各种迅雷链接被屏蔽了,于是我就找 能在线播放的网站,终于找到了,不过我想影片下载下来,这时就联想到各种问题。这篇文章也就是我...
  • wget 网页爬虫,网页抓取工具

    千次阅读 2016-09-11 08:07:54
    前言 如何在linux上或者是mac上简单使用爬虫或者是网页下载工具呢,常规的我们肯定是要去下载一个软件下来使用啦,可怜的...快速上手(整个bootstrap网页全被你抓取下来了~_~) wget -c -r -npH -k http://v4.bootcss.c
  • 离线下载镜像整个网站

    千次阅读 2017-08-12 17:06:00
    2019独角兽企业重金招聘...离线下载镜像整个网站 http://www.httrack.com/ http://www.tenmax.com/teleport/pro/download.htm 转载于:https://my.oschina.net/swingcoder/blog/1507142
  • 如何下载网页所有资源(附源码)

    千次阅读 2019-03-16 02:37:31
    总有些人,想下载一个插件,能直接获取浏览器显示页面的所有资源。也就是下载一个其他人的网站,但是不想一个个复制链接的内容,原因大致有二: 1、链接多,打卡每个链接去下载十分繁琐 2、复制好了,还要重新改html...
  • 小媛:bit 哥,最近有人找我做一个网页,但是我不会做,300块钱呢。 ????1_bit:啥网页?给你300? ????小媛:吃鸡的网页,赚了300我就可以吃半个月了,下面就是一个示例。 ????1_bit:哈哈哈,我觉得一周你就用完了...
  • wget下载整个网站或目录

    万次阅读 2009-02-13 10:09:00
    原贴:http://jnote.cn/blog/shell/wget-download.htmlwget下载整个网站或目录一 21st, 2009|shell| no comments 用wget下载东西,的确很方便,它会自动重连并断点续传。让人很放心。经常要下载一个网站或网站的某个...
  • 网页制作:一个简易美观的登录界面

    万次阅读 多人点赞 2016-03-09 17:22:59
    下来,我们先上代码,看一下具体实现方法: login.html   <!DOCTYPE html> 登录页面 <script type="text/javascript" src="login.js"></script> <p id="image_logo"><img src="images/...
  • python获取文本网页

    千次阅读 2017-08-27 00:33:44
    首先,我们定义了一个getHtml()函数:  urllib.urlopen()方法用于打开一个URL地址。  read()方法用于读取URL上的数据,向getHtml()函数传递一个网址...执行程序就会把整个网页打印输出。 代码如下: #coding=utf-8
  • 网页抓取与处理的一些方法

    千次阅读 2015-01-01 10:56:04
    这篇文章主要介绍一些网页抓取及抓取下来的内容处理。 所需要的jar包点击打开链接,我放在百度云盘里。有需要的可以下载,其他的请自行下载。 百度百科对网页抓取的定义,当然本文并没有介绍的那么多,只是介绍对...
  • wget 抓取网页

    千次阅读 2018-07-31 17:05:29
    前言 如何在linux上或者是mac上简单使用爬虫或者是网页下载工具呢?常规的我们肯定是要去下载一个软件下来使用啦,可怜这...快速上手(整个bootstrap网页全被你抓取下来了~)  wget -c -r -npH -k http://v4.bootc...
  • 我的页面的上的表格是用html+css写出来的,请问怎么保存下载到本地为word文件呢?![图片说明](https://img-ask.csdn.net/upload/201610/06/1475747764_373160.png)
  • Chrome保存.mhtml网页文件的方法: 在 Chrome 地址栏中键入chrome://flags,回车, 在页面搜索栏输入mhtml “Save Page as MHTML”项修改为 Enabled (启用) ,然后重启浏览器就行了 转载于:...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 121,588
精华内容 48,635
关键字:

怎么把整个网页下载下来