转载:http://www.iteye.com/topic/963933
-
URL抓取
2014-04-01 22:41:00 -
精华志 蜘蛛爬虫,递归抓取页面的URL 抓取页面URL
2012-04-01 14:16:29精华志 蜘蛛爬虫,递归抓取页面的URL 抓取页面URL 京华志&精华志出品 分享资源 C# ASP.NET SQL DBA 源码 -
java根据url抓取并生成缩略图的示例
2020-09-04 11:06:33主要介绍了java根据url抓取并生成缩略图的示例,需要的朋友可以参考下 -
java url 缩略图_java根据url抓取并生成缩略图的示例
2021-03-09 02:32:04java根据url抓取并生成缩略图的示例public static Bitmap loadImageFromUrl(String url, int sc) {URL m;InputStream i = null;BufferedInputStream bis = null;ByteArrayOutputStream out = null;byte isBuffer[] =...java根据url抓取并生成缩略图的示例
public static Bitmap loadImageFromUrl(String url, int sc) {
URL m;
InputStream i = null;
BufferedInputStream bis = null;
ByteArrayOutputStream out = null;
byte isBuffer[] = new byte[1024];
if (url == null)
return null;
try {
m = new URL(url);
i = (InputStream) m.getContent();
bis = new BufferedInputStream(i, 1024 * 4);
out = new ByteArrayOutputStream();
int len = 0;
while ((len = bis.read(isBuffer)) != -1) {
out.write(isBuffer, 0, len);
}
out.close();
bis.close();
} catch (MalformedURLException e1) {
e1.printStackTrace();
return null;
} catch (IOException e) {
e.printStackTrace();
}
if (out == null)
return null;
byte[] data = out.toByteArray();
BitmapFactory.Options options = new BitmapFactory.Options(); options.inJustDecodeBounds = true;
BitmapFactory.decodeByteArray(data, 0, data.length, options); options.inJustDecodeBounds = false;
int be = (int) (options.outHeight / (float) sc);
if (be <= 0) {
be = 1;
} else if (be > 3) {
be = 3;
}
options.inSampleSize = be;
-
java url 生成图片_根据URL抓取并生成缩略图的Java代码详解
2021-02-28 10:30:48根据URL抓取并生成缩略图的Java代码public static Bitmap loadImageFromUrl(String url, int sc) {URL m;InputStream i = null;BufferedInputStream bis = null;ByteArrayOutputStream out = null;byte isBuffer[] =...根据URL抓取并生成缩略图的Java代码
public static Bitmap loadImageFromUrl(String url, int sc) {
URL m;
InputStream i = null;
BufferedInputStream bis = null;
ByteArrayOutputStream out = null;
byte isBuffer[] = new byte[1024];
if (url == null)
return null;
try {
m = new URL(url);
i = (InputStream) m.getContent();
bis = new BufferedInputStream(i, 1024 * 4);
out = new ByteArrayOutputStream();
int len = 0;
while ((len = bis.read(isBuffer)) != -1) {
out.write(isBuffer, 0, len);
}
out.close();
bis.close();
} catch (MalformedURLException e1) {
e1.printStackTrace();
return null;
} catch (IOException e) {
e.printStackTrace();
}
if (out == null)
return null;
byte[] data = out.toByteArray();
BitmapFactory.Options options = new BitmapFactory.Options();
options.inJustDecodeBounds = true;
BitmapFactory.decodeByteArray(data, 0, data.length, options);
options.inJustDecodeBounds = false;
int be = (int) (options.outHeight / (float) sc);
if (be <= 0) {
be = 1;
} else if (be > 3) {
be = 3;
}
options.inSampleSize = be;
Bitmap bmp = null;
try {
bmp = BitmapFactory.decodeByteArray(data, 0, data.length, options); // 返回缩略图
} catch (OutOfMemoryError e) {
// TODO: handle exception
System.gc();
bmp = null;
}
return bmp;
}
-
java URL 抓取搜索引擎搜到的词条数
2016-12-24 21:01:32java URL 抓取搜索引擎搜到的词条数没事写了了个小Java程序,说明一下,Java是我选修的一门小课,和C++相比,Java很多细节都由编译器去实现,而不是程序员自身,某些方面来说,Java比C渣渣简单。这个是我写的为数不多的Java程序,程序内容为URL读取网页,并抓取一些内容,比如词条数。由于比较简单,注释也算啰嗦的了,直接上源码,大伙指教指教,初学难免有不足之处。
//by jiabin_h package java_URL; import java.applet.Applet; import java.io.*; import java.net.*; import java.util.regex.Matcher; import java.util.regex.Pattern; import java.awt.*; import java.awt.event.*; import java.util.ArrayList; import java.util.List; //!!!!!!!!该程序在只在chrome浏览器、IE浏览器等部分浏览器测试过!!!!!!!!! public class URL_Test extends Applet implements ActionListener{ TextField keyword=new TextField(30);//定义搜索关键字 Choice EngineName;//使用的搜索引擎列表,使用下拉框 Button go=new Button("开始搜索"); public void init(){ setBackground(Color.white);//设置背景色为白色 keyword=new TextField(20); EngineName=new Choice(); EngineName.addItem("百度"); EngineName.addItem("搜狗"); EngineName.addItem("好360"); EngineName.addItem("必应"); add(keyword); add(EngineName); add(go); go.addActionListener(this); } public void actionPerformed(ActionEvent e){ if(e.getSource()==go){ try{ goSearch(); }catch(Exception e1){ showStatus("搜索时发生异常:"+e1.toString()); } } } public void goSearch() throws Exception{ String str=keyword.getText(); if(str.equals("")){ showStatus("请填写搜索关键字!"); return ; } String url=""; switch(EngineName.getSelectedIndex()){ //设置URL,此处不能用https,否则得不到想要的结果 case 0: url = "http://www.baidu.com/s?ie=utf-8&wd="; break; case 1: url = "http://www.sogou.com/web?query="; break; case 2: url = "http://www.so.com/s?ie=utf-8&src=hao_360so&q="; break; case 3: url = "http://cn.bing.com/search?q="; break; } url +=URLEncoder.encode(str,"UTF-8");//将关键字编码成URL格式 URL search=new URL(url); BufferedReader in=new BufferedReader( //html输入流,UTF-8格式 new InputStreamReader(search.openStream(),"UTF-8")); String inputLine; List resultList=new ArrayList(); while((inputLine=in.readLine())!=null){ // int len = in.readLine().length(); //此两句神奇,若取消注释,控制台能完完整整打印整个HTML网页 // byte[] b=new byte[len]; //若注释,控制台只能打印HTML后部分,前部分可能因内存不够被覆盖 switch(EngineName.getSelectedIndex()){ case 0: Pattern p=Pattern.compile("</div>百度为您找到相关结果约([^</div>]*)"); //正则表达式 Matcher m=p.matcher(inputLine); if(m.find()){ resultList.add(m.group(1)); } break; case 3: Pattern p1=Pattern.compile("<span class=\"sb_count\">([^ 条结果</span>]*)");//正则表达式 Matcher m1=p1.matcher(inputLine); if(m1.find()){ resultList.add(m1.group(1)); } break; case 1: //搜狗和360没显示词条数,故此处没抓取相关内容 case 2: break; } System.out.println(inputLine);//输出到控制台 } in.close(); switch(EngineName.getSelectedIndex()){ case 0: showStatus("百度为您找到相关结果约" + resultList + " 条"); //在applet显示相关信息。 break; case 3: showStatus("必应为您找到相关结果约" + resultList + " 条"); break; case 1: case 2: showStatus("已连接搜索引擎" + url); break; } System.out.println(url); //打印URL到控制台,方便复制到浏览器进行比较 } }
运行结果如下:
-
百度外卖根据区域URL抓取数据,爬虫,java
2018-09-07 15:47:13用来根据百度外卖的区域URL来抓取百度外卖的商家数据,主要是包含商家的基本信息,店铺名称、地址、评分、电话、以及基本的量化分级信息等。为什么要根据区域URL来抓取百度外卖的数据?百度外卖的经纬度是通过加密的... -
Twitter实时URL抓取服务架构 - SpiderDuck与NoSQL
2014-08-12 16:35:46Twitter实时URL抓取服务架构 - SpiderDuck与NoSQL - PHP网站开发 - 每日最新博客在置顶博客之后 其分为下面几个部分: Kestrel: 是一个Twitter在使用的队列服务,这里将所有需要抓取的URL放入此队列中。 ... -
妹子图url抓取
2019-01-28 09:42:25public static void getURL() throws Exception { File file = new File("D:/a.txt"); BufferedWriter bw = new BufferedWriter(new FileWriter(file)); String flag =""; Document doc =... -
通过Url抓取网页内容
2019-07-23 00:25:31近来想学习一下网页抓取技术,监于之前没有这方面的基础,都只是在socke方面的编程,对http方面了解很少,现在到个较好的入门例子,共享学习一下,如果大家以前看过的话,就当是复习吧。还希望高手可以指导一下如何... -
Java爬虫(3)——拼接url抓取“加载更多”内容
2016-11-13 20:01:39Java爬虫(3)——拼接url抓取“加载更多”内容 上期我们说到phantomjs可模拟点击按钮行为,通过点击完所有”加载更多”按钮来抓所有内容。比如这个网页http://e.vnexpress.net/news/news 我们要抓取... -
手机应用url抓取_运营商大数据抓取手机号原理
2020-11-16 00:43:17三网大数据精准营销客源信息提取的原理 前提:1、所有人,一切上网行为都摆脱不了三大运营商;... 4、分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。 -
SpiderDuck与NoSQL – Twitter实时URL抓取服务架构
2011-11-28 13:24:29最近Twitter开发者博客上发表了一篇文章,向大家介绍了Twitter的URL抓取服务SpiderDuck,其中用到了Cassandra,HDFS和Memcached作为存储部件。是一个了解NoSQL使用方法的好例子。 SpiderDuck的架构如下图所示: ... -
python爬取网页url_Python网络爬虫之利用urllib2通过URL抓取网页内容
2021-03-06 16:21:05所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。一、通过urllib2抓取... -
手机应用url抓取_Python爬虫入门,快速抓取大规模数据(第六部分)
2020-12-03 06:37:24在前面的章节中,我们以尽量少的代码演示了...现在让我们再回顾一下我们抓取的过程:从待下载URL列表取出URL;构造和发送HTTP请求下载网页;解析网页提取数据,解析网页提取URL并加入待下载列表;存储从网页提取的... -
[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
2013-05-13 23:45:28所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 在Python中,我们... -
关键词挖掘搜索引擎链接_站内URL抓取工具
2021-04-09 23:24:02快克SEO开发以来首款免费工具网站url采集器、同时针对百度、搜狗、谷歌、360四个搜索引擎同步实时数据抓取。 通过关键词抓取搜索引擎自定义页数的网站URL 通过对自身网站收录的url链接及标题可以一一对应采集(快排... -
手机应用url抓取_Python爬虫:抓取整个互联网的数据
2020-11-20 10:59:28# 输出正在抓取的Urlprint(url)# 下载HTML文件html = download(url)# 分析HTML代码urls = analyse(html)# 对每一个Url递归调用crawler函数 for url in urls: crawler(url)# 从入口点Url开始抓取所有的HTML文件... -
python抓取网络图片保存到本地,通过url抓取文章的标题,通过链接地址,抓取内容数据
2019-03-18 22:58:28抓取百度新闻 关键字为公安 通过flask,构建服务器,托管从网上下载的图片。 通过定时任务,每60秒抓取最新新闻数据。 初始抓起第一页。 通过对比标题(也可选择时间),如在数据库的第一条数据中和抓取的文章,不... -
淘宝数据抓取1.0-根据url抓取尺码和价格
2016-05-30 12:07:50通过url获取鞋子的尺码和价格数据。 -
根据Url抓取图片在浏览器显示
2018-09-07 15:45:51抓取了不同网站的图片,其中一个可以显示,另一个提示格式不对,在浏览器里对比了两个图片的响应头,不同之处是一个经过了压缩 在Response里对其进行设置 response.setHeader("Content-Encoding",&... -
通过指定的URL抓取网页内容
2015-12-27 11:12:11所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地 。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器 端,然后读取服务器端的响应资源。 Java语言是为... -
python,url抓取问题(出现NameError)
2017-08-02 06:33:57def get_page(url): try: import urllib return urllib.urlopen(url).read() except: return '' def get_next_traget(page): global url page=get_page(url) start_link=page.find(') if start_link==-1: ... -
如何通过URL抓取网站的数据
2014-12-09 14:46:43使用的外部dll ...1.通过url获取网站源码,这里是一个比较简单的方法,不过方法不怪乎简单,能用就行 public string getWeb(string url, Encoding en) { CookieCollection cookies = new Cookie -
利用python3使用urllib通过指定的URL抓取网页内容
2017-11-08 22:22:41所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 2.x版本的python... -
有搜索条件根据url抓取网页数据(java爬取网页数据)
2018-11-03 14:56:27最近有一个任务抓取如下图的网页数据 要获取前一天的数据进行翻页抓取数据并存入数据库 如果就只是抓取当前页的数据 没有条件和翻页数据 这个就比较简单了 但是要选取前一天的数据,还有分页数据 一开始...