精华内容
下载资源
问答
  • URL抓取

    2014-04-01 22:41:00
    转载:http://www.iteye.com/topic/963933

    转载:http://www.iteye.com/topic/963933

    展开全文
  • 精华志 蜘蛛爬虫,递归抓取页面的URL 抓取页面URL 京华志&精华志出品 分享资源 C# ASP.NET SQL DBA 源码
  • 主要介绍了java根据url抓取并生成缩略图的示例,需要的朋友可以参考下
  • java根据url抓取并生成缩略图的示例public static Bitmap loadImageFromUrl(String url, int sc) {URL m;InputStream i = null;BufferedInputStream bis = null;ByteArrayOutputStream out = null;byte isBuffer[] =...

    java根据url抓取并生成缩略图的示例

    public static Bitmap loadImageFromUrl(String url, int sc) {

    URL m;

    InputStream i = null;

    BufferedInputStream bis = null;

    ByteArrayOutputStream out = null;

    byte isBuffer[] = new byte[1024];

    if (url == null)

    return null;

    try {

    m = new URL(url);

    i = (InputStream) m.getContent();

    bis = new BufferedInputStream(i, 1024 * 4);

    out = new ByteArrayOutputStream();

    int len = 0;

    while ((len = bis.read(isBuffer)) != -1) {

    out.write(isBuffer, 0, len);

    }

    out.close();

    bis.close();

    } catch (MalformedURLException e1) {

    e1.printStackTrace();

    return null;

    } catch (IOException e) {

    e.printStackTrace();

    }

    if (out == null)

    return null;

    byte[] data = out.toByteArray();

    BitmapFactory.Options options = new BitmapFactory.Options(); options.inJustDecodeBounds = true;

    BitmapFactory.decodeByteArray(data, 0, data.length, options); options.inJustDecodeBounds = false;

    int be = (int) (options.outHeight / (float) sc);

    if (be <= 0) {

    be = 1;

    } else if (be > 3) {

    be = 3;

    }

    options.inSampleSize = be;

    展开全文
  • 根据URL抓取并生成缩略图的Java代码public static Bitmap loadImageFromUrl(String url, int sc) {URL m;InputStream i = null;BufferedInputStream bis = null;ByteArrayOutputStream out = null;byte isBuffer[] =...

    根据URL抓取并生成缩略图的Java代码

    public static Bitmap loadImageFromUrl(String url, int sc) {

    URL m;

    InputStream i = null;

    BufferedInputStream bis = null;

    ByteArrayOutputStream out = null;

    byte isBuffer[] = new byte[1024];

    if (url == null)

    return null;

    try {

    m = new URL(url);

    i = (InputStream) m.getContent();

    bis = new BufferedInputStream(i, 1024 * 4);

    out = new ByteArrayOutputStream();

    int len = 0;

    while ((len = bis.read(isBuffer)) != -1) {

    out.write(isBuffer, 0, len);

    }

    out.close();

    bis.close();

    } catch (MalformedURLException e1) {

    e1.printStackTrace();

    return null;

    } catch (IOException e) {

    e.printStackTrace();

    }

    if (out == null)

    return null;

    byte[] data = out.toByteArray();

    BitmapFactory.Options options = new BitmapFactory.Options();

    options.inJustDecodeBounds = true;

    BitmapFactory.decodeByteArray(data, 0, data.length, options);

    options.inJustDecodeBounds = false;

    int be = (int) (options.outHeight / (float) sc);

    if (be <= 0) {

    be = 1;

    } else if (be > 3) {

    be = 3;

    }

    options.inSampleSize = be;

    Bitmap bmp = null;

    try {

    bmp = BitmapFactory.decodeByteArray(data, 0, data.length, options); // 返回缩略图

    } catch (OutOfMemoryError e) {

    // TODO: handle exception

    System.gc();

    bmp = null;

    }

    return bmp;

    }

    展开全文
  • java URL 抓取搜索引擎搜到的词条数
    没事写了了个小Java程序,说明一下,Java是我选修的一门小课,和C++相比,Java很多细节都由编译器去实现,而不是程序员自身,某些方面来说,Java比C渣渣简单。这个是我写的为数不多的Java程序,程序内容为URL读取网页,并抓取一些内容,比如词条数。由于比较简单,注释也算啰嗦的了,直接上源码,大伙指教指教,初学难免有不足之处。
    
    //by jiabin_h
    package java_URL;
    import java.applet.Applet;
    import java.io.*;
    import java.net.*;
    import java.util.regex.Matcher;
    import java.util.regex.Pattern;
    import java.awt.*;
    import java.awt.event.*;
    import java.util.ArrayList;
    import java.util.List;
    
    //!!!!!!!!该程序在只在chrome浏览器、IE浏览器等部分浏览器测试过!!!!!!!!!
    public class URL_Test extends Applet implements ActionListener{
        TextField keyword=new TextField(30);//定义搜索关键字
        Choice EngineName;//使用的搜索引擎列表,使用下拉框
        Button go=new Button("开始搜索");
    
        public void init(){
            setBackground(Color.white);//设置背景色为白色
            keyword=new TextField(20);
            EngineName=new Choice();
            EngineName.addItem("百度");
            EngineName.addItem("搜狗");
            EngineName.addItem("好360");
            EngineName.addItem("必应");
            add(keyword);
            add(EngineName);
            add(go);
            go.addActionListener(this);
        }
    
        public void actionPerformed(ActionEvent e){
            if(e.getSource()==go){
                try{
                    goSearch();
                }catch(Exception e1){
                    showStatus("搜索时发生异常:"+e1.toString());
                }
            }
        }
    
        public void goSearch() throws Exception{
            String str=keyword.getText();
            if(str.equals("")){
                showStatus("请填写搜索关键字!");
                return ;
            }
            String url="";
            switch(EngineName.getSelectedIndex()){          //设置URL,此处不能用https,否则得不到想要的结果
            case 0:
                url = "http://www.baidu.com/s?ie=utf-8&wd=";
                break;
            case 1:
                url = "http://www.sogou.com/web?query=";
                break;
            case 2:
                url = "http://www.so.com/s?ie=utf-8&src=hao_360so&q=";
                break;
            case 3:
                url = "http://cn.bing.com/search?q=";
                break;
            }
            url +=URLEncoder.encode(str,"UTF-8");//将关键字编码成URL格式
            URL search=new URL(url);
            BufferedReader in=new BufferedReader(           //html输入流,UTF-8格式
                    new InputStreamReader(search.openStream(),"UTF-8"));
            String inputLine;
            List resultList=new ArrayList();
            while((inputLine=in.readLine())!=null){
    //          int len = in.readLine().length();       //此两句神奇,若取消注释,控制台能完完整整打印整个HTML网页
    //          byte[] b=new byte[len];                 //若注释,控制台只能打印HTML后部分,前部分可能因内存不够被覆盖
                switch(EngineName.getSelectedIndex()){
                case 0:
                    Pattern p=Pattern.compile("</div>百度为您找到相关结果约([^</div>]*)");     //正则表达式
                    Matcher m=p.matcher(inputLine);
                    if(m.find()){
                        resultList.add(m.group(1));
                    }
                    break;
                case 3:
                    Pattern p1=Pattern.compile("<span class=\"sb_count\">([^ 条结果</span>]*)");//正则表达式
                    Matcher m1=p1.matcher(inputLine);
                    if(m1.find()){
                        resultList.add(m1.group(1));
                    }
                    break;
                case 1:                     //搜狗和360没显示词条数,故此处没抓取相关内容
                case 2:
                    break;
                }
                System.out.println(inputLine);//输出到控制台
            }
            in.close(); 
            switch(EngineName.getSelectedIndex()){
            case 0:
                showStatus("百度为您找到相关结果约" + resultList + " 条");      //在applet显示相关信息。
                break;
            case 3:
                showStatus("必应为您找到相关结果约" + resultList + " 条");
                break;
            case 1:
            case 2:
                showStatus("已连接搜索引擎" + url);
                break;
            }
            System.out.println(url);        //打印URL到控制台,方便复制到浏览器进行比较
        }
    }

    运行结果如下:
    这里写图片描述
    这里写图片描述

    展开全文
  • 用来根据百度外卖的区域URL抓取百度外卖的商家数据,主要是包含商家的基本信息,店铺名称、地址、评分、电话、以及基本的量化分级信息等。为什么要根据区域URL抓取百度外卖的数据?百度外卖的经纬度是通过加密的...
  • Twitter实时URL抓取服务架构 - SpiderDuck与NoSQL - PHP网站开发 - 每日最新博客在置顶博客之后   其分为下面几个部分: Kestrel: 是一个Twitter在使用的队列服务,这里将所有需要抓取的URL放入此队列中。 ...
  • 妹子图url抓取

    千次阅读 2019-01-28 09:42:25
     public static void getURL() throws Exception {    File file = new File("D:/a.txt");    BufferedWriter bw = new BufferedWriter(new FileWriter(file));    String flag ="";  Document doc =...
  • 通过Url抓取网页内容

    2019-07-23 00:25:31
    近来想学习一下网页抓取技术,监于之前没有这方面的基础,都只是在socke方面的编程,对http方面了解很少,现在到个较好的入门例子,共享学习一下,如果大家以前看过的话,就当是复习吧。还希望高手可以指导一下如何...
  • Java爬虫(3)——拼接url抓取“加载更多”内容   上期我们说到phantomjs可模拟点击按钮行为,通过点击完所有”加载更多”按钮来抓所有内容。比如这个网页http://e.vnexpress.net/news/news 我们要抓取...
  • 三网大数据精准营销客源信息提取的原理 前提:1、所有人,一切上网行为都摆脱不了三大运营商;... 4、分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
  • 最近Twitter开发者博客上发表了一篇文章,向大家介绍了Twitter的URL抓取服务SpiderDuck,其中用到了Cassandra,HDFS和Memcached作为存储部件。是一个了解NoSQL使用方法的好例子。 SpiderDuck的架构如下图所示: ...
  • 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。一、通过urllib2抓取...
  • 在前面的章节中,我们以尽量少的代码演示了...现在让我们再回顾一下我们抓取的过程:从待下载URL列表取出URL;构造和发送HTTP请求下载网页;解析网页提取数据,解析网页提取URL并加入待下载列表;存储从网页提取的...
  • 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。  类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 在Python中,我们...
  • 快克SEO开发以来首款免费工具网站url采集器、同时针对百度、搜狗、谷歌、360四个搜索引擎同步实时数据抓取。 通过关键词抓取搜索引擎自定义页数的网站URL 通过对自身网站收录的url链接及标题可以一一对应采集(快排...
  • # 输出正在抓取Urlprint(url)# 下载HTML文件html = download(url)# 分析HTML代码urls = analyse(html)# 对每一个Url递归调用crawler函数 for url in urls: crawler(url)# 从入口点Url开始抓取所有的HTML文件...
  • 抓取百度新闻 关键字为公安 通过flask,构建服务器,托管从网上下载的图片。 通过定时任务,每60秒抓取最新新闻数据。 初始抓起第一页。 通过对比标题(也可选择时间),如在数据库的第一条数据中和抓取的文章,不...
  • 通过url获取鞋子的尺码和价格数据。
  • 抓取了不同网站的图片,其中一个可以显示,另一个提示格式不对,在浏览器里对比了两个图片的响应头,不同之处是一个经过了压缩 在Response里对其进行设置 response.setHeader("Content-Encoding",&...
  • 通过指定的URL抓取网页内容

    千次阅读 2015-12-27 11:12:11
    所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地 。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器 端,然后读取服务器端的响应资源。 Java语言是为...
  • def get_page(url): try: import urllib return urllib.urlopen(url).read() except: return '' def get_next_traget(page): global url page=get_page(url) start_link=page.find(') if start_link==-1: ...
  • 如何通过URL抓取网站的数据

    千次阅读 2014-12-09 14:46:43
    使用的外部dll ...1.通过url获取网站源码,这里是一个比较简单的方法,不过方法不怪乎简单,能用就行 public string getWeb(string url, Encoding en) { CookieCollection cookies = new Cookie
  • 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。  类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 2.x版本的python...
  • 最近有一个任务抓取如下图的网页数据 要获取前一天的数据进行翻页抓取数据并存入数据库   如果就只是抓取当前页的数据 没有条件和翻页数据 这个就比较简单了 但是要选取前一天的数据,还有分页数据 一开始...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 11,902
精华内容 4,760
关键字:

url抓取