精华内容
下载资源
问答
  • 2021-02-27 14:52:35

    【实例简介】包含几个使用方法示例,如下文:

    【实例截图】

    【核心代码】

    package com.zhy.spider.test;

    import java.util.List;

    import com.zhy.spider.bean.LinkTypeData;

    import com.zhy.spider.core.ExtractService;

    import com.zhy.spider.rule.Rule;

    public class Test

    {

    @org.junit.Test

    public void getDatasByClass()

    {

    Rule rule = new Rule(

    "http://www1.sxcredit.gov.cn/public/infocomquery.do?method=publicIndexQuery",

    new String[] { "query.enterprisename","query.registationnumber" }, new String[] { "兴网","" },

    "cont_right", Rule.CLASS, Rule.POST);

    List extracts = ExtractService.extract(rule);

    printf(extracts);

    }

    @org.junit.Test

    public void getDatasByCssQuery()

    {

    Rule rule = new Rule("http://www.11315.com/search",

    new String[] { "name" }, new String[] { "兴网" },

    "div.g-mn div.con-model", Rule.SELECTION, Rule.GET);

    List extracts = ExtractService.extract(rule);

    printf(extracts);

    }

    public void printf(List datas)

    {

    for (LinkTypeData data : datas)

    {

    System.out.println(data.getLinkText());

    System.out.println(data.getLinkHref());

    System.out.println("***********************************");

    }

    }

    }

    更多相关内容
  • Java爬虫代码

    2018-01-23 10:45:28
    完整的java爬虫代码,用于交流学校,下下来可以直接运行。
  • Java爬虫代码示例.rar

    2019-06-16 08:24:21
    这个是Java爬虫代码示例,小白可以参考,大神请绕道行走
  • java爬虫代码

    2017-05-24 10:01:18
    java爬虫代码
  • java爬虫完整代码,爬取某东和某电影平台,可以举一反三爬取想要的资源有用信息;利用jsoup跨域请求url地址,利用jQuery选择器选取页面元素,获取想要的信息标签中的内容,转为java对象保存到数据库或者缓存.
  • 某平台java爬虫代码

    2017-07-19 19:34:06
    对某个电影平台的信息采集,很详细
  • 主要介绍了java实现一个简单的网络爬虫代码示例,还是挺不错的,这里分享给大家,需要的朋友可以参考下。
  • Java 简单爬虫 代码

    千次阅读 2020-10-02 18:44:14
    除了Java,还有挺多语言也可以写爬虫的 比如说: Ruby、node.js、python、C++、php 各有特点吧,不过现在最火的是python Java 的话,我个人认为,多线程不赖了 (Google和百度都查了,真的找不到有人对Java爬虫的...

    这里只演示最简单的一个爬虫

    准备:需要导入一个jar包>> jsoup 下载链接

    (jsoup 是用于爬虫的一个框架,除此之外的还有jSpider、HTMLUnit 、Jaunt)

    import java.io.IOException;
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;
    
    class SimpleSpider{
    	Document getDoc(String url) throws IOException {
    		Document doc=Jsoup.connect(url).get();
    		return doc;
    	}
    	Elements getElementAs(Document doc) {//cssQuery syntax:https://jsoup.org/apidocs/org/jsoup/select/Selector.html
    		Elements a=doc.select("a[href]");//finds links (a tags with href attributes)						
    		return a;
    	}
    }
    public class SimpleOne {
    	public static void main(String[] args) throws IOException {
    		SimpleSpider s=new SimpleSpider();
    		Document doc=s.getDoc("https://www.baidu.com/");
    		//System.out.println(s.getElementAs(doc));
    		Elements aSet=s.getElementAs(doc);
    		for(Element i :aSet) {
    			System.out.println(i.attr("href"));//get attr href
    		}
    		System.out.println("end");
    	}
    
    }
    

    我现在也只是刚接触,发现利用这些框架的话,其实Java 爬虫看起来也没那么冗余

    网页解析起来也不复杂

    不过,你如果不借助这些框架的话。。

    import java.io.BufferedInputStream;
    import java.io.DataInputStream;
    import java.io.IOException;
    import java.io.InputStream;
    import java.net.MalformedURLException;
    import java.net.URL;
    
    public class WithNoExtraJar {
    
    	public static void main(String[] args) {
    		// TODO Auto-generated method stub
    		URL url;
    	    InputStream is = null;
    	    DataInputStream dis;
    	    String line;
    	    try {
    	        url = new URL("https://www.baidu.com/");
    	        is = url.openStream();  // get connection
    	        dis = new DataInputStream(new BufferedInputStream(is));
    
    	        while ((line = dis.readLine()) != null) {
    	            System.out.println(line);
    	        }
    	    } catch (MalformedURLException mue) {
    	         mue.printStackTrace();
    	    } catch (IOException ioe) {
    	         ioe.printStackTrace();
    	    } finally {
    	        try {
    	            is.close();
    	        } catch (IOException ioe) {
    	            // nothing to see here
    	        }
    	    }
    	}
    
    }
    
    

    上面只是获取网页源代码的程序,都还没开始解析,就已经一大坨了,看了就头大

    所以,还是用框架好。。


    除了Java,还有挺多语言也可以写爬虫的

    比如说:

    Ruby、node.js、python、C++、php

    各有特点吧,不过现在最火的是python

    Java 的话,我个人认为,多线程不赖了

    (Google和百度都查了,真的找不到有人对Java爬虫的评价,噗 好像是故意被冷落了)

    展开全文
  • Java爬虫,信息抓取的实现 完整实例源码

    万次下载 热门讨论 2014-04-09 15:56:19
    Java爬虫,信息抓取的实现 详细完整源码实例打包给大家,需要的可以下载下载学习!!!
  • JAVA爬虫项目源代码

    2017-03-21 22:31:50
    此资源为爬虫项目,使用JAVA,采用多线程编程和队列。基于HttpCliet、Jsoup、FastJsonjar包实现。
  • java爬虫实现代码

    2020-03-22 10:07:56
    使用maven框架内置多种所用的jar包,通过爬取csdn博主的近两万条博客数据并存储在数据库中。再通过SQL语句可以方便查询排序,看到每个博主博客 点赞数、阅读量、评论数等... 相关教程请看博客 java爬虫项目(1)-(10)
  • java爬虫视频爬虫工具

    2019-03-07 11:46:26
    java爬虫(视频爬虫源码);可以支持爬各大视频网站;支持:优酷、土豆、酷6、6间房、搜狐、新浪 等视频网站的 视屏提取;只需要输入网站的URL 即可提取当前页面的所有视频;
  • 简单Java爬虫,抓取网页内容,让你了解爬虫机制,熟悉网络编程
  • 由于爬虫性质的特殊性,本文将部分爬取文章的网站例子,用###代替,希望大家能学习java爬取代码技巧,而不是照着我的代码用!!! pom文件引入所需要的依赖 <!--jsoup--> <dependency> <...

    前言

        由于爬虫性质的特殊性,本文将部分爬取文章的网站例子,用###代替,希望大家能学习java爬取代码技巧!!!

    pom文件引入所需要的依赖

            <!--jsoup-->
            <dependency>
                <groupId>org.jsoup</groupId>
                <artifactId>jsoup</artifactId>
                <version>1.13.1</version>
            </dependency>

         jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

    核心实现代码

    
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.select.Elements;
    
    import java.io.IOException;
    
    /**
     * 文章采集
     * @author tarzan
     * @date 2021/5/31
     */
    public class ArticleCollect {
    
    
        //网站地址
        private static String webUrl="###";
    
        /**
         * @param url 访问路径
         * @return
         */
        public static Document getDocument(String url) {
            try {
                //5000是设置连接超时时间,单位ms
                return Jsoup.connect(url).timeout(5000).get();
            } catch (IOException e) {
                e.printStackTrace();
            }
            return null;
        }
    
        public static void main(String[] args) {
            int pageNum=0;
            while (true){
                pageNum++;
                if(!readPage(webUrl,pageNum)){
                    break;
                }
            }
    
        }
    
        public static String readArticle(String url) {
            Document doc=  getDocument(url);
            //获取文章标题
            Elements title = doc.select("title");
            System.out.println(title);
            //获取文章内容
            Elements content = doc.select("###");
            return content.html();
        }
    
        public static boolean readPage(String webUrl,int pageNum) {
            Document doc = getDocument(webUrl+"/article/list/"+pageNum);
            // 获取目标HTML代码
            Elements elements = doc.select("###");
            //文章列表
            Elements articles = elements.select("###");
            if (articles.size() == 0) {
                return false;
            }
            articles.forEach(e -> {
                String url = e.select("a").attr("href");
                readArticle(url);
                try {
                    //等待3秒
                    Thread.sleep(3000);
                } catch (InterruptedException interruptedException) {
                    System.out.println("线程中断故障");
                }
            });
            return true;
        }
    
    }
    

    控制台运行输出

    展开全文
  • java代码-java爬虫代码 ——学习参考资料:仅用于个人学习使用!
  • java-Jsoup爬虫完整代码

    2018-08-12 13:08:23
    java爬虫完整代码,爬取某东和某电影平台,可以举一反三爬取想要的资源有用信息;利用jsoup跨域请求url地址,利用jQuery选择器选取页面元素,获取想要的信息标签中的内容,转为java对象保存到数据库或者缓存.
  • 主要介绍了Java 爬虫如何爬取需要登录的网站,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
  • Java爬虫,信息抓取的实现 详细完整源码实例打包给大家,需要的可以下载下载学习!打包给大家,需要的可以下载下载学习!
  • 网页爬虫java代码,用广度优先算法以百度为种子开始爬取,有一些bug。
  • Java爬虫实例完整源码

    2018-11-20 09:35:52
    Java编写爬虫框架,实现信息抓取, 附详细源码,需要的可以下载学习
  • java爬虫示例代码

    2021-11-28 15:33:00
    import java.io.IOException; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import ...
    package com.wpb.dao;
    
    import java.io.IOException;
    
    import org.jsoup.Connection;
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;
    
    import com.wpb.bean.Book;
    
    public class test {
    
        public static void main(String[] args) throws IOException {
            //要爬取的网站
            String url = "https://www.qidian.com/search?kw=完美世界";
            //获得一个和网站的链接,注意是Jsoup的connect
            Connection connect = Jsoup.connect(url);
            //获得该网站的Document对象
            Document document = connect.get();
            int cnt = 1;
            //我们可以通过对Document对象的select方法获得具体的文本内容
            //下面的意思是获得.bool-img-text这个类下的 ul 下的 li
            Elements rootselect = document.select(".book-img-text ul li");
            for(Element ele : rootselect){
                //然后获得a标签里面具体的内容
                Elements novelname = ele.select(".book-mid-info h4 a");
                String name  = novelname.text();
                
                Elements author = ele.select(".book-mid-info p a");
                String authorname = author.first().text();
                
                Elements sumadvice = ele.select(".total p");
                String sum = sumadvice.last().text();
                
                System.out.println("书名:"+name+" 作者:"+authorname+" 推荐量:"+sum);
            }
        }
    
    }
    
    展开全文
  • java利用多线程爬虫查询快递100物流信息.zip java利用多线程爬虫查询快递100物流信息.zip
  • Java爬虫代码,例子十分简单,很容易接入,希望能帮助到大家。
  • 视频爬虫源码

    2018-06-29 16:27:11
    java爬虫源码 java爬虫源码 java爬虫源码 java爬虫源码 java爬虫源码 java爬虫源码
  • 一个简单的网络爬虫代码,附带所需jar包,初学者可以借鉴
  • 主要介绍了Java 爬虫遇上数据异步加载,试试这两种办法!问题如何解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
  • 使用最基础的java知识,爬虫知识,HttpClient抓取,JSoup解析,BootStrap, EasyUI美化搭建一个可用的小说网站(PS:我的小说网站已经上线运营了。)
  • java爬虫代码

    2018-11-05 14:20:06
    java爬虫源码,Swing窗体 请求模块:get、post 数据存储形模块:文本,excel,Mongodb; 数据处理:正则表达式、图像处理 核心:针对反爬虫技术
  • java爬虫代码写的有点丑,反正是能用。 今天给大家分享一个多线程的知识点,和线程池,最近任务是写爬虫,五百个网址,循环很慢,然后考虑用多线程,今天看了一下多线程,氛围继承thread 和实现runnuble接口,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 59,282
精华内容 23,712
关键字:

java爬虫代码

java 订阅