-
2021-02-27 14:52:35
【实例简介】包含几个使用方法示例,如下文:
【实例截图】
【核心代码】
package com.zhy.spider.test;
import java.util.List;
import com.zhy.spider.bean.LinkTypeData;
import com.zhy.spider.core.ExtractService;
import com.zhy.spider.rule.Rule;
public class Test
{
@org.junit.Test
public void getDatasByClass()
{
Rule rule = new Rule(
"http://www1.sxcredit.gov.cn/public/infocomquery.do?method=publicIndexQuery",
new String[] { "query.enterprisename","query.registationnumber" }, new String[] { "兴网","" },
"cont_right", Rule.CLASS, Rule.POST);
List extracts = ExtractService.extract(rule);
printf(extracts);
}
@org.junit.Test
public void getDatasByCssQuery()
{
Rule rule = new Rule("http://www.11315.com/search",
new String[] { "name" }, new String[] { "兴网" },
"div.g-mn div.con-model", Rule.SELECTION, Rule.GET);
List extracts = ExtractService.extract(rule);
printf(extracts);
}
public void printf(List datas)
{
for (LinkTypeData data : datas)
{
System.out.println(data.getLinkText());
System.out.println(data.getLinkHref());
System.out.println("***********************************");
}
}
}
更多相关内容 -
Java爬虫代码
2018-01-23 10:45:28完整的java爬虫代码,用于交流学校,下下来可以直接运行。 -
Java爬虫代码示例.rar
2019-06-16 08:24:21这个是Java爬虫代码示例,小白可以参考,大神请绕道行走 -
java爬虫代码
2017-05-24 10:01:18java爬虫代码 -
某东附加某电影完整java爬虫代码
2018-08-12 12:59:16java爬虫完整代码,爬取某东和某电影平台,可以举一反三爬取想要的资源有用信息;利用jsoup跨域请求url地址,利用jQuery选择器选取页面元素,获取想要的信息标签中的内容,转为java对象保存到数据库或者缓存. -
某平台java爬虫代码
2017-07-19 19:34:06对某个电影平台的信息采集,很详细 -
java实现一个简单的网络爬虫代码示例
2020-08-28 21:20:10主要介绍了java实现一个简单的网络爬虫代码示例,还是挺不错的,这里分享给大家,需要的朋友可以参考下。 -
Java 简单爬虫 代码
2020-10-02 18:44:14除了Java,还有挺多语言也可以写爬虫的 比如说: Ruby、node.js、python、C++、php 各有特点吧,不过现在最火的是python Java 的话,我个人认为,多线程不赖了 (Google和百度都查了,真的找不到有人对Java爬虫的...这里只演示最简单的一个爬虫
准备:需要导入一个jar包>> jsoup 下载链接
(jsoup 是用于爬虫的一个框架,除此之外的还有jSpider、HTMLUnit 、Jaunt)
import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; class SimpleSpider{ Document getDoc(String url) throws IOException { Document doc=Jsoup.connect(url).get(); return doc; } Elements getElementAs(Document doc) {//cssQuery syntax:https://jsoup.org/apidocs/org/jsoup/select/Selector.html Elements a=doc.select("a[href]");//finds links (a tags with href attributes) return a; } } public class SimpleOne { public static void main(String[] args) throws IOException { SimpleSpider s=new SimpleSpider(); Document doc=s.getDoc("https://www.baidu.com/"); //System.out.println(s.getElementAs(doc)); Elements aSet=s.getElementAs(doc); for(Element i :aSet) { System.out.println(i.attr("href"));//get attr href } System.out.println("end"); } }
我现在也只是刚接触,发现利用这些框架的话,其实Java 爬虫看起来也没那么冗余
网页解析起来也不复杂
不过,你如果不借助这些框架的话。。
import java.io.BufferedInputStream; import java.io.DataInputStream; import java.io.IOException; import java.io.InputStream; import java.net.MalformedURLException; import java.net.URL; public class WithNoExtraJar { public static void main(String[] args) { // TODO Auto-generated method stub URL url; InputStream is = null; DataInputStream dis; String line; try { url = new URL("https://www.baidu.com/"); is = url.openStream(); // get connection dis = new DataInputStream(new BufferedInputStream(is)); while ((line = dis.readLine()) != null) { System.out.println(line); } } catch (MalformedURLException mue) { mue.printStackTrace(); } catch (IOException ioe) { ioe.printStackTrace(); } finally { try { is.close(); } catch (IOException ioe) { // nothing to see here } } } }
上面只是获取网页源代码的程序,都还没开始解析,就已经一大坨了,看了就头大
所以,还是用框架好。。
除了Java,还有挺多语言也可以写爬虫的
比如说:
Ruby、node.js、python、C++、php
各有特点吧,不过现在最火的是python
Java 的话,我个人认为,多线程不赖了
(Google和百度都查了,真的找不到有人对Java爬虫的评价,噗 好像是故意被冷落了)
-
Java爬虫,信息抓取的实现 完整实例源码
2014-04-09 15:56:19Java爬虫,信息抓取的实现 详细完整源码实例打包给大家,需要的可以下载下载学习!!! -
JAVA爬虫项目源代码
2017-03-21 22:31:50此资源为爬虫项目,使用JAVA,采用多线程编程和队列。基于HttpCliet、Jsoup、FastJsonjar包实现。 -
java爬虫实现代码
2020-03-22 10:07:56使用maven框架内置多种所用的jar包,通过爬取csdn博主的近两万条博客数据并存储在数据库中。再通过SQL语句可以方便查询排序,看到每个博主博客 点赞数、阅读量、评论数等... 相关教程请看博客 java爬虫项目(1)-(10) -
java爬虫视频爬虫工具
2019-03-07 11:46:26java爬虫(视频爬虫源码);可以支持爬各大视频网站;支持:优酷、土豆、酷6、6间房、搜狐、新浪 等视频网站的 视屏提取;只需要输入网站的URL 即可提取当前页面的所有视频; -
简单的java爬虫抓取网页实现代码
2019-04-30 09:25:04简单Java爬虫,抓取网页内容,让你了解爬虫机制,熟悉网络编程 -
java文章采集爬虫代码示例
2021-09-30 10:18:12由于爬虫性质的特殊性,本文将部分爬取文章的网站例子,用###代替,希望大家能学习java爬取代码技巧,而不是照着我的代码用!!! pom文件引入所需要的依赖 <!--jsoup--> <dependency> <...前言
由于爬虫性质的特殊性,本文将部分爬取文章的网站例子,用###代替,希望大家能学习java爬取代码技巧!!!
pom文件引入所需要的依赖
<!--jsoup--> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </dependency>
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
核心实现代码
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; import java.io.IOException; /** * 文章采集 * @author tarzan * @date 2021/5/31 */ public class ArticleCollect { //网站地址 private static String webUrl="###"; /** * @param url 访问路径 * @return */ public static Document getDocument(String url) { try { //5000是设置连接超时时间,单位ms return Jsoup.connect(url).timeout(5000).get(); } catch (IOException e) { e.printStackTrace(); } return null; } public static void main(String[] args) { int pageNum=0; while (true){ pageNum++; if(!readPage(webUrl,pageNum)){ break; } } } public static String readArticle(String url) { Document doc= getDocument(url); //获取文章标题 Elements title = doc.select("title"); System.out.println(title); //获取文章内容 Elements content = doc.select("###"); return content.html(); } public static boolean readPage(String webUrl,int pageNum) { Document doc = getDocument(webUrl+"/article/list/"+pageNum); // 获取目标HTML代码 Elements elements = doc.select("###"); //文章列表 Elements articles = elements.select("###"); if (articles.size() == 0) { return false; } articles.forEach(e -> { String url = e.select("a").attr("href"); readArticle(url); try { //等待3秒 Thread.sleep(3000); } catch (InterruptedException interruptedException) { System.out.println("线程中断故障"); } }); return true; } }
控制台运行输出
-
java代码-java爬虫源代码
2022-03-20 17:34:11java代码-java爬虫源代码 ——学习参考资料:仅用于个人学习使用! -
java-Jsoup爬虫完整代码
2018-08-12 13:08:23java爬虫完整代码,爬取某东和某电影平台,可以举一反三爬取想要的资源有用信息;利用jsoup跨域请求url地址,利用jQuery选择器选取页面元素,获取想要的信息标签中的内容,转为java对象保存到数据库或者缓存. -
Java 爬虫如何爬取需要登录的网站
2020-08-25 13:38:19主要介绍了Java 爬虫如何爬取需要登录的网站,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 -
Java爬虫详细完整源码实例
2019-05-26 13:34:34Java爬虫,信息抓取的实现 详细完整源码实例打包给大家,需要的可以下载下载学习!打包给大家,需要的可以下载下载学习! -
简易的网页爬虫java源代码
2016-09-10 21:38:36网页爬虫java源代码,用广度优先算法以百度为种子开始爬取,有一些bug。 -
Java爬虫实例完整源码
2018-11-20 09:35:52纯Java编写爬虫框架,实现信息抓取, 附详细源码,需要的可以下载学习 -
java爬虫示例代码
2021-11-28 15:33:00import java.io.IOException; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import ...package com.wpb.dao; import java.io.IOException; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import com.wpb.bean.Book; public class test { public static void main(String[] args) throws IOException { //要爬取的网站 String url = "https://www.qidian.com/search?kw=完美世界"; //获得一个和网站的链接,注意是Jsoup的connect Connection connect = Jsoup.connect(url); //获得该网站的Document对象 Document document = connect.get(); int cnt = 1; //我们可以通过对Document对象的select方法获得具体的文本内容 //下面的意思是获得.bool-img-text这个类下的 ul 下的 li Elements rootselect = document.select(".book-img-text ul li"); for(Element ele : rootselect){ //然后获得a标签里面具体的内容 Elements novelname = ele.select(".book-mid-info h4 a"); String name = novelname.text(); Elements author = ele.select(".book-mid-info p a"); String authorname = author.first().text(); Elements sumadvice = ele.select(".total p"); String sum = sumadvice.last().text(); System.out.println("书名:"+name+" 作者:"+authorname+" 推荐量:"+sum); } } }
-
java利用多线程爬虫查询快递100物流信息.zip
2018-07-16 17:20:19java利用多线程爬虫查询快递100物流信息.zip java利用多线程爬虫查询快递100物流信息.zip -
Java 网络爬虫代码例子
2018-12-13 15:53:46Java爬虫代码,例子十分简单,很容易接入,希望能帮助到大家。 -
视频爬虫源码
2018-06-29 16:27:11java爬虫源码 java爬虫源码 java爬虫源码 java爬虫源码 java爬虫源码 java爬虫源码 -
简单网络爬虫Java代码(借鉴)
2017-02-22 16:21:43一个简单的网络爬虫代码,附带所需jar包,初学者可以借鉴 -
Java 爬虫数据异步加载如何解决
2020-08-25 13:10:21主要介绍了Java 爬虫遇上数据异步加载,试试这两种办法!问题如何解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 -
使用JAVA爬虫搭建一个小说网站(可上线运营)
2018-11-16 13:39:30使用最基础的java知识,爬虫知识,HttpClient抓取,JSoup解析,BootStrap, EasyUI美化搭建一个可用的小说网站(PS:我的小说网站已经上线运营了。) -
java爬虫源代码
2018-11-05 14:20:06java爬虫源码,Swing窗体 请求模块:get、post 数据存储形模块:文本,excel,Mongodb; 数据处理:正则表达式、图像处理 核心:针对反爬虫技术 -
httpclient + jsoup java爬虫DEMO
2018-08-02 15:46:58java爬虫,代码写的有点丑,反正是能用。 今天给大家分享一个多线程的知识点,和线程池,最近任务是写爬虫,五百个网址,循环很慢,然后考虑用多线程,今天看了一下多线程,氛围继承thread 和实现runnuble接口,...