-
2021-03-04 06:52:06
网络爬虫是自动提取网页的程序,它是搜索引擎的重要组成部分,传统的爬虫程序从初始网页到多个URL,在对网页进行爬行的过程中,它不断地从当前网页中提取新的URL并将其放入队列中,一起跟着爱站技术频道小编来看看Java-爬取网页并且保存的方法吧!
UrlConnection爬取实现
package html;
import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
public class Spider {
public static void main(String[] args) {
String filepath = "d:/124.html";
String url_str = "http://www.hao123.com/";
URL url = null;
try {
url = new URL(url_str);
} catch (MalformedURLException e) {
e.printStackTrace();
}
String charset = "utf-8";
int sec_cont = 1000;
try {
URLConnection url_con = url.openConnection();
url_con.setDoOutput(true);
url_con.setReadTimeout(10 * sec_cont);
url_con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");
InputStream htm_in = url_con.getInputStream();
String htm_str = InputStream2String(htm_in,charset);
saveHtml(filepath,htm_str);
} catch (IOException e) {
e.printStackTrace();
}
}
/**
* Method: saveHtml
* Description: save String to file
* @param filepath
* file path which need to be saved
* @param str
* string saved
*/
public static void saveHtml(String filepath, String str){
try {
/*@SuppressWarnings("resource")
FileWriter fw = new FileWriter(filepath);
fw.write(str);
fw.flush();*/
OutputStreamWriter outs = new OutputStreamWriter(new FileOutputStream(filepath, true), "utf-8");
outs.write(str);
System.out.print(str);
outs.close();
} catch (IOException e) {
System.out.println("Error at save html...");
e.printStackTrace();
}
}
/**
* Method: InputStream2String
* Description: make InputStream to String
* @param in_st
* inputstream which need to be converted
* @param charset
* encoder of value
* @throws IOException
* if an error occurred
*/
public static String InputStream2String(InputStream in_st,String charset) throws IOException{
BufferedReader buff = new BufferedReader(new InputStreamReader(in_st, charset));
StringBuffer res = new StringBuffer();
String line = "";
while((line = buff.readLine()) != null){
res.append(line);
}
return res.toString();
}
}
实现过程中,爬取的网页的中文乱码问题,是个比较麻烦的事情。
HttpClient爬取实现
HttpClient实现爬取网页时,遇到了很多问题。其一,就是存在两个版本的HttpClient,一个是sun内置的,另一个是apache开源的一个项目,似乎sun内置用的不太多,我也就没有实现,而是采用了apache开源项目(以后说的HttpClient都是指apache的开源版本);其二,在使用HttpClient时,最新的版本已经不同于以前的版本,从HttpClient4.x版本后,导入的包就已经不一样了,从网上找的很多部分都是HttpClient3.x版本的,所以如果使用最新的版本,还是看帮助文件为好。
我用的是Eclipse,需要配置环境导入引用包。
首先,下载HttpClient,地址是:http://hc.apache.org/downloads.cgi,我是用的事HttpClient4.2版本。
然后,解压缩,找到了/lib文件夹下的commons-codec-1.6.jar,commons-logging-1.1.1.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar(版本号根据下载的版本有所不同,还有其他的jar文件,我这里暂时用不到,所以先导入必须的);
最后,将上面的jar文件,加入classpath中,即右击工程文件 => Bulid Path => Configure Build Path => Add External Jar..,然后添加上面的包就可以了。
还用一种方法就是讲上面的包,直接复制到工程文件夹下的lib文件夹中。
下面是实现代码:
package html;
import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.*;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;
public class SpiderHttpClient {
public static void main(String[] args) throws Exception {
// TODO Auto-generated method stub
String url_str = "http://www.hao123.com";
String charset = "utf-8";
String filepath = "d:/125.html";
HttpClient hc = new DefaultHttpClient();
HttpGet hg = new HttpGet(url_str);
HttpResponse response = hc.execute(hg);
HttpEntity entity = response.getEntity();
InputStream htm_in = null;
if(entity != null){
System.out.println(entity.getContentLength());
htm_in = entity.getContent();
String htm_str = InputStream2String(htm_in,charset);
saveHtml(filepath,htm_str);
}
}
/**
* Method: saveHtml
* Description: save String to file
* @param filepath
* file path which need to be saved
* @param str
* string saved
*/
public static void saveHtml(String filepath, String str){
try {
/*@SuppressWarnings("resource")
FileWriter fw = new FileWriter(filepath);
fw.write(str);
fw.flush();*/
OutputStreamWriter outs = new OutputStreamWriter(new FileOutputStream(filepath, true), "utf-8");
outs.write(str);
outs.close();
} catch (IOException e) {
System.out.println("Error at save html...");
e.printStackTrace();
}
}
/**
* Method: InputStream2String
* Description: make InputStream to String
* @param in_st
* inputstream which need to be converted
* @param charset
* encoder of value
* @throws IOException
* if an error occurred
*/
public static String InputStream2String(InputStream in_st,String charset) throws IOException{
BufferedReader buff = new BufferedReader(new InputStreamReader(in_st, charset));
StringBuffer res = new StringBuffer();
String line = "";
while((line = buff.readLine()) != null){
res.append(line);
}
return res.toString();
}
}
以上便是关于Java-爬取网页并且保存的方法介绍,只有对各个编程都有所了解才能选择是否真的适合自己,要知道今天的程序员已经和以前不一样了。
更多相关内容 -
详解Java两种方式简单实现:爬取网页并且保存
2020-08-31 20:31:02本篇文章主要介绍了Java两种方式简单实现:爬取网页并且保存 ,主要用UrlConnection、HttpClient爬取实现,具有一定的参考价值,感兴趣的小伙伴们可以参考一下。 -
一个简单java爬虫爬取网页中邮箱并保存
2021-03-07 23:29:35java代码如下:package tool;import java.io.BufferedReader;import java.io.File;import java.io.FileWriter;import java.io.InputStreamReader;import java.io.Writer;import java.net.URL;import...此代码为一十分简单网络爬虫,仅供娱乐之用。
java代码如下:
package tool;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStreamReader;
import java.io.Writer;
import java.net.URL;
import java.net.URLConnection;
import java.sql.Time;
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Ma {
public static void main(String[] args) throws Exception {// 本程序内部异常过多为了简便,不一Try,直接抛给虚拟机
long StartTime = System.currentTimeMillis();
System.out.println("-- 欢迎使用小刘简易网页爬虫程序 --");
System.out.println("");
System.out.println("--请输入正确的网址如http://www.baidu.com--");
Scanner input = new Scanner(System.in);// 实例化键盘输入类
String webaddress = input.next();// 创建输入对象
File file = new File("E:" + File.separator + "爬虫邮箱统计文本.txt");// 实例化文件类对象
// 并指明输出地址和输出文件名
Writer outWriter = new FileWriter(file);// 实例化outWriter类
URL url = new URL(webaddress);// 实例化URL类。
URLConnection conn = url.openConnection();// 取得链接
BufferedReader buff = new BufferedReader(new InputStreamReader(
conn.getInputStream()));// 取得网页数据
String line = null;
int i=0;
String regex = "\\w+@\\w+(\\.\\w+)+";// 声明正则,提取网页前提
Pattern p = Pattern.compile(regex);// 为patttern实例化
outWriter.write("该网页中所包含的的邮箱如下所示:\r\n");
while ((line = buff.readLine()) != null) {
Matcher m = p.matcher(line);// 进行匹配
while (m.find()) {
i++;
outWriter.write(m.group() + ";\r\n");// 将匹配的字符输入到目标文件
}
}
long StopTime = System.currentTimeMillis();
String UseTime=(StopTime-StartTime)+"";
outWriter.write("--------------------------------------------------------\r\n");
outWriter.write("本次爬取页面地址:"+webaddress+"\r\n");
outWriter.write("爬取用时:"+UseTime+"毫秒\r\n");
outWriter.write("本次共得到邮箱:"+i+"条\r\n");
outWriter.write("****谢谢您的使用****\r\n");
outWriter.write("--------------------------------------------------------");
outWriter.close();// 关闭文件输出操作
System.out.println(" —————————————————————\t");
System.out.println("|页面爬取成功,请到E盘根目录下查看test文档|\t");
System.out.println("| |");
System.out.println("|如需重新爬取,请再次执行程序,谢谢您的使用|\t");
System.out.println(" —————————————————————\t");
}
}
txt截图如下:
测试网址:http://tieba.baidu.com/p/2976611415,通过此例读者可以轻松抓取网页上的邮箱,如果读者对正则表达式有所了解,那么
不仅可以抓取邮箱,还可以抓取电话号码,ip地址等待一切想要抓取的信息.是不是 很有趣呢!
转载请注明作者:小刘
-
Java爬取网页信息,并导出到Excel
2021-04-01 15:39:45利用java爬取网页信息,并且到处excel,亲测有用,有问题可以联系我 -
JAVA爬取网页内容
2021-03-18 09:47:23前期准备工作:需要去查看一下要爬的网页的结构,对自己要爬的数据的标签要熟悉。操作:在页面上按F12查看标签的内容。 就是js+css+html标签的构造,我们使用比较多的是a、img这两个标签。第一个是链接,第二个是...在此之前,大家先了解一个Jsoup,一个html页面解析的jar包。
如果你上面的Jsoup看完了。
前期准备工作:需要去查看一下要爬的网页的结构,对自己要爬的数据的标签要熟悉。
操作:在页面上按F12查看标签的内容。
就是js+css+html标签的构造,我们使用比较多的是a、img这两个标签。第一个是链接,第二个是图片所以图片也是可以爬的~~。里面的内容也都是一个链接地址。
其余的标签就可能是文本数据的内容了。比如说我现在想要爬的就是这个标题中的链接。
和标题的内容。找到这里看到这个标签的href值。
使用Jsoup的方法:Elements elements = doc.getElementsByTag("a");//找到所有a标签
对a标签进行过滤就行了
也可以直接获取class标签下的内容,再在这个class下找到a标签获取a标签的href属性值。
好了就是这么简单。接下来看看代码吧。
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class MySearchTest {
private static String url = "http://blog.csdn.net";
private static String blogName = "guoxiaolongonly";
public static void main(String[] args) {
getArticleListFromUrl(url+"/" + blogName);
}
/**
* 获取文章列表
* @param listurl
*/
public static void getArticleListFromUrl(String listurl) {
Document doc = null;
try {
doc = Jsoup.connect(listurl).userAgent("Mozilla/5.0").timeout(3000).post();
} catch (IOException e) {
e.printStackTrace();
}
// System.out.println(doc);
Elements elements = doc.getElementsByTag("a");//找到所有a标签
for (Element element : elements) {
String relHref = element.attr("href"); // == "/"这个是href的属性值,一般都是链接。这里放的是文章的连接
String linkHref = element.text();
//用if语句过滤掉不是文章链接的内容。因为文章的链接有两个,但评论的链接只有一个,反正指向相同的页面就拿评论的链接来用吧
if (!relHref.startsWith("http://") && relHref.contains("details") && relHref.endsWith("comments"))
{
StringBuffer sb = new StringBuffer();
sb.append(url).append(relHref);
System.out.println(sb.substring(0, sb.length() - 9));//去掉最后的#comment输出
getArticleFromUrl(sb.substring(0, sb.length() - 9));//可以通过这个url获取文章了
}
//System.out.println(linkHref);
if(linkHref.equals("下一页"))//如果有下一页
{
getArticleListFromUrl(url + relHref);//获取下一页的列表
}
}
}
/**
* 获取文章内容
* @param detailurl
*/
public static void getArticleFromUrl(String detailurl) {
try {
Document document = Jsoup.connect(detailurl).userAgent("Mozilla/5.0").timeout(3000).post();
Element elementTitle = document.getElementsByClass("link_title").first();//标题。 这边根据class的内容来过滤
System.out.println(elementTitle.text());
String filename = elementTitle.text().replaceAll("/", "或");
Element elementContent = document.getElementsByClass("article_content").first();//内容。
saveArticle(filename , elementContent.text(), blogName);
// String Content =elementContent.te xt().replaceAll(" ", "\t");
// System.out.println(elementContent.text()+"\n");
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
/**
* 保存文章到本地
* @param titile
* @param content
* @param blogName
*/
public static void saveArticle(String titile, String content, String blogName) {
String lujing = "d:\\MyLoadArticle\\" + blogName + "\\" + titile + ".txt";//保存到本地的路径和文件名
File file = new File(lujing);
if (!file.getParentFile().exists()) {
file.getParentFile().mkdirs();
}
try {
file.createNewFile();
} catch (IOException e) {
e.printStackTrace();
}
try {
FileWriter fw = new FileWriter(file, true);
BufferedWriter bw = new BufferedWriter(fw);
bw.write(content);
bw.flush();
bw.close();
fw.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
我封装了获取文章列表、获取文章内容保存文章内容的方法。
大家可以设置blogName去爬你想要的文章了,比如说我:guoxiaolongonly
这边用post模拟浏览器请求。因为直接get,页面无法加载。还有就是使用cookie,模拟用户用户页面访问操作。会的小伙伴们也可以交流一下~~
针对文本文档编码乱码问题。还希望大家自己研究一下。
-
java爬取网页的数据并存入数据库
2021-09-02 15:55:23Dong * @create 2021/9/2 15:56 * @desc Jsoup爬取网页数据 **/ @Data @TableName("menu") public class Menu extends Model<Menu> { @TableId(value = "id") private String id; @TableField("title") private ...这里使用Jsoup来实现改功能。
demo用到的技术为springboot+jsoup+mysql+mybatis plus1.首先导入jsoup依赖
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> </dependency>
2.新建实体类(存放网页的数据,字段属性根据需求来定)
/** * @author Mr. Dong * @create 2021/9/2 15:56 * @desc Jsoup爬取网页数据 **/ @Data @TableName("menu") public class Menu extends Model<Menu> { @TableId(value = "id") private String id; @TableField("title") private String title; @TableField("img") private String img; @TableField("des") private String describe; @TableField("main_material") private String mainMaterial; @TableField("step") private String step; @TableField("finished_product") private String finishedProduct; @TableField("skill") private String skill; }
3.接口
import com.dongbing.demo.modules.system.entity.Menu; import com.dongbing.demo.modules.system.mapper.MenuMapper; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.web.bind.annotation.RequestMapping; import org.springframework.web.bind.annotation.RestController; import java.net.URL; import java.util.*; /** * @author Mr. Dong * @create 2021/9/2 15:56 * @desc jsoup爬取网页数据 **/ @RestController public class Test { @Autowired private MenuMapper menuMapper; public static Menu menu = new Menu(); @RequestMapping("/getData") public List<Map<String,String>> getData() throws Exception { //爬取的网页 String url = "https://so.meishi.cc/?q=%E9%B1%BC%E9%A6%99%E8%82%89%E4%B8%9D&kw=168&sort=time&page=1"; //document相当于是个js直接操作js一样必须要联网 这一步就是获取当前网页的所有元素,接下来的操作和js差不多了 Document document = Jsoup.parse(new URL(url), 3000000); Elements element = document.getElementsByClass("search2015_cpitem"); List<Map<String,String>> list = new ArrayList<>(); for (Element element1 : element) { String title = element1.getElementsByClass("img").attr("title"); //懒加载的方式 所以调用data-lazy-img这个属性,而不是 src String image = element1.getElementsByTag("img").attr("src"); String msgUrl = element1.getElementsByTag("a").attr("href"); //循环获取a标签中的链接 Document documentTwo = Jsoup.parse(new URL(msgUrl), 996000000); Elements elementTwo = documentTwo.getElementsByClass("info2"); Elements elementThree = documentTwo.getElementsByClass("recipe_ingredientsw"); Elements elementFour = documentTwo.getElementsByClass("recipe_step_num"); Elements elementFive = documentTwo.getElementsByClass("step_content"); Elements elementSix = documentTwo.getElementsByClass("recipe_finish_box"); Elements elementSeven = documentTwo.getElementsByClass("recipe_tips_words"); String describe = ""; String mainMaterial = ""; String step = ""; String stepUrl = ""; String finishedProduct = ""; String skill = ""; for (Element element2: elementTwo){ describe = element2.getElementsByTag("em").text()+";"+element2.getElementsByTag("strong").text(); } for (Element element3: elementThree){ mainMaterial = element3.getElementsByTag("strong").text()+element3.getElementsByTag("a").text(); } List<String> listOne = new ArrayList<>(); List<String> listTwo = new ArrayList<>(); for (Element element4: elementFour){ step = element4.getElementsByTag("strong").text()+element4.getElementsByTag("p").text(); listOne.add(step); } for (Element element5: elementFive){ stepUrl = element5.getElementsByTag("p").text()+";图片地址"+element5.getElementsByTag("img").attr("src"); listTwo.add(stepUrl); } for (Element element6:elementSix){ finishedProduct = element6.getElementsByTag("img").attr("title")+":"+element6.getElementsByTag("img").attr("src")+";"; } for (Element element7: elementSeven){ skill = element7.getElementsByTag("p").text(); } menu.setId(UUID.randomUUID().toString().replace("-","")); menu.setTitle(title); menu.setImg(image); menu.setDescribe(describe); menu.setMainMaterial(mainMaterial); menu.setStep(listOne.toString()+listTwo.toString()); menu.setFinishedProduct(finishedProduct); menu.setSkill("烹饪技巧: "+skill); menuMapper.insert(menu); } Map<String,String> map = new HashMap<>(); map.put("Jsoup","获取网页数据呀~"); list.add(map); return list; } }
4.数据库
demo码云链接https://gitee.com/dongbingya/springboot/tree/master/Jsoup -
Java一键爬取数据并保存到Excel
2021-02-27 08:35:18码农公社 210.net.cn210= 102410月24日一个重要的节日--码农(程序员)节将爬取到的数据保存为一个Excel,官方没有给出导Excel 的教程 这里发一个导为Excel的教程 导包 这里做的是Gradle配置。//爬虫包compile group: ... -
Java 爬取网页图片并下载
2020-07-09 13:02:47源码; package a; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document;...import org.jsoup.nodes....import java.net.MalformedURLException; import java.net.URL; import ja -
java爬虫爬取网页内容,并导出到Excel
2021-04-01 15:44:44} //可以指定网址,并且按照需求爬取前多少页的数据 public static List getInfo(String url, int month) { List weatherList = new ArrayList(); for (int i = 1; i ; i++) { try { System.out.println("url:" + ... -
java爬取网页以及网络小说并保存至本地文件中
2019-05-17 01:32:55最近用java爬虫,其实爬的东西没啥用处,但是过程中还是爽歪歪,真的是爬虫一时爽,一直爬一直爽。这也是软件的魅力所在,希望感兴趣的可以一直钻研下去,说不定哪天成爬虫工程师了,java只是打个基础,更方便的还是... -
Java爬取网页数据HTML,CSS,JS
2019-11-20 18:16:11最近接触了下java的爬虫,文本信息爬完了,就想看看图片怎么爬,于是就研究了一下,案例爬学校的官网 pom依赖 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <... -
Java两种方式简单实现:爬取网页并且保存
2021-02-12 18:12:25Java简单实现:爬取网页并且保存对于网络,我一直处于好奇的态度。以前一直想着写个爬虫,但是一拖再拖,懒得实现,感觉这是一个很麻烦的事情,出现个小错误,就要调试很多时间,太浪费时间。后来一想,既然早早给... -
java 爬取网页数据 多页爬取 jsoup 和 httpClient 实现
2020-12-23 11:52:34爬取网页数据代码 解析代码 解析介绍 完整代码 介绍 1.爬取通过org.jsoup和HttpClients实现 2.爬取多页内容的时候进行循环,多页进行爬取 3.爬取来数据解析到jsonoup 4.取回数据使用文件保存直接保存到... -
使用java代码爬取网页(文字和图片都可)
2020-09-18 12:22:18利用Jsoup爬取网页 该代码利用了jsoup去爬取网页,代码是网上找的,将他们合并到了一起,不过合并程度有点低。 使用此代码需要下载jsoup的jar包 代码编写工具:IDEA package com.jiu.data.spider; import ... -
java 爬取网页内容
2021-02-01 14:52:38} } /** * 保存文章到本地 * @param titile * @param content * @param blogName */ public static void saveArticle(String titile, String content, String blogName) { String lujing = "d:\\MyLoadArticle\\" +... -
用JavaURL编程爬取并分析网页敏感词
2019-07-16 01:04:31(3)建立敏感词库,用文本文件保存。 (4)将该网址所对应的文本中的敏感词提取并高亮显示。 (5)编写文本文件,可以存入多个网址;程序可爬取这些网址中的文本内容,将敏感词记录存入另一个文件,格式自定。 (6... -
Java实现的爬虫抓取图片并保存操作示例
2020-08-27 00:24:16主要介绍了Java实现的爬虫抓取图片并保存操作,涉及Java针对页面URL访问、获取、字符串匹配、文件下载等相关操作技巧,需要的朋友可以参考下 -
第九讲:Python爬取网页图片并保存到本地
2021-03-12 10:40:38上一讲我们说了如何把网页的数据通过分析后存储到数据库,我们这次讲如何将网页上的图片提取并下载到本地。思路如下:我们本次要爬取的是昵图网首页的图片。1、首先分析我们要爬取的网页的代码结构,每个网页的代码... -
Java爬取简单的网页内容和图片
2021-02-27 12:03:44Java爬取简单的网页内容和图片根据java网络编程相关的内容,使用jdk提供的相关类可以得到url对应网页的html页面代码。针对得到的html代码,通过使用正则表达式即可得到我们想要的内容。比如,我们如果想得到一个网页... -
Java从网络读取图片并保存至本地实例
2020-08-30 19:06:27主要为大家详细介绍了Java从网络读取图片并保存至本地的实例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 -
java爬取图片
2022-04-26 11:48:58使用jsoup爬取图片 -
用JAVA爬取视频和图片
2021-03-13 03:56:47packagecom.download.util; importorg.apache.commons.io.FileUtils;...} } /***生成UUID字符串并去除-**@return*/public staticString getUUIDString() { returnUUID.randomUUID().toString().replace("-","");} } -
java实现专门爬取网页图片的软件
2021-12-26 17:05:17可以做一个专门爬取网页图片的软件,功能已经实现了,就UI对应的设计一下就好了。 做完了。。虽然有很大的局限,但是功能和界面是有的 Main.java package crawling.app; import javax.swing.*; import java.awt.*; ... -
JAVA网页数据爬取,保存为xml
2015-11-20 07:39:20各位好,我想爬取网页上的数据用作绘图,但是现在只能将网页代码下载下来不知道该怎么提取?用JAVA写的。希望可以知道如何从网站上爬取数据,并保存为xml 的格式。在此谢谢![图片说明]... -
WebMagic爬取网页数据并保存到数据库
2022-01-10 17:08:06Pipeline负责把扒出来的数据打印或者保存到数据库 Spider启动爬虫 Scheduler调度器可用于增加布隆过滤器去重 PageProcessor来处理核心业务逻辑 这次扒取某图书馆的所有书籍信息,首先记录启动器 @Component public ... -
Java爬取页面数据导入数据库
2020-12-15 10:29:37import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; public class JdbcUtil { private static String url = "jdbc:mysql://localhost:3306/exam?serverTimezone=UTC"; ...