jsoup 订阅
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 展开全文
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
信息
类    别
HTML解析器
特    点
提供了一套非常省力的API
编写语言
Java
中文名
jsoup
外文名
jsoup
jsoup内容简介
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
收起全文
精华内容
下载资源
问答
  • Jsoup

    2017-08-31 16:17:14
    Jsoup
  • jsoup-1.13.1.jar

    2020-05-20 09:31:00
    jsoup是一款Java的HTML解析器,主要用来对HTML解析在爬虫的时候,当我们用HttpClient之类的框架,获取到网页源码之后,需要从网页源码中取出我们想要的内容,就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。
  • 主要为大家详细介绍了jsoup如何爬取图片到本地,jsoup爬取网站信息,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • jsoup是一个非常好的解析网页的包,用java开发的,提供了类似DOM,CSS选择器的方式来查找和提取文档中的内容,提取文档内容时会出现超时的情况,解决方法可看下
  • 本篇文章主要介绍了手把手教学Android用jsoup解析html实例,jsoup 是一款Java 的HTML解析器。具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • 可以解析xml ,html 的java jar 包;Jsoup,常用的jar 包,主要有:jsoup-1.11.2.jar、jsoup-1.11.2-javadoc.jar、jsoup-1.11.2-sources.jar、JsoupXpath-0.3.2.jar等
  • java使用Jsoup组件生成word文档的方法
  • JsoupXpath 是一款纯Java开发的使用xpath解析提取html数据的解析器,针对html解析完整实现了W3C XPATH 1.0标准语法,xpath的Lexer和Parser基于Antlr4构建,html的DOM树生成采用Jsoup,故命名为JsoupXpath....
  • SpringBoot+jsoup爬虫

    2020-05-14 11:10:18
    本地创建.xlsx文件,里面存放京东商品地址,运行项目启动导入本地xlsx文件,自动爬取文件中地址信息下载到本地
  • JsoupXpath jsoup的升级版 ,支持jsoup的同时还支持原生xpath语法,让你的爬虫更得心应手,无所不爬!
  • jsoup jar包

    2018-10-25 14:08:15
    java解析html使用的jar包,包括Jsoup.jar和JsoupXpath.jar
  • jsoup爬取百度新闻.docx

    2020-06-11 20:37:13
    2) 将采集结果保存到MySQL数据库中。 1) 基于Java语言实现; 2) 新闻采集信息至少包含:新闻类别|新闻标题|采集时间等信息。扩展采集信息(可选)包括:新闻来源|发布时间信息; 3) 要求具有基于新闻标题的新闻...
  • jsoup-1.11.3

    2018-08-07 10:54:04
    jsoup-1.11.3; jsoup-1.11.3-javadoc; jsoup-1.11.3-sources;
  • jsoup-1.12.1.jar

    2019-06-13 16:25:04
    jsoup是Java的一个HTML解析器,可以直接用于解析某个URL地址,HTML文本内容等。Java网络爬虫的常用包
  • 主要介绍了SpringBoot中使用Jsoup爬取网站数据的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
  • jsoup爬虫实战

    2018-01-19 14:56:20
    使用jsoup进行爬虫并获取模板网页具体数据,获取总页数进行自动翻页处理。
  • jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
  • jsoup-demo

    2018-01-18 11:20:59
    关于java如何使用 jsoup网络爬虫技术demo。欢迎下载交流。
  • 主要介绍了springboot2.x使用Jsoup防XSS攻击的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
  • JsoupAPI jsoup最新版帮助文档(1.10.2)
  • Document doc = Jsoup . connect( " https://en.wikipedia.org/ " ) . get(); log(doc . title()); Elements newsHeadlines = doc . select( " #mp-itn b a " ); for ( Element headline : newsH
  • Jsoup解析网页工具类

    2018-12-07 16:38:28
    jsoup.jar用于java网页解析的工具类,版本最新,小巧并且强大
  • JsoupXPath的所有依赖的jar文件。
  • jsoup

    2021-05-03 16:32:36
    jsoup 的主要功能如下: 从一个 URL,文件或字符串中解析 HTML; 使用 DOM 或 CSS 选择器来查找、取出数据; 可操作 HTML 元素、属性、文本; jsoup 是基于 MIT 协议发布的,可放心使用于商业项目。 jsoup 的类层次...

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
    jsoup 的主要功能如下:

    1. 从一个 URL,文件或字符串中解析 HTML;
    2. 使用 DOM 或 CSS 选择器来查找、取出数据;
    3. 可操作 HTML 元素、属性、文本;
      jsoup 是基于 MIT 协议发布的,可放心使用于商业项目。
      jsoup 的类层次结构

    其中,要被解析的HTML可以是一个HTML的字符串,可以是一个URL,可以是一个文件。
    org.jsoup.Jsoup把输入的HTML转换成一个org.jsoup.nodes.Document对象,然后从Document对象中取出想要的元素。
    org.jsoup.nodes.Document继承了org.jsoup.nodes.Element,Element又继承了org.jsoup.nodes.Node类。里面提供了丰富的方法来获取HTML的元素。
    下面是几种常见的应用场景举例说明 jsoup 是如何进行 HTML 文档处理的。
    文档输入
    jsoup 可以从包括字符串、URL 地址以及本地文件来加载 HTML 文档,并生成 Document 对象实例。

     // 直接从字符串中输入 HTML 文档
     String html = "<html><head><title> 开源中国社区 </title></head>"
      + "<body><p> 这里是 jsoup 项目的相关文章 </p></body></html>"; 
     Document doc = Jsoup.parse(html); 
    

    // 从 URL 直接加载 HTML 文档

     Document doc = Jsoup.connect("http://www.oschina.net/").get(); 
     String title = doc.title(); 
    

    其中Jsoup.connect(“xxx”)方法返回一个org.jsoup.Connection对象。
    在Connection对象中,我们可以执行get或者post来执行请求。
    但是在执行请求之前我们可以使用Connection对象来设置一些请求信息。比如:头信息,cookie,请求等待时间,代理等等来模拟浏览器的行为。

    Document doc = Jsoup.connect("http://www.oschina.net/")
      .data("query", "Java")// 请求参数,传参
      .userAgent("Mozilla")// 设置 User-Agent ,伪装成浏览器
      .cookie("auth", "token")// 设置 cookie,添加cookie信息
      .timeout(3000)// 设置连接超时时间
      .post();// 使用 POST 方法访问 URL 
    

    解析并提取 HTML 元素
    这部分涉及一个 HTML 解析器最基本的功能,但 jsoup 使用一种有别于其他开源项目的方式——选择器,不过 jsoup 也提供了传统的 DOM 方式的元素解析。

    //从本地文件中,通过Id,获取下面的标签
     File input = new File("E:/test.html"); 
     Document doc = Jsoup.parse(input, "UTF-8"); 
     Element content = doc.getElementById("content"); 
     Elements links = content.getElementsByTag("a"); 
     for (Element link : links) { 
      String linkHref = link.attr("href"); 
      String linkText = link.text(); 
     }
    

    可能会觉得 jsoup 的方法似曾相识,没错,像 getElementById 和 getElementsByTag 方法跟 JavaScript 的方法名称是一样的,功能也完全一致。你可以根据节点名称或者是 HTML 元素的 id 来获取对应的元素或者元素列表。
    与 htmlparser 项目不同的是,jsoup 并没有为 HTML 元素定义一个对应的类,一般一个 HTML 元素的组成部分包括:节点名、属性和文本,jsoup 提供简单的方法供你自己检索这些数据。
    getElementById(String id):通过id来获取
      getElementsByTag(String tagName):通过标签名字来获取
      getElementsByClass(String className):通过类名来获取
      getElementsByAttribute(String key):通过属性名字来获取
      getElementsByAttributeValue(String key, String value):通过指定的属性名字,属性值来获取
      getAllElements():获取所有元素
    通过类似于css或jQuery的选择器来查找元素
    使用的是Element类的下记方法:
    public Elements select(String cssQuery)
    通过传入一个类似于CSS或jQuery的选择器字符串,来查找指定元素。

    public void test4() throws IOException {
        File input = new File("e:/test.html");
        Document doc = Jsoup.parse(input,"UTF-8");
        Elements links = doc.select("a[href]"); // 找出具有 href 属性的链接
        Elements pngs = doc.select("img[src$=.png]");// 找出所有png 图片的元素
        Element masthead = doc.select("div.headline").first();// 找出定义了 class="headline" 的元素
        Elements resultLinks = doc.select("h3.simple-item__title > a"); // 找出了h3标签下的a标签
        System.out.println(links);
    }
    
    展开全文
  • jsoup-1.11.3.jar

    2018-10-09 14:55:38
    jsoup-1.11.3.jar
  • jsoup1.11.2包,主要用于springboot项目中的xss校验。
  • jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 Jsoup的官方中文地址:...jsoup

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 24,174
精华内容 9,669
关键字:

jsoup