精华内容
下载资源
问答
  • java解析html

    2019-08-04 01:25:25
    NULL 博文链接:https://wangtianhui.iteye.com/blog/2023988
  • java 解析 html

    热门讨论 2013-01-11 19:02:27
    java解析网页,可以根据标签的路径获取网页的内容 比如html/body/div/div/
  • Java解析HTML

    千次阅读 2013-11-29 12:39:34
    使用Java解析HTML很简单,使用jsoup.jar来解析,使用起来和jquery差不多 下面是两个例子 1.解析web页面 1 import org.jsoup.Connection; 2 import org.jsoup.Jsoup; 3 import org.jsoup.nodes.Document; 4...

    使用Java解析HTML很简单,使用jsoup.jar来解析,使用起来和jquery差不多

    下面是两个例子

    1.解析web页面

    复制代码
     1 import org.jsoup.Connection;
     2 import org.jsoup.Jsoup;
     3 import org.jsoup.nodes.Document;
     4 import org.jsoup.nodes.Element;
     5 import org.jsoup.select.Elements;
     6 
     7 
     8 public class ParseWebPage {
     9 
    10     
    11 
    12         public static void main(String[] args) throws Exception {
    13             
    14             Connection conn = Jsoup.connect("http://www.hao123.com");
    15             Document document = conn.get();
    16             
    17             //解析出 class为feedback的li标签  的后代a标签元素
    18             Elements elements = document.select("li.feedback a");
    19               
    20             for (Element element : elements) {
    21                 System.out.println(element.html());
    22                 System.out.println(element.attr("href"));
    23             }
    24               
    25         }
    26         
    27     
    28 }
    复制代码

    2.解析本地页面

    复制代码
     1 import java.io.File;
     2 
     3 import org.jsoup.Jsoup;
     4 import org.jsoup.nodes.Document;
     5 import org.jsoup.nodes.Element;
     6 import org.jsoup.select.Elements;
     7 
     8 public class ParseLocalPage {
     9 
    10     public static void main(String[] args) throws Exception {
    11         File file =new File("E:/JavaScriptDojo/jqueryui/测试Button.html");
    12         Document document = Jsoup.parse(file, "utf-8");
    13         
    14         Elements es = document.select("#getDPvalues");
    15         
    16         for (Element element : es) {
    17              System.out.printf("%s\t%s\n" ,element.html() ,element.val());
    18         }
    19     }
    20 }
    复制代码

    很简单吧

    使用jsoup解析HTML之获取html源码


    上一讲我们简要的介绍了jsoup和HTML DOM结构。在准备解析html之前,首先要做的当然是获取需要解析的html源码。jsoup提供了多种获取和解析html的方式。

    新建一个Java工程,命名为JsoupDemo。然后导入jsoup的jar包。

    add jsoup jar

    下面分别来演示几种获取Document对象的方法。

    1、从字符串中解析Dom

    使用Jsoup的parse(String html)类方法,可以从字符串中获取Document对象,然后再进行详细的解析。

    2、从URL中获取Document对象

    connect(String url)方法将会得到一个Connection类的实例,Connection类是HttpConnection的子类,然后调用get()方法,将会发送get请求,返回一个Document对象。类似的,我们也可以通过post()获取,主要是看我们的请求类型是get还是post。如果请求需要参数,我们可以使用Map<String,String>构造参数,然后通过data(Map<String,String> params)方法设置。得到Document对象后,我们就可以对其进行解析。

     3、从文件中获取Document对象

    当我们本地有一个html文件时,我们可以使用parse(File in, String charsetName)方法从本地文件中获取Document对象。

    最后我们在main方法中测试三种获取Document对象的方法,发现都能正常获取到Document对象。


    展开全文
  • JAVA解析HTML

    千次阅读 2016-01-26 17:09:19
    htmlparserhtmlparser是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html

    htmlparser

    htmlparser是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,它不依赖于其它的java库文件,主要用于改造或
    提取html。
    无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。

    示例代码:

    import org.htmlparser.Node;
    import org.htmlparser.NodeFilter;
    import org.htmlparser.Parser;
    import org.htmlparser.filters.CssSelectorNodeFilter;
    import org.htmlparser.filters.HasAttributeFilter;
    import org.htmlparser.filters.OrFilter;
    import org.htmlparser.filters.TagNameFilter;
    import org.htmlparser.util.NodeList;
    import org.htmlparser.util.ParserException;
    
    /**
     * 封装的HtmlParser实现的解析器
     * 
     * @author jianggujin
     * 
     */
    public class HQHtmlParser
    {
       /** 解析器 **/
       private Parser parser = null;
       /** 重置 **/
       private boolean needReset = false;
    
       /**
        * 构造方法
        * 
        * @param resource
        * @throws ParserException
        */
       public HQHtmlParser(String resource) throws ParserException
       {
          parser = new Parser(resource);
       }
    
       /**
        * 重置
        */
       private void reset()
       {
          if (needReset)
          {
             parser.reset();
          }
          needReset = true;
       }
    
       /**
        * 通过id获得元素
        * 
        * @param id
        * @return
        * @throws ParserException
        */
       public Node getElementById(String id) throws ParserException
       {
          reset();
          NodeFilter filter = new HasAttributeFilter("id", id);
          NodeList nodes = parser.extractAllNodesThatMatch(filter);
          return nodes != null && nodes.size() > 0 ? nodes.elementAt(0) : null;
       }
    
       /**
        * 通过一组id获得元素
        * 
        * @param ids
        * @return
        * @throws ParserException
        */
       public NodeList getElementByIds(String... ids) throws ParserException
       {
          reset();
          NodeFilter[] predicates = new HasAttributeFilter[ids.length];
          for (int i = 0; i < predicates.length; i++)
          {
             predicates[i] = new HasAttributeFilter("id", ids[i]);
          }
          NodeFilter filter = new OrFilter(predicates);
          return parser.extractAllNodesThatMatch(filter);
       }
    
       /**
        * 通过标签名称获得元素
        * 
        * @param name
        * @return
        * @throws ParserException
        */
       public NodeList getElementsByTagName(String name) throws ParserException
       {
          reset();
          NodeFilter filter = new TagNameFilter(name);
          return parser.extractAllNodesThatMatch(filter);
       }
    
       /**
        * 通过样式获得元素
        * 
        * @param name
        * @return
        * @throws ParserException
        */
       public NodeList getElementsByCSS(String selector) throws ParserException
       {
          reset();
          NodeFilter filter = new CssSelectorNodeFilter(selector);
          return parser.extractAllNodesThatMatch(filter);
       }
    
       /**
        * 通过过滤器获得元素
        * 
        * @param filter
        * @return
        * @throws ParserException
        */
       public NodeList getElementsByFilter(NodeFilter filter)
             throws ParserException
       {
          reset();
          return parser.extractAllNodesThatMatch(filter);
       }
    }

    jsoup

    jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

    示例代码:

    import java.util.ArrayList;
    import java.util.List;
    
    import org.htmlparser.util.ParserException;
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;
    
    /**
     * 封装的Jsoup实现的解析器
     * 
     * @author jianggujin
     * 
     */
    public class HQJSoup
    {
       private Document document = null;
    
       /**
        * 构造方法
        * 
        * @param resource
        * @throws ParserException
        */
       public HQJSoup(String resource) throws ParserException
       {
          // Jsoup还有其他构造方法
          document = Jsoup.parse(resource);
       }
    
       /**
        * 通过id获得元素
        * 
        * @param id
        * @return
        */
       public Element getElementById(String id)
       {
          return document.getElementById(id);
       }
    
       /**
        * 通过一组id获得元素
        * 
        * @param ids
        * @return
        */
       public List<Element> getElementByIds(String... ids) throws ParserException
       {
          List<Element> elements = new ArrayList<Element>(ids.length);
          for (String id : ids)
          {
             elements.add(getElementById(id));
          }
          return elements;
       }
    
       /**
        * 通过标签名称获得元素
        * 
        * @param name
        * @return
        */
       public Elements getElementsByTagName(String name)
       {
          return document.getElementsByTag(name);
       }
    }
    展开全文
  • java解析 html

    2018-02-26 13:28:38
    http://www.open-open.com/jsoup/parsing-a-document.htm
    http://www.open-open.com/jsoup/parsing-a-document.htm
    展开全文
  • java 解析html

    千次阅读 2013-09-11 20:41:31
    最近做一个东西用到了html解析,这里我就把自己最近研究的东西贴出来。 用到的是jsoup第三方的库,感觉用起来还是很好用的。 //获取课表 Document doc = Jsoup.parse(result);//传入html解析 Element ...

    最近做一个东西用到了html的解析,这里我就把自己最近研究的东西贴出来。

    用到的是jsoup第三方的库,感觉用起来还是很好用的。

    //获取课表
    Document doc = Jsoup.parse(result);//传入html解析
    Element element = doc.getElementById("printcontent");根据id查到元素
    Elements links = element.getElementsByTag("a");//更局tag获取所有节点
    然后就是对节点的遍历
    for(Element e:links ){
    e.text();//获取节点里面的内容
    }
    还有一些常用的方法就是
    对表格的处理
    Elements element = doc.select("table").select("tr").select("td");//对table表的筛选
    links.attr("href")//提取连接
    基本上配合一些正则表达式,对html页面的处理也够了。




    展开全文
  • 简述通过Java解析HTML文档简述通过Java解析HTML文档2011-04-01 09:14:05摘要JAVA 语言是目前Internet 上大型的WEB 应用程序开发时使用得最热门的编程语言,本文从实践的角度重点阐述Java 语言中输入流类...
  • Java解析 HTML

    2013-03-21 13:23:46
    1、Nekohtml是一个Java语言的HTML扫描器和标签补全器(tag balancer),使得程序能解析HTML文档并用标准的XML借口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程...
  • 转载自:... 一。dom4j 解析xml:   ...俩jar包:dom4j-1.6.1.jar 和jaxen-1.1-beta-6.jar ... * java解析xml文件各个节点信息 * * @author Jeelon * @p
  • jsoup java解析html

    2013-03-28 11:38:42
    用于java解析获取到的document的各个节点,可以根据标签的各种属性确定标签
  • java解析html抓取网站数据采集网站信息
  • 【JAVA】java解析HTML代码

    万次阅读 2017-07-12 13:53:31
    这里介绍采用java程序来读取HTML代码,由于java的通用性,可以很好的解析HTML中的数据,并存放到数据库中。读取网页中的HTML代码,见博客【JAVAJAVA程序根据url请求网站HTML页面 【开发环境】 1.Eclipse ,JDK...
  • Java解析HTML之NekoHTML

    2019-04-06 01:24:12
    NULL 博文链接:https://rensanning.iteye.com/blog/1551831
  • java解析html代码

    2017-09-13 15:50:59
    jsoup 是一款JavaHTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 最喜欢它的类似jQuery的功能,比如,我要选取id
  • Java解析html文本

    千次阅读 2018-08-28 21:07:53
    公司是前后端分离的架构,有个功能前端使用了富文本编辑器,通过该富文本编辑器得到的html文本与实际要求有一定差距,但是前端又处理不了,因此该... 后来发现Jsoup可以解析html文本,解决了问题。 class Test { ...
  • Jsoup-java解析HTML的一个新的抉择 java处理HTML的一个新的选择,类似Jquery 的选择器  HTMLJavajQuery正则表达式CSS.jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,122
精华内容 3,248
关键字:

java解析html

java 订阅