精华内容
下载资源
问答
  • java正则表达式去除html标签

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow

    也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!

                    当我们用ckeditor或其他一些在线文本编辑器的时候 内容里会有很多的标签
    如下片段:
    <p><img alt="" src="/img/uploadImg/20131218/0fd741e1-cc75-459c-a8b5-bbaebcfcc637.jpg"style="height:494px; width:460px" /></p><p>生命的旅途,一程有一程的风景,一程有一程的盛放。打开心灵的窗子,静看时光旖旎着一曲花开花落,用一种看山是山,看水是水的境界来生活就会快乐,人生的最美,便是来自心灵深处的通透与清欢。</p><p>——题记</p><p>喜欢在飘雪的午后,盈一眸恬静,书一抹情怀,看那雪花落入红尘最深处。暂离尘世喧嚣,将心灵放空,尽情的体会那份旷达与纯净。生命的旅途中,会有不期而遇的欣喜,也会有痛彻心扉的清醒,一地落红,氤氲了冷暖;一树梅开,缱绻了浮华,雪如拂尘,能掸去俗世的无奈,也能让灵魂净化。</p>
    包含一些图片,段落,换行等html标签
    如果要进行统计字数,则就需要去除这些标签。用java正则 如下代码:
    /** * 删除Html标签 *  * @param inputString * @return */public static String htmlRemoveTag(String inputString) if (inputString == null)  return null; String htmlStr = inputString; // 含html标签的字符串 String textStr = ""; java.util.regex.Pattern p_script; java.util.regex.Matcher m_script; java.util.regex.Pattern p_style; java.util.regex.Matcher m_style; java.util.regex.Pattern p_html; java.util.regex.Matcher m_html; try {  //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>  String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";   //定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>  String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";   String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式  p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);  m_script = p_script.matcher(htmlStr);  htmlStr = m_script.replaceAll(""); // 过滤script标签  p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);  m_style = p_style.matcher(htmlStr);  htmlStr = m_style.replaceAll(""); // 过滤style标签  p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);  m_html = p_html.matcher(htmlStr);  htmlStr = m_html.replaceAll(""); // 过滤html标签  textStr = htmlStr; } catch (Exception e) {  e.printStackTrace(); } return textStr;// 返回文本字符串}


               

    给我老师的人工智能教程打call!http://blog.csdn.net/jiangjunshow

    这里写图片描述
    展开全文
  • java正则 如下代码: /** * 删除Html标签 * * @param inputString * @return */ public static String htmlRemoveTag(String inputString) { if (inputString == null) return null; String htmlStr = inputString...

    如下片段:

    />

    生命的旅途,一程有一程的风景,一程有一程的盛放。打开心灵的窗子,

    静看时光旖旎着一曲花开花落,用一种看山是山,看水是水的境界来生活就会快乐,

    人生的最美,便是来自心灵深处的通透与清欢。

    ——题记

    喜欢在飘雪的午后,盈一眸恬静,书一抹情怀,看那雪花落入红尘最深处。

    暂离尘世喧嚣,将心灵放空,尽情的体会那份旷达与纯净。生命的旅途中,

    会有不期而遇的欣喜,也会有痛彻心扉的清醒,一地落红,氤氲了冷暖;一树梅开,

    缱绻了浮华,雪如拂尘,能掸去俗世的无奈,也能让灵魂净化。

    包含一些图片,段落,换行等html标签

    如果要进行统计字数,则就需要去除这些标签。用java正则 如下代码:

    /**

    * 删除Html标签

    *

    * @param inputString

    * @return

    */

    public static String htmlRemoveTag(String inputString) {

    if (inputString == null)

    return null;

    String htmlStr = inputString; // 含html标签的字符串

    String textStr = "";

    java.util.regex.Pattern p_script;

    java.util.regex.Matcher m_script;

    java.util.regex.Pattern p_style;

    java.util.regex.Matcher m_style;

    java.util.regex.Pattern p_html;

    java.util.regex.Matcher m_html;

    try {

    //定义script的正则表达式{或

    String regEx_script = "]*?>[sS]*?";

    //定义style的正则表达式{或

    String regEx_style = "]*?>[sS]*?";

    String regEx_html = "]+>"; // 定义HTML标签的正则表达式

    p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);

    m_script = p_script.matcher(htmlStr);

    htmlStr = m_script.replaceAll(""); // 过滤script标签

    p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);

    m_style = p_style.matcher(htmlStr);

    htmlStr = m_style.replaceAll(""); // 过滤style标签

    p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);

    m_html = p_html.matcher(htmlStr);

    htmlStr = m_html.replaceAll(""); // 过滤html标签

    textStr = htmlStr;

    } catch (Exception e) {

    e.printStackTrace();

    }

    return textStr;// 返回文本字符串

    }

    展开全文
  • java使用正则表达式去除字符串的html标签public class Test {/*** @param args*/public static void main(String[] args) {// TODO Auto-generated method stubString atr="你这个错就错在使用了.*" +"在正则里....

    java使用正则表达式去除字符串的html标签

    public class Test {

    /**

    * @param args

    */

    public static void main(String[] args) {

    // TODO Auto-generated method stub

    String atr="

    你这个错就错在使用了.*" +

    "在正则里.
    指的是匹配所有字符,而且是匹配优先,对于你这个正则来说到<a\\shref=\"(http:为止都是正常的,但后面的.*就会一直匹配到文件的最后,因为对于.*来说是匹配所有字符,所以后面的一切都是匹配的.匹配到最后结尾时,再来进行结尾检查,但你的正则是以</a>结尾的,不符合,所以就再回头向回一个个的查,一直查到(.*[^>])中的.*匹配.好了,最后你这个表达式最终的结果其实就是匹配以<a\\shref=\"(http: 开头,以[^>])</a>结尾,中间是任意字符的表达式

    ";

    System.out.println(splitAndFilterString(atr,100));

    }

    /**

    * 删除input字符串中的html格式

    *

    * @param input

    * @param length

    * @return

    */

    public static String splitAndFilterString(String input, int length) {

    if (input == null || input.trim().equals("")) {

    return "";

    }

    // 去掉所有html元素,

    String str = input.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll(

    "]*>", "");

    str = str.replaceAll("[(/>)

    int len = str.length();

    if (len <= length) {

    return str;

    } else {

    str = str.substring(0, length);

    str += "...";

    }

    return str;

    }

    }

    展开全文
  • * 去除html所有标签返回文字 */ public static String htmlTagFilter(String inputStr, int len) { if (inputStr == null || "".equals(inputStr.trim())) { return ""; } String outStr = inputStr....
     /**
         * 去除html所有标签返回文字
         */
        public static String htmlTagFilter(String inputStr, int len) {
            if (inputStr == null || "".equals(inputStr.trim())) {
                return "";
            }
            String outStr = inputStr.replaceAll("\\&[a-zA-Z]{1,10};", "") //去除类似&lt; &gt; &nbsp;的字串
                    .replaceAll("<[a-zA-Z]+[1-9]?[^><]*>", "") //去除开始标签及没有结束标签的标签
                    .replaceAll("</[a-zA-Z]+[1-9]?>", ""); //去除结束标签
            if (outStr.length() > len) {
                outStr = outStr.substring(0, len);
                outStr += "......";
            }
            return outStr;
        }

     

    展开全文
  • 参考代码如下(该文章参考自... String str = "<html><body><font id=\"test\"><hr>测试123456<br></font><font>78910&l...
  • java去除html正则表达式标签的三种方式。循序渐进的过程。有助于理解。
  • 前段时间利用爬虫,爬取了网页中的数据,爬取成功后在使用时,发现爬取的html中有一段: <script language="javascript">getClickTimes(3595155,1507573501,"wbnewsfile","attach")</script> 二:...
  • 上一篇文章我们介绍了一个html/xml解析器——htmlparser,这篇文章我们介绍另外一个解析模块htmlparser2,后者是对前者的重构,同时对前者的API做了部分兼容。用法简介安装const { Parser } = require('htmlparser2'...
  • import java.util.regex.Matcher; import java.util.regex.Pattern; public class HTMLSpirit{  public static String delHTMLTag(String htmlStr){  String regEx_script="]*?>[\\s\\S]*?"; /
  • packagecom.comcons....importjava.io.BufferedReader;importjava.io.FileNotFoundException;importjava.io.FileReader;importjava.io.IOException;importjava.util.regex.Pattern;public classReduceHtml2Text {...
  • importjava.util.regex.Matcher;importjava.util.regex.Pattern;publicclassDemo{privatestaticfinalStringregEx_script="]*?...//定义script的正则表达式privatestaticfinalStringregEx_style=...
  • package ... import java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.util.regex.Pattern; public class R...
  • [code="java"] import java.util.regex.Matcher; import java.util.regex.Pattern; public class Test { /** * @param args */ public static void main(Strin...
  • 说下需求,当用一些网页文本编辑器提交一些字符的时候,会带有一些用于控制格式的HTML标记,我们的需求是取出所有标记中的文字当然也可以用于取出所抓取的网页中的文字内容!代码很容易看懂![code lang=”java”]...
  • packagecom.comcons....importjava.io.BufferedReader;importjava.io.FileNotFoundException;importjava.io.FileReader;importjava.io.IOException;importjava.util.regex.Pattern;public classReduceHtml2Text {...
  • //去除图片的正则 // string regexstr = @"<(?!br).*?>"; //去除所有标签,只剩br // string regexstr = @"[^>]*?>.*?</table>"; //去除table里面的所有内容 string regexstr = @"<(?!img|br|p|/p).*?>"; ...
  • 新闻内容或者博客文章,如果显示摘要,需要去除内容的html格式标签,找到一个正则表达式,实现了: /** * 删除input字符串中的html格式 * * @param input * @param length * @return */ public static ...

空空如也

空空如也

1 2 3 4 5
收藏数 93
精华内容 37
关键字:

java正则表达式去除html标签

java 订阅