精华内容
下载资源
问答
  • 文档:https://pypi.org/project/html2text/ 安装: pip install html2text Option Description –version Show program’s version number and exit -h, –help Show this help message and ...

    文档:https://pypi.org/project/html2text/

    安装:

    pip install html2text
    
    Option Description
    –version Show program’s version number and exit
    -h, --help Show this help message and exit
    –ignore-links Don’t include any formatting for links
    –escape-all Escape all special characters. Output is less readable, but avoids corner case formatting issues.
    –reference-links Use reference links instead of links to create markdown
    –mark-code Mark preformatted and code blocks with [code]…[/code]
    >>> import html2text
    >>>
    >>> print(html2text.html2text("<p><strong>Zed's</strong> dead baby, <em>Zed's</em> dead.</p>"))
    **Zed's** dead baby, _Zed's_ dead.
    
    >>> import html2text
    >>>
    >>> h = html2text.HTML2Text()
    >>> # Ignore converting links from HTML
    >>> h.ignore_links = True
    >>> print h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!")
    Hello, world!
    
    >>> print(h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!"))
    
    Hello, world!
    
    >>> # Don't Ignore links anymore, I like links
    >>> h.ignore_links = False
    >>> print(h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!"))
    Hello, [world](http://earth.google.com/)!
    
    展开全文
  • 今天想学习使用的是html2text模块和readability模块。其中,第一个模块是负责对html数据进行处理的,返回html中的文本信息;第二个模块是负责html数据中指定信息如:文章标题、作者等信息的提取。  之前在处理爬取...

          今天在处理html数据的时候发现了python里面比较好玩的几个库,先存起来之后有时间慢慢再去学习和使用,觉得是一件蛮有意思的事情。今天想学习使用的是html2text模块和readability模块。其中,第一个模块是负责对html数据进行处理的,返回html中的文本信息;第二个模块是负责html数据中指定信息如:文章标题、作者等信息的提取。

           之前在处理爬取的html数据的时候大多数是自己编写正则表达式或者是xpath规则集来完成指定数据字段信息的提取,相对来说比较灵活,但是规则集的编写较为耗时,且遇上复杂数据的时候就难以应付了。如果有现成的封装好的模块可以直接完成某一项工作的话还是很不错的,这两个库可以说还是比较不错,今天只是简单拿来使用一下,之后再做到类似的项目的时候可以将一部分的工作交由固定模块来完成。

             下面是具体的实践:

    #!usr/bin/env python
    # encoding:utf-8
    
    '''
    __Author__:沂水寒城
    功能: html2text 模块和 readability 模块使用
    '''
    
    import sys
    import urllib
    import requests
    import html2text
    from readability import Document
    
    
    reload(sys)
    sys.setdefaultencoding('utf-8')
    
    
    
    def test_func():
        '''
        官网实例,清洗html
        '''
        print html2text.html2text("<p>Hello, world.</p>")
        h=html2text.HTML2Text()
        h.ignore_links=True
        print h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!")
    
    
    def test_func2(url):
        '''
        获取指定URL的html,对html进行处理
        '''
        html=urllib.urlopen(url).read()
        h=html2text.HTML2Text()
        h.ignore_links=True
        print h.handle(html)
    
    
    def test_func3(url):
        '''
        抽取指定URL中的标题等数据
        '''
        response=requests.get(url)
        doc=Document(response.text)
        print doc.title()
        html=urllib.urlopen(url).read()
        #该方式抽取出来的readable_article是带HTML标签的文本
        readable_article=Document(html).summary() 
        readable_title=Document(html).short_title()
        print 'readable_article: ',readable_article
        print 'readable_title: ',readable_title
    
    
    
    if __name__=='__main__':
        url='https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_2588586383061242738%22%7D&n_type=0&p_from=1'
        test_func()
        print '-|'*50
        test_func2(url)
        print '-|'*50
        test_func3(url)

           运行结果如下:

     

    Hello, world.
    
    
    Hello, world!
    
    
    -|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
    ![到百度首页](https://ss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superlanding/img/logo_top.png)
    
    百度首页
    
    登录masterretsam __
    
    个人中心帐号设置意见反馈退出
    
     __
    
    ## 巴西国博大火 “就像是一场噩梦”
    
    新浪滚动09-0410:07
    
    原标题:巴西国博大火 “就像是一场噩梦”
    
    来源:央视新闻客户端
    
    3号的清晨对于刚刚从睡梦中醒过来的巴西人来说“异常沉重”,因为就在2号晚,有着两百年历史的巴西国家博物馆着起大火,馆内的超过2000万件藏品恐怕已经尽数被烧毁。
    
    ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=3920112549,1657221130&fm=173&app=25&f=JPG?w=555&h=384&s=EC1605D3D3521FC444DD942003006051)
    
    巴西历史学家 雷吉娜·丹塔斯:这就像一场噩梦,我多么希望这真的只是一场梦,我可以从梦中醒来(看到博物馆还在)。
    
    两千多万件藏品恐俱毁 正全力挽救
    
    3号白天,大火已经基本被扑灭。当地消防部门说,他们将请博物馆的工作人员参与灭火及善后工作,及时清点藏品损毁情况,看看还有多少藏品可以“挽救”。
    
    消防员 罗伯托:在灭火后续工作中,我们计划让博物馆工作人员加入进来,虽然这样一来灭火工作会慢一些,但我们可以尽量挽回一些有价值的藏品,比如碎片什么的。
    
    ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=1044145344,417326984&fm=173&app=25&f=JPG?w=557&h=376&s=78B24CDB5A6A944B5294A92903008052)
    
    巴西国家博物馆陨石展馆负责人
    玛丽亚:他们(消防员)邀请我到现场,因为我能辨认出(有修复价值的藏品),我知道这些藏品在什么位置,我会尽力找到它们(藏品),把这些珍宝从灰烬中挖出来。
    
    火因待查 消防设施缺水耽误灭火
    
    目前,起火原因还在调查中。巴西文化部长塞尔吉奥·莱唐对媒体说,火灾可能是因电路短路或人们放飞的“天灯”引起的。
    
    ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=3622914777,2277118710&fm=173&app=25&f=JPG?w=559&h=386&s=9FB675840802745D48040D1A0300D0C2)
    
    而不论原因如何,为什么大火会不受控制地迅速蔓延、短时间内“吞噬”掉整座博物馆呢?据报道,博物馆灭火设施缺水是导致消防队耽误灭火最佳时机的原因。
    
    馆长呼吁重建 “不要失去历史”
    
    近年来,巴西经济状况不佳,里约州经济更是尤为困难。
    
    ![](https://ss1.baidu.com/6ONXsjip0QIZ8tyhnq/it/u=3677156176,2992792008&fm=173&app=25&f=JPG?w=560&h=387&s=3828FE148A407F5DC8AFC9620300F07B)
    
    据巴西媒体报道,博物馆员工过去就常抱怨政府削减经费、博物馆建筑维护不足等问题。据博物馆副馆长说,他们长期面临经费不足的困境,多年前就向不同层级政府求援过,但却很少得到积极回应。
    
    ![](https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq/it/u=4237421123,4025531564&fm=173&app=25&f=JPG?w=555&h=380&s=B2EA69A04A1025D4588014B203001082)
    
    巴西国家博物馆馆长 亚历山大·克尔纳:哭也于事无补,所有人,特别是联邦政府,必须全力以赴重建博物馆。我们已经失去了部分藏品,不要让巴西人就此失去历史。
    
    查看原文 >>
    
    产品建议及投诉请联系:shoujibaidu@baidu.com
    
    ## 相关搜索
    
      * 巴西土著人
      * 巴西人是什么人种
      * 巴西有几个首都
    
    ## 相关文章
    
      * ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=1805707812,3403376447&fm=173&app=25&f=JPEG?w=218&h=146&s=FE141CC64731098C2E82A53203002019)
    
    ### 巴西国博大火背后:一场并不意外的悲剧?
    
    环球网09-04
    
      * ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=3158325315,3340295532&fm=173&app=25&f=JPEG?w=218&h=146&s=25429B42C512B5D45CCD501A0300C0C2)
    
    ### 巴西国博向民众征集藏品照片 希望保存国家博物馆的记忆
    
    封面新闻09-04
    
      * ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=3751404795,2017856209&fm=173&app=25&f=JPEG?w=218&h=146&s=B61C1CC79E1322CC1537483B0300101A)
    
    ### 巴西国博大火毁灭千万文物,令全世界为之心痛 | 新京报快评
    
    新京报09-04
    
      * ![](https://ss1.baidu.com/6ONXsjip0QIZ8tyhnq/it/u=1030059667,3886884205&fm=173&app=25&f=JPEG?w=218&h=146&s=779414C446F2ABC256307C050300F090)
    
    ### 巴西国家博物馆失火,2000万件馆藏文物付之一炬!
    
    避火诀09-04
    
      * ![](https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq/it/u=3540318962,1903945862&fm=173&app=25&f=JPEG?w=218&h=146&s=FE3A67CB0EA3BE550AE18002030010C3)
    
    ### 珍贵文物深陷火海,巴西博物馆之悲为文物界敲响警钟
    
    上海观察09-04
    
    设为首页(C) Baidu 使用百度前必读 意见反馈 京ICP证030173号
    ![](https://ss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/copy_rignt_24.png)
    
     __京公网安备11000002000001号
    
    返回顶部
    
    
    -|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
    巴西国博大火 “就像是一场噩梦”
    readable_article:  <html><body><div><div class="article " id="article" data-islow-browser="0"><p class="article-title"><h2>巴西国博大火 “就像是一场噩梦”</h2></p><p class="article-source"><span class="source">新浪滚动</span><span class="date">09-04</span><span class="time">10:07</span></p><div class="article-content"><p>原标题:巴西国博大火 “就像是一场噩梦”</p><p>来源:央视新闻客户端</p><p>3号的清晨对于刚刚从睡梦中醒过来的巴西人来说“异常沉重”,因为就在2号晚,有着两百年历史的巴西国家博物馆着起大火,馆内的超过2000万件藏品恐怕已经尽数被烧毁。</p><p>巴西历史学家 雷吉娜·丹塔斯:这就像一场噩梦,我多么希望这真的只是一场梦,我可以从梦中醒来(看到博物馆还在)。</p><p>两千多万件藏品恐俱毁 正全力挽救</p><p>3号白天,大火已经基本被扑灭。当地消防部门说,他们将请博物馆的工作人员参与灭火及善后工作,及时清点藏品损毁情况,看看还有多少藏品可以“挽救”。</p><p>消防员 罗伯托:在灭火后续工作中,我们计划让博物馆工作人员加入进来,虽然这样一来灭火工作会慢一些,但我们可以尽量挽回一些有价值的藏品,比如碎片什么的。</p><p>巴西国家博物馆陨石展馆负责人 玛丽亚:他们(消防员)邀请我到现场,因为我能辨认出(有修复价值的藏品),我知道这些藏品在什么位置,我会尽力找到它们(藏品),把这些珍宝从灰烬中挖出来。</p><p>火因待查 消防设施缺水耽误灭火</p><p>目前,起火原因还在调查中。巴西文化部长塞尔吉奥·莱唐对媒体说,火灾可能是因电路短路或人们放飞的“天灯”引起的。</p><p>而不论原因如何,为什么大火会不受控制地迅速蔓延、短时间内“吞噬”掉整座博物馆呢?据报道,博物馆灭火设施缺水是导致消防队耽误灭火最佳时机的原因。</p><p>馆长呼吁重建 “不要失去历史”</p><p>近年来,巴西经济状况不佳,里约州经济更是尤为困难。</p><p>据巴西媒体报道,博物馆员工过去就常抱怨政府削减经费、博物馆建筑维护不足等问题。据博物馆副馆长说,他们长期面临经费不足的困境,多年前就向不同层级政府求援过,但却很少得到积极回应。</p><p>巴西国家博物馆馆长 亚历山大·克尔纳:哭也于事无补,所有人,特别是联邦政府,必须全力以赴重建博物馆。我们已经失去了部分藏品,不要让巴西人就此失去历史。</p></div><div class="notice"><p>产品建议及投诉请联系:shoujibaidu@baidu.com</p></div><audio id="musicAudio" data-play-index=""><source/></audio></div></div></body></html>
    readable_title:  巴西国博大火 “就像是一场噩梦”
    [Finished in 1.7s]

          对于代码相关的注释,程序中也都有就不多说明了。 

     

    展开全文
  • 今天想学习使用的是html2text模块和readability模块。其中,第一个模块是负责对html数据进行处理的,返回html中的文本信息;第二个模块是负责html数据中指定信息如:文章标题、作者等信息的提取。  之前在处理爬取...

    今天在处理html数据的时候发现了python里面比较好玩的几个库,先存起来之后有时间慢慢再去学习和使用,觉得是一件蛮有意思的事情。今天想学习使用的是html2text模块和readability模块。其中,第一个模块是负责对html数据进行处理的,返回html中的文本信息;第二个模块是负责html数据中指定信息如:文章标题、作者等信息的提取。

           之前在处理爬取的html数据的时候大多数是自己编写正则表达式或者是xpath规则集来完成指定数据字段信息的提取,相对来说比较灵活,但是规则集的编写较为耗时,且遇上复杂数据的时候就难以应付了。如果有现成的封装好的模块可以直接完成某一项工作的话还是很不错的,这两个库可以说还是比较不错,今天只是简单拿来使用一下,之后再做到类似的项目的时候可以将一部分的工作交由固定模块来完成。

     

    #!usr/bin/env python
    # encoding:utf-8
     
    '''
    __Author__:沂水寒城
    功能: html2text 模块和 readability 模块使用
    '''
     
    import sys
    import urllib
    import requests
    import html2text
    from readability import Document
     
     
    reload(sys)
    sys.setdefaultencoding('utf-8')
     
     
     
    def test_func():
        '''
        官网实例,清洗html
        '''
        print html2text.html2text("<p>Hello, world.</p>")
        h=html2text.HTML2Text()
        h.ignore_links=True
        print h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!")
     
     
    def test_func2(url):
        '''
        获取指定URL的html,对html进行处理
        '''
        html=urllib.urlopen(url).read()
        h=html2text.HTML2Text()
        h.ignore_links=True
        print h.handle(html)
     
     
    def test_func3(url):
        '''
        抽取指定URL中的标题等数据
        '''
        response=requests.get(url)
        doc=Document(response.text)
        print doc.title()
        html=urllib.urlopen(url).read()
        #该方式抽取出来的readable_article是带HTML标签的文本
        readable_article=Document(html).summary() 
        readable_title=Document(html).short_title()
        print 'readable_article: ',readable_article
        print 'readable_title: ',readable_title
     
     
     
    if __name__=='__main__':
        url='https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_2588586383061242738%22%7D&n_type=0&p_from=1'
        test_func()
        print '-|'*50
        test_func2(url)
        print '-|'*50
        test_func3(url)
    --------------------- 
    作者:Together_CZ 
    来源:CSDN 
    原文:https://blog.csdn.net/Together_CZ/article/details/82389466 
    版权声明:本文为博主原创文章,转载请附上博文链接!

     以下是运行结果

    
    Hello, world.
     
     
    Hello, world!
     
     
    -|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
    ![到百度首页](https://ss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superlanding/img/logo_top.png)
     
    百度首页
     
    登录masterretsam __
     
    个人中心帐号设置意见反馈退出
     
     __
     
    ## 巴西国博大火 “就像是一场噩梦”
     
    新浪滚动09-0410:07
     
    原标题:巴西国博大火 “就像是一场噩梦”
     
    来源:央视新闻客户端
     
    3号的清晨对于刚刚从睡梦中醒过来的巴西人来说“异常沉重”,因为就在2号晚,有着两百年历史的巴西国家博物馆着起大火,馆内的超过2000万件藏品恐怕已经尽数被烧毁。
     
    ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=3920112549,1657221130&fm=173&app=25&f=JPG?w=555&h=384&s=EC1605D3D3521FC444DD942003006051)
     
    巴西历史学家 雷吉娜·丹塔斯:这就像一场噩梦,我多么希望这真的只是一场梦,我可以从梦中醒来(看到博物馆还在)。
     
    两千多万件藏品恐俱毁 正全力挽救
     
    3号白天,大火已经基本被扑灭。当地消防部门说,他们将请博物馆的工作人员参与灭火及善后工作,及时清点藏品损毁情况,看看还有多少藏品可以“挽救”。
     
    消防员 罗伯托:在灭火后续工作中,我们计划让博物馆工作人员加入进来,虽然这样一来灭火工作会慢一些,但我们可以尽量挽回一些有价值的藏品,比如碎片什么的。
     
    ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=1044145344,417326984&fm=173&app=25&f=JPG?w=557&h=376&s=78B24CDB5A6A944B5294A92903008052)
     
    巴西国家博物馆陨石展馆负责人
    玛丽亚:他们(消防员)邀请我到现场,因为我能辨认出(有修复价值的藏品),我知道这些藏品在什么位置,我会尽力找到它们(藏品),把这些珍宝从灰烬中挖出来。
     
    火因待查 消防设施缺水耽误灭火
     
    目前,起火原因还在调查中。巴西文化部长塞尔吉奥·莱唐对媒体说,火灾可能是因电路短路或人们放飞的“天灯”引起的。
     
    ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=3622914777,2277118710&fm=173&app=25&f=JPG?w=559&h=386&s=9FB675840802745D48040D1A0300D0C2)
     
    而不论原因如何,为什么大火会不受控制地迅速蔓延、短时间内“吞噬”掉整座博物馆呢?据报道,博物馆灭火设施缺水是导致消防队耽误灭火最佳时机的原因。
     
    馆长呼吁重建 “不要失去历史”
     
    近年来,巴西经济状况不佳,里约州经济更是尤为困难。
     
    ![](https://ss1.baidu.com/6ONXsjip0QIZ8tyhnq/it/u=3677156176,2992792008&fm=173&app=25&f=JPG?w=560&h=387&s=3828FE148A407F5DC8AFC9620300F07B)
     
    据巴西媒体报道,博物馆员工过去就常抱怨政府削减经费、博物馆建筑维护不足等问题。据博物馆副馆长说,他们长期面临经费不足的困境,多年前就向不同层级政府求援过,但却很少得到积极回应。
     
    ![](https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq/it/u=4237421123,4025531564&fm=173&app=25&f=JPG?w=555&h=380&s=B2EA69A04A1025D4588014B203001082)
     
    巴西国家博物馆馆长 亚历山大·克尔纳:哭也于事无补,所有人,特别是联邦政府,必须全力以赴重建博物馆。我们已经失去了部分藏品,不要让巴西人就此失去历史。
     
    查看原文 >>
     
    产品建议及投诉请联系:shoujibaidu@baidu.com
     
    ## 相关搜索
     
      * 巴西土著人
      * 巴西人是什么人种
      * 巴西有几个首都
     
    ## 相关文章
     
      * ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=1805707812,3403376447&fm=173&app=25&f=JPEG?w=218&h=146&s=FE141CC64731098C2E82A53203002019)
     
    ### 巴西国博大火背后:一场并不意外的悲剧?
     
    环球网09-04
     
      * ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=3158325315,3340295532&fm=173&app=25&f=JPEG?w=218&h=146&s=25429B42C512B5D45CCD501A0300C0C2)
     
    ### 巴西国博向民众征集藏品照片 希望保存国家博物馆的记忆
     
    封面新闻09-04
     
      * ![](https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=3751404795,2017856209&fm=173&app=25&f=JPEG?w=218&h=146&s=B61C1CC79E1322CC1537483B0300101A)
     
    ### 巴西国博大火毁灭千万文物,令全世界为之心痛 | 新京报快评
     
    新京报09-04
     
      * ![](https://ss1.baidu.com/6ONXsjip0QIZ8tyhnq/it/u=1030059667,3886884205&fm=173&app=25&f=JPEG?w=218&h=146&s=779414C446F2ABC256307C050300F090)
     
    ### 巴西国家博物馆失火,2000万件馆藏文物付之一炬!
     
    避火诀09-04
     
      * ![](https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq/it/u=3540318962,1903945862&fm=173&app=25&f=JPEG?w=218&h=146&s=FE3A67CB0EA3BE550AE18002030010C3)
     
    ### 珍贵文物深陷火海,巴西博物馆之悲为文物界敲响警钟
     
    上海观察09-04
     
    设为首页(C) Baidu 使用百度前必读 意见反馈 京ICP证030173号
    ![](https://ss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/copy_rignt_24.png)
     
     __京公网安备11000002000001号
     
    返回顶部
     
     
    -|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
    巴西国博大火 “就像是一场噩梦”
    readable_article:  <html><body><div><div class="article " id="article" data-islow-browser="0"><p class="article-title"><h2>巴西国博大火 “就像是一场噩梦”</h2></p><p class="article-source"><span class="source">新浪滚动</span><span class="date">09-04</span><span class="time">10:07</span></p><div class="article-content"><p>原标题:巴西国博大火 “就像是一场噩梦”</p><p>来源:央视新闻客户端</p><p>3号的清晨对于刚刚从睡梦中醒过来的巴西人来说“异常沉重”,因为就在2号晚,有着两百年历史的巴西国家博物馆着起大火,馆内的超过2000万件藏品恐怕已经尽数被烧毁。</p><p>巴西历史学家 雷吉娜·丹塔斯:这就像一场噩梦,我多么希望这真的只是一场梦,我可以从梦中醒来(看到博物馆还在)。</p><p>两千多万件藏品恐俱毁 正全力挽救</p><p>3号白天,大火已经基本被扑灭。当地消防部门说,他们将请博物馆的工作人员参与灭火及善后工作,及时清点藏品损毁情况,看看还有多少藏品可以“挽救”。</p><p>消防员 罗伯托:在灭火后续工作中,我们计划让博物馆工作人员加入进来,虽然这样一来灭火工作会慢一些,但我们可以尽量挽回一些有价值的藏品,比如碎片什么的。</p><p>巴西国家博物馆陨石展馆负责人 玛丽亚:他们(消防员)邀请我到现场,因为我能辨认出(有修复价值的藏品),我知道这些藏品在什么位置,我会尽力找到它们(藏品),把这些珍宝从灰烬中挖出来。</p><p>火因待查 消防设施缺水耽误灭火</p><p>目前,起火原因还在调查中。巴西文化部长塞尔吉奥·莱唐对媒体说,火灾可能是因电路短路或人们放飞的“天灯”引起的。</p><p>而不论原因如何,为什么大火会不受控制地迅速蔓延、短时间内“吞噬”掉整座博物馆呢?据报道,博物馆灭火设施缺水是导致消防队耽误灭火最佳时机的原因。</p><p>馆长呼吁重建 “不要失去历史”</p><p>近年来,巴西经济状况不佳,里约州经济更是尤为困难。</p><p>据巴西媒体报道,博物馆员工过去就常抱怨政府削减经费、博物馆建筑维护不足等问题。据博物馆副馆长说,他们长期面临经费不足的困境,多年前就向不同层级政府求援过,但却很少得到积极回应。</p><p>巴西国家博物馆馆长 亚历山大·克尔纳:哭也于事无补,所有人,特别是联邦政府,必须全力以赴重建博物馆。我们已经失去了部分藏品,不要让巴西人就此失去历史。</p></div><div class="notice"><p>产品建议及投诉请联系:shoujibaidu@baidu.com</p></div><audio id="musicAudio" data-play-index=""><source/></audio></div></div></body></html>
    readable_title:  巴西国博大火 “就像是一场噩梦”
    [Finished in 1.7s
    --------------------- 
    作者:Together_CZ 
    来源:CSDN 
    原文:https://blog.csdn.net/Together_CZ/article/details/82389466 
    版权声明:本文为博主原创文章,转载请附上博文链接!

     

     

    展开全文
  • ` $ pip install html2text ` cd /usr/local/bin/; pip3 install h

    html2text is a Python script that converts a page of HTML into clean, easy-to-read plain ASCII text. Better yet, that ASCII also happens to be valid Markdown (a text-to-HTML format).

    类似于php的strip_tags


    安装

    cd /usr/local/bin/;

    pip3 install html2text


    you can use it from within Python:

    import html2text 

    print(html2text.html2text("<p>Hello, world.</p>"))


    展开全文
  • dede用htm2text函数来去掉html格式

    千次阅读 2017-09-27 09:54:03
    在使用dede建站网站时候,需要用到过滤html代码,调出纯文本的代码,比如对title、descrption字段用function='Html2Text(@me)来屏蔽过滤html代码的。 function='Html2Text(@me)是用来屏蔽过滤html代码的。 使用...
  • html首行缩进2字符,可以使用CSS属性中的【text-indent】进行设置。 p{ text-indent:2em; } 说明: text-indent表示段落首行缩进,2em表示缩进2字符。
  • text/htmltext/plain的区别

    万次阅读 多人点赞 2018-06-01 08:45:24
    text/htmltext/plain的区别 1、text/html的意思是将文件的content-type设置为text/html的形式,浏览器在获取到...2text/plain的意思是将文件设置为纯文本的形式,浏览器在获取到这种文件时并不会对其进行处理。...
  • text/htmltext/plain区别

    千次阅读 2018-02-06 12:55:12
     2text/plain是无格式正文,text/plain的意思是将文件设置为纯文本的形式,浏览器在获取到这种文件时并不会对其进行处理。  3、text/xml忽略xml头所指定编码格式而默认采用us-ascii编码  4、applica
  • HTML和Plain Text

    千次阅读 2019-11-22 16:37:41
    1.应用场景 编程开发中一些文件使用场景, 如Redis中数据的类型, ... 2、Plain Text:将起始标签后面的任何东西渲染为纯文本,不会解释为 HTML。没有闭合标签,因为任何后面的东西都会看做纯文本。 ...
  • java 由 html 转化成 text

    千次阅读 2007-10-21 18:47:00
    java 由 html 转化成 textclass WebFormatter { public static String html2text(String html) { StringBuffer sb = new StringBuffer(html.length()); char[] data = html.toCharArray(); in
  • Submime Text2 安装

    2016-03-12 17:06:29
    Sublime Text2subime Text 2 是一个轻便的文本编辑器,用来写html很方便,里面也有很多插件可以方便我们写各种标签,比如emmet 。 在subime Text 2中安装插件很简单,只需要几步: 1.View->show Console 将下面...
  • A Set of HTML Snippets for Sublime Text 2

    千次阅读 2014-08-04 10:30:19
    Considering how pop­u­lar my CSS snip­pets for Sublime Text have been, I thought I’d bet­ter col­late and release some of the HTML snip­pets I use reg­u­larly. Put simply, they allow you ...
  • sublime text2 HTML/CSS代码快速生成

    千次阅读 2018-03-07 23:18:07
    一、快速编写HTML代码 1. 初始化 HTML文档需要包含...”或“html:5”,然后按Tab键: 输入html:xt,然后按Tab键:html:4s:用于HTML4严格文档类型2. 轻松添加类、id、文本和属性 连续输入元素名称和ID,Emme...
  • HTML&CSS——text-indent:2em详解

    千次阅读 2016-04-14 10:52:46
    记得过去刚开始学习制作页面的时候,要想让一段文字首行缩进两个文字,总是在前面加上8个“ ”,因为过去大家对CSS不熟悉,...text-indent:2em; 就很容易实现文本段落的缩进~ text-indent:2em; 解释一下:text
  • html5开发利器——sublimetext2+emmet插件

    千次阅读 2015-08-07 14:32:20
    2、sublimetext是一文本编辑器,通过插件可以编程一个万能的IED。所以,为了管理插件,最好先安装一个package control插件。官网 安装方法有两种: 方法一,在线安装,ctrl+` 打开控制台,然后输入一下脚本+回车,...
  • 1、HTML转化成UITextView的textNSString *htmlString = @"&lt;h1&gt;Header&lt;/h1&gt;&lt;h2&gt;Subheader&lt;/h2&gt;&lt;p&gt;Some&lt;em&gt;text&lt;/...
  • 详细使用 方法一(主要):可在官网查看:http://www.sublimetext.com 方法二(辅助):推荐慕课网:快乐的sublime编辑器 ...下载地址(官网):http://www.sublimetext.com/2 或者百度搜索下载。 2
  • 首先要给sublime text2安装一个emmet的插件,安装方法不再赘述。按住Ctrl+N新建一个文件 2 在右下角有个plain text的标志,点击,选择文件类型为HTML 3 然后Ctrl+S保存文件...
  • Sublime Text2 常用快捷键

    千次阅读 2012-09-08 23:27:27
    转自:http://www.lx138.com/blog-1198-1168.html Sublime Text2 常用快捷键 热度 2已有 171 次阅读2012-7-27 ... Text 2| 快捷键, Sublime, Text Ctrl+L 选择整行(按住-继续选择下行)
  • html:4t html lang="${lang}"> ... meta http-equiv="Content-Type" content="text/html;charset=${charset}"> title>Documenttitle> head> body> ${child} body> html> html:4s html lang="${
  • Sublime Text 2HTML代码格式化插件Tag

    万次阅读 2012-07-13 23:25:00
    安装: 1.按Ctrl+Shift+P调出命令面板 ...2.输入 ip 调出 Package Control: Install Package 选项,按下回车后接着输入“Tag”,再次按回车等待安装完成并重启。 使用: 选中一段html代码,按Ctrl+Alt+f即可。
  • 2.sublime text2版本: 测试过sublime text2 同样通过上述方法可以到相应的路径中 (可能是C:\Users\Adiministor\AppData\Roaming\Sublime Text 2) 然后把压缩包中文件夹解压到C:\Users\Adiministor\AppData\...
  • Unity Shader IDE — Sublime Text2

    千次阅读 2016-12-08 11:34:34
    http://www.cnblogs.com/zhaoqingqing/p/4117257.html 使用MonoDevelop写了一段时间的Shader代码,发现效率太低了,所以换...1、下载 sublime Text2 官网:http://www.sublimetext.com/2,下载安装 2
  • 1、 Ctrl+N新建文件后点击右下角的Plain Text,选择html文件类型。 2、 输入!,然后按 tab键,奇迹就会发生。 转载于:https://www.cnblogs.com/BaoyuYang/p/8678409.html...
  • htmlText内容整段缩进

    千次阅读 2008-08-25 12:46:34
    1. 使用text.htmlText="ITEM1ITEM2"的形式,但列表项前的圆点无法去除(Flex不支持)。 2. 使用text.htmlText="Lily said:Hello!"
  • 2.下面来说Tag的下载安装: 首先下载Tag插件,我在线安装找不到Tag插件,所以下载了离线的Tag包,此处给出分享连接Tag 下载好以后找到放包的的位置,找不到不要紧,可以在Sublime工具栏中Preference->浏览程序包 ...
  • 一些必不可少的Sublime Text 2插件

    千次阅读 2012-12-30 21:59:05
    转自:http://www.qianduan.net/essential-to-sublime-the-text-2-plugins.html 中文原文:一些必不可少的sublime text 2插件 整理自:Essential Sublime Text 2 Plugins and Extensions 请尊重版权,转载请...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 74,186
精华内容 29,674
关键字:

html2text