精华内容
下载资源
问答
  • 网页内容提取

    2016-04-17 01:21:17
    用java代码写成的网站内容提取和查询代码,可以添加网址到webindex,并且查询哪些网站包含什么关键词包含什么内容
  • 开源网页内容提取

    2013-07-30 08:59:11
    C#开源网页内容提取,可以网页提取或者纯文本提示
  • micawber:一个小型网页内容提取库,用来从 URLs 提取富内容
  • 网页内容提取
  • 主要教大家如何1分钟快速生成用于网页内容提取的xslt,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • c# 网页内容提取

    热门讨论 2012-10-12 14:51:48
    基于c# 的webbrowser控件,开发的自动提取页面html文档技术实例,能够提取 ajax内容,https内容
  • 基于文本对象模型的自动化网页内容提取方法.pdf
  • Dragnet Dragnet对网页的光泽镀Chrome或样板装饰不感兴趣。 它对...“只是事实”感兴趣。...有关我们的方法的更多信息,请参见:我们的论文《使用多样化特征集进行内容提取》(2013年在WWW上发表)概述了该机器。
  • 网页内容提取v2.0

    2007-04-20 17:51:50
    开发工具:vc6.0 从htm/html格式的网页文件中提取内容。将要提取内容网页文件用鼠标拖入窗口,按回车即可完成转换。转换后的文件是与原文件同名的文本文件。支持文件夹批量转换!
  • 网页内容提取v1.0

    2006-07-02 00:00:00
    提取网页内容,去掉标签,去掉无用链接,主要服务于自然语言处理中对网页内容要求的应用。 开发语言:C/C++
  • 天罗地网和替代内容提取包。 解释了算法背后的直觉。 该项目最初受到Kohlschütter等人的启发,和Weninger等人的最近又受到了启发。 入门 根据您的用例,我们提供两个单独的功能,以仅提取主要文章内容或任何用户...
  • 以前写的一个网站文本提取器,很粗的,最近没时间改,把源码和jar文件分享出来 程序运行截图: 代码地址:https://github.com/doobo/GoTxt 转载于:...

    以前写的一个网站文本提取器,很粗的,最近没时间改,把源码和jar文件分享出来

    程序运行截图:

    193345_4zja_2722454.jpg

    代码地址:https://github.com/doobo/GoTxt

    转载于:https://my.oschina.net/isiav/blog/666638

    展开全文
  • 网页内容提取和分析

    千次阅读 热门讨论 2007-01-31 19:37:00
    程序实现的内容包括:提取网页内容及其超链接。程序有三个类:SearchTest、Index和HTMLParse。SearchTest负责提供目标URL,然后传递给HTMLParse一个HTTP变量参数,在HTMLParse内对目标网页进行处理,得到网页内容及...

    程序实现的内容包括:提取网页内容及其超链接。

    程序有三个类:SearchTest、Index和HTMLParse。

    SearchTest负责提供目标URL,然后传递给HTMLParse一个HTTP变量参数,在HTMLParse内对目标网页进行处理,得到网页内容及超链接,并将内容及超链信息传递给Index,进行索引,以备查询。 

    展开全文
  • 网页内容提取常用正则表达式

    千次阅读 2009-08-26 19:10:00
    1,得到网页上的链接地址:  string matchString = @"[^>]+href=/s*(?:'(?[^']+)'|""(?[^""]+)""|(?[^>/s]+))/s*[^>]*>"; 2,得到网页的标题:  string matchString = @"(?<title>.*)</title>"; 3,去掉...

    1,得到网页上的链接地址:
          string matchString = @"<a[^>]+href=/s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>/s]+))/s*[^>]*>";
    2,得到网页的标题:
          string matchString = @"<title>(?<title>.*)</title>";
    3,去掉网页中的所有的html标记:
          string temp = Regex.Replace(html, "<[^>]*>", "");   //html是一个要去除html标记的文档
    4, string matchString = @"<title>([/S/s/t]*?)</title>";
    5,js去掉所有html标记的函数:
          function delHtmlTag(str)
         {
            return str.replace(/</ .+?>/g,"");//去掉所有的html标记
         }
       这个可能IE5会错,那用这个,梅花的:
        function delHtmlTag(str)
    {
       return str.replace(/<[^>]+>/g,"");//去掉所有的html标记
    }

    展开全文
  • 实现一个类,抓取一个网站所有页面 实现思路:一边添加url,一边抓取,一直进行下去就可以了,直到列表遍历完成,说明没有新的url可供抓取,即抓取完成。 实际上是图的广度优先遍历。 import urllib.request ...

    实现一个类,抓取一个网站所有页面
    实现思路:一边添加url,一边抓取,一直进行下去就可以了,直到列表遍历完成,说明没有新的url可供抓取,即抓取完成。
    实际上是图的广度优先遍历。

    import urllib.request
    import re
    from bs4 import BeautifulSoup
    
    class get_all_page_of_site():
        '''
        参数url是要抓取的网页
        '''
        def __init__(self,url):
            self.__url_list=[]
            self.__url_list.append(url)
            self.__save_page_number=0
    
        '''
        函数功能:根据url获取页面内容,存储位置是loc_dir
        返回值:包含页面内容的BeautifulSoup对象
        '''
        def __get_page(self,url,loc_dir):
            try:
                #这里使用urllib.urlretrieve(url,file)来也不能简化代码,虽然用它可能不需要关注网页的编码方式,
                #保存方便,但是但是它没有返回文件对象,只知道filename,所以还需要打开文件让BeautifulSoup读入
                req = urllib.request.Request(url)
                f=urllib.request.urlopen(req)
                data=f.read()
                #使用BeautifulSoup解析html文档时,程序员不用告诉它文档的编码格式
                soup=BeautifulSoup(data,"html.parser")
                self.__save_page_number+=1
                #soup.original_encoding是网页的编码方式,sina新闻大部分是UTF-8,少部分是GBK
                file1=open(loc_dir+str(self.__save_page_number)+".html",'w',encoding=soup.original_encoding)
                file1.write(str(data.decode(soup.original_encoding)))
                file1.close()
                #这样不行,因为HTTPResponse只能read()一次,read()之后缓存就清空了。
                #return BeautifulSoup(f.read(),"html.parser")
                return soup
            #下面的异常可以根据需要自行处理
            #仍然解析不了的就不解析了
            except UnicodeDecodeError:
                return None
            #如果根据URL,打不开页面,就不再尝试
            except urllib.error.URLError:
                return None
            except TimeoutError:
                return None
            #如果url语法错误,就不尝试获取页面了,遇到过ValueError: unknown url type
            except ValueError:
                return None
            #这是偷懒的做法
            except:
                return None 
        '''
        函数功能:找出BeautifulSoup对象里的页面中,匹配 re_str的URL,放入self.__url_list中。
        '''   
        def __add_page_url(self,soup,re_str):
            #get_page()可能返回None
            if soup is None:
                return 
            for link in soup.find_all('a'):
                if re.search(re_str,str(link.get('href'))):
                    if not (str(link.get('href')) in self.__url_list):
                        self.__url_list.append(str(link.get('href')))
        
        '''
        函数功能:获取所有网页
        参数说明:
        re_str:是一个正则表达式,用来匹配要爬取的url
        loc_dir:指明网页的本地存储位置
        max_page:最多抓取多少个网页,-1表示没有限制
        '''    
        def get_all(self,re_str,loc_dir,max_page=100):
            #一边向列表尾部添加元素,一边从头开始遍历,不需要维护当前遍历位置
            #列表为空了,页面就抓完了。
            #列表为空说明最后一个url的页面都抓取了,但是没有新的url产生
            for url in self.__url_list:
                soup=self.__get_page(url,loc_dir)
                print("URL: ",url)
                self.__add_page_url(soup,re_str)
                print("URL list length:",len(self.__url_list))
                print("URL index is:",self.__url_list.index(url))
                print("Saved page number:",self.__save_page_number)
                if not (max_page==-1 or self.__save_page_number<max_page):
                    break
    
    '''
    使用举例
    '''
    if __name__=='__main__':
        #进行url过滤的正则表达式
        #这里抓取url中包含“news.sina.com.cn”并且以“html”结尾的网页
        re_str=r".*news\.sina\.com\.cn.*html$"
        #抓取到的内容的本地存储位置
        loc_dir="sina6/"
        #请在这里填写你需要抓取的网站
        url='http://news.sina.com.cn/'
        site=get_all_page_of_site(url)
        site.get_all(re_str,loc_dir)

    运行打印:

    URL:  http://news.sina.com.cn/
    URL list length: 240
    URL index is: 0
    Saved page number: 1
    URL:  http://slide.news.sina.com.cn/w/slide_1_86523_304209.html
    URL list length: 241
    URL index is: 1
    Saved page number: 2
    URL:  http://slide.news.sina.com.cn/z/slide_1_64237_303947.html
    URL list length: 245
    URL index is: 2
    Saved page number: 3

    保存的文件:

    展开全文
  • delphi2010 及 delphi7 下 网页采集之网址提取,内容提取,图片提取,网页源码。 其中2010时,去掉一句注释即可。 用于网页分析的delphi源代码,可以提取网页中的连接、图片、内容等。 源代码非常简单,便于分析。
  • C# winfrom 自动登录网页 提取网页内容,实现简单自动登录网页
  • 本程序使用多线程从特定网页提取textarea块中的内容。 具体从http://www.veryhuo.com提取中间演示textarea内的html文本,从(网页特效代码)->(详细分类)->html网页中textarea内容,程序内使用了1.多线程 2.正则...
  • HTMLParser提取网页内容

    2015-04-18 20:59:06
    HTMLParser提取网页内容提取网页正文及标题等内容
  • delphi7+网页采集之网址提取,内容提取,图片提取,网页源码
  • delphi2010 网页采集之网址提取,内容提取,图片提取,网页源码。 用于网页分析的delphi源代码,可以提取网页中的连接、图片、内容等。 源代码非常简单,便于分析。
  • 内容索引:C#源码,网络相关,多线程 本程序使用多线程从特定网页提取textarea块中的内容。  具体从http://www.okbase.net/jscss/code/1866.shtml提取中间演示textarea内的html文本,从(网页特效代码)->(详细分类)-...
  • htmlparser提取网页内容

    2016-11-30 13:14:20
    用HTMLParserg过滤网页里的内容,试了好久都错了 要提取下面网页里的手机产品参数信息,该如何提取呢 **提取span和p段落里的信息** ![图片说明](https://img-ask.csdn.net/upload/201611/30/1480511400_80877.png) ...
  • python 爬虫 css提取网页内容

    千次阅读 2018-09-24 10:18:55
    四大提取网页内容的基本方法之 4.css提取网页内容 语法简单一览 CSS选择器用于选择你想要的元素的样式的模式。 &quot;CSS&quot;列表示在CSS版本的属性定义(CSS1,CSS2,或对CSS3)。 在使用css之前需要...
  • 用CSS方法提取网页内容

    千次阅读 2018-02-04 16:30:35
    昨天用xpath提取网页内容,今天用CSS方法重新提取一遍。 随便在伯乐在线找一篇文章,网址:http://blog.jobbole.com/113555/ #通过CSS选择器提取网页的字段 #标题 title = response.css(".entry-header h1:...
  • 该文档详细介绍了如何利用heritrix3进行网页内容提取,其中内容提取模块可以自己修改,接口已经留好,具有很强的扩展性!
  • CURL抓取网页内容并用正则提取

    千次阅读 2017-06-05 16:38:44
    CURL抓取网页内容并用正则提取
  • python爬虫 selector xpath提取网页内容

    万次阅读 2018-09-24 09:05:46
    提取 网页内容 四大基本方法之 3.xpath提取网页内容 selector模块 XML 节点选择 表达式 描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择...
  • 2.掌握网页的标签结构特点以及内容提取原理,设计和实现网页内容提取程序文档内容提取分为2个小题目,任选一个做。 a.提取新闻网页的标题,正文,发表时间。 b.提取某产品的每条产品评论内容,发表时间。 二、实验...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 183,034
精华内容 73,213
关键字:

网页内容提取