精华内容
下载资源
问答
  • 爬虫软件
    万次阅读
    2020-07-03 14:25:31

    原文链接:2020年30种最佳的免费网页爬虫软件

    网页抓取(也称为网络数据提取,网络爬虫,数据收集和提取)是一种网页技术,从网站上提取数据。将非结构化数据转换为可以存储在本地计算机或数据库中的结构化数据。

    对于不了解编码的人来说,创建网络抓取可能很困难。幸运的是,无论有没有编程技能的人,都有可用的工具。这是我们列出的30种最受欢迎​​的网页数据抓取工具,从开源库到浏览器扩展和桌面软件。

    1. Beautiful Soup

    网站: https ://www.crummy.com/software/BeautifulSoup/

    目标客户:掌握编程以创建Web抓取/ Web爬网程序以爬网网站的开发人员。

    优势:Beautiful Soup是一个开放源代码Python库,旨在抓取HTML和XML文件。它们是已被广泛使用的主要Python解析器。如果您具有编程技能,那么将该库与Python结合使用时,效果最佳。

    2. Octoparse

    在这里插入图片描述
    网站:https://www.octoparse.es/

    目标客户: 公司或个人需要捕获以下网站:电子商务,投资,加密货币,营销,房地产等。该软件不需要编程和编码技能。

    目标客户:Octoparse是终生免费的SaaS 网络数据服务平台。您可以使用它来抓取网页数据并将网站中的非结构化或半结构化数据转换为未编码的结构化数据集。它还提供了要使用的简易任务模板,例如eBay,Twitter,BestBuy等。Octoparse还提供网页数据服务。您可以根据您的抓取需求自定义抓取任务。

    3. Import.io

    目标客户:寻找网络数据集成解决方案的公司。

    优势: Import.io是一个SaaS Web数据平台。它提供了Web抓取软件,可让您从网站抓取数据并将其组织成数据集。他们可以将Web数据集成到用于销售和市场营销的分析工具中。

    4. Mozenda

    目标客户:企业和企业需要波动的数据/实时数据。

    优势: Mozenda提供了一种数据提取工具,可以轻松地从网页捕获数据。他们还提供数据可视化服务。消除了雇用数据分析师的需要。

    5. Parsehub

    目标客户:缺乏编程技能的数据分析师,营销人员和研究人员。

    优势: ParseHub是可视的Web抓取软件,可用于从Web获取数据。您可以通过单击网站上的任何字段来提取数据。它还具有IP轮换功能,当您遇到带有反抓取技术的激进网站时,它可以帮助您更改IP地址。

    在这里插入图片描述

    6. Crawlmonster

    目标客户: SEO和市场营销专家
    优势: CrawlMonster是免费的网络抓取软件。它允许您扫描网站并分析网站内容,源代码,页面状态以及许多其他内容。

    7. Connote

    目标客户:寻找网络数据集成解决方案的公司。

    优势: Connotate与Import.IO并肩工作,后者提供了自动化Web数据抓取的解决方案。提供Web数据服务,可以帮助您抓取,收集和管理数据。

    8. Common Crawl

    目标客户:研究人员,学生和老师。
    优势: Common Crawl基于数字时代的开源理念。提供跟踪网站的开放数据集。包含原始网页数据,提取的元数据和文本提取。

    9. Crawly

    目标客户: 具有基本数据要求且没有编码技能的人员。
    优势: Crawly提供了一项自动服务,该服务可以抓取网站并将其转换为JSON或CSV形式的结构化数据。他们可以在几秒钟内提取有限的元素,包括:标题文本。HTML,注释,日期和实体标签,作者,图像,视频的URL,编辑者和国家/地区。

    10. Content Grabber

    目标客户:编程专家的Python开发人员。

    优势: Content Grabber是针对公司的网页数据抓取软件。您可以使用其集成的第三方工具创建自己的网页抓取代理。它在处理复杂的网站和数据提取方面非常灵活。

    11. Diffbot

    目标客户:开发人员和公司。
    优势: Diffbot是一个网站抓取工具,它使用机器学习和算法以及公共API从网页中提取数据(网页抓取)。您可以使用Diffbot进行竞争对手分析,价格监控,分析消费者行为等。

    12. Dexi.io

    目标客户: 具有编程和定价技能的人。

    优势: Dexi.io是基于浏览器的网页搜寻器。它提供了三种类型的机器人:提取器,跟踪器和管道。PIPES具有主机器人功能,其中1个机器人可以控制多个任务。它支持许多第三方服务(验证码求解器,云存储等),您可以轻松地将其集成到机器人中。

    13. DataScraping.co

    目标客户: 缺乏编程技能的数据分析师,营销人员和研究人员。
    优势: Data Scraping Studio是免费的网络抓取软件,可从网页,HTML,XML和pdf收集数据。当前,桌面客户端仅适用于Windows。

    14. Easy Web Extract

    客户: 数据需求有限的企业,营销专家和缺乏编程技能的研究人员。
    优势: Easy Web Extract是用于商业目的的可视化网页抓取软件。您可以从网页提取内容(文本,URL,图像,文件),然后将结果转换为多种格式。

    15. FMiner

    客户:缺乏编程技能的数据分析师,营销人员和研究人员。
    优势: FMiner是具有可视化图表设计器的Web抓取软件,可让您使用宏编码器构建项目而无需编码。先进的功能使您可以使用Ajax和Javascript从动态网站进行抓取。

    16. Scrapy

    客户: 具有编程和抓取技能的Python开发人员

    优势: Scrapy用于开发和构建网络蜘蛛。该产品的优点在于它具有一个异步网络库,该库将允许您在完成下一个任务之前先完成它。

    17. Helium Scrape

    客户:缺乏编程技能的数据分析师,营销人员和研究人员。

    优势: Helium Scraper是可视化的网页数据抓取软件,效果很好,特别适用于网站上的小元素。它具有简单的点击界面,使其易于使用。

    18. Scrape.it

    客户: 需要无需编码的可伸缩数据的人。
    优势: 允许将抓取的数据存储在授权的本地磁盘上。您可以使用网络抓取语言(WSL)创建一个抓取工具,该工具的学习曲线较低,无需学习编码。如果您正在寻找安全的网页抓取工具,这是一个不错的选择,值得一试。

    19. ScraperWiki

    客户: Python和R数据分析环境,非常适合于编码新手的经济学家,统计学家和数据管理员。
    优势:它由公司内部的两个部分组成。第一个是QuickCode,它是为了解Python和R语言的经济学家,统计学家和数据管理员而设计的;第二个是The Sensible Code Company,它提供了一种将无序信息转换为结构化数据的Web数据服务。

    20. Scrapinghub

    客户: Python / Web抓取开发人员
    优势: Scraping Hub是一个基于云端的网页平台。它具有四种不同类型的工具:Scrapy Cloud,Portia,Crawlera和Splash。Scrapinghub在50多个国家/地区提供了一系列涵盖的IP地址,这是非常好的,这是IP禁止问题的一种解决方案。

    21. Screen-Scraper

    客户:对于商业,它与汽车,医疗,金融和电子商务行业有关。
    优势: Screen Scraper可以为汽车,医疗,金融和电子商务行业提供Web数据服务。与其他网络抓取工具(如Octoparse)相比,它更加方便和基本。对于没有网络抓取经验的人,它的学习周期也很短。

    22. Salestools.io

    客户:市场营销人员和销售人员。
    优势: Salestools.io提供了网络抓取软件,可帮助营销人员在诸如LinkedIn,Angellist,Viadeo之类的专业网络上收集数据。

    23. ScrapeHero

    客户:对于投资者,对冲基金,市场分析师非常有帮助。
    优势:作为API提供程序的ScrapeHero允许您将网站转换为数据。为公司和企业提供定制的Web数据服务。

    24. UniPath

    客户:各种规模的企业
    优势: UiPath是用于免费Web抓取的机器人过程自动化软件。它使用户能够创建,实施和管理业务流程中的自动化。对于企业用户来说,这是一个不错的选择,因为它使您可以创建数据管理规则。

    25. Web Content Extractor

    客户:缺乏编程技能的数据分析师,营销人员和研究人员。
    优势: Web Content Extractor是用于私人或商业目的的易于使用的Web抓取软件。这是很容易学习和掌握的。您有14天的免费试用期

    26. Webharvy

    客户:缺乏编程技能的数据分析师,营销人员和研究人员。
    优势: WebHarvy是点击式网页抓取软件。它是为非程序员设计的。提取程序不允许您编程。他们有网络抓取教程,对于大多数初学者来说非常有用。

    27. Web Scraper.io

    客户:缺乏编程技能的数据分析师,营销人员和研究人员。
    优势: Web Scraper是一个Chrome浏览器扩展程序,用于从网站提取数据。它是一个免费的网络抓取软件,用于抓取动态网页。

    28. Web Sundew

    客户:公司,营销人员和研究人员。
    优势: WebSundew是一种可视化的抓取工具,可用于Web数据的结构化抓取。企业版允许您在远程服务器上运行抓取,并通过FTP发布收集的数据。

    29. Winautomation

    客户:开发人员,业务运营主管,IT专业人员
    优势: Winautomation是Windows Web抓取工具,可让您自动执行基于桌面和基于Web的任务。

    30. Web Robots

    客户:缺乏编程技能的数据分析师,营销人员和研究人员。
    优势: Web Robots是基于云的Web抓取平台,用于使用许多Javascript抓取动态网站。它具有网页浏览器扩展程序以及桌面软件,使人们可以轻松地从网站提取数据。

    更多相关内容
  • 音乐爬虫软件

    2018-06-22 11:29:06
    .net通过抓包技术实现简单的爬虫功能,仅仅用于大家共享,如果侵权,请联系我,及时删除
  • 2022最新最全爬虫软件集合,多平台漫画小说、视频音乐、抖音App视频抓取等等
  • Pholcus(幽灵蛛)是一款纯Go语言编写的支持分布式的高并发、重量级爬虫软件,定位于互联网数据采集,为具备一定Go或JS编程基础的人提供一个只需关注规则定制的功能强大的爬虫工具。 它支持单机、服务端、客户端三种...
  • 后羿爬虫软件

    2019-02-24 21:26:05
    当需要进行网络上资料收集的时候,可以使用该工具进行网上资料爬虫,操作简单方便。
  • 网络爬虫爬虫软件

    2012-04-21 15:33:01
    需要加载一个字典文件,此字典文件在爬虫程序中要求放在此目录结构下: c:\dictionary\dictionary.txt,词典默认认为是按照词语长到短的顺序排列的 2、此爬虫程序爬到的网页内容存储到数据库中,运用的是SQL Server ...
  • 免费爬虫软件使用教程.docx免费爬虫软件使用教程.docx免费爬虫软件使用教程.docx免费爬虫软件使用教程.docx免费爬虫软件使用教程.docx免费爬虫软件使用教程.docx免费爬虫软件使用教程.docx免费爬虫软件使用教程.docx...
  • 爬虫软件 自动获取网站源码 将整个网站拉去到本地,可直接变成本地静态网站
  • 免费爬虫软件使用教程.pdf免费爬虫软件使用教程.pdf免费爬虫软件使用教程.pdf免费爬虫软件使用教程.pdf免费爬虫软件使用教程.pdf免费爬虫软件使用教程.pdf免费爬虫软件使用教程.pdf免费爬虫软件使用教程.pdf
  • 如何使用爬虫软件爬取数据.pdf如何使用爬虫软件爬取数据.pdf如何使用爬虫软件爬取数据.pdf如何使用爬虫软件爬取数据.pdf如何使用爬虫软件爬取数据.pdf如何使用爬虫软件爬取数据.pdf如何使用爬虫软件爬取数据.pdf如何...
  • 使用Python软件进行京东店铺名称的爬取,关键字是“零食”,统统是能够对店铺的性质做出判断,判断其是否为京东自营等。
  • 这里推荐一些33款开源爬虫软件给大家。爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。网络爬虫是一个自动提取网页的程序,它为...

    要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。

    爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

    网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

    世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。

    Java爬虫

    1. Arachnid

    Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

    特点:微型爬虫框架,含有一个小型HTML解析器

    许可证:GPL

    2、crawlzilla

    crawlzilla 是一个帮你轻松建立搜索引擎的自由软件,有了它,你就不用依靠商业公司的搜索引擎,也不用再烦恼公司內部网站资料索引的问题。

    由 nutch 专案为核心,并整合更多相关套件,并卡发设计安装与管理UI,让使用者更方便上手。

    crawlzilla 除了爬取基本的 html 外,还能分析网页上的文件,如( doc、pdf、ppt、ooo、rss )等多种文件格式,让你的搜索引擎不只是网页搜索引擎,而是网站的完整资料索引库。

    拥有中文分词能力,让你的搜索更精准。

    crawlzilla的特色与目标,最主要就是提供使用者一个方便好用易安裝的搜索平台。

    授权协议: Apache License 2

    开发语言: Java JavaScript SHELL

    操作系统: Linux

    特点:安装简易,拥有中文分词功能

    3、Ex-Crawler

    Ex-Crawler 是一个网页爬虫,采用 Java 开发,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。

    授权协议: GPLv3

    开发语言: Java

    操作系统: 跨平台

    特点:由守护进程执行,使用数据库存储网页信息

    4、Heritrix

    Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。

    Heritrix采用的是模块化的设计,各个模块由一个控制器类(CrawlController类)来协调,控制器是整体的核心。

    授权协议: Apache

    开发语言: Java

    操作系统: 跨平台

    特点:严格遵照robots文件的排除指示和META robots标签

    5、heyDr

    heyDr是一款基于java的轻量级开源多线程垂直检索爬虫框架,遵循GNU GPL V3协议。

    用户可以通过heyDr构建自己的垂直资源爬虫,用于搭建垂直搜索引擎前期的数据准备。

    授权协议: GPLv3

    开发语言: Java

    操作系统: 跨平台

    特点:轻量级开源多线程垂直检索爬虫框架

    6、ItSucks

    ItSucks是一个java web spider(web机器人,爬虫)开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing GUI操作界面。

    特点:提供swing GUI操作界面

    7、jcrawl

    jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq.

    授权协议: Apache

    开发语言: Java

    操作系统: 跨平台

    特点:轻量、性能优良,可以从网页抓取各种类型的文件

    8、JSpider

    JSpider是一个用Java实现的WebSpider,JSpider的执行格式如下:

    jspider [URL] [ConfigName]

    URL一定要加上协议名称,如:http://,否则会报错。如果省掉ConfigName,则采用默认配置。

    JSpider 的行为是由配置文件具体配置的,比如采用什么插件,结果存储方式等等都在conf\[ConfigName]\目录下设置。JSpider默认的配置种类 很少,用途也不大。但是JSpider非常容易扩展,可以利用它开发强大的网页抓取与数据分析工具。要做到这些,需要对JSpider的原理有深入的了 解,然后根据自己的需求开发插件,撰写配置文件。

    授权协议: LGPL

    开发语言: Java

    操作系统: 跨平台

    特点:功能强大,容易扩展

    9、Leopdo

    用JAVA编写的web 搜索和爬虫,包括全文和分类垂直搜索,以及分词系统

    授权协议: Apache

    开发语言: Java

    操作系统: 跨平台

    特点:包括全文和分类垂直搜索,以及分词系统

    10、MetaSeeker

    是一套完整的网页内容抓取、格式化、数据集成、存储管理和搜索解决方案。

    网络爬虫有多种实现方法,如果按照部署在哪里分,可以分成:

    服务器侧:

    一般是一个多线程程序,同时下载多个目标HTML,可以用PHP, Java, Python(当前很流行)等做,可以速度做得很快,一般综合搜索引擎的爬虫这样做。但是,如果对方讨厌爬虫,很可能封掉你的IP,服务器IP又不容易 改,另外耗用的带宽也是挺贵的。建议看一下Beautiful soap。

    客户端:

    一般实现定题爬虫,或者是聚焦爬虫,做综合搜索引擎不容易成功,而垂直搜诉或者比价服务或者推荐引擎,相对容易很多,这类爬虫不是什么页面都 取的,而是只取你关系的页面,而且只取页面上关心的内容,例如提取黄页信息,商品价格信息,还有提取竞争对手广告信息的,搜一下Spyfu,很有趣。这类 爬虫可以部署很多,而且可以很有侵略性,对方很难封锁。

    MetaSeeker中的网络爬虫就属于后者。

    MetaSeeker工具包利用Mozilla平台的能力,只要是Firefox看到的东西,它都能提取。

    特点:网页抓取、信息提取、数据抽取工具包,操作简单

    11、Playfish

    playfish是一个采用java技术,综合应用多个开源java组件实现的网页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具

    应用开源jar包包括httpclient(内容读取),dom4j(配置文件解析),jericho(html解析),已经在 war包的lib下。

    这个项目目前还很不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正则表达式。目前通过这个工具可以抓取各类论坛,贴吧,以及各类CMS系统。像Discuz!,phpbb,论坛跟博客的文章,通过本工具都可以轻松抓取。抓取定义完全采用XML,适合Java开发人员使用。

    使用方法:

    下载右边的.war包导入到eclipse中,

    使用WebContent/sql下的wcc.sql文件建立一个范例数据库,

    修改src包下wcc.core的dbConfig.txt,将用户名与密码设置成你自己的mysql用户名密码。

    然后运行SystemCore,运行时候会在控制台,无参数会执行默认的example.xml的配置文件,带参数时候名称为配置文件名。

    系统自带了3个例子,分别为baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一个采用 discuz论坛的内容。

    授权协议: MIT

    开发语言: Java

    操作系统: 跨平台

    特点:通过XML配置文件实现高度可定制性与可扩展性

    12、Spiderman

    Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。

    怎么使用?

    首先,确定好你的目标网站以及目标网页(即某一类你想要获取数据的网页,例如网易新闻的新闻页面)

    然后,打开目标页面,分析页面的HTML结构,得到你想要数据的XPath,具体XPath怎么获取请看下文。

    最后,在一个xml配置文件里填写好参数,运行Spiderman吧!

    授权协议: Apache

    开发语言: Java

    操作系统: 跨平台

    特点:灵活、扩展性强,微内核+插件式架构,通过简单的配置就可以完成数据抓取,无需编写一句代码

    13、webmagic

    webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

    webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

    webmagic包含强大的页面抽取功能,开发者可以便捷的使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。

    授权协议: Apache

    开发语言: Java

    操作系统: 跨平台

    特点:功能覆盖整个爬虫生命周期,使用Xpath和正则表达式进行链接和内容的提取。

    备注:这是一款国产开源软件,由 黄亿华贡献

    14、Web-Harvest

    Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。

    其实现原理是,根据预先定义的配置文件用httpclient获取页面的全部内容(关于httpclient的内容,本博有些文章已介绍),然后运用XPath、XQuery、正则表达式等这些技术来实现对text/xml的内容筛选操作,选取精确的数据。前两年比较火的垂直搜索(比如:酷讯等)也是采用类似的原理实现的。Web-Harvest应用,关键就是理解和定义配置文件,其他的就是考虑怎么处理数据的Java代码。当然在爬虫开始前,也可以把Java变量填充到配置文件中,实现动态的配置。

    授权协议: BSD

    开发语言: Java

    特点:运用XSLT、XQuery、正则表达式等技术来实现对Text或XML的操作,具有可视化的界面

    15、WebSPHINX

    WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。

    授权协议:Apache

    开发语言:Java

    特点:由两部分组成:爬虫工作平台和WebSPHINX类包

    16、YaCy

    YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.

    授权协议: GPL

    开发语言: Java Perl

    操作系统: 跨平台

    特点:基于P2P的分布式Web搜索引擎

    Python爬虫

    17、QuickRecon

    QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、perform zone transfe、收集电子邮件地址和使用microformats寻找人际关系等。QuickRecon使用python编写,支持linux和 windows操作系统。

    授权协议: GPLv3

    开发语言: Python

    操作系统: Windows Linux

    特点:具有查找子域名名称、收集电子邮件地址并寻找人际关系等功能

    18、PyRailgun

    这是一个非常简单易用的抓取工具。支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块

    授权协议: MIT

    开发语言: Python

    操作系统: 跨平台 Windows Linux OS X

    特点:简洁、轻量、高效的网页抓取框架

    备注:此软件也是由国人开放

    19、Scrapy

    Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~

    授权协议: BSD

    开发语言: Python

    操作系统: 跨平台

    特点:基于Twisted的异步处理框架,文档齐全

    C++爬虫

    20、hispider

    HiSpider is a fast and high performance spider with high speed

    严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.ini whitelist).

    特征和用法:

    基于unix/linux系统的开发

    异步DNS解析

    URL排重

    支持HTTP 压缩编码传输 gzip/deflate

    字符集判断自动转换成UTF-8编码

    文档压缩存储

    支持多下载节点分布式下载

    支持网站定向下载(需要配置 hispiderd.ini whitelist )

    可通过 http://127.0.0.1:3721/ 查看下载情况统计,下载任务控制(可停止和恢复任务)

    依赖基本通信库libevbase 和 libsbase (安装的时候需要先安装这个两个库)、

    工作流程:

    从中心节点取URL(包括URL对应的任务号, IP和port,也可能需要自己解析)

    连接服务器发送请求

    等待数据头判断是否需要的数据(目前主要取text类型的数据)

    等待完成数据(有length头的直接等待说明长度的数据否则等待比较大的数字然后设置超时)

    数据完成或者超时, zlib压缩数据返回给中心服务器,数据可能包括自己解析DNS信息, 压缩后数据长度+压缩后数据, 如果出错就直接返回任务号以及相关信息

    中心服务器收到带有任务号的数据, 查看是否包括数据, 如果没有数据直接置任务号对应的状态为错误, 如果有数据提取数据种link 然后存储数据到文档文件.

    完成后返回一个新的任务.

    授权协议: BSD

    开发语言: C/C++

    操作系统: Linux

    特点:支持多机分布式下载, 支持网站定向下载

    21、larbin

    larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫,也就 是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取500万的网页。

    利用larbin,我们可以轻易的获取/确定单个网站的所有链接,甚至可以镜像一个网站;也可以用它建立url 列表群,例如针对所有的网页进行 url retrive后,进行xml的联结的获取。或者是 mp3,或者定制larbin,可以作为搜索引擎的信息的来源。

    授权协议: GPL

    开发语言: C/C++

    操作系统: Linux

    特点:高性能的爬虫软件,只负责抓取不负责解析

    22、Methabot

    Methabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。

    授权协议: 未知

    开发语言: C/C++

    操作系统: Windows Linux

    特点:过速度优化、可抓取WEB、FTP及本地文件系统

    C#爬虫

    23、NWebCrawler

    NWebCrawler是一款开源,C#开发网络爬虫程序。

    特性:

    可配置:线程数,等待时间,连接超时,允许MIME类型和优先级,下载文件夹。

    统计信息:URL数量,总下载文件,总下载字节数,CPU利用率和可用内存。

    Preferential crawler:用户可以设置优先级的MIME类型。

    Robust: 10+ URL normalization rules, crawler trap avoiding rules.

    授权协议: GPLv2

    开发语言: C#

    操作系统: Windows

    特点:统计信息、执行过程可视化

    24、Sinawler

    国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫”。

    登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。

    该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持,但请勿用于商业用途。该应用基于.NET2.0框架,需SQL SERVER作为后台数据库,并提供了针对SQL Server的数据库脚本文件。

    另外,由于新浪微博API的限制,爬取的数据可能不够完整(如获取粉丝数量的限制、获取微博数量的限制等)

    本程序版权归作者所有。你可以免费: 拷贝、分发、呈现和表演当前作品,制作派生作品。 你不可将当前作品用于商业目的。

    5.x版本已经发布! 该版本共有6个后台工作线程:爬取用户基本信息的机器人、爬取用户关系的机器人、爬取用户标签的机器人、爬取微博内容的机器人、爬取微博评论的机器人,以及调节请求频率的机器人。更高的性能!最大限度挖掘爬虫潜力! 以现在测试的结果看,已经能够满足自用。

    本程序的特点:

    6个后台工作线程,最大限度挖掘爬虫性能潜力!

    界面上提供参数设置,灵活方便

    抛弃app.config配置文件,自己实现配置信息的加密存储,保护数据库帐号信息

    自动调整请求频率,防止超限,也避免过慢,降低效率

    任意对爬虫控制,可随时暂停、继续、停止爬虫

    良好的用户体验

    授权协议: GPLv3

    开发语言: C# .NET

    操作系统: Windows

    25、spidernet

    spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源; 存储于sqlite数据文件.

    源码中TODO:标记描述了未完成功能, 希望提交你的代码.

    授权协议: MIT

    开发语言: C#

    操作系统: Windows

    github源代码:https://github.com/nsnail/spidernet

    特点:以递归树为模型的多线程web爬虫程序,支持以GBK (gb2312)和utf8编码的资源,使用sqlite存储数据

    26、Web Crawler

    mart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置 过滤器限制爬回来的链接,默认提供三个过滤器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监听器。介绍内容来自Open-Open

    开发语言: Java

    操作系统: 跨平台

    授权协议: LGPL

    特点:多线程,支持抓取PDF/DOC/EXCEL等文档来源

    27、网络矿工

    网站数据采集软件 网络矿工采集器(原soukey采摘)

    Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。

    授权协议: BSD

    开发语言: C# .NET

    操作系统: Windows

    特点:功能丰富,毫不逊色于商业软件

    PHP爬虫

    28、OpenWebSpider

    OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。

    授权协议: 未知

    开发语言: PHP

    操作系统: 跨平台

    特点:开源多线程网络爬虫,有许多有趣的功能

    29、PhpDig

    PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关 键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更 强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。

    授权协议: GPL

    开发语言: PHP

    操作系统: 跨平台

    特点:具有采集网页内容、提交表单功能

    30、ThinkUp

    ThinkUp 是一个可以采集推特,facebook等社交网络数据的社会媒体视角引擎。通过采集个人的社交网络账号中的数据,对其存档以及处理的交互分析工具,并将数据图形化以便更直观的查看。

    授权协议: GPL

    开发语言: PHP

    操作系统: 跨平台

    特点:采集推特、脸谱等社交网络数据的社会媒体视角引擎,可进行交互分析并将结果以可视化形式展现

    31、微购

    微购社会化购物系统是一款基于ThinkPHP框架开发的开源的购物分享系统,同时它也是一套针对站长、开源的的淘宝客网站程序,它整合了淘宝、天猫、淘宝客等300多家商品数据采集接口,为广大的淘宝客站长提供傻瓜式淘客建站服务,会HTML就会做程序模板,免费开放下载,是广大淘客站长的首选。

    授权协议: GPL

    开发语言: PHP

    操作系统: 跨平台

    ErLang爬虫

    32、Ebot

    Ebot 是一个用 ErLang 语言开发的可伸缩的分布式网页爬虫,URLs 被保存在数据库中可通过 RESTful 的 HTTP 请求来查询。

    授权协议: GPLv3

    开发语言: ErLang

    操作系统: 跨平台

    github源代码:https://github.com/matteoredaelli/ebot

    项目主页: http://www.redaelli.org/matteo/blog/projects/ebot

    特点:可伸缩的分布式网页爬虫

    Ruby爬虫

    33、Spidr

    Spidr 是一个Ruby 的网页爬虫库,可以将整个网站、多个网站、某个链接完全抓取到本地。

    开发语言: Ruby

    授权协议:MIT

    特点:可将一个或多个网站、某个链接完全抓取到本地

    本文由36大数据收集整理

    展开全文
  • python爬虫软件

    2019-01-03 12:51:43
    这个软件是我无聊时写的一款爬虫软件,可以爬去无水印的照片(御姐,美女,校花,萝莉,帅哥,型男等等),可以批量保存,无限爬去哦。喜欢的可以下载看看,声明,这软件是python编写的,我测试只能在win10系统运行...
  • 爬虫软件,能爬取酒店,随便改动下就能爬,可直接运行
  • ForeSpider爬虫工具软件使用教程 使用ForeSpider爬虫软件批量采集企业信息公示系统.zip
  • 菲尔库斯 Pholcus(幽灵蛛)是一种纯Go语言编写的支持分布式的高并发爬虫软件,仅用于编程学习与研究。它支持单机,服务端,客户端三种运行模式,拥有Web,GUI,命令行界面操作界面;规则简单灵活,批量任务并发,...
  • Pholcus(幽灵蛛)是一款纯Go语言编写的支持分布式的高并发、重量级爬虫软件,定位于互联网数据采集,为具备一定Go或JS编程基础的人提供一个只需关注规则定制的功能强大的爬虫工具。 它支持单机、服务端、客户端三种...
  • 如何使用爬虫软件爬取数据.docx如何使用爬虫软件爬取数据.docx如何使用爬虫软件爬取数据.docx如何使用爬虫软件爬取数据.docx如何使用爬虫软件爬取数据.docx如何使用爬虫软件爬取数据.docx如何使用爬虫软件爬取数据....
  • 生为张家界人我为张家界加油也会...Python 编写的开源 Web 爬虫1. Scrapy 实现语言:Python GitHub 星标数:28660 官方支持链接:https://scrapy.org/community/ 简介 Scrapy 是一种高速的高层...

     生为张家界人我为张家界加油也会整个湖南加油!疫情爆发是张家界是最安全的,可在这个关键时刻张家界确实最危险的地方了,本篇文章会有点长都是干货可以耐心看完会收获到很多东西,如果需要python相关的资料欢迎找我领取哦~

    加v:qwe54996

    Python 编写的开源 Web 爬虫1. Scrapy

    • 实现语言:Python

    • GitHub 星标数:28660

    • 官方支持链接:https://scrapy.org/community/

    简介

    • Scrapy 是一种高速的高层 Web 爬取和 Web 采集框架,可用于爬取网站页面,并从页面中抽取结构化数据。

    • Scrapy 的用途广泛,适用于从数据挖掘、监控到自动化测试。

    • Scrapy 设计上考虑了从网站抽取特定的信息,它支持使用 CSS 选择器和 XPath 表达式,使开发人员可以聚焦于实现数据抽取。

    • 对于熟悉 Python 的开发人员,只需几分钟就能建立并运行 Scrapy。

    • 支持运行在 Linux、Mac OS 和 Windows 系统上。

    特性

    • 内置支持从 HTML 和 XML 抽取数据、使用扩展的 CSS 选择器(Selector)和 XPath 表达式等特性。

    • 支持以多种格式(JSON、CSV、XML)生成输出。

    • 基于 Twisted 构建。

    • 稳健的支持,自动检测编码方式。

    • 快速,功能强大。

    • 官方文档:https://docs.scrapy.org/en/latest/

    • 官方网站:https://scrapy.org/

    2. Cola

    • 实现语言:Python

    • GitHub 星标数:1274

    • 官方支持链接:https://scrapy.org/community/

    简介

    • Cola 是一种高层分布式爬取框架,实现从网站爬取网页,并从中抽取结构化数据。

    • 它提供了一种实现目标数据获取的简单且灵活的方式。

    • 用户只需要编写其中一部分代码,就可在本地和分布式环境下运行。

    特性

    • 高层分布式爬取框架。

    • 简单且高速。

    • 灵活。

    • 官方文档:https://github.com/chineking/cola

    • 官方网站:https://pypi.org/project/Cola/

    3. Crawley

    • 实现语言 Python

    • GitHub 星标数: 144

    • 官方支持链接:https://scrapy.org/community/

    简介

    • Crawley 是一种 Python 爬取和采集框架,意在简化开发人员从 Web 网页抽取数据到数据库等结构化存储中。

    特性

    • 基于 Eventlet 构建的高速 Web 爬虫。

    • 支持 MySQL、PostgreSQL、Oracle、Sqlite 等关系数据库引擎。

    • 支持 MongoDB、CouchDB 等 NoSQL 数据库(最新特性!)。

    • 支持导出数据为 JSON、XML 和 CSV 格式(最新特性!)。

    • 命令行工具。

    • 支持开发人员使用自己喜好的工具,例如 XPath 或 Pyquery(一种类似于 JQuery 的 Python 软件库)等。

    • 支持 Cookie 处理器(Handler)。

    • 官方文档:https://pythonhosted.org/crawley/

    • 官方网站:http://project.crawley-cloud.com/

    4. MechanicalSoup

    • 实现语言: Python

    • GitHub 星标数: 2803

    • 官方支持链接:https://scrapy.org/community/

    简介

    • MechanicalSoup 是一种设计模拟人类使用 Web 浏览器行为的 Python 软件库,它基于解析软件库 BeautifulSoup 构建。

    • 如果开发人员需要从单个站点采集数据,或是不需要大量数据采集,那么使用 MechanicalSoup 是一种简单高效的方法。

    • MechanicalSoup 自动存储和发送 Cookie、跟踪重定向、支持链接跟随和提交表单。

    特性

    • 轻量级。

    • 支持 Cookie 处理器。

    • 官方文档: https://mechanicalsoup.readthedocs.io/en/stable/

    • 官方网站:https://mechanicalsoup.readthedocs.io/

    5. PySpider

    • 实现语言: Python

    • GitHub 星标数: 11803

    • 官方支持链接:https://scrapy.org/community/

    简介

    • PySpider 是一种 Python 编写的强大 Web 爬虫。

    • 它支持 JavaScript 网页,并具有分布式架构。

    • PySpider 支持将爬取数据存储在用户选定的后台数据库,包括 MySQL, MongoDB, Redis, SQLite, Elasticsearch 等。

    • 支持开发人员使用 RabbitMQ、Beanstalk 和 Redis 等作为消息队列。

    特性

    • 提供强大 Web 界面,具有脚本编辑器、任务监控、项目管理器和结果查看器。

    • 支持对重度 Ajax 网站的爬取。

    • 易于实现适用、快速的爬取。

    • 官方文档: http://docs.pyspider.org/

    • 官方网站:https://github.com/binux/pyspider

    6. Portia

    • 实现语言: Python

    • GitHub 星标数: 6250

    • 官方支持链接:https://scrapy.org/community/

    简介

    • Portia 是由 Scrapinghub 创建的一种可视化爬取工具,它不需要用户具有任何程序开发知识。

    • 如果用户并非开发人员,最好直接使用 Portia 实现 Web 爬取需求。

    • 用户无需任何安装就可免费试用 Portia,只需要在 Scrapinghub 注册一个账户,就可使用托管版本。

    • 即便用户没有编程技能,在 Portia 中创建爬虫并抽取 Web 内容也是非常易于实现的。

    • 用户无需安装任何程序,因为 Portia 是运行在 Web 页面上的。

    • 用户可以使用 Portia 的基本点击工具标注需要爬取的数据,然后 Portia 就会根据这些标注理解如何爬取类似页面中的数据。

    • 一旦检测到需要爬取的页面,Portia 会形成一个用户已创建结构的实例。

    特性

    • 通过记录并回放用户在页面上的操作,实现点击、拖动和等待等动作。

    • Portia 可以很好地爬取基于 Ajax 构建的网站(基于 Splash),也适用于爬取 Backbone、Angular 和 Ember 等重度 JavsScript 框架。

    • 官方文档:https://portia.readthedocs.io/en/latest/index.html

    • 官方网站: https://github.com/scrapinghub/portia

    7. Beautifulsoup

    • 实现语言: Python

    • 官方支持链接:https://scrapy.org/community/

    简介

    • Beautiful Soup 一种设计用于实现 Web 爬取等快速数据获取项目的 Python 软件库。

    • 它在设计上处于 HTML 或 XML 解析器之上,提供用于迭代、搜索和修改解析树等功能的 Python 操作原语。往往能为开发人员节省数小时乃至数天的工作。

    特性

    • Beautiful Soup 自动将输入文档转换为 Unicode 编码,并将输出文档转换为 UTF-8 编码。

    • Beautiful Soup 处于一些广为采用的 Python 解析器(例如,lxml 和 html5lib)之上,支持用户尝试使用多种不同的解析策略,并在速度和灵活性上做出权衡。

    • 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/

    • 官方网站: https://www.crummy.com/software/BeautifulSoup/

    8. Spidy 爬虫

    • 实现语言: Python

    • GitHub 星标数: 152

    • 官方支持链接:https://scrapy.org/community/

    简介

    • Spidy 是一种从命令行运行的 Web 爬虫。易于使用。用户只需提供 Web 网页的 URL 链接,Spidy 就可以开始爬取!Spidy 无疑是一种整体爬取 Web 的简单有效的方式。

    • Spidy 使用 Python 请求查询 Web 页面,并使用 lxml 抽取页面中的所有链接。非常简单!

    特性

    • 错误处理。

    • 跨平台兼容性。

    • 频繁时间戳日志。

    • 可移植性。

    • 用户友好的日志。

    • 保存 Web 页面。

    • 支持文件压缩。

    • 官方文档:https://github.com/rivermont/spidy

    • 官方网站: http://project.crawley-cloud.com/

    9. Garb

    • 实现语言: Python

    • GitHub 星标数: 1627

    • 官方支持链接:https://scrapy.org/community/

    简介

    • Grab 是一种用于构建爬虫的 Python 框架。

    • 使用 Grab 可构建出各种复杂度的 Web 爬虫,从只有五行代码的脚本,到可处理百万量级 Web 页面的复杂异步爬虫。

    • Grab 提供了执行网络请求、处理接收内容的 API。例如,实现与 HTML 文档的 DOM 树进行交互。

    特性

    • 支持 HTTP 和 SOCKS 代理,可使用也可不使用认证。

    • 自动字符集检测。

    • 强大的 API,支持使用 XPath 查询从 HTML 文档的 DOM 树中抽取数据。

    • 自动 Cookie(或会话)支持。

    • 官方文档:https://grablib.org/en/latest/

    • 官方网站: https://github.com/lorien/grab

    Java 编写的开源 Web 爬虫10. Apache Nutch

    • 实现语言: Java

    • GitHub 星标数: 1743

    • 官方支持链接:https://wiki.apache.org/nutch/HelpContents

    简介

    • Apache Nutch 是一种高度可扩展、可伸缩的开源 Web 爬虫软件项目。

    • 如果要列出最好的开源 Web 爬虫列表,Apache Nutch 无疑金榜题名。

    • 作为一种用于数据挖掘的高度可扩展、可伸缩的开源代码 Web 数据抽取软件项目,Apache Nutch 得到了广泛的使用。

    • Nutch 支持单机运行,但是在 Hadoop 集群上运行可最大化地发挥其强大能力。

    • 全球范围内很多数据分析人员和科研人员、应用开发人员和 Web 文本挖掘工程师都在使用 Apache Nutch。

    • Apache Nutch 是一种 Java 编写的跨平台解决方案。

    特性:

    • 默认情况下,爬取数据和分析数据是独立的过程。广泛支持多种文档格式,包括纯文本、HTML/XHTML+XML、XML、PDF、ZIP 等。使用 XPath 和命名空间实现映射。通过 Hadoop 支持分布式文件系统。链接图形式的数据库。支持 NTLM 认证。

    • 官方文档: https://wiki.apache.org/nutch/

    • 官方网站: http://nutch.apache.org/

    11. Heritrix

    • 实现语言: JavaGitHub

    • 星标数: 1236

    • 官方支持链接:https://github.com/internetarchive/heritrix3/issues

    简介:

    在使用 Java 编写的免费开源 Web 爬虫中,Heritrix 是其中一种得到广泛使用的工具。事实上,它是一种可扩展、Web 规模、存档质量(archival-quality)的 Web 爬取项目。Heritrix 是一种扩展能力和性能很好的解决方案,支持用户即刻爬取并归档一组网站。此外,它在设计上考虑了 robots.txt 禁止规则和 META 机器人标签。Heritrix 可运行在 Linux/Unix 和 Windows 系统上。

    特性:

    • HTTP 认证。NTLM 认证。链接抽取中的 XSL 转换。独立于搜索引擎。是一种成熟并稳定的平台。高度可配置。支持在任一机器上运行。

    • 官方文档: https://github.com/internetarchive/heritrix3/wiki/Heritrix%203.0%20and%203.1%20User%20Guide

    • 官方网站: https://github.com/internetarchive/heritrix3b

    12. ACHE 爬虫

    • 实现语言: JavaGitHub

    • 星标数: 154

    • 官方支持链接:https://gitter.im/ViDA-NYU/ache

    简介:

    ACHE 是一种专用于特定用途的 Web 爬虫。ACHE 爬取满足特定标准的 Web 页面。例如,属于特定领域并包含用户指定模式的页面。不同于通用爬虫,ACHE 使用页面分类器遴选特定领域中的相关和无关页面。页面分类器可以是基本的正则表达式(例如,匹配所有包含给定单词的页面),也可以基于机器学习的分类模型。ACHE 也可以自动学习如何对链接做优先处理,实现高效地定位相关内容,避免检索无关的页面内容。

    特性:

    • 对固定网站列表的正常爬取。通过自动链接优先处理,发现并爬取新的相关网站。可配置不同类型的页面分类器(例如,机器学习、正则表达式等)。持续重新爬取站点,实现页面更新的发现。使用 ElasticSearch 对爬取页面做索引。实时搜索爬取页面的 Web 接口。用于监控爬虫的 REST API 和基于 Web 的用户接口。使用 TOR 代理爬取隐含服务。

    • 官方文档: http://ache.readthedocs.io/en/latest/

    • 官方网站: https://github.com/ViDA-NYU/ache

    13. Crawler4j

    • 实现语言: JavaGitHub

    • 星标数: 3039

    • 官方支持链接:https://github.com/yasserg/crawler4j/issues

    简介:

    • crawler4j 是一种 Java 编写的开源 Web 爬虫,提供了爬取 Web 网站的基本接口。开发人员可以使用 crawler4j 在数分钟内建立一个多线程 Web 爬虫。

    • 官方文档: https://github.com/yasserg/crawler4j

    • 官方网站: https://github.com/yasserg/crawler4j

    14. Gecco

    • 实现语言: JavaGitHub

    • 星标数: 1245

    • 官方支持链接:https://github.com/xtuhcy/gecco/issues

    简介:

    Gecco 是一种使用 Java 开发的轻量级 Web 爬虫,易于使用。Gecco 集成了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架。用户只需要配置一系列 jQuery 风格选择器,就能很快地建立一个爬虫。Gecco 框架具有优秀的扩展能力。框架基于一些开放式和封闭式设计原则,对改进封闭,对扩展开放。

    特性:

    • 易于使用,使用 jQuery 风格选择器抽取元素。支持页面中的异步 Ajax 请求。支持页面 JavaScript 变量抽取。使用 Redis 实现分布式爬取(参见 gecco-redis 文档)。支持使用 Spring 开发业务逻辑(参见 gecco-spring 文档)。支持 htmlunit 扩展(参见 gecco-htmlunit 文档)。支持多种扩展机制。支持下载 UserAgent 的随机选择。支持下载代理服务器的随机选取。

    • 官方文档: https://github.com/xtuhcy/gecco

    • 官方网站: https://github.com/xtuhcy/gecco

    15. BUbiNG

    • 实现语言: JavaGitHub

    • 星标数:24

    • 官方支持链接:https://github.com/LAW-Unimi/BUbiNG/issues

    简介:

    BUbiNG 令人惊喜,它可称为下一代的开源 Web 爬虫。BUbiNG 是一种 Java 开发的完全分布式爬虫(无需中央协调),每秒可爬取数千个网页,并支持采集大规模数据集。BUbiNG 的分布式是基于高速协议实现的,因此可以获得非常高的通量。BUbiNG 提供对海量数据的大规模爬取。它完全可配置、易于扩展,并可集成垃圾信息检测。

    特性:

    • 高度并行。完全分布式。使用 JAI4J。JAI4J 是一种基于 JGroups 实现的瘦功能层,实现任务指派。(当前)使用剥离网页的指纹,检测近似的重复内容。快速。大规模爬取。

    • 官方文档: http://law.di.unimi.it/software/bubing-docs/index.html

    • 官方网站: http://law.di.unimi.it/software.php#bubing

    16. Narconex

    • 实现语言:Java

    • 官方支持链接:https://github.com/norconex/collector-http/issues

    简介:

    对于寻求可满足企业级需求的开源 Web 爬虫的用户而言,Narconex 是一种很好的工具。Norconex 支持用户爬取任何 Web 内容。用户可以独立运行这种全功能数据采集器,或是将其集成在自己的应用中。支持所有操作系统。可在具有一般容量的单体服务器上爬取数百万信息。此外,Narconex 提供多种内容和元数据操作特性,还可以抽取页面中特定的图像。

    特性:

    • 多线程。支持按各种计划任务,抽取不同时间段的数据。从 HTML、Word、PDF 等多种文件格式中抽取文本内容。抽取文档相关的元数据。支持抽取使用用 JavaScript 渲染的页面。检测语言。支持翻译。可配置爬取速度。可检测发生修改或已被删除的文档。支持使用外部命令分析或操作文档。

    • 官方文档: http://www.norconex.com/collectors/collector-http/getting-started

    • 官方网站: http://www.norconex.com/collectors/collector-http/

    17. WebSPHINX

    • 实现语言: Java

    • 当前尚不提供官方支持。

    简介:

    WebSphinix 是一种非常易于使用的可定制 Web 爬虫。它设计用于高级 Web 用户和 Java 编程人员,支持他们自动爬取小部分 Web。WebSphinix 数据抽取解决方案也提供了一种全面的 Java 类库和交互式软件开发环境。WebSphinix 包括两部分:爬虫基准测试(Crawler Workbench),WebSPHINX 类库。爬虫基准测试提供了很好的用户图形接口,支持用户配置并控制定制的 Web 爬虫。WebSPHINX 类库为使用 Java 编写 Web 爬虫提供支持。WebSphinix 支持运行在 Windows、Linux、Mac 和 Android IOS 上。

    特性:

    • 以图的方式可视化 Web 页面采集。将多个页面组合为单个文档,以供查看和打印。支持抽取所有满足设定模式的文本。支持 HTML 解析。支持 robot.txt 禁止标准。通用 HTML 转换。多线程 Web 页面检索。

    • 官方文档: https://www.cs.cmu.edu/~rcm/websphinx/doc/index.html

    • 官方网站: https://www.cs.cmu.edu/~rcm/websphinx/#about

    18. Spiderman

    • 实现语言: JavaGitHub

    • 星标数: 2400

    • 官方支持链接:https://gitee.com/l-weiwei/spiderman/issues

    简介:

    Spiderman 是一种 Java 开源 Web 数据抽取工具。它采集特定的 Web 页面,并从中抽取有用数据。Spiderman 主要使用 XPath 和正则表达式等技术抽取实际数据。

    特性:

    • 更高的性能。持久化集合状态。分布式。支持 JavaScript。

    • 官方文档: https://gitee.com/l-weiwei/spiderman

    • 官方网站: https://gitee.com/l-weiwei/spiderman

    19. WebCollector :

    • 实现语言: JavaGitHub

    • 星标数: 1986

    • 官方支持链接:https://github.com/CrawlScript/WebCollector/issues

    简介:

    WebCollector 是一种基于 Java 的开源 Web 爬虫框架。它为实现 Web 爬取功能提供了一下基本的接口。用户可以使用它在五分钟内建立起一个多线程爬虫。

    特性:

    • 快速。

    • 官方文档: https://github.com/CrawlScript/WebCollector

    • 官方网站: https://github.com/CrawlScript/WebCollector

    20. Webmagic

    • 实现语言: JavaGitHub

    • 星标数: 6891

    • 官方支持链接:https://groups.google.com/forum/#!forum/webmagic-java

    简介:

    WebMagic 是一种可扩展的爬虫框架。WebMagic 涵盖了爬虫的整个生命周期,包括下载、URL 管理、内容抽取和持久化。可用于简化一些特定爬虫的开发。

    特性:

    • 高度灵活的简单内核。提供实现 HTML 抽取的简单 API。使用 POJO 标注定制爬虫,无需配置。支持多线程和分布式。易于集成。

    • 官方文档: http://webmagic.io/docs/en/

    • 官方网站: https://github.com/code4craft/webmagic

    21. StormCrawler

    • 实现语言: JavaGitHub

    • 星标数:437

    • 官方支持链接:https://stackoverflow.com/questions/tagged/stormcrawler

    简介:

    StormCrawler 是一种基于 Apache Storm 构架分布式 Web 爬虫的开源 SDK。StormCrawler 为开发人员构建爬虫提供了软件库和一系列资源。StormCrawler 完全适用于以数据流提供需获取和解析的 URL 的情况,也非常适用于大规模递归性爬取,尤其是需要低延迟的情况。

    特性:

    • 可扩展。有弹性。低延迟。易于扩展。运行良好且高效。

    • 官方文档: http://stormcrawler.net/docs/api/

    • 官方网站: http://stormcrawler.net/

    JavaScript 编写的开源 Web 爬虫22. NodeCrawler

    • 实现语言: JavaScriptGitHub

    • 星标数: 3999

    • 官方支持链接:https://gitter.im/node-crawler/discuss?utm_source=badge

    简介:

    NodeCrawler 是一种广为使用的 Web 爬虫,它基于 NodeJS 实现,具有非常快的爬取速度。Nodecrawler 非常适用于偏爱使用 JavaScript 编程或者致力于 JavaScript 项目的开发人员。其安装也非常简单。JSDOM 和 Cheerio(用于 HTML 解析)实现服务器端渲染。其中,JSDOM 更为稳定。

    特性:

    • 使用 Cheerio(默认)或 JSDOM 实现服务端 DOM 和自动 jQuery 插入。可配置池子规模和重试次数。控制爬取率限制。请求的优先队列。支持 forceUTF8 模式,使得爬虫可以检测并转换字符集。与 4.x 乃至更新版本兼容。

    • 官方文档:https://github.com/bda-research/node-crawler

    • 官方网站:http://nodecrawler.org/

    23. Simplecrawler

    • 实现语言: JavaScriptGitHub

    • 星标数:1764

    • 官方支持链接:https://github.com/simplecrawler/simplecrawler/issues

    简介:

    Simplecrawler 设计提供基本的、灵活且稳定的网站爬取 API。Simplecrawler 在实现上考虑了针对特大型 Web 站点的归档、分析和搜索。它可爬取上百万页面,并毫无问题地向磁盘写入数十 GB 数据。

    特性:

    • 提供了用于自动检测链接资源的一些简单逻辑,用户可自行替换和添加。自动请求任何 robots.txt 禁止规则。具有灵活的队列系统,可在磁盘上冻结和解冻。

    • 官方文档: https://github.com/simplecrawler/simplecrawler

    • 官方网站: https://www.npmjs.com/package/simplecrawler

    24. Js-crawler :

    • 实现语言: JavaScriptGitHub

    • 星标数: 167

    • 官方支持链接:https://github.com/antivanov/js-crawler/issues

    简介:

    • 使用 NodeJS 实现的 Web 爬虫,支持 HTTP 和 HTTPS

    • 官方文档: https://github.com/antivanov/js-crawler

    • 官方网站: https://github.com/antivanov/js-crawler

    25. Webster

    • 实现语言: JavaScriptGitHub

    • 星标数: 201

    • 官方支持链接:https://github.com/zhuyingda/webster/issues

    简介:

    • Webster 是一种使用 NodeJS 编写的可靠 Web 爬取和采集框架,用于爬取 Web 站点并从页面中抽取结构化数据。与其他爬取框架的不同之处在于,Webster 可以抓取浏览器客户端的 JavaScript 和 Ajax 请求呈现的内容。

    • 官方文档: http://webster.zhuyingda.com/

    • 官方网站: https://github.com/zhuyingda/webster

    26. Node-osmosis

    • 实现语言:JavaScriptGitHub

    • 星标数: 3630

    • 官方支持链接:https://github.com/rchipka/node-osmosis/issues

    简介:

    一种使用 NodeJS 实现的 HTML/XML 解析器和 Web 爬虫。

    特性:

    • 使用原生 libxml 的 C 绑定。干净的 Promise 类接口。支持 CSS 3.0 和 XPath 1.0 选择器的混合。Sizzle 选择器、Slick 选择器以及更多。不具有像 jQuery、cheerio 或 jsdom 那样的大型依赖。构成深度和复杂的数据结构。

    • HTML 解析器特性:快速解析;高速搜索;内存占用小。

    • HTML DOM 特性:加载和搜索 ajax 内容;DOM 交互和事件;执行嵌入和远程脚本;在 DOM 中执行代码。

    • HTTP 请求特性:日志记录 URL,重定向和错误;Cookie 的 jar 包,以及自定义 Cookie/ 头部 / 用户代理;登录 / 表单提交、会话 Cookie,基本的认证;单代理、多代理,处理代理失败情况;限制重试和重定向。

    • 官方文档: https://rchipka.github.io/node-osmosis/global.html

    • 官方网站: https://www.npmjs.com/package/osmosis

    27. Supercrawler

    • 实现语言:JavaScriptGitHub

    • 星标数: 4341

    • 官方支持链接:https://github.com/brendonboshell/supercrawler/issues

    简介:

    Supercrawler 是一种使用 NodeJS 实现的 Web 爬虫,在设计上支持高度可配置和易用性。一旦成功爬取一个网页(可以是图像、文本文档或其他任何文件),Supercrawler 将会触发用户自定义的内容类型(content-type)处理器,处理页面解析、保存数据以及其它一些用户定义的功能。

    特性:

    • 链接检测:Supercrawler 会解析所爬取的 HTML 文档,识别其中链接并添加到队列中。

    • 机器人解析:在爬取前 Supercrawler 会请求 robots.txt 并检查其中的禁止规则。它也可识别站点地图。

    • 站点地图解析:Supercrawler 可以从 XML 站点地图文件中读取链接,并将链接添加到队列中。

    • 并发限制:Supercrawler 可限制在任一时间发出的请求数。

    • 速率限制:Supercrawler 可添加请求的时延,以免对服务器产生轰炸。

    • 指数补偿(Exponential backoff)重试:Supercrawler 将依此在一小时、两小时、四小时乃至更多时间后重试请求。要使用该特性,爬取队列必须使用数据库或 Redis 作为后端。

    • 主机名均衡:Supercrawler 可在不同主机名间平均分割请求量。要使用该特性,爬取队列必须以 Redis 为后端。

    • 官方文档: https://github.com/brendonboshell/supercrawler

    • 官方网站: https://github.com/brendonboshell/supercrawler

    28. Web scraper 的 Chrome 扩展

    • 实现语言:JavaScriptGitHub

    • 星标数: 775

    • 官方支持链接:https://forum.webscraper.io/

    简介:

    Web Scraper 是一种 Chrome 浏览器扩展,构建用于从 Web 页面抽取数据。用户可以使用该扩展创建计划(站点地图),定义如何遍历一个 Web 网站,以及如何从中抽取数据。Web Scraper 使用站点地图相应地遍历网站,并从中抽取数据。支持以 CSV 格式导出所抽取的数据。

    特性:

    • 抽取多个页面。

    • 站点地图和抽取的数据存储在浏览器的本地存储,也可存储在 CouchDB 中。

    • 多种数据类型选取。

    • 支持从动态网页(JavaScript+AJAX)抽取数据。

    • 浏览抽取的数据。

    • 以 CSV 格式导出抽取的数据。

    • 导入、导出站点地图。

    • 只依赖于 Chrome 浏览器。

    • 官方文档: https://www.webscraper.io/documentation

    • 官方网站: https://www.webscraper.io

    29. Headless Chrome 爬虫

    • 实现语言:JavaScriptGitHub

    • 星标数: 3256

    • 官方支持链接:https://github.com/yujiosaka/headless-chrome-crawler/issues

    简介:

    使用基本 HTML 文件请求的爬虫,通常速度很快。但这样的爬虫往往会抽取到空白内容,尤其是在爬取使用 AngularJS、React 和 Vue.js 等现代前端框架构建的网站时。

    特性:

    • 分布式爬取。

    • 可配置并发、延迟和重试。

    • 支持深度优先搜索和广度优先搜索算法。

    • 支持插拔缓存存储,例如 Redis。

    • 支持导出 CSV 和 JSON。

    • 在达到最大请求时暂停爬取,并可在任一时刻恢复。

    • 自动插入用于抽取的 jQuery。

    • 保存屏幕截图,用于证实爬取过程。

    • 模拟设备和用户代理。

    • 具有优先队列,可提高爬取效率。

    • 官方文档: https://github.com/yujiosaka/headless-chrome-crawler/blob/master/docs/API.md

    • 官方网站: https://github.com/yujiosaka/headless-chrome-crawler

    30. X-ray

    • 实现语言:JavaScriptGitHub

    • 星标数: 4464

    • 官方支持链接:https://github.com/matthewmueller/x-ray/issues

    特性:

    • 模式灵活:支持字符串、数组、对象以及嵌套对象结构。

    • 模式并非绑定于所抽取的页面结构,支持用户获取选定结构中的数据。

    • 可组合(Composable):API 是完全可组合的,赋予用户抽取每个页面的极大灵活性。

    • 分页支持:爬取页面在 Web 站点上的所有分页。

    • X-ray 还支持请求延迟和分页限制,并支持将爬取页面导入到单个文件中。这样一旦单个页面产生错误,用户不会失去所有已爬取的数据。

    • 爬虫支持:从一个页面开始,轻易跳转另一个页面。页面跳转是可预测的,按深度优先爬取所有页面。

    • 负责任的爬取:X-ray 支持并发、限制、延迟、超时和限制,实现负责任地爬取任何页面。

    • 可插拔驱动:可按用户需求置换不同的爬虫。

    • 官方文档: https://github.com/matthewmueller/x-ray

    • 官方网站: https://www.npmjs.com/package/x-ray-scrape

    需要相关资料的可以通过扫一下领取python资料

     

    展开全文
  • 八爪鱼爬虫软件

    千次阅读 2019-03-11 21:07:37
    前市面上常见的爬虫软件一般可以划分为云爬虫和采集器两种: 所谓云爬虫就是无需下载安装软件,直接在网页上创建爬虫并在网站服务器运行,享用网站提供的带宽和24小时服务; 采集器一般就是要下载安装在本机,然后...

    前市面上常见的爬虫软件一般可以划分为云爬虫和采集器两种:

    所谓云爬虫就是无需下载安装软件,直接在网页上创建爬虫并在网站服务器运行,享用网站提供的带宽和24小时服务;

    采集器一般就是要下载安装在本机,然后在本机创建爬虫,使用的是自己的带宽,受限于自己的电脑是否关机。

    当然,以上不包括自己开发的爬虫工具和爬虫框架之类的。

     

    神箭手云爬虫

    简介:神箭手云是一个大数据应用开发平台,为开发者提供成套的数据采集、数据分析和机器学习开发工具,为企业提供专业化的数据抓取、数据实时监控和数据分析服务。 

    优点:功能强大,涉及云爬虫、API、机器学习、数据清洗、数据出售、数据订制和私有化部署等;

             纯云端运行,跨系统操作无压力,隐私保护,可隐藏用户IP。

             提供云爬虫市场,零基础使用者可直接调用开发好的爬虫,开发者基于官方的云端开发环境开发并上传出售自己的爬虫程序;         

             领先的反爬技术,例如直接接入代理IP和自动登录验证码识别等,全程自动化无需人工参与; 

             丰富的发布接口,采集结果以丰富表格化形式展现; 

    缺点:它的优点同时也在一定程度上成了它的缺点,因为它是一个面向开发者的爬虫开发系统,提供了丰富的开发功能,网站看起来非常的偏技术非常专业,尽管官方也提供了云爬虫市场这样的现成爬虫产品,并且开放给广大爬虫开发者,从而让爬虫市场的内容更加丰富,但是对于零技术基础的用户而言并不是那么容易理解,所以有一定的使用门槛。

    是否免费:免费用户无采集功能和导出限制,无需积分。

    具备开发能力的用户可以自行开发爬虫,达到免费效果,没有开发能力的用户需要从爬虫市场寻找是否有免费的爬虫。

     

    火车头采集器:

    简介:火车采集器是一款网页数据抓取、处理、分析,挖掘软件。可以灵活迅速地抓取网页上散乱分布的信息,并通过强大的处理功能准确挖掘出所需数据。

    优点:国内老牌的采集器,经过多年的积累,具有丰富的采集功能;

             采集速度比较快,接口比较齐全,支持PHP和C#插件扩展;

             支持多种数据格式导出,可以进行数据替换等处理。

    缺点:越是年头长的产品越容易陷入自己的固有经验中,火车头也难以摆脱这问题。

             虽说功能丰富,但是功能都堆砌在那里,用户体验不好,让人不知道从何下手;

             学会了的人会觉得功能强大,但是对于新手而言有一定使用门槛,不学习一段时间很难上手,零基础上手基本不可能。

             只支持Windows版本,不支持其他操作系统;

    是否免费:号称免费,但是实际上免费功能限制很多,只能导出单个txt或html文件,基本上可以说是不免费的。

     

    后羿采集器:

    简介:后羿采集器是由前谷歌搜索技术团队基于人工智能技术研发的新一代网页采集软件,该软件功能强大,操作极其简单。

    优点:支持智能采集模式,输入网址就能智能识别采集对象,无需配置采集规则,操作非常简单;

             支持流程图模式,可视化操作流程,能够通过简单的操作生成各种复杂的采集规则;

             支持防屏蔽措施,例如代理IP切换等;

             支持多种数据格式导出;

             支持定时采集和自动化发布,发布接口丰富;

             支持Windows、Mac和Linux版本。

    缺点:软件推出时间不长,部分功能还在继续完善,暂不支持云采集功能

    是否免费:完全免费,采集数据和手动导出采集结果都没有任何限制,不需要积分。

     

     

    八爪鱼采集器

    简介:八爪鱼采集器是一款可视化采集器,内置采集模板,支持各种网页数据采集。

    优点:支持自定义模式,可视化采集操作,容易上手;

             支持简易采集模式,提供官方采集模板,支持云采集操作;

             支持防屏蔽措施,例如代理IP切换和验证码服务;

             支持多种数据格式导出。

    缺点:功能使用门槛较高,本地采集时很多功能受限,而云采集收费较高;

             采集速度较慢,很多操作都要卡一下,云端采集说10倍提速但是并不明显;

             只支持Windows版本,不支持其他操作系统。

    是否免费:号称免费,但是实际上导出数据需要积分,可以做任务攒积分,但是正常情况下基本都需要购买积分。

    1、主页分为简易采集和自定义采集

    2、使用简易采集

    3、选择中国知网进行信息采集

     

    4、输入查询的词条

    5、运行任务,启用本地采集

    6、信息采集中

    7、信息采集完成,按照自己的需求进行信息的处理

    8、信息采集完成的词条显示

     

    展开全文
  • 爬虫软件的使用

    2019-03-11 20:51:38
    一、软件的下载安装 二、软件界面介绍 三、软件的使用截图 效果截图一 效果截图二 四、爬虫软件的意义
  • 这里介绍2个不错的爬虫软件—Excel和八爪鱼,对于规整的静态网页来说,使用Excel就可以爬取,稍微复杂一些的网页,可以使用八爪鱼来爬取,下面我简单介绍一下这2个软件,主要内容如下:ExcelExcel大部分人都应该使用...
  • 本篇博主将和大家分享几个非常有用的爬虫小工具,这些小工具在实际的爬虫的开发中会大大减少你的时间成本,并同时提高你的工作效率,真的是非常实用的工具。这些工具其实是Google上的插件,一些扩展程序,并且经博主...
  • java实现爬虫软件

    2018-01-19 00:19:23
    好了废话不多说开始教程: 一、首先开始理思路 (一)、爬虫软件其实就是一个把网页下载下来的然后从里面挑选出我们想要的元素 所有技术的关键就是: 1、把网页缓存到内存 2、从里面挑出我们想要的内容 3...
  • 纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo...
  • Python制作一款爬虫软件,爬取公众号文章,爬虫之路,永无止境
  • 开源的爬虫软件Heritrix3.1.0,文件为可用的源代码,供下载,经测试,可用。
  • 爬虫软件后羿的使用

    千次阅读 2019-03-16 19:52:06
    首先在网站上下载并且安装好爬虫软件(以后羿为例) 在加载页面中选择两种模式中的任何一种(选择点击2智能模式下的开始采集)进入下一界面 选择手动输入,再将目的网址输入网址预览,再点击立即创建进入下一界面 ...
  • 国内外几款爬虫软件对比

    千次阅读 2019-09-18 17:26:18
    为了提高效率,我尝试用了国内外几款数据采集软件。以下是这几款软件的说明和我使用的心得体会。 国外数据采集软件 DIFFBOT 使用DIFFBOT 采集网络数据不需要编写规则,全程可视化操作,简单...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 71,584
精华内容 28,633
关键字:

爬虫软件

友情链接: 出租车.rar