精华内容
下载资源
问答
  • 常用的网络爬虫工具
    万次阅读 多人点赞
    2018-10-12 14:03:34

    按照网络爬虫的的思路:

    页面下载
    页面解析
    数据存储

    将工具按照以上分类说明,按照学习路线顺序给出参考文章

    一、页面下载器

    1. requests(必学)

      1. python爬虫入门requests模块
      2. Python爬虫:requests库基本使用
      3. Python爬虫:使用requests库下载大文件
      4. Python爬虫:requests多进程爬取猫眼电影榜单
      5. requests InsecureRequestWarning: Unverified HTTPS request is being made.
    2. scrapy

      1. Python网络爬虫之scrapy框架
      2. scrapy学习
      3. Python爬虫:关于scrapy模块的请求头
      4. Python爬虫:scrapy框架请求参数meta、headers、cookies一探究竟
      5. Python爬虫:scrapy辅助功能实用函数
    3. selenium+chrome + PhantomJS(抓取动态网页,不推荐)

      1. mac下安装selenium+phantomjs+chromedriver
      2. Python爬虫:selenium模块基本使用
      3. Python爬虫selenium模块
      4. Python爬虫:selenium和Chrome无头浏览器抓取烯牛数据动态网页
      5. Python爬虫:利用selenium爬取淘宝商品信息
      6. Python爬虫:selenium使用chrome和PhantomJS实用参数
    4. Splash(抓取动态网页,推荐)

      1. Python爬虫:splash的安装与简单示例
      2. Python爬虫:splash+requests简单示例
      3. Python爬虫:scrapy利用splash爬取动态网页

    总结:
    对于下载器而言,python自带的urllib就不要花时间去学了,学了就忘,直接requests能满足大部分测试+抓取需求,进阶工程化scrapy,动态网页优先找API接口,如果有简单加密就破解,实在困难就使用splash渲染

    二、页面解析器

    1. BeautifulSoup(入门级)

      1. Python爬虫入门BeautifulSoup模块
    2. pyquery (类似jQuery)

      1. Python爬虫:pyquery模块解析网页
    3. lxml

      1. Python爬虫:使用lxml解析网页内容
    4. parsel

      1. Extract text using CSS or XPath selectors
    5. scrapy的Selector (强烈推荐, 比较高级的封装,基于parsel)

      1. 选择器(Selectors)
      2. python爬虫:scrapy框架xpath和css选择器语法

    总结:
    其实解析器学习一个就够了,其他都不用学,很多培训会教你从上到下的学习,我不是很推荐,直接学习scrapy的Selector 就行,简单、直接、高效

    三、数据存储

    1. txt文本
      1. Python全栈之路:文件file常用操作
    2. csv文件
      1. python读取写入csv文件
    3. sqlite3 (python自带)
      1. Python编程:使用数据库sqlite3
    4. MySQL
      1. SQL:pymysql模块读写mysql数据
    5. MongoDB
      1. Python编程:mongodb的基本增删改查操作

    总结:
    数据存储没有什么可深究的,按照业务需求来就行,一般快速测试使用MongoDB,业务使用MySQL

    四、其他工具

    1. execjs :执行js
      Python爬虫:execjs在python中运行javascript代码

    2. pyv8: 执行js
      mac安装pyv8模块-JavaScript翻译成python

    3. html5lib
      1. Python爬虫:scrapy利用html5lib解析不规范的html文本

    五、关于xpath练习

    本人的一个开源项目:PageParser
    https://github.com/mouday/PageParser
    用于解析网页,最终实现6行代码写爬虫,可以贡献代码,顺便练习网页解析的能力

    更多相关内容
  • 网络爬虫常用工具

    2018-08-08 17:05:54
    本压缩包包含:chromedriver、mysql-font、phantomjs、redis、redis-desktop、robo3等网络爬虫常用的文件,以上文件均来自官网下载,避免了其他人使用时下载缓慢的问题
  • 网络爬虫工具

    2019-01-17 16:33:15
    大数据爬虫工具
  • 数据爬取_网络爬虫工具_GooSeeker网络爬虫_免费数据爬虫.7z
  • 2022网络爬虫域名采集工具软件_速度极快.zip,SkinH_EL.dll,多引擎网址采集器工具.exe,导入关键词乱码全是 ?号的看这里.png,软件截图.jpg,演示关键词.txt,gzip.dll
  • 用来抓取网站上,我们需要的文本信息。使用该工具,需要会简单的正则表达式和Xpath。
  • python网络爬虫工具库集合

    千次阅读 2022-03-21 09:40:58
    这个库可谓是一个极大的宝藏,囊括了有关技术的几乎所有领域的资料、工具和库,比如平台、编程语言、前端开发、后端开发、大数据、数据科学、数据库、安全、硬件、DevOps 等等等,几乎想到的全都有。 就拿 Platform...

    经常逛 GitHub 的同学可能会听说过大名鼎鼎的 awesome 仓库,没错,就是这个:https://github.com/sindresorhus/awesome。

     

    这个库可谓是一个极大的宝藏,囊括了有关技术的几乎所有领域的资料、工具和库,比如平台、编程语言、前端开发、后端开发、大数据、数据科学、数据库、安全、硬件、DevOps 等等等,几乎想到的全都有。

    就拿 Platform 这个平台这个分支来讲吧,里面又有进一步的细分,比如 iOS、Android、Linux、macOS、JVM 等等,然后每一个又是一个新的以 awesome 开头的仓库,比如:

    • awesome-linux:https://github.com/inputsh/awesome-linux

    • awesome-android:https://github.com/JStumpp/awesome-android

    • awesome-macOS:https://github.com/iCHAIT/awesome-macOS

    是的,每一个子仓库里面都收集了关于这个领域的几乎所有的资料、工具、库等等。

    也就是说,awesome (https://github.com/sindresorhus/awesome)这个库是根,然后衍生出来了各个领域和方向的 awesome 子仓库来收集对应领域的资料、工具库,由全世界的程序员一起维护和贡献。

    真的全是宝藏!

    有朋友这会就好奇了,有没有有关爬虫的 awesome 库呢?有!

    awesome-web-scraping

    就是这个:https://github.com/lorien/awesome-web-scraping

    这里面收集了有关网络爬虫的各种资料、工具库的列表,不仅仅是 Python,还有 Go、Ruby、JavaScript、PHP 等等,首页如下:

    另外还有一些爬虫商业服务、控制台工具、无头浏览器、验证码破解网站等等。

    比如我们看看 Python 的,里面就收集了各种请求库、解析库、数据处理库等等:

    这里就不一一放了,是不是又大又全?

    awesome-web-scraping 中文版

    是的,awesome 系列仓库还有更小的分支,那就是根据语言划分的分支,比如说中文版、日文版、俄文版等等,比如说 awesome-windows 上面就分了中文:https://github.com/Awesome-Windows/Awesome,

    其他的很多 awesome 仓库也有中文,比如:

    • awesome-anrdoid 中文:https://github.com/jobbole/awesome-android-cn

    • awesome-ios 中文:https://github.com/jobbole/awesome-ios-cn

     awesome-web-scraping 中文版本的仓库:https://github.com/Germey/AwesomeWebScraping。

    其实就是对原仓库进行了一次翻译,也是区分了各种语言,比如 Python、JavaScript 等各个语言的工具库全在这里面了!另外每个语言都有很多分类,像请求库、爬取框架、解析库、自然语言处理、消息队列等等,都在这里了:

    比如部分的内容大致如下:

    附上github:

    https://github.com/Germey/AwesomeWebScraping

    展开全文
  • Python Selenium 网络爬虫工具,解决滑块验证码
  • 1 爬虫基本概述2 1.1 爬虫是什么. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 爬虫可以做什么. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...
  • 本课题的主要目的是设计面向定向网站的网络爬虫程序,同时需要满足不同的性能要求,详细涉及到定向网络爬虫的各个细节与应用环节。 搜索引擎作为一个辅助人们检索信息的工具。但是,这些通用性搜索引擎也存在着一定...
  • 网络图片爬虫工具

    2015-08-28 09:48:48
    网络图片抓取小例子,用于学习使用,如要运用到项目中还需另行改造
  • 基于网络爬虫的Web安全扫描工具的研究,翟涵,罗守山,本文采用自适应窗口爬取策略,基于入口URL对Web网页进行爬取。在注入点的寻找上,设计了具有更强的通配性的URL匹配模式,有效的改进
  • 目前已经知道的各种网络爬虫工具已经有上百个,网络爬虫工具基本可以分为 3 类。 分布式网络爬虫工具,如 Nutch。 Java 网络爬虫工具,如 Crawler4j、WebMagic、WebCollector。 非 Java 网络爬虫工具,如
  • 公司编辑妹子需要爬取网页内容,叫我帮忙做了一简单的爬取工具 这是爬取网页内容,像是这对大家来说都是不难得,但是在这里有一些小改动,代码献上,大家参考 private string GetHttpWebRequest(string url) { ...
  • 第3讲-网络爬虫工具库(基础和工具)-I.html
  • 2、robots.txt:网络爬虫排除标准 3、BeautifulSoup框架:解析HTML页面 4、Re框架:正则框架,提取页面关键信息 5、Scrapy框架:网络爬虫原理介绍,专业爬虫框架介绍 理念:The Website is the API … Python语言常用...
  • 网络爬虫开发常用框架

    千次阅读 2021-08-17 08:44:19
    爬虫框架就是一些爬虫项目的半成品,可以将一些爬虫常用的功能写好,然后留一些接口,在不同的爬虫项目当中调用适合自己项目的接口,再编写少量的代码实现自己需要的功能。因为框架中已经实现了爬虫常用的功能,所以...

    爬虫框架就是一些爬虫项目的半成品,可以将一些爬虫常用的功能写好,然后留一些接口,在不同的爬虫项目当中调用适合自己项目的接口,再编写少量的代码实现自己需要的功能。因为框架中已经实现了爬虫常用的功能,所以为开发人员节省了很多精力与时间。

    1.Scrapy爬虫框架

    Scrapy框架是一套比较成熟的Python爬虫框架,简单轻巧,并且非常方便。可以高效率地爬取web页面并从页面中提取结构化的数据。Scrapy是一套开源的框架,所以在使用时不需要担心收取费用的问题。Scrapy的官网地址为https://scrapy.org,页面如下:

     另外Scrapy开发框架对开发者提供了开发文档,文档中详细地介绍了开源框架的安装以及Scrapy的使用教程。

    2.Crawley爬虫框架

    Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。Crawley的特性如下:

    【1】基于Eventlet构件的高速网络爬虫框架

    【2】可以将数据存储在关系数据库中,如Postgres、MySQL、Oracle、Sqlite。

    【3】可以将爬取的数据导入为Json、Xml格式。

    【4】支持非关系型数据库,如MongoDB和Couchdb

    【5】支持命令行工具

    【6】可以使用您喜欢的工具进行数据的提取,如Xpath或Pyquery工具

    【7】支持使用Cookie登录或访问那些只有登录才可以访问的网页。

    【8】简单易学

    Crawley的官网地址为http://project.crawley-cloud.com.

    3.PySpider爬虫框架

    相对于Scrapy框架而言,PySpider框架是一支新秀。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器、任务监视器、项目管理器以及结果查看器。PySpider的特性如下:

    【1】Python脚本控制,可以用任何您喜欢的HTML解析包(内置pyquery)

    【2】使用web界面编写调试脚本、起停脚本,监控执行状态,查看活动历史,获取结果产出。

    【3】支持MySQL、MongoDB、redis、SQLite、Elasticsearch、PostgreSQL与SQLAlchemy。

    【4】支持RabbitMQ、Beanstalk、Redis和Kombu作为消息队列。

    【5】支持抓取JavaScript的页面

    【6】强大的调度控制,支持超时重爬及优先级设置

    【7】组件可替换,支持单机/分布式部署,支持Docker部署。

    PySpider源码地址为https://github.com/binux/pyspider/releases.

    开发文档地址为:http://docs.pyspider.org/。

     

    展开全文
  • 网络爬虫开发工具

    2013-10-20 17:08:28
    网络蜘蛛(Web spider)也叫网络机器人,指的是“自动化浏览网络”的程式。这样的电脑程式是为了自动从网络撷取特定的资料
  • 在学习爬虫进阶路上少不了用到一些抓包工具,今天就给大家隆重推荐6款爬虫抓包神器。 聊一聊:爬虫抓包原理 爬虫的基本原理就是模拟客户端(可以是浏览器,也有可能是APP)向远程服务器发送 HTTP 请求,我们需要知道...

    在学习爬虫进阶路上少不了用到一些抓包工具,今天就给大家隆重推荐6款爬虫抓包神器。

    聊一聊:爬虫抓包原理

    爬虫的基本原理就是模拟客户端(可以是浏览器,也有可能是APP)向远程服务器发送 HTTP 请求,我们需要知道目标服务器的 HOST、URI、请求方法、请求参数、请求头、请求体。Web 网站通过 Chrome 浏览器可以找到这些信息。但是对于 APP 爬虫,就显得有些束手无策。这时候必须借用一些抓包工具来辅助我们分析APP背后的秘密。而抓包本质是引入多了一层中间人代理,如下图所示。

    在这里插入图片描述

    补充一个知识点,对于新手来说,需要区分抓包和爬虫是两个不同的概念:抓包是为了查看分析网络请求,是为了了解对方的过程。爬虫则是模拟网络请求,当了解对方后模拟请求获取数据的工具,两者相辅相成,先抓包分析,再程序模拟,就是爬虫的开发过程,以此来达到你爬虫的目的。

    抓包神器一:Fiddler

    Fiddler 是 Windows 平台最好用的可视化抓包工具,也是大家最熟知的 HTTP 代理工具,功能非常强大,除了可以清晰的了解每个请求与响应之外,还可以进行断点设置,修改请求数据、拦截响应内容。

    官网下载即可:

    https://www.telerik.com/fiddler

    在这里插入图片描述

    此外,还可以自定义规则,通过修改脚本,加入自己的特殊处理,不过因为它是 C# 编写的,如果你要写复杂的脚本,需要懂C#。

    过滤器功能使得你可以通过正则表达式规则将你关心的请求显示出来,如果你只需要抓特定网站的数据,这个功能就显得非常有用,可以去除很多干扰信息。

    在这里插入图片描述

    Fiddler 的左下角有个命令行工具叫做 QuickExec,允许你直接输入命令,如上图的命令行指示。

    常见的命令有:

    • help:打开官方的使用页面介绍,所有的命令都会列出来
    • cls:清屏
    • Select:选择会话的命令
    • ?.png:用来选择 png 后缀的图片
    • bpu:截获 request
    • @ Host 高亮所有该主机的会话,如 @http://www.cnblogs.com/
    • =:等于指定请求方法 或者 状态码高亮显示,例如输入:=502

    抓包神器二:Charles

    Charles 是一款支持跨平台的抓包工具,并且也是 macOS 平台下最好用的抓包分析工具之一,同样提供GUI界面,界面简洁,基本功能包括HTTP、HTTPS 请求抓包,支持请求参数的修改,最新的 Charles 4 还支持 HTTP/2。当然,也同时支持Windows 和 Linux, 不过这款工具是要收费的,免费试用 30 天,试用期过后功能受限。

    Charles当前最新版本为4.5.6,官网地址如下:

    https://www.charlesproxy.com

    在这里插入图片描述

    Charles 在线破解工具:

    https://www.zzzmode.com/mytools/charles/

    Charles也常用于一些简单的弱网模拟工具,打开Proxy->Throttle Settings,界面如下:

    图片

    PS:除此之外,模拟弱网的工具常见的还有:Fiddler、FaceBook工具ATC弱网模拟。

    抓包神器三:AnyProxy

    AnyProxy 是 阿里巴巴开源的 HTTP 抓包工具,基于 NodeJS 实现,优点是支持二次开发,可自定义请求处理逻辑,如果你会写JS的话,同时需要做一些自定义的处理,那么AnyProxy 是非常适合的。支持 HTTPS,提供了GUI界面。
    GitHub地址:

    https://github.com/alibaba/anyproxy

    https://mmbiz.qpic.cn/mmbiz_gif/rO1ibUkmNGMn3LSicAxfYjLora3TIibSxvJe3U9wvLdfAeXFOgM2zLpicE2xv4ibazwniaS6uE0MQBU2jJvH66Af79mg/640?tp=webp&wxfrom=5&wx_lazy=1

    常用特性:

    支持https明文代理

    支持低网速模拟

    支持二次开发,可以用javascript控制代理的全部流程,搭建前端个性化调试环境

    提供web版界面,观测请求情况

    anyproxy详细使用介绍:

    https://www.npmjs.com/package/anyproxy/v/3.10.2

    抓包神器四:mitmproxy

    它不仅是跨平台的,而且提供的是命令行交互模式,很有极(zhuang)客(bi)感,而且是由Python语言实现的,对于Pythoner来说,无疑是一大利好福利。mitmproxy主要包含了 3 款工具:

    mitmproxy: 带交互的终端界面

    mitmdump: mitmproxy 的命令行版本,类似于 tcpdump

    libmproxy: 用于 mitmproxy/mitmdump 的库

    GitHub 地址:https://github.com/mitmproxy/mitmproxy

    在这里插入图片描述

    mitmproxy官网:

    https://mitmproxy.org/

    mitmproxy文档介绍:

    https://docs.mitmproxy.org/stable/

    抓包神器五:Appium

    appium是一个自动化测试开源工具,支持iOS平台和Android平台上的原生应用,web应用和混合应用。它是一个跨平台的工具:它允许测试人员在不同的平台(iOS,Android)使用同一套API来写自动化测试脚本,这样大大增加了iOS和Android测试套件间代码的复用性
    在这里插入图片描述

    appium类库封装了标准Selenium客户端类库,实现了Mobile JSON Wire Protocol、W3C、WebDriver spec,同时也定义了官方协议的扩展,为appium用户提供了方便的接口来执行各种设备动作,支持多语言,多平台,Linux必须是桌面系统,使用的Client/Server的设计模式, 扩展了WebDriver协议,使得原操作仍然可用

    Appium工作原理:

    在这里插入图片描述

    Appium下载地址:

    https://github.com/appium/appium-desktop/releases/tag/v1.19.1

    抓包神器六:Packet Capture

    Packet Capture安装在手机的app,功能不多,作为辅助,它是一款免root的app,运行在安卓平台上,用于捕获http/https网络流量嗅探的应用程序。可以捕获网络数据包,并记录它们,使用中间人技术对SSL解密,无须root权限,这个软件使用了Android提供的VpnService api,实现了中间人攻击。

    Packet Capture下载地址:

    https://apk.co/d/packet-capture-172
    https://www.coolapk.com/apk/app.greyshirts.sslcapture

    在这里插入图片描述
    在这里插入图片描述

    展开全文
  • WinForm实现网络爬虫

    2017-10-12 16:31:57
    利用WinFrom实现网络爬虫,可以抓取任何网站的超链接以及图片。
  • 精通SCRAPY网络爬虫

    2019-02-20 10:01:12
    对于网络爬虫SCRAPY的详细描述,用于网络数据收集的工具
  • 网络爬虫工具

    2013-04-25 16:40:28
    public static void main(String[] args) throws Exception { List tiaoj = new ArrayList(); tiaoj.add("\""); ... for(int i =0;i();i++){ filedown.imgdown(list.get(i).toString(), "H://2013-4-25//");...
  • RCurl网络爬虫

    2021-01-07 10:34:09
    RCurl网络爬虫 RCurl这个程序包提供了由R到libcurl库的接口,从而实现HTTP的一些功能。例如,从服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等等。 curl&&libcurl curl:利用URL...
  • scrape 一个命令行网络爬虫工具
  • Python 网络爬虫常用库汇总

    千次阅读 2022-01-05 09:26:25
    Python 网络爬虫常用库汇总
  • Python网络爬虫开发需要的代码编辑器及其配置,Python网络爬虫代码运行环境, Python中常见的添加框架组件方法,HTTP抓包工具Fiddler的安装与配置。
  • 利用C#实现网络爬虫

    2020-12-26 06:45:04
    网络爬虫在信息检索与处理中有很大的作用,是收集网络信息的重要工具。 接下来就介绍一下爬虫的简单实现。 爬虫的工作流程如下 爬虫自指定的URL地址开始下载网络资源,直到该地址和所有子地址的指定资源都下载完毕...
  • 通过Java网络爬虫爬取指定代理ip网上的ip,利用了jsoup、httpclient技术实现

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 63,974
精华内容 25,589
热门标签
关键字:

常用的网络爬虫工具