精华内容
下载资源
问答
  • Web scraper

    2018-05-06 07:09:01
    Web Scraper官方文档中文版,感兴趣的人可以下载下来看看
  • 文章目录1、WebScraper是什么?2、下载与安装2.1、下载2.2、安装参考 1、WebScraper是什么? 爬取数据的工具,一个轻量的数据爬取利器。 优点是对新手友好,在不具备爬虫知识的情况下可快速入门,搭建自定义的爬虫...

    1、WebScraper是什么?

    • 爬取数据的工具,一个轻量的数据爬取利器。
      优点是对新手友好,在不具备爬虫知识的情况下可快速入门,搭建自定义的爬虫。
      0

    2、下载与安装

    • 它是一个Chrome插件,首先要下载Chrome浏览器;

    2.1、下载

    • www.gugeapps.net 搜索Web Scraper,下载插件到本地;
      1
      2
      3

    2.2、安装

    • 在Chrome浏览器中,输入网址处输入chrome://extensions/进入插件管理后台,并开启开发者模式;
      4
    • Windows用户
      将.crx后缀改为.rar,然后解压
      打开上述后台页面右上角的开发者模式,点击"加载已解压的扩展程序",将解压后的文件夹添加进来;
      5
      然后点击浏览器右上角,查看是否添加成功;
      6
      完成!
    • Mac用户
      将.crx改为.zip;
      然后将.zip文件拖进管理后台即可;

    参考

    [1] https://www.cnblogs.com/web-scraper/p/web_scraper_download.html
    [2] https://www.cnblogs.com/web-scraper/p/web-scraper-learn.html

    展开全文
  • Web Scraper爬虫

    2020-06-24 17:25:24
    打开chrome浏览器,地址栏内输入:chrome://extensions/,点击加载已解压的扩展程序,选择webscraper 加载完成后,在页面鼠标右击选择检查(或F12),可以看到Web Scraper选项 插件以及视频中sitemap下载地址:...

    前置准备

    chrome浏览器、Web Scraper-0.2.0.18

    一、插件安装

    打开chrome浏览器,地址栏内输入:chrome://extensions/,点击加载已解压的扩展程序,选择webscraper

    加载完成后,在页面鼠标右击选择检查(或F12),可以看到Web Scraper选项

    插件以及视频中sitemap下载地址:https://wwa.lanzous.com/b02b87nda,密码:5rjv

    二、数据爬取

    2.1 选取目标网址

    这里我以bilibili为例进行演示,我将会爬取python关键字相关的信息。网址:https://search.bilibili.com/all?keyword=python&from_source=nav_suggest_new

    进入开发者模式的Web Scraper选项栏中,准备开始爬取数据。

    2.2 新建一个Sitemap

    点击Create new sitemap,里面有两个选项:Import sitemap是指导入一个已有的sitemap,Create sitemap表示我们要新建一个sitemap。 这里大家可以用我已经测试好的来看下效果,也可以自己动手创建一个新的(爬其它数据),我给大家从新建开始演示。

    Sitemap name:给你要爬取的网页取个名字,需要使用英文字母,并且至少3个字符。比如我抓的是B站有关python的数据,那我就用bi-python-spider来命名。
    Start URL:把需要爬取的网页链接复制到这里。

    最后点击下方的Create Sitemap完成新建

    2.3 设置这个Sitemap

    点击 Add new selector 创建一级Selector

    设置好这个一级的Selector之后,点进去设置二级的Selector

    重复上面二级Selector的操作,直到选完你想爬的字段

    2.4 爬取数据

    点击Scrape,设置好请求时间间隔和页面加载延迟(默认即可),然后点Start scraping,弹出一个小窗后爬虫就会开始工作。你会得到一个列表,上面有你想要的所有数据。

    由于我们只是爬取了第一页的数据,所以很快我们就可以看到结果

    2.5 数据导出

    这里我们可以将爬取的数据以CSV格式导出,同样也可以将Sitemap导出供他人使用。

    三、其它

    有些时候我们需要爬取的数据往往会有分页,比如我们上面有关python的检索结果https://search.bilibili.com/all?keyword=python&from_source=nav_suggest_new&page=2,这里第二页是通过路径一个page参数来进行传递。在Web Scraper 中提供了一种写法,可以设置页码范围及递增步长。格式: [开始值-结束值:步长],举几个例子来说明一下:

    1、获取2-6页,步长为1的页面 :[2-6] 或者 [2-6:1]

    2、获取2-6页,步长为2的页面:[2-6:2]

    这里小编只是简单介绍总结了Web Scraper的插件的安装以及一个简单的单页面例子。其实Web Scraper的功能远远不止于此,它还能抓取分页、多页多元素的页面,还能抓取二级页面。需要大家自己慢慢摸索~~~

    展开全文
  • 此外,Web Scraper还为您提供了完全自动化Web Scraper Cloud中数据提取的功能。 抓取数据后,将其下载为CSV文件,然后可以将其进一步导入Excel,Google表格等。Web Scraper提供哪些功能? Web抓取工具是一个简单的...
  • 需求:获取指定关键字(母婴)下的公司信息(公司名称、地址、法人、联系方式)步骤:一、下载webscraper插件。通过Chrome浏览器的扩展程序发现发不开Chrome商店,此处提供一个百度云盘链接...

    需求:获取指定关键字(母婴)下的公司信息(公司名称、地址、法人、联系方式)

    步骤:

    一、下载webscraper插件。

    通过Chrome浏览器的扩展程序发现发不开Chrome商店,此处提供一个百度云盘链接(https://pan.baidu.com/s/1E0DCxzGvz4qkaLin_i8L9w),将文件下载到本地

    二、安装webscraper插件到Chrome浏览器。

    打开Chrome浏览器的扩展程序页面(chrome://extensions/),将本地的插件文件拖动到浏览器的插件页面,按照提示操作便可,出现下图说明成功:

    插件安装成功

    三、启动webscraper插件

    打开Chrome浏览器,按下F12(有的是Fn+F12),在导航中单击web scraper

    四、webscrapy工作原理

    参考:https://www.yuanrenxue.com/tricks/web-scraper-principle-1.html

    结构

    运行逻辑

    五、开始抓取天眼通数据

    1.最快的方式就是导入现成的sitemap文件,导入到webscraper中即可,此处我提供一个已经写好的(结构还是很清晰的),读者在使用时可按照自己的需要修改关键字和爬取的页数:

    {"selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"root","selector":"div.search-result-single","delay":"2000"},{"parentSelectors":["root"],"type":"SelectorLink","multiple":false,"id":"jump","selector":"a.name","delay":"800"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"company","selector":"h1.name","regex":"","delay":"300"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"phone","selector":"div.in-block:nth-of-type(1) span:nth-of-type(2)","regex":"","delay":"200"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"address","selector":"table.table.-striped-col tr:nth-of-type(9) td:nth-of-type(2)","regex":"","delay":"400"},{"parentSelectors":["root"],"type":"SelectorText","multiple":false,"id":"Contacts","selector":"a.legalPersonName","regex":"","delay":"400"},{"parentSelectors":["jump"],"type":"SelectorText","multiple":false,"id":"scale","selector":"table.table.-striped-col tr:nth-of-type(7) td:nthf-type(4)","regex":"","delay":"200"}],"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=银行&base=hefei","_id":"yinhang"}

    2.自己按照实际需要按照下面的基本步骤来创建

    步骤1 创建sitemap

    image.png

    image.png

    image.png

    image.png

    image.png

    以上只是最基本的操作,复杂的功能我目前用到了3个地方,在这里做下补充

    1.针对分页数据时,可以在访问的主入口中控制,比如我提供的现成sitemap中"startUrl":"https://www.tianyancha.com/search/p[1-5]?key=银行&base=hefei",这里面p[1-5]标识的是从第1到第5,间隔默认是1,那么webscraper就会依次访问1-5数字。

    2.涉及跳转新页面时,需要建立link,跳转的新页面不能另外打开,这里可以直接拷贝跳转页面的地址在当前页面打开,这样就可以继续在当前打开的webscraper中编写了。

    3.Delay时间建议都写,避免触发反爬虫

    4.webscraper使用的元素选择器是css selector。

    展开全文
  • web scraper 下载Web-Scraper_v0.2.0.10 使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬虫中的登陆、验证码、异步加载等复杂问题。 Web ...

    web scraper 下载:Web-Scraper_v0.2.0.10

    使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬虫中的登陆、验证码、异步加载等复杂问题。

    Web Scraper插件

    Web Scraper 官网中的简介:

    Web Scraper Extension (Free!)
    Using our extension you can create a plan (sitemap) how a web site should be traversed and what should be extracted. Using these sitemaps the Web Scraper will navigate the site accordingly and extract all data. Scraped data later can be exported as CSV.

    先看一下,我用 web scaper 爬取到的数据:

    1. 知乎轮子哥粉丝

    轮子哥有 54 万多粉丝,我只抓取了前 20 页400条记录

    设定数据字段

    2.简书七日热门数据

    运行爬虫得到数据

    导出数据

    Web Scraper 抓取流程及要点:

    安装Web Scraper插件后,三步完成爬取操作
    1、Create new sitemap(创建爬取项目)
    2、选取爬取网页中的内容,点~点~点,操作
    3、开启爬取,下载CSV数据

    其中最关键的是第二步,两个要点:

    1. 先选中数据块 Element,每块数据我们在页面上取,都是重复的,选中 Multiple
    2. 在数据块中再取需要的数据字段(上图Excel中的列)

    爬取大量数据的要点,在于掌握分页的控制。
    分页分为3种情况:

    1. URL 参数分页(比较规整方式)
      URL 中带有分页的 page 参数的,如:

      https://www.zhihu.com/people/excited-vczh/followers?page=2

      直接在创建sitemap时,Start URL中就可以带上分页参数,写成这样:

      https://www.zhihu.com/people/excited-vczh/followers?page=[1-27388]
    2. 滚动加载,点击“加载更多” 加载页面数据

    3. 点击分页数字标签(包括“下一页”标签)
      注意,这里第2-3种可以归为一类方式,是异步加载的方式,大部分都可以转为第1种的方式来处理。
      这种方式分页不太好控制。一般使用 Link 或 Element click 来实现分页的操作。

    图示 Web Scraper 操作步骤:

    第一步:创建sitemap

    第二步:选取块数据Element

    第三步:选取抓取的字段text

    第四步:爬取

    Web Scaper 使用体会:

    1) 除了规整的分页方式外,其他分页方式不好控制,不同的网站受页面标签不同,操作也不一样。

    2) 因为直接抓取页面显示值,抓取数据规整度不太好,需要 EXCEL 函数处理。
    如,简书七日热门中文章发表时间,格式有好几种。

    3) 有一点网页代码基础的上手很快,代码才是王道啊。
    特别是有点Python爬虫基础的,在选取页面数据中很容易操作、理解,发现操作中出现的问题。

    4) 比起八爪鱼、火车头等数据采集器,web scraper不需要下载软件,免费,无需注册,还很体会一点点代码的操作。当然 web scraper 也有付费的云爬虫。

    Web Scraper 还可以导入sitemap,把下面的这段代码导入,你就可以抓取到知乎轮子哥前20页的粉丝:

    {"startUrl":"https://www.zhihu.com/people/excited-vczh/followers?page=[1-20]","selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"items","selector":"div.List-item","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"name","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"desc","selector":"div.RichText","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"answers","selector":"span.ContentItem-statusItem:nth-of-type(1)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"articles","selector":"span.ContentItem-statusItem:nth-of-type(2)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"fans","selector":"span.ContentItem-statusItem:nth-of-type(3)","regex":"","delay":""}],"_id":"zh_vczh"}

    PS, Web Scraper 资料教程

    1. 官网中的视频教程
      http://webscraper.io/tutorials

    2. 知乎@陈大欣 的回答 中写了详细的步骤,并录制了视频教程。

      这个问题来源 零基础如何学爬虫技术? @陈大欣 在文章中把 Excel 爬虫,web scraper,代码爬虫做了比较分析。

    写在最后:FOR Freedom 看看外边的世界,以及IT这一行,少不了去Google查资料,最后,安利一些速器代理。

    网络加速工具推荐 免费方案 付费方案 官方网站
    一枝红杏网络加速工具 免费方案暂无,稳定高速 输入8折优惠码wh80,年付只需80元/年 官网直达http://whosmall.com/go/yzhx
    网络加速工具 最好用的外贸网络加速工具 最低¥30/月 官网直达http://whosmall.com/go/yzhx
    LoCo网络加速工具 每天免费2小时 最低¥15/月 官网直达http://whosmall.com/go/yzhx

    本文标签: Mac效率工具 Mac小工具 MacOS Homebrew-Cask Mac软件包管理器

    转自 SUN'S BLOG - 专注互联网知识,分享互联网精神!

    原文地址 《MacOS 如何使用软件包管理器 Homebrew-Cask 安装软件?

    相关阅读Mac 系统上如何用 LaunchBar 一键下载网页上的所有文件?

    相关阅读MacOS 如何用 LaunchBar 一键上传文件至 Google Drive?

    相关阅读最好用的 Mac App 快速启动及切换工具:Manico 2.0

    相关阅读我为什么选择 Window Tidy 作为 MacOS 分屏工具?

    相关阅读Chrome 扩展 Stylish :给不喜欢某个网站一键「换肤」

    相关阅读将 QQ 音乐、网易云音乐和虾米音乐资源「整合」一起的Chrome 扩展Listen 1

    相关阅读8 个「新标签页」Chrome 扩展: 教你把 New Tab 页面玩的溜溜溜

    相关阅读7 款实用 Chrome 扩展推荐:帮你提升 Chrome 使用体验

    相关阅读无扩展就不是 Chrome 了:15 款优质的Chrome 扩展推荐给大家

    相关阅读12 款不能少的使网页浏览获得的最佳体验Chrome 扩展

    相关阅读5 款可以带来幸福感的 Chrome 扩展

    相关阅读: 对程序员有用:2017最新能上Google的hosts文件下载及总结网友遇到的各种hosts问题解决方法及配置详解

    相关BLOG:SUN’S BLOG - 专注互联网知识,分享互联网精神!去看看:whosmall.com

    原文链接:http://whosmall.com/?post=473

    转载于:https://www.cnblogs.com/ginowang42/p/8116927.html

    展开全文
  • webscraper爬数据

    2020-09-20 10:53:08
    我们偶尔需要爬取网页数据,是否有不写代码抓数据的实现方式,最近找到个webscraper插件 插件介绍 插件官网:https://www.webscraper.io/ 插件slogan:Making web data extraction easy and accessible for everyone...
  • 我调研了很多采集数据的软件,综合评定下来发现最好用的还是Web Scraper,这是一款Chrome 浏览器插件。 ![](https://image-1255652541.cos.ap-shanghai.myqcloud.com/images/屏幕快照2019-06-18 下午7.37.58.png) ...
  • 这是简易数据分析系列的第 2 篇文章。 原文首发于博客园:简易数据分析 02...我调研了很多采集数据的软件,综合评定下来发现最好用的还是 Web Scraper,这是一款 Chrome 浏览器插件。 ![](https://image-1255652541...
  • 最近因为要一次性地爬取一个学术会议的公开论文的下载链接,所以估计得重新做一个爬虫。但是因为对写爬虫代码感到“窒息般的恐惧”,所以搜索了一下有没有零代码的爬虫解决方法,结果还真被我找到了一个。跟...
  • Web scraper只支持chrome浏览器,可以从chrome网上应用店下载这个插件,安装好后在扩展程序页面启用插件。Web scraper具备反爬虫机制,模拟人手动操作浏览器,而且免费! 基本操作 打开Web scraper 当我们想要抓取...
  • WebScraper Mac版是知您网搜集到的Mac os系统上一款非常好用的网站数据提取工具,WebScraper可以帮您在10分钟内轻松实现网页数据的爬取,只需输入起始网址即可开始,操作简单、功能强大。 WebScraper mac教程 下载...
  • 文章目录web scraper简介:优点缺点下载地址:操作安装谷歌浏览器火狐浏览器使用说明 web scraper 简介: Web Scraper分为chrome插件和云服务两种,云服务是收费的,chrome插件是免费的,这里说的就是chrome插件这种...
  • 不用写代码的爬虫Web Scraper

    千次阅读 2019-05-15 08:31:08
    WebScraper是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。 本节课我们先举个抓取示例,让大家熟悉下大致操作流程。各步骤详细操作流程(附动画...
  • Web Scraper 爬虫 网页抓取 Chrome插件,可以在chrome中选择离线安装。 点击谷歌浏览器右上角的自定义及控制按钮,在下拉框中选择工具选项,然后点击扩展程序来启动Chrome浏览器的扩展管理器页面。 在打开的谷歌浏览...
  • http://webscraper.io 【插件更新】 2020-11-05 16:19:25 【插件版本】 0.5.4 【插件标签】 高效开发 Chrome插件 【插件安装教程】 请下载文件后先解压,然后进入页面: chrome://extensions/ 将...
  • 【摘要】来一个插件帮忙翻看一下网页上的数据——webscraper,目的当然是为了学习新知识,希望在此与大家一起进步,一起成长。谢谢大家的过目!为了更加透彻清晰,将采用图文并茂的方式。(如有侵权,请及时联系我)...
  • 先附上下载web Scraper0.5.4版本网盘链接: 链接:https://pan.baidu.com/s/1__jSFgfPKBg-CeqSg95zbg 提取码:xjmt 这里以 天猫超市牛奶专区网站 的信息爬取作为实例。 爬取商品的价格,名称,月成交量和评论数。 ...
  • 数据采集实用工具【web scraper

    千次阅读 2017-04-27 16:47:46
    1.【简介】 此工具为Google Chrome 浏览器专门从网页中提取数据的插件; 2.【下载】 官方网址:http://webscraper.io/ 3.【使用】
  • 1. 下载Web Scraper,安装在chrome(谷歌浏览器)上 2. F12,点击Create Sitemap创建一个项目 3.填写url,后面加了个[1-10:1]这代表爬取前十页的数据(需要先进行url分析) 4. 创建完成,增加一个选择器 5. 先选...
  • 下面是单次下载的代码,批量的话只需要读取web scraper爬取的文件,构造好url,通过一个循环,依次输入下载即可。 import time import pyautogui time.sleep(1) url_position = (160, 50) #url位置 def input_id(x,...
  • Web Scraper 是谷歌 Chrome 浏览器插件,人称爬虫神器,功能不要太强大,非常适合不想敲代码,又对数据有需求的我们,文末附有下载地址奥☟☟ 装好插件之后,我们就开始上手啦 以豆瓣电影 Top 250 ...
  • 其实绝大多数场景下,用 Web Scraper (一个 Chrome 插件)就能迅速爬到目标内容,重要的是,不用下载东西,也基本不需要代码知识。在开始之前,有必要简单了解几个问题。a、爬虫是什么?自动抓取目标网站内容的工具。...
  • 国内下载 web-scraper-0.3.8_0 下载

    千次阅读 2019-07-24 14:14:58
    百度网盘 链接:https://pan.baidu.com/s/1jbJuH3dSOksEetUovreUjg 提取码:f4gb
  • Yellowpages.com用Python和LXML编写的Web Scraper,用于根据特定类别和位置提取可用的业务详细信息。 -如果您想了解更多关于这刮刀你可以在“从黄页使用如何凑业务详情Python和LXML”的博客文章一探究竟 入门 这些...
  • 对于文科生来说,系统学习python爬虫的话时间成本太高,有没有简单的爬虫软件呢?...今天,程序猿给大家介绍一款Google浏览器插件——Web Scraper,作为插件的它非常方便使用,爬取的内容质量一点也不输八爪鱼。...
  • Web Design Scraper-crx插件

    2021-04-02 06:19:18
    Web Design Scraper是用于从网页提取客观Web设计度量的研究工具。 Web设计度量是Web设计的各个方面,它们可以由过程算法生成以数字形式表示。 在此工具中,您可以将提取的度量下载到JSON文件中,可用作JSON的机器...
  • 下面是单次下载的代码,批量的话只需要读取web scraper爬取的文件,构造好url,通过一个循环,依次输入下载即可。 import time import pyautogui time.sleep(1) url_position = (160, 50) #url位置 def input_id(x,...

空空如也

空空如也

1 2 3 4
收藏数 68
精华内容 27
关键字:

webscraper下载