精华内容
下载资源
问答
  • 更多相关内容
  • 八爪鱼爬虫

    2019-05-07 14:26:02
    爬虫软件,快速整理资料,文本内容,各大知名软件应有尽有,收集时间短,效率高,输出模式明细,可自定义收集的方向与内容等,方便快捷,操作简单易懂。
  • 八爪鱼爬虫笔记,包括下载、官方教学和小的tips


    最近因为爬取数据的需要,发现了可用性强的八爪鱼爬虫软件,是模拟人的行为,通过菜单式操作实现的。以此文简单记录遇到的一些问题及解决方案。

    八爪鱼下载及官方视频教学

    可以前往 八爪鱼官网,安装流程较为简洁,有官方教程学习,视频教学快速上手。个人感觉的优势在于:

    1. 可以菜单式操作,非常友好;
    2. 覆盖了大部分爬虫需求;
    3. 有不少成形模板,自定义配置也比较方便。

    一些小的tips

    1.使用指定cookie避免爬虫中断

    在打开网页->高级设置->使用指定cookie,可以在登陆之后获取当前页面的cookie

    2.使用页面滚动进行完整加载

    在打开网页->高级设置->页面滚动,无内容更新时结束滚动

    在这里插入图片描述

    3.可以先获取网址,之后通过设置循环实现爬取

    添加当前网址,这样的好处是后面可以回溯没有爬取成功的网址
    在这里插入图片描述

    4.可以先用自动识别网页,然后再进行配置

    自动识别的位置

    展开全文
  • 八爪鱼爬虫软件

    千次阅读 2019-03-11 21:07:37
    前市面上常见的爬虫软件一般可以划分为云爬虫和采集器两种: 所谓云爬虫就是无需下载安装软件,直接在网页上创建爬虫并在网站服务器运行,享用网站提供的带宽和24小时服务; 采集器一般就是要下载安装在本机,然后...

    前市面上常见的爬虫软件一般可以划分为云爬虫和采集器两种:

    所谓云爬虫就是无需下载安装软件,直接在网页上创建爬虫并在网站服务器运行,享用网站提供的带宽和24小时服务;

    采集器一般就是要下载安装在本机,然后在本机创建爬虫,使用的是自己的带宽,受限于自己的电脑是否关机。

    当然,以上不包括自己开发的爬虫工具和爬虫框架之类的。

     

    神箭手云爬虫

    简介:神箭手云是一个大数据应用开发平台,为开发者提供成套的数据采集、数据分析和机器学习开发工具,为企业提供专业化的数据抓取、数据实时监控和数据分析服务。 

    优点:功能强大,涉及云爬虫、API、机器学习、数据清洗、数据出售、数据订制和私有化部署等;

             纯云端运行,跨系统操作无压力,隐私保护,可隐藏用户IP。

             提供云爬虫市场,零基础使用者可直接调用开发好的爬虫,开发者基于官方的云端开发环境开发并上传出售自己的爬虫程序;         

             领先的反爬技术,例如直接接入代理IP和自动登录验证码识别等,全程自动化无需人工参与; 

             丰富的发布接口,采集结果以丰富表格化形式展现; 

    缺点:它的优点同时也在一定程度上成了它的缺点,因为它是一个面向开发者的爬虫开发系统,提供了丰富的开发功能,网站看起来非常的偏技术非常专业,尽管官方也提供了云爬虫市场这样的现成爬虫产品,并且开放给广大爬虫开发者,从而让爬虫市场的内容更加丰富,但是对于零技术基础的用户而言并不是那么容易理解,所以有一定的使用门槛。

    是否免费:免费用户无采集功能和导出限制,无需积分。

    具备开发能力的用户可以自行开发爬虫,达到免费效果,没有开发能力的用户需要从爬虫市场寻找是否有免费的爬虫。

     

    火车头采集器:

    简介:火车采集器是一款网页数据抓取、处理、分析,挖掘软件。可以灵活迅速地抓取网页上散乱分布的信息,并通过强大的处理功能准确挖掘出所需数据。

    优点:国内老牌的采集器,经过多年的积累,具有丰富的采集功能;

             采集速度比较快,接口比较齐全,支持PHP和C#插件扩展;

             支持多种数据格式导出,可以进行数据替换等处理。

    缺点:越是年头长的产品越容易陷入自己的固有经验中,火车头也难以摆脱这问题。

             虽说功能丰富,但是功能都堆砌在那里,用户体验不好,让人不知道从何下手;

             学会了的人会觉得功能强大,但是对于新手而言有一定使用门槛,不学习一段时间很难上手,零基础上手基本不可能。

             只支持Windows版本,不支持其他操作系统;

    是否免费:号称免费,但是实际上免费功能限制很多,只能导出单个txt或html文件,基本上可以说是不免费的。

     

    后羿采集器:

    简介:后羿采集器是由前谷歌搜索技术团队基于人工智能技术研发的新一代网页采集软件,该软件功能强大,操作极其简单。

    优点:支持智能采集模式,输入网址就能智能识别采集对象,无需配置采集规则,操作非常简单;

             支持流程图模式,可视化操作流程,能够通过简单的操作生成各种复杂的采集规则;

             支持防屏蔽措施,例如代理IP切换等;

             支持多种数据格式导出;

             支持定时采集和自动化发布,发布接口丰富;

             支持Windows、Mac和Linux版本。

    缺点:软件推出时间不长,部分功能还在继续完善,暂不支持云采集功能

    是否免费:完全免费,采集数据和手动导出采集结果都没有任何限制,不需要积分。

     

     

    八爪鱼采集器

    简介:八爪鱼采集器是一款可视化采集器,内置采集模板,支持各种网页数据采集。

    优点:支持自定义模式,可视化采集操作,容易上手;

             支持简易采集模式,提供官方采集模板,支持云采集操作;

             支持防屏蔽措施,例如代理IP切换和验证码服务;

             支持多种数据格式导出。

    缺点:功能使用门槛较高,本地采集时很多功能受限,而云采集收费较高;

             采集速度较慢,很多操作都要卡一下,云端采集说10倍提速但是并不明显;

             只支持Windows版本,不支持其他操作系统。

    是否免费:号称免费,但是实际上导出数据需要积分,可以做任务攒积分,但是正常情况下基本都需要购买积分。

    1、主页分为简易采集和自定义采集

    2、使用简易采集

    3、选择中国知网进行信息采集

     

    4、输入查询的词条

    5、运行任务,启用本地采集

    6、信息采集中

    7、信息采集完成,按照自己的需求进行信息的处理

    8、信息采集完成的词条显示

     

    展开全文
  • 大数据挖掘与分析 文章目录 ...八爪鱼是一款使用简单、功能强大的网络爬虫工具,完全可视化操作,无需编写代码,内置海量模板,支持任意网络数据抓取。免费版支持本地采集、有限数量的数据导出(基本.

    大数据挖掘与分析

    文章目录


    前言

    为了制作好看的词云,我们要准备分词和词频的素材。本文的目的是使用八爪鱼从百度搜索上爬取关键词为‘苏东坡’的相关内容,并在接下来制作对苏东坡评价的词云。


     

    一、八爪鱼是什么?

    八爪鱼是一款使用简单、功能强大的网络爬虫工具,完全可视化操作,无需编写代码,内置海量模板,支持任意网络数据抓取。免费版支持本地采集、有限数量的数据导出(基本上还算够用);专业版支持云采集、24*7采集,大数据量导出,验证码识别等功能。本次采集我用的是免费版功能。

    二、数据采集步骤

    1.确定爬取网站内容范围

    我准备采集的是百度新闻,输入关键词‘苏东坡’后搜索出的内容。计划采集数量为几百条新闻内容。

    网址:http://news.baidu.com/

    先来观察一下网页情况。

    (1)注意百度新闻搜索出来的内容,点击单个链接后的网页,存在各个元素框架不同的问题。我的方案是提取网页的标题和全部文字内容。

    (2)注意翻页,百度新闻翻页的特点是点击“下一页”。

    2.制作采集数据流程

    设计八爪鱼自定义采集流程,有两个关键点。一是循环点击下一页,设定多少次循环后停止;二是在每一页循环点击列表中10个网页的网址,进入每个网址后提取标题和文字内容。流程图中主要包括循环翻页和循环列表,描述如下:

    提取详情页数据自动提取标题、正文等文章相关内容。

    3.调优

    实际运行时,发现虽然逻辑正确,却怎么也进入不了下一页,只能采集10条数据,经检查,八爪鱼软件自动给“下一页”的链接设置的Xpath地址和百度搜索中真实的下一页对应Xpath地址不一样。通过google浏览器开发者工具进入小指针,当页面处于第一页时,鼠标左键点击“下一页”按钮,右边对应部分高亮,出现:

    右键点击高亮部分,复制Xpath,

    得到“下一页”对应的Xpath地址是://*[@id="page"]/div/a[10]。而当页面在第2页时,下一页的Xpath是//*[@id="page"]/div/a[11],如果不注意这个问题,就会发生八爪鱼只能采集第一页数据。修改后,就可以自动采集数据了。


    总结

    八爪鱼的采集功能十分强大和完善,需要注意的是,要简单理解一下Xpath的意义,才能从网页页面上正确提取到相关的内容。

    展开全文
  • 八爪鱼爬虫采集天猫商品数据教程

    千次阅读 2019-08-01 17:40:58
    八爪鱼使用教程 工作记录,以防忘记。 1.下载八爪鱼,官网自行下载 下载之后,一键傻瓜式安装。 注册一个免费账号,登录。 2.目标网站。就拿天猫的冰箱类目作为例子吧。 天猫还是很良心的,提供的页面数据...
  • 八爪鱼是一款网页爬虫工具,可以不用编写代码快速实现网页数据的爬取。 关于其基础操作,可以在其官网的使用教程http://www.bazhuayu.com/tutorialIndex 进行查看。其中主要针对其翻页和带有验证码的登录以及xpath...
  • 这是一个自制的八爪鱼采集爬虫。 使用提示: 采集规则视频演示+图文解说教程地址:http://www.ibazhuayu.com/article-nmc7ritianqi.html 采集规则使用方法: 第一步:确保本机已安装八爪鱼采集软件,并已有帐号...
  • 八爪鱼采集器能取代python爬虫吗?

    千次阅读 2021-02-04 06:08:43
    作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵。。。我来谈谈心得感想。八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导出excel文件和导出到...
  • 八爪鱼爬虫使用记录

    2021-06-27 17:28:26
    下载 免费下载-Windows大数据采集软件下载 - 八爪鱼采集器 (bazhuayu.com) 建立项目 1 在首页中输入网址,点击“开始采集”; 2 添加采集的内容; 3 采集数据的模式有很多种类型
  • 八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导出excel文件和导出到数据库中。降低采集成本,云采集提供10个节点,也能省事不少。 八爪鱼采集器还提供了云采集服务,在很短的时间内就...
  • 网页爬虫-八爪鱼Xpath自定义数字翻页,解决八爪鱼傻瓜式设置循环翻页采集数据停滞的问题~
  • 对于某些用户来说,直接自定义规则可能有难度,所以在这种情况下,我们提供了网页简易模式,网页简易模式下存放了国内一些主流网站爬虫采集规则,在你需要采集相关网站时可以直接调用,节省了制作规则的时间以及精力...
  • 作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵。。。我来谈谈心得感想。八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导出excel文件和导出到...
  • 1.python集成代码实现八爪鱼爬取知乎的所有功能 ```python #!/usr/bin/env python # coding: utf-8 import os import pandas as pd from selenium import webdriver from lxml import etree import time import ...
  • 对于某些用户来说,直接自定义规则可能有难度,所以在这种情况下,我们提供了网页简易模式,网页简易模式下存放了国内一些主流网站爬虫采集规则,在你需要采集相关网站时可以直接调用,节省了制作规则的时间以及精力...
  • 首先,我下载了一个上手快,门槛儿低的爬虫软件—八爪鱼。很简单,我用它来抓取达州附近所有的美食商铺,最后进行一个筛选,找个性价比高点儿的店铺,就达到我的目的了,O(∩_∩)O~~。 开启采集 打开八爪鱼采集器,...
  • 采集场景点击文章标题链接,可进入文章...采集字段文章标题、文章链接、发布时间、阅读数、评论数等字段。...导出为Excel示例:教程说明本篇制作时间:2020/4/29八爪鱼版本:V8.1.8如果因网页改版造成网址或步骤无...
  • 八爪鱼采集器8.1.16.zip

    2020-10-30 16:15:21
    八爪鱼采集器,用于采集网站中的数据,形成格式化文档,是个很好用的爬虫工具,帮助你抓数据做分析。非常好用的哦,除了八爪鱼,还有后裔采集器,具体可以自己百度。
  • 八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导出excel文件和导出到数据库中。降低采集成本,云采集提供10个节点,也能省事不少。八爪鱼采集器还提供了云采集服务,在很短的时间内就...
  • 八爪鱼7.6.4及爬虫相关资料
  • 导出为Excel示例: 教程说明 本篇制作时间:2020/4/26八爪鱼版本:V8.1.8 如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。 采集步骤 步骤一、打开网页,使用【智能识别】...
  • 爬虫初接触——八爪鱼采集器

    千次阅读 2019-03-11 20:57:56
    今天的一个随堂作业就是搜索了解爬虫软件,看那些软件的是免费的那些是不免费的,是否...个人感觉,八爪鱼采集器这个爬虫软件用起来还是不错的,也挺方便,只是在使用云采集的时候是不免费的,需要购买使用。 ...
  • 在本篇文章里小编给各位整理了一篇关于选择Python写网络爬虫的优势和理由以及相关代码实例,有兴趣的朋友们阅读下吧。
  • 网络爬虫,别名“网络蜘蛛”。 它又称为网页抓取和网页数据提取。 基本指通过超文本传输协议(HTTP) 或通过网页浏览器获取万维网上可用的数据。 那么, 会与不会“爬虫”对我们究竟有什么影响? 举个例子, ...
  • 八爪鱼 Excel Navicat Mysql 数据采集及保存 步骤1 探索搜索页面规律 步骤二 八爪鱼批量生成链接,添加参数(前缀+尾巴) 步骤三 采集数据(书名、评分、评分人数、详情链接) 步骤四 评分人数采集处理 ...
  • Selenium文档 https://www.kancloud.cn/wangking/selenium/234398 QueryList文档 ... 两个差不多的用法,都可以使用强大的选择器定位到你想要的元素标签,做对应的操作,获取数据 ...
  • [ 八爪鱼使用经验] 爬取简单列表数据 前言 项目中经常会使用到一些三方的数据做研究(单纯的制作研究),所以经常会爬取一些三方数据,除非业务性特别强烈的场景,一般数据直接使用三方爬取软件即可,本片文章记录了...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,009
精华内容 403
关键字:

八爪鱼爬虫

友情链接: aaa.rar