精华内容
下载资源
问答
  • 整站抓取网页工具

    2018-03-24 11:54:59
    网上有好多站点抓包的工具,筛选了好多,目前这个挺好用,能把网站几乎所有的页面,包含css、图片、音频视频等一网打进,很不错的工具,分享使用...
  • 页面URL获取工具

    2014-04-01 18:03:21
    工具功能,很强大,不限于以下功能 1、查看网页源码 2、鼠标获取网页地址 3、复制网页信息 4、查看网页文本 5、查看网页表单
  • URL抓包工具

    2012-11-01 14:39:21
    用来抓取URL包链接,smsniff工具是一款专门用来抓取http请求数据包的工具
  • 提取全站url工具ScreamingFrogSEOSpide,ScreamingFrogSEOSpider搜索引擎蜘蛛爬行工具
  • 前端源码抓取工具.zip

    2019-06-10 16:44:14
    根据url链接获取链接页面前端源码并下载到本地一个单独的文件夹,包括html、css、js及图片资源,小巧且高效,可供你日后快速浏览这个网站。
  • ★ 支持任意网址 ★ 支持任意开头 嗅探到的视频地址会输出到txt,也可以右侧点击复制到剪切板 百度网盘:https://pan.baidu.com/s/1bnR9rQL6TyU3Q4RP141taA 密码:2wt5 ...

    ★ 支持任意网址

    ★ 支持任意开头

    嗅探到的视频地址会输出到txt,也可以右侧点击复制到剪切板

    百度网盘:https://pan.baidu.com/s/103NLdv1zK-e23gHfIwkEKQ

    密码:0bzz

    (链接已经更新,更新时间:2020年8月25日)

    展开全文
  • 打开工具,把有视频的网页地址输入进去就可以查看此视频的地址,可以批量
  • 最新版本,可以方便的抓取选中的链接。适用于chrome浏览器
  • 网页抓取工具

    2018-03-15 14:23:46
    学习网站制作,首先要看看别人怎么制作的网站,抓取别人网站上的资源,请用这个工具,简单方便,适合大家
  • 一米URL外链资源批量抓取工具是一款支持谷歌百度等绝大多数搜索引擎脚本(footprint)抓取URL,快来下载体验吧! 软件功能特点 谷歌百度等绝大多数搜索引擎脚本(footprint)抓取URL; 支持手工浏览器获取url,自动过滤...
  • 自动查找到Reddit视频的直接URL 自动查找指向Reddit视频(v.redd.it)的直接URL,因此用户可以直接链接到视频(无需重定向到Reddit注释)。 支持语言:English
  • 整站URL提取工具,爬取整站URL的神器将网页里面所有的url提取出来,便于后期做一些辅助性的SEO优化工作
  • 淘宝客批量数据生成软件根据关键词自动抓取阿里妈妈联盟后台自助推广宝贝信息,其中包括商图片、市场价格、现价、佣金、自己的淘宝客链接等;快速,可靠,采集后的宝贝可以导
  • Sitemap XML URL Finder 节点应用程序可删除index.xml的分割站点地图XML文件并在其中搜索URL。 跑步 要开始整个过程​​(下载索引,下载并删除其中链接的所有xml文件) yarn start <XML index file url> ...
  • 本文主要介绍了java利用url实现网页内容抓取的示例。具有很好的参考价值。下面跟着小编一起来看下吧
  • 一个网页抓取工具,可以抓取与电影相关的网站,如烂番茄和 IMDb。 基本要求 Python 2.7.x 代码中使用的 Python 库(例如 Beautiful Soup 4)。 用法 python scrape.py电影名称 或者 python scrape.py电影标题,,,...
  • 使用Cheerio的NodeJS Web抓取工具 您可以将WebScraper用于什么? 方便地将数据提取到您的NODE.JS应用程序。 从目标网页中提取重要数据。 您如何使用WebScraper? 运行以安装节点依赖性。 npm install 更改对象...
  • Spidy是一种工具,可从给定的网站列表中抓取网页,它匹配每个页面上的所有域并在其中找到过期的域。 用法 编译软件包go build . 然后运行./Spidy -config /path/to/setting.yaml 输出/结果 结果将保存在./log文件夹...
  • 适用于groupme的抓取工具和统计信息工具。 命令抓取器花费大量时间(以秒为单位)从组中提取消息。 默认情况下,它将拉出组中的所有消息,除非通过-t参数显示时间(其中t是时间,以秒为单位)。 它将所有新消息...
  • 网站抓取工具

    千次阅读 2018-11-26 14:58:38
    经常由于某些原因我们需要爬取某一个网站或者直接复制某一个站点,到网上找了很多工具进行测试,试了很多各有各的问题,最终选择了Teleport Ultra,用起来效果很好;具体的操作手册等东西就不在这里说了...测试抓取...

      经常由于某些原因我们需要爬取某一个网站或者直接复制某一个站点,到网上找了很多工具进行测试,试了很多各有各的问题,最终选择了Teleport Ultra,用起来效果很好;具体的操作手册等东西就不在这里说了,网上搜索一下有很多,这里主要说遇到的问题:

    软件下载地址:http://download.csdn.net/detail/ityouknow/9506423

    工具截图:

    image

    测试抓取的网站为简单心理:www.jiandanxinli.com

    抓取后的效果图

    image

     

    一般我会选择复制100级基本上也就把网站的东西全部copy下来了,但是因为Teleport Ultra 是以UTF-8的编码进行的抓取如果文件中有中文字符,或者gbk编码的文件就会出现乱码如下图:

    image

     

    当然手动在浏览器选择UTF-8也可以,但是咱不能每次打开都这样干吧。于是到网站找到一款软件叫:TelePort乱码修复工具(siteRepair-v2.0),经过测试可以解决乱码的问题,这款工具也会清除一些无效的链接和html符号等。

    软件下载地址:http://download.csdn.net/detail/ityouknow/9506429

    软件截图:

    image

     

    绝大数网站再经过这两个步骤应该都已经OK了,但是有的网站的层级结构中用到了中文目录或者中文的文件名就会出现乱码,类似下面的URL地址:

    http://www.xxxx.com/.com/question/除了加锁,还有什么方法解决资源竞争的问题?/解决方案.html

    这样网站的结构抓取下来就会出现两种乱码:1)文件夹名乱码 2)文件名乱码

    遇到这个问题siteRepair-v2.0工具就会报错,我估计是不能识别乱码的文件夹或者文件吧。

     

    后来在网上找了一个PHP的程序,进行了简单的修改测试可以解决这个问题

    PHP代码:convert.php

    <?php
    function listDir($dir)
    {
        if(is_dir($dir))
        {
            if ($dh = opendir($dir)) 
            {
                while (($file = readdir($dh)) !== false)
                {
                    if((is_dir($dir."/".$file)) && $file!="." && $file!="..")
                    {
                        rename($dir."/".$file,$dir."/".mb_convert_encoding($file,"GBK", "UTF-8"));
                        listDir($dir."/".$file."/");
                    }
                    else
                    {
                        if($file!="." && $file!="..")
                        {
                             $name=rename($dir."/".$file,$dir."/".str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")));
                             echo '路径:'.$dir."/".$file.'<br />';
                             echo '结果: '.str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")).'<br />';
                        }
                    }
                }
                closedir($dh);
            }
        }
    }
    ?>
    <?php
    //开始运行
    listDir("./convert");
    
    ?>

     

     

    在代码的同级目录下,新建 convert文件夹,把乱码的文件放入这个目录,然后执行convert.php即可。

    展开全文
  • 控制台网页抓取工具 接受作为命令行参数: (必须)网络资源 URL 或包含 URL 列表的纯文本文件的路径 (必须)数据命令 (必须)单词(或带有“,”分隔符的单词列表) (很高兴有)输出详细标志,如果打开,则...
  • AutoScraper:适用于Python的智能,自动,快速,轻便的Web抓取工具 该项目专为自动刮刮而设计,使刮刮变得容易。 它获取网页的url或html内容以及我们要从该页面抓取的示例数据列表。 该数据可以是该页面的文本,URL...
  • 网页抓取工具 简单的网页抓取工具 (JAVA) 创建时间:2014 年 11 月 6 日从控制台启动这个程序并添加如下参数: 使用示例: java -jar HireRightScraper.jar [URL_OR_URLS] [KEY_WORDS] –v –w –c –e 在哪里: ...
  • 淘宝商品抓取工具 - 通过页面抓取淘宝网的商品

    千次下载 热门讨论 2011-03-05 22:46:52
    淘宝商品抓取工具能帮你抓取到淘宝搜索页面http://search.taobao.com/search?q=%D2%C2%B7%FE里能够搜索到的所有商品,本软件提供页面所有条件搜索功能。
  • 数据抓取常用工具

    千次阅读 2020-05-02 13:17:00
    数据抓取 库: requests、urllib、pycurl 工具:curl、wget、httpie 数据分析 数据存储 常用工具的使用: 1. curl: 安装: apt install curl 安装的时候可能会报错,有可能是openssl没装 apt install open...

    爬虫的用途:

    • 数据分析/人工智能数据集
    • 作为社交软件冷启动
    • 舆情监控
    • 竞争对手监控

    写爬虫的步骤:

    1. 数据抓取
    • 库: requests、urllib、pycurl
    • 工具:curl、wget、httpie
    1. 数据分析
    2. 数据存储

    常用工具的使用:

    1. curl:

    安装:

    apt install curl
    

    安装的时候可能会报错,有可能是openssl没装

    apt install openssl
    apt install openssl-dev
    

    使用:

    curl www.baidu.com
    

    终端返回服务端返回的数据,所以可以认为curl是一个终端上的浏览器,只不过不会对请求的数进行解析、渲染。

    参数:

    参数说明示例
    -A设置user-agentcurl -A “Chrome” http://www.baidu.com
    -X用指定方法请求curl -x POST http://www.httpbin.org/post
    -I只返回请求的头信息curl -I http://www.baidu.com
    -d以POST方法请求url,并发送相应的参数-d a=1 -d b=2
    -d “a=1&b=2”
    -d @ filename
    -O下载文件并以远程的文件名保存curl -O http://www.httpbin.org/image/jpeg
    -o下载文件并以指定的文件名保存curl -o fox.jpeg http://www.httpbin.org/image/jpeg
    -L跟随重定向curl -IL http://www.baidu.com
    -H设置头信息curl -o image.png -H “accept:image/png” http://www.httpbin.org/image
    -k允许发起不安全的SSL请求curl -k https://www.12306.cn
    -b设置cookiescurl -b a=test http://www.httpbin.org/cookies
    -v显示连接过程中的所有信息

    2. wget:

    安装:

    apt install wget
    

    参数:

    参数说明示例
    -O以指定文件名保存下载的文件wget -O test.png http://www.httpbin.org/image/png
    –limit-rate以指定的速度下载目标文件–limit-rate=200k
    -c断点续传
    -b后台下载
    -U设置User-Agent
    –mirror镜像某个目标网站
    -p下载页面中的所有相关资源

    例:镜像下载整个网站保存到本地,并将链接的相对路径改为绝对路径

    wget -c --mirror -U "Mozilla" -p --convert-links http://doc.python-requests.org
    

    3. httpie

    功能更加强大:

    • 直观的语法
    • 格式化和色彩化的终端输出
    • 内置 JSON 支持
    • 支持上传表单和文件
    • HTTPS、代理和认证
    • 任意请求数据
    • 自定义头部
    • 持久性会话
    • 类 Wget 下载
    • 支持 Python 2.6, 2.7 和 3.x
    • 支持 Linux, Mac OS X 和 Windows
    • 插件
    • 文档
    • 测试覆盖率

    安装

    apt install httpie
    

    基本操作

    模拟提交表单
    http -f POST yhz.me username=nate
     
    显示详细的请求
    http -v yhz.me
     
    只显示Header
    http -h yhz.me
     
    只显示Body
    http -b yhz.me
     
    下载文件
    http -d yhz.me
     
    请求删除的方法
    http DELETE yhz.me
     
    传递JSON数据请求(默认就是JSON数据请求)
    http PUT yhz.me name=nate password=nate_password
    如果JSON数据存在不是字符串则用:=分隔,例如
    http PUT yhz.me name=nate password=nate_password age:=28 a:=true streets:='["a", "b"]'
     
    模拟Form的Post请求, Content-Type: application/x-www-form-urlencoded; charset=utf-8
    http --form POST yhz.me name='nate'
    模拟Form的上传, Content-Type: multipart/form-data
    http -f POST example.com/jobs name='John Smith' file@~/test.pdf
     
    修改请求头, 使用:分隔
    http yhz.me  User-Agent:Yhz/1.0  'Cookie:a=b;b=c'  Referer:http://yhz.me/
     
    认证
    http -a username:password yhz.me
    http --auth-type=digest -a username:password yhz.me
     
    使用http代理
    http --proxy=http:http://192.168.1.100:8060 yhz.me
    http --proxy=http:http://user:pass@192.168.1.100:8060 yhz.me
    
    展开全文
  • 网络爬虫 文件夹刮板包含 Maven 项目。 文件夹 scraper_jar 包含用于从命令行构建 .jar 文件的源文件和二进制文件。 您可以使用 .jar 文件并从命令行运行它。... 在此处查找有关网页抓取的更多信息: :
  • 网页数据抓取工具 (谷歌插件 web Scraper)

    万次阅读 多人点赞 2019-01-04 17:42:34
    最简单的数据抓取教程,人人都用得上 Web Scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据。例如知乎回答列表、微博热门、微博评论、...

    最简单的数据抓取教程,人人都用得上

    Web Scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据。例如知乎回答列表、微博热门、微博评论、电商网站商品信息、博客文章列表等等。

    安装过程

    • 在线安装方式

    在线安装需要具有可FQ网络,可访问 Chrome 应用商店

    1、在线访问 web Scraper 插件 ,点击 “添加至 CHROME”。

    1.png

    2、然后点击弹出框中的“添加扩展程序”

    2.png

    3、安装完成后在顶部工具栏显示 Web Scraper 的图标。

    3.png

    • 本地安装方式

     

    1、打开 Chrome,在地址栏输入 chrome://extensions/ ,进入扩展程序管理界面,然后将下载好的扩展插件 Web-Scraper_v0.3.7.crx 拖拽到此页面,点击“添加到扩展程序”即可完成安装。如图:

    4.gif

    2、安装完成后在顶部工具栏显示 Web Scraper 的图标。

    3.png

    初识 web scraper

    打开 Web Scraper

    开发人员可以路过看后面了

    windows 系统下可以使用快捷键 F12,有的型号的笔记本需要按 Fn+F12;

    Mac 系统下可以使用快捷键 command+option+i ;

    也可以直接在 Chrome 界面上操作,点击设置—>更多工具—>开发者工具

    5.png

    打开后的效果如下,其中绿色框部分是开发者工具的完整界面,红色框部分是 Web Scraper 区域,也就是我们之后要操作的部分。

    6.png

    注意:如果打开开发者工具在浏览器的右侧区域,则需要调节开发者工具位置到浏览器底部。

    7.gif

    原理及功能说明

    数据爬取的思路一般可以简单概括如下:

    1、通过一个或多个入口地址,获取初始数据。例如一个文章列表页,或者具有某种规则的页面,例如带有分页的列表页;

    2、根据入口页面的某些信息,例如链接指向,进入下一级页面,获取必要信息;

    3、根据上一级的链接继续进入下一层,获取必要信息(此步骤可以无限循环下去);

    原理大致如此,接下来正式认识一下 Web Scraper 这个工具,来,打开开发者工具,点到 Web Scraper 这个标签栏,看到分为三个部分:

    8.png

    Create new sitemap:首先理解 sitemap ,字面意思网站地图,这里可以理解为一个入口地址,可以理解为其对应一个网站,对应一个需求,假设要获取知乎上的一个问题的回答,就创建一个 sitemap ,并将这个问题所在的地址设置为sitemap 的 Start URL,然后点击 “Create Sitemap”即可创建一个 sitemap。

    9.png

    Sitemaps:sitemap 的集合,所有创建过的 sitemap 都会在这里显示,并且可以在这里进入一个 sitemap 进行修改和数据抓取等操作。

    10.png

    Sitemap:进入某个 sitemap ,可以进行一系列的操作,如下图:

    11.png

    其中红色框部分 Add new selector 是必不可少的步骤。selector 是什么呢,字面意思:选择器,一个选择器对应网页上的一部分区域,也就是包含我们要收集的数据的部分。

    需要解释一下,一个 sitemap 下可以有多个 selector,每个 selector 有可以包含子 selector ,一个 selector 可以只对应一个标题,也可以对应一整个区域,此区域可能包含标题、副标题、作者信息、内容等等信息。

    Selectors:查看所有的选择器。

    Selector graph:查看当前 sitemap 的拓扑结构图,根节点是什么,包含几个选择器,选择器下包含的子选择器。

    Edit metadata:可以修改 sitemap 信息,标题和起始地址。

    Scrape:开始数据抓取工作。

    Export data as CSV:将抓取的数据以 CSV 格式导出。

    到这里,有一个简单的认识就可以了,实践出真知,具体的操作案例才具有说服力,下面就以几个例子来说一说具体的用法。

    案例实践

    简单试水 hao123

    由浅入深,先以一个最简单的例子为入口,只是作为进一步认识 Web Scraper 服务

    需求背景:看到下面 hao123 页面中红色框住的部分了吧,我们的需求就是统计这部分区域中的所有网站名称和链接地址,最后以生成到 Excel 中。 因为这部分内容足够简单,当然真正的需求可能比这复杂,这么几个数据手工统计的时间也很快。

    12.png

    开始操作

    1、假设我们已经打开了 hao123 页面,并且在此页面的底部打开了开发者工具,并且定位到了 Web Scraper 标签栏;

    2、点击“Create Sitemap”;

    13.png

    3、之后输入 sitemap 名称和 start url,名称只为方便我们标记,就命名为hao123(注意,不支持中文),start url 就是hao123的网址,然后点击 create sitemap;

    14.png

    4、之后 Web Scraper 自动定位到这个 sitemap,接下来我们添加一个选择器,点击“add new selector”;

    15.png

    5、首先给这个 selector 指定一个 id,就是一个便于识别 名字而已,我这里命名为 hot。因为要获取名称和链接,所以将Type 设置为 Link,这个类型就是专门为网页链接准备的,选择 Link 类型后,会自动提取名称和链接两个属性;

    16.png

    6、之后点击 select ,然后我们在网页上移动光标,会发现光标所到之处会有颜色变化,变成绿色的,表示就是我么当前选择的区域。我们将光标定位到需求里说的那一栏的某个链接处,例如第一个头条新闻,在此处单击,这个部分就会变成红色,说明已经选中了,我们的目的是要选多个,所以选中这个之后,继续选第二个,我们会发现,这一行的链接都变成了红色,没错,这就是我们要的效果。然后点击"Done selecting!"(data preview是选中元素的标识符,可手动修改,通过class 、元素名称来确定元素 如:div.p_name a),最后别忘了勾选 Multiple ,表示要采集多条数据;

    17.png

    7、最后保存,save selector。点击Element preview 可以预览选择的区域,点击 Data preview 可以在浏览器里预览抓取的数据。 后面的文本框里的内容,对于懂技术的同学来说很清楚,这就是 xpath,我们可以不通过鼠标操作,直接手写 xpath 也可以;

    完整操作过程如下:

    18.gif

    8、上一步操作完,其实就可以导出了。先别急,看一下其他的操作,Sitemap hao123 下的 Selector graph,可以看出拓扑结构图,_root 是根 selector ,创建一个 sitemap 自动会有一个 _root 节点,可以看到它的子 selector,就是我们创建的 hot selector;

    19.png

    9、Scrape ,开始抓取数据。

    10、Sitemap hao123 下的 Browse ,可以通过浏览器直接查看抓取的最后结果,需要再;

    20.png

    11、最后,使用 Export data as CSV,以 CSV 格式导出,其中 hot 列是标题,hot-href 列是链接;

    21.png

    怎么样,赶紧试一下吧

    抓取知乎问题所有回答

    简单的介绍完了,接下来试一个有些难度的,抓取一个知乎问题的所有答案,包括回答者昵称、赞同数量、回答内容。问题:为什么鲜有炫富的程序员?

    知乎的特点是,页面向下滚动才会加载后面的回答

    1、首先还是在 Chrome 中打开这个链接,链接地址为:https://www.zhihu.com/question/30692237,并调出开发者工具,定位到 Web Scraper 标签栏;

    2、Create new sitemap,填写 sitemap name 和 start url;

    22.png

    3、接下来,开始添加选择器,点击 Add new selector;

    4、先来分析一下知乎问题的结构,如图,一个问题由多个这种区域组成,一个区域就是一个回答,这个回答区域包括了昵称、赞同数、回答内容和发布时间等。红色框住的部分就是我们要抓取的内容。所以我们抓取数据的逻辑是这样的:由入口页进入,获取当前页面已加载的回答,找到一个回答区域,提取里面的昵称、赞同数、回答内容,之后依次向下执行,当已加载的区域获取完成,模拟向下滚动鼠标,加载后续的部分,一直循环往复,直到全部加载完毕;

    23.png

    5、内容结构的拓扑图如下,_root 根节点下包含若干个回答区域,每个区域下包含昵称、赞同数、回答内容;

    24.png

    6、按照上面这个拓扑图,开始来创建选择器,填写 selector id 为 answer(随意填),Type 选择 Element scroll down 。解释一下:Element 就是针对这种大范围区域的,这个区域还要包含子元素,回答区域就对应 Element,因为要从这个区域获取我们所需的数据,而 Element scroll down 是说这个区域利用向下滚动的方式可以加载更多出来,就是针对这种下拉加载的情况专门设计的。

    25.png

    7、接下来点击 Select,然后鼠标到页面上来,让当绿色框框住一个回答区域后点击鼠标,然后移动到下一个回答,同样当绿色框框住一个回答区域后点击鼠标。这时,除了这两个回答外,所有的回答区域都变成了红色框,然后点击"Done selecting!”,最后别忘了选择 Multiple ,之后保存;

    26.gif

    8、接下来,单击红色区域,进入刚刚创建的 answer 选择器中,创建子选择器;

    27.png

    9、创建昵称选择器,设置 id 为 name,Type 设置为 Text,Select 选择昵称部分,如果没经验的话,可能第一次选的不准,发现有错误,可以调整,保存即可;

    28.gif

    10、创建赞同数选择器;

    29.gif

    11、创建内容选择器,由于内容是带有格式的并且较长,所以有个技巧,从下面选择会比较方便;

    30.gif

    12、执行 Scrape 操作,由于内容较多,可能需要几分钟的时间,如果是为了做测试,可以找一个回答数较少的问题做测试。

    31.png

    展开全文
  • 一个简单的基于golang的网络抓取工具,旨在抓取特定文件类型的页面 例如,您要抓取完整的Web目录,而仅抓取.tar.gz类型的文件 也可以使用可选的正则表达式。 因此,也许您想要所有.zip文件,但前提是完整的URL与...
  • Android_Log抓取工具

    2014-07-28 16:02:08
    非常方便的Androidlog抓取工具,一个朋友做的。分享给大家
  • 适用于网络抓取工具 安装 PHP的工匠迁移 PHP的工匠服务 运行应用程序 网址: : : url=

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 49,935
精华内容 19,974
关键字:

url抓取工具