信息
- 外文名
- web crawler
- 别 称
- 网络蜘蛛、蠕虫
- 作 用
- 抓取网站上的信息
- 中文名
- 网络爬虫
- 目 的
- 按要求获取万维网信息
- 算 法
- 网络拓扑、基于网页内容和基于用户访问行为三种算法
网络爬虫产生背景
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通过搜索引擎所返回的结果包含大量用户不关心的网页。(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(general purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。1 聚焦爬虫工作原理以及关键技术概述网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:(1) 对抓取目标的描述或定义;(2) 对网页或数据的分析与过滤;(3) 对URL的搜索策略。
-
HttpWebRequest爬虫
2020-10-05 21:34:21利用HttpWebRequest简单爬虫,url可以自定义。是基本的读取网页内容,提取信息,只适合初学者。 -
小说爬虫
2019-05-08 16:12:35爬虫,爬取你想要的信息 -
Webharvest爬虫
2017-04-26 17:49:04Webharvest爬虫 -
python 爬虫
2017-09-08 18:02:40python 爬虫,用来开发爬虫的文档 不过不是很完整 只有一些便签 python 爬虫,用来开发爬虫的文档 不过不是很完整 只有一些便签 以及其他的适度 python 爬虫,用来开发爬虫的文档 不过不是很完整 只有一些便签 以及... -
八爪鱼爬虫
2019-05-07 14:26:02爬虫软件,快速整理资料,文本内容,各大知名软件应有尽有,收集时间短,效率高,输出模式明细,可自定义收集的方向与内容等,方便快捷,操作简单易懂。 -
亚马逊爬虫
2018-04-24 17:28:42亚马逊爬虫爬取商品评论价格 等信息保存成CSV格式。。。。 -
pythone 爬虫
2018-03-27 12:11:37pythone 爬虫 通过讲解,对实战分析,教会使用python进行网页爬取 -
Python爬虫
2017-11-12 19:17:46Python 爬虫,爬取exe apk flash,基于Scrapy2.7框架。 -
runoob爬虫
2018-06-14 10:17:44http://www.runoob.com/的网站爬虫,可以转成PDF版图书,用法为输入书名,例如PYTHON3,CSHARP,JAVA等 -
爬虫面试爬虫面试爬虫面试
2018-02-22 00:01:27自己从网上搜集的关于爬虫面试会问到的问题,自己从网上搜集的关于爬虫面试会问到的问题 -
链家APP爬虫数据爬虫
2020-05-11 11:39:38链家APP爬虫数据爬虫 支持坐标转换 -
C++爬虫
2012-05-08 09:45:44C++爬虫 -
网络爬虫
2015-01-27 20:22:48网络爬虫,抓取网页上的内容.很强大的 -
微博用户爬虫
2018-08-15 18:13:06微博爬虫微博爬虫微博爬虫微博爬虫微博爬虫微博爬虫微博爬虫微博爬虫微博爬虫微博爬虫微博爬虫 -
大众点评爬虫
2014-11-11 17:33:53爬虫,可以爬取大众点评中对于给定商家的评论信息,提前需要知道商家的id,开发环境是python -
passwd爬虫测试
2020-12-31 10:49:30passwd爬虫测试 -
反爬虫策略反爬虫手段
2021-01-06 09:53:33反爬虫策略和手段 正所谓魔高一尺道高一丈 robots协议 反爬虫策略 反反爬虫策略
收藏数
8,788
精华内容
3,515
-
Laya 2.0 开发3D小游戏 入门教学
-
RabbitMQ消息中间件实战(附讲义和源码)
-
js中的浅拷贝和深拷贝
-
为何当初龙芯要用MIPS架构,而不是ARM或X86架构?
-
开发者日志:ubuntu18.04下 docker运行最简单python程序实践
-
力扣 leetcode 989. 数组形式的整数加法 (python)
-
Soul网关源码学习07
-
P2014 [CTSC1997]选课(树上分组背包)
-
医疗服务机构网页模板
-
【数据分析-随到随学】数据分析建模和预测
-
【2021】Python3+Selenium3自动化测试(不含框架)
-
金三银四必问:如何去掉list集合中重复的元素?
-
2021.1.21寒假打卡Day17
-
超酷科幻FLASH网页模板
-
Spring的动态代理开发.docx
-
R语言数据可视化 ggplot2基础3 添加几何对象
-
SetupFactorC#打包安装包软件.rar
-
dfs剪枝 连连看 HDU - 1175
-
SigmaWinPlusE_571.exe
-
韩国化妆品绿色网站模板