精华内容
下载资源
问答
  • 网络爬虫例子

    2013-05-31 14:10:33
    内容详细,很适合基础的程序员看,好好的。值得一看的
  • Java网络爬虫例子

    2015-07-08 20:28:05
    网络爬虫的简单实现,用于从指定网站上自动抓取链接。
  • 简单的Python网络爬虫例子

    千次阅读 2019-12-06 17:57:21
    简单的爬虫使用urllib就好了,以一个小例子示范: 爬取一个网站的所有出版社的名字,并写入txt。 URL:https://read.douban.com/provider/all 首先,分析一下源码(打开网页按F12),找到源码的格式是这样的: ...

    简单的爬虫使用urllib就好了,以一个小例子示范:

            爬取一个网站的所有出版社的名字,并写入txt。

    URL:  https://read.douban.com/provider/all

     首先,分析一下源码(打开网页按F12),找到源码的格式是这样的:

    <div class="name">白马时光</div>

    <div class="name">读客文化</div>

    则用正则表达式可以写成:pat=“<div class="name">()</div>”    ,括号()中的内容就是我们要提取的内容。

     

    接着,打开IDLE,Ctrl+N新建一个Python文件,再Ctrl+S保存一下,现在就可以编辑啦:

     

    导入urllib中的request模块:import urllib.request 

    导入正则模块提取信息:import re

    打开读取要爬取信息的网址:data=urllib.request.urlopen(""https://read.douban.com/provider/all").read()

    设置正则表达式提取相应信息:pat='<div class="name">(.*?)</div>' 

    注意下name是双引号,所以外围用单引号;括号中 .*提取任意字符,?精确提取。

    进行全局匹配提取:rst=re.compile(pat).findall(data)

    打印爬取的第一条信息:print(rst[0])

    import urllib.request
    import re
    data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
    pat='<div class="name">(.*?)</div>'
    rst=re.compile(pat).findall(data)
    print(rst[0])

    编译时报错:raise HTTPError(req.full_url, code, msg, hdrs, fp)
    urllib.error.HTTPError: HTTP Error 418: 

    在网上找了原因:

    是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫.

    有些网站为了防止这种非正常的访问,会验证请求信息中的UserAgent(它的信息包括硬件平台、系统软件、应用软件和用户个人偏好),如果UserAgent存在异常或者是不存在,那么这次请求将会被拒绝(如上错误信息所示)

    所以可以尝试在请求中加入UserAgent的信息

    具体参考:http://www.2cto.com/kf/201309/242273.html

     

    于是更改脚本如下:

    import urllib.request
    import re
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}  
    req = urllib.request.Request(url="https://read.douban.com/provider/all", headers=headers)  
    data=urllib.request.urlopen(req).read()
    pat='<div class="name">(.*?)</div>'
    rst=re.compile(pat).findall(data)
    print(rst[0])

    又出现报错:TypeError: cannot use a string pattern on a bytes-like object

    意思是数据格式不一样,网页上是二进制,需要转码,一般用decode(“utf-8”)

    再修改脚本即可进行编译,打印出了爬取的第一条信息“安徽文艺出版社”:

    接下来就用循环遍历,再写入新建的一个chubanshe.txt文件,就搞定啦~

    脚本如下:

    import urllib.request
    import re
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}  
    req = urllib.request.Request(url="https://read.douban.com/provider/all", headers=headers)  
    data=urllib.request.urlopen(req).read().decode("utf-8")
    pat='<div class="name">(.*?)</div>'
    rst=re.compile(pat).findall(data)
    fh=open("D:\\chubanshe.txt","w")
    for i in range(0,len(rst)):
        print(rst[i])
        fh.write(rst[i]+"\n")
    fh.close()

     

     

     

     

    展开全文
  • Matlab----网络爬虫例子

    千次阅读 2016-04-22 07:10:00
    % 本程序用于获取网站中的表格 % written by longwen36 % all rights reserved clc,clear; warning off; for year = 1991:1992 %年份 for jidu = 1:4 fprintf('%d年%d季度的数据...', year, jidu) ...
    % 本程序用于获取网站中的表格
    % written by longwen36
    % all rights reserved 
    clc,clear;
    warning off;
    
    for year = 1991:1992 %年份
        for jidu = 1:4  
            fprintf('%d年%d季度的数据...', year, jidu)
            [sourcefile, status] = urlread(sprintf('http://vip.stock.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/000001/type/S.phtml?year=%d&jidu=%d', year,jidu));  
            if ~status
                error('读取出错!\n')
            end   
            expr1 = '\s+(\d\d\d\d-\d\d-\d\d)\s*'; %获取日期
            [datefile, date_tokens]= regexp(sourcefile, expr1, 'match', 'tokens');
            date = cell(size(date_tokens));
            for idx = 1:length(date_tokens)
                date{idx} = date_tokens{idx}{1};
            end
              
            expr2 = '<div align="center">(\d*\.?\d*)</div>'; %获取数据
            
            [datafile, data_tokens] = regexp(sourcefile, expr2, 'match', 'tokens');
            
            data = zeros(size(data_tokens));
            
            for idx = 1:length(data_tokens)
                data(idx) = str2double(data_tokens{idx}{1});
            end
            data = reshape(data, 6, length(data)/6 )'; %重排
            filename = sprintf('%d年',year);
            pathname = [pwd '\data'];
            if ~exist(pathname,'dir')
                mkdir(pathname);
            end 
            fullfilepath = [pwd '\data\' filename];
            % 保存数据到Excel
            sheet = sprintf('第%d季度', jidu);
            xlswrite(fullfilepath, date' , sheet);
            range = sprintf('B1:%s%d',char(double('B')+size(data,2)-1), size(data,1));
            xlswrite(fullfilepath, data, sheet, range);
            fprintf('OK!\n')   
        end
    end
    
    fprintf('全部完成!\n')

    展开全文
  • 各位大神,本人对网络爬虫一点都不懂,求一个列子,要这样的,比如是文章的话,要获取标题,内容,然后如果有超链接,继续往下爬,深度控制在两层,求大神给一个...
  • Java爬虫代码,例子十分简单,很容易接入,希望能帮助到大家。
  • 下面我们创建一个真正的爬虫例子 爬取我的博客园个人主页首页的推荐文章列表和地址 scrape_home_articles.py from urllib.request import urlopen from bs4 import BeautifulSoup import re ...

    下面我们创建一个真正的爬虫例子

    爬取我的博客园个人主页首页的推荐文章列表和地址

    scrape_home_articles.py

    from urllib.request import urlopen
    from bs4 import BeautifulSoup
    import re
    
    html = urlopen("http://www.cnblogs.com/davidgu")
    bsObj = BeautifulSoup(html, "html.parser")
    for link in bsObj.find("div", {"id":"main_container"}).findAll("a", href=re.compile("^http://www.cnblogs.com/davidgu/p")):
        if 'href' in link.attrs and not('class' in link.attrs):
            print(link.string)
            print(link.attrs['href'])
            print("--------------------------------------------------------------")

    运行结果:
    [置顶]解决adb server端口被占用的问题
    http://www.cnblogs.com/davidgu/p/4515236.html
    --------------------------------------------------------------
    [置顶]解决Eclipse下不自动拷贝apk到模拟器问题( The connection to adb is down, and a sever
    http://www.cnblogs.com/davidgu/p/4390661.html
    --------------------------------------------------------------
    常用的正则表达式一览
    http://www.cnblogs.com/davidgu/p/4831357.html
    --------------------------------------------------------------
    C++ 11 - STL - 函数对象(Function Object) (上)
    http://www.cnblogs.com/davidgu/p/4829097.html
    --------------------------------------------------------------

    ...

     

    展开全文
  • 抓取页面,网络爬虫两个例子
  • 网络爬虫的一个例子

    2012-11-29 15:38:21
    用C#实现一个网络爬虫的小例子,用来爬取58同城上的岗位招聘信息(仅做例子而已)
  • #网络爬虫:模仿浏览器帮助我们去互联网上采集数据的一个程序 #资源:网页,图片,流媒体资源 #浏览器:URL,访问的地址 import requests #贴吧首页的中某一张图片的URL img_url=...
  • 里面有《python网络编程》的pdf版本和前几章的几个例程的代码。 还有几个自己找的python爬虫例子的代码。
  • java jsoup 网络爬虫 学习例子(五) 宽度优先 package com.iteye.injavawetrust.gethtml; import java.util.Map; import java.util.Set; /** * * @author InJavaWeTrust * */ public class GetHtml { ...
  • spider网络爬虫

    2013-05-03 09:02:41
    java 网络爬虫例子,是一个很好的的例子。
  • 网络爬虫之简单例子

    2017-03-09 08:40:41
    网络爬虫的简单例子###京东页面的简单爬取 import requests url="http://item.jd.com/2967929.html"try: r=requests.get(url) r.raise_for_staus() r.encoding=r.apparent_encoding print(r.text[:1000]) except...
  • 美女图片网站POST爬虫例子-易语言
  • 用户爬虫例子

    2016-02-05 22:35:30
    以下是一系列已经发布的一般用途的网络爬虫(除了主题检索的爬虫)的体系结构,包括了对不同组件命名和突出特点的简短的描述。  RBSE (Eichmann,1994)是第一个发布的爬虫。它有两个基础程序。第一个是...
  • java jsoup 网络爬虫 学习例子(六)京东和当当商品比价 package com.iteye.injavawetrust.jdvsdd; import java.util.List; /** * * @author InJavaWeTrust * */ public interface ProductList { ...
  • Python3网络爬虫快速入门实战解析

    万次阅读 多人点赞 2017-09-28 14:48:41
    请在电脑的陪同下,阅读本文。本文以实战为主,阅读过程...本文的实战内容有:网络小说下载(静态网站)、优美壁纸下载(动态网站)、爱奇艺VIP视频下载 PS:本文为Gitchat线上分享文章,该文章发布时间为2017年09月19日。
  • java jsoup 网络爬虫 学习例子(七)京东和淘宝商品比价 htmlunit package com.iteye.injavawetrust.pricecheck; import java.util.List; /** * * @author InJavaWeTrust * */ public interface ...
  • java jsoup 网络爬虫 学习例子(八)京东和淘宝商品比价 PhantomJS /* * filename getHtml.js * phantomjs.exe 2.0.0 * author InJavaWeTrust */ var system = require('system'); var address = ''; ...
  • java jsoup 网络爬虫 学习例子(四) 抓取网页连接插入mysql数据库 package com.iteye.injavawetrust.jsoup; import java.io.IOException; import java.util.Iterator; import org.jsoup.Jsoup; import org....
  • 网络爬虫程序

    2018-12-30 10:26:52
    网络爬虫程序的例子。 使用次例子可以快速搭建自己的网络爬虫程序。
  • jsoup 网络爬虫 学习例子(三) 抓取豆瓣电影海报图片 下载到本地 package com.iteye.injavawetrust.img; /** * * @author InJavaWeTrust * */ public class Constants { /** * 存放海报图片目录 ...
  • http://mp.weixin.qq.com/s/SRDeauRLWxvtFW5KkNmu0g  爬虫
  • 爬虫入门例子

    2021-03-15 18:36:42
    一、网络爬虫概述 1、网络爬虫按照系统结构和实现结构,分以下类型: 通用网络爬虫、聚集网络爬虫、增量式网络爬虫、深层网络爬虫
  • 最近公司项目需要一些食材的营养含量xx,为了方便调用,花了半个多少时写了一个爬虫。 后来又加了个多线程。 当个例子给大家学习一下。 基本每行代码我都写了注释。 后面可能还会完善一些菜谱什么的,甚至可能开源一...
  • 爬虫例子,通过超文本浏览框登录后获取cookies,通过cookies抓取网站上的用户数据,联系方式,使用次时代的OCR识别,识别出图片中的联系方式,转换为文本。 最后导出CSV格式文件,可用excel做筛选
  • 一个简单的爬虫例子

    2017-05-30 10:31:56
    一个简单的爬虫,亲测可用
  • 前段时间发了一个爬虫例子,近期完善整理了一下,全部开源出来 (仅供交流学习使用,禁止用于商业用途) 。 项目包含 : 爬虫 后端 WEB前端 部分数据 爬虫说明: 输入关键词→爬取列表→爬取详情(爬取完列表后...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 23,681
精华内容 9,472
关键字:

网络爬虫的例子

爬虫 订阅