精华内容
下载资源
问答
  • 现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。...

    现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),

    所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。

    import urllib.request

    import re

    import os

    import urllib

    #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码

    def getHtml(url):

    page = urllib.request.urlopen(url)

    html = page.read()

    return html.decode('UTF-8')

    def getImg(html):

    reg = r'src="(.+?\.jpg)" pic_ext'

    imgre = re.compile(reg)

    imglist = imgre.findall(html)#表示在整个网页中过滤出所有图片的地址,放在imglist中

    x = 0

    path = 'D:\\test'

    # 将图片保存到D:\\test文件夹中,如果没有test文件夹则创建

    if not os.path.isdir(path):

    os.makedirs(path)

    paths = path+'\\' #保存在test路径下

    for imgurl in imglist:

    urllib.request.urlretrieve(imgurl,'{0}{1}.jpg'.format(paths,x)) #打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串

    x = x + 1

    return imglist

    html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息,得到的html就是网页的源代码

    print (getImg(html)) #从网页源代码中分析并下载保存图片

    以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

    时间: 2019-08-25

    展开全文
  • [1].[代码] [Python]代码# coding=utf-8import requestsimport refrom lxml import etreeimport timeimport sysreload(sys)sys.setdefaultencoding("utf-8")#定义一个爬虫class spider(object):def __init__(self):...

    [1].[代码] [Python]代码

    # coding=utf-8

    import requests

    import re

    from lxml import etree

    import time

    import sys

    reload(sys)

    sys.setdefaultencoding("utf-8")

    #定义一个爬虫

    class spider(object):

    def __init__(self):

    print u'开始爬取内容。。。'

    #getsource用来获取网页源代码

    def getsource(self,url):

    html = requests.get(url)

    return html.text

    #changepage用来生产不同页数的链接

    def changepage(self,url,total_page):

    now_page = int(re.search('index_(\d+)',url,re.S).group(1)) #可修改

    page_group = []

    for i in range(now_page,total_page+1):

    link = re.sub('index_\d+','index_%s'%i,url,re.S) #可修改

    page_group.append(link)

    return page_group

    #getpic用来爬取一个网页图片

    def getpic(self,source):

    selector = etree.HTML(source)

    pic_url = selector.xpath('//ul[@class="ali"]/li/div/a/img/@src') #可修改

    return pic_url

    #savepic用来保存结果到pic文件夹中

    def savepic(self,pic_url):

    picname=re.findall('(\d+)',link,re.S) #可修改

    picnamestr = ''.join(picname)

    i=0

    for each in pic_url:

    print 'now downloading:' + each

    pic = requests.get(each)

    fp = open('pic\\'+picnamestr +'-'+str(i)+ '.jpg', 'wb')

    fp.write(pic.content)

    fp.close()

    i += 1

    #ppic集合类的方法

    def ppic(self, link):

    print u'正在处理页面:' + link

    html = picspider.getsource(link)

    pic_url = picspider.getpic(html)

    picspider.savepic(pic_url)

    time1=time.time()

    if __name__ == '__main__':

    url = 'http://www.ivsky.com/tupian/ziranfengguang/index_1.html' #可修改

    picspider = spider()

    all_links = picspider.changepage(url,3) #可修改

    for link in all_links:

    picspider.ppic(link)

    time2=time.time()

    print u'耗时:'+str(time2-time1)

    展开全文
  • 先把原理梳理一下:首先我们要爬取网页代码,然后从中提取图片的地址,通过获取到的地址来下载数据,并保存在文件中,完成。下面是具体步骤:先确定目标,我挑选的是国服守望先锋的官网的英雄页面,我的目标是爬取...

    先把原理梳理一下:首先我们要爬取网页的代码,然后从中提取图片的地址,通过获取到的地址来下载数据,并保存在文件中,完成。

    下面是具体步骤:

    先确定目标,我挑选的是国服守望先锋的官网的英雄页面,我的目标是爬取所有的英雄的图片

    页面是这样的

    1715529-20200312184109867-1562010026.png

    首先做的就是得到它的源代码找到图片地址在哪里

    这个函数最终会返回网页代码

    def getHtml(url):

    html = requests.get(url)

    return html.text

    将其先导入文本文件观察

    1715529-20200312184433801-1707674174.png

    发现图片的地址所在位置格式是这样

    zarya.png

    因此就可以依此写出正则表达式,并从网页代码中将图片地址提取出来

    imagelist=re.findall('img src="(.*?)" class="portrait"',html)

    上面这句话得到的就是图片地址的集合

    之后要做的就是遍历集合中的地址,依此下载并保存到目标的文件夹中

    下面是项目完整代码

    # -*- coding: utf-8 -*-

    '''

    Created on 2020年3月12日

    @author: 20514

    '''

    import requests

    import re

    #打开网页,获取网页源码

    def getHtml(url):

    html = requests.get(url)

    return html.text

    def getImag(html):

    imagelist=re.findall('img src="(.*?)" class="portrait"',html)

    pat = 'list/(.*?).png'

    ex = re.compile(pat)

    i=1

    for url in imagelist:

    print('Downloding:'+url)

    #从图片地址下载数据

    image=requests.get(url)

    # 获取英雄名(这里可以自己为文件取名就行,下面的name变量是从图片地址中提取到的英雄名)

    pat = 'list/(.*?).png'

    ex = re.compile(pat)

    if ex.search(url):

    name=ex.search(url).group(1)

    else:

    pat ='heroes/(.*?)/hero-select'

    ex = re.compile(pat)

    if ex.search(url):

    name=ex.search(url).group(1)

    else:

    name='new'+str(i)+'?'

    i=i+1

    #在目标路径创建相应文件

    f=open('C:\\Users\\20514\\Desktop\\owhero\\'+name+'.png','wb')

    #将下载到的图片数据写入文件

    f.write(image.content)

    f.close()

    return '结束'

    print('获取ow官网英雄图片')

    url='https://ow.blizzard.cn/heroes/'

    print('正在获取图片')

    html=getHtml(url)

    print('下载图片中')

    print(getImag(html))

    print('下载完成')

    效果:

    1715529-20200312190044933-837726192.png

    -------------------------------------------------------------------------------------------------------------------------------------

    近几天学了点通过python爬取网页的知识,不得不说跟java相比起来,这方面python真的方便太多了。

    展开全文
  • python爬取网页图片

    2020-11-26 14:27:04
    python爬取网页图片 在这里插入代码片 1. ModuleNotFoundError: No module named ‘requests’ 未安装该模块,安装一下即可; 在python安装目录输入cmd,再输入以下代码: python -m pip install request 2. ...

    python爬取网页图片

    1. 爬取一个页面的图片
    # encoding=gbk
    import re
    import requests
    
    url='http://www.netbian.com/'
    
    data=requests.get(url).text
    jpglist=re.findall('<img src="(.*?)" ',data,re.S)
    
    n=1
    for each in jpglist:
    	print(each)
    	try:
    		pic=requests.get(each,timeout=10)
    	except:
    		print('下载失败')
    		continue
    	string='D:\\img\\1\\'+str(n)+'.jpg'
    	fp=open(string,'wb')
    	fp.write(pic.content)
    	fp.close()
    	n+=1
    
    1. 爬取网站的全部图片
    在这里插入代码片
    

    以下是实现中遇到的问题以及解决方案总结


    1. ModuleNotFoundError: No module named ‘requests’

    未安装该模块,安装一下即可;
    在python安装目录输入cmd,再输入以下代码:

    python -m pip install request
    

    2. ModuleNotFoundError: No module named ‘bs4’

    python -m pip install bs4
    

    3. bs4.FeatureNotFound: Couldn’t find a tree builder with the features you requested: lxml.

    python -m pip install lxml
    

    这里看见有人安装失败

    原因是电脑安装了Anaconda3(python3.7),lxml库是4.2.5,在Pycharm(社区,2018.3)版中老是不支持lxml。
    解决方案:先用pip uninstall lxml卸载,再用pip install lxml安装,然后成功了


    展开全文
  • 利用python爬取网页图片

    千次阅读 2017-04-06 11:09:49
    学习python爬取网页图片的时候,对于屌丝男士来说,可以通过这个工具去批量下载你想要的美女图片,哈哈,楼主只是在练习爬取网页图片的时候,顺便爬取美女的照片哦 开始正题: 我从尤物网去爬取我喜欢的女神的...
  • Python 爬取网页图片

    千次阅读 2017-11-28 11:36:32
    因为训练数据需求,需要爬取一些图片做训练。爬取的是土巴兔 网站的 家装图片 根据风格进行爬取图片 http://xiaoguotu.to8to.com/list-h3s13i0
  • Python爬取网页图片

    千次阅读 2018-10-18 20:00:09
    本文利用Python3爬取网上图片数据,并保存到本地。具体代码如下图所示 # author:首席鉴黄师 import re import requests #url url = 'https://tieba.baidu.com/p/5915762447' #模拟浏览器请求资源 we_data = ...
  • 分享一下之前学习Python网络爬虫爬取图片的经验,附上源码,欢迎大家参考指正。
  • 使用Python爬取网页图片

    千次阅读 2017-03-06 17:20:25
    使用Python爬取网页图片 李晓文 21 天前 近一段时间在学习如何使用Python进行网络爬虫,越来越觉得Python在处理爬虫问题是非常便捷的,那么接下来我就陆陆续续的将自己学习的爬虫知识分享给大家。 首先...
  • Python爬取网页数据

    万次阅读 多人点赞 2018-08-29 17:20:35
    都说python爬网页数据方便,我们今天就来试试,python爬取数据到底有多方便 简介 爬取数据,基本都是通过网页的URL得到这个网页的源代码,根据源代码筛选出需要的信息 准备 IDE:pyCharm 库:requests、...
  • 首先我们进入搜狗图片http://pic.sogou.com/,进入壁纸分类(当然只是个例子Q_Q),因为如果需要爬取某网站资料,那么就要初步的了解它…进去后就是这个啦,然后F12进入开发人员选项,笔者用的是Chrome。右键图片>>...
  • 利用Python爬取网页图片

    千次阅读 2019-05-20 21:44:23
    首先我们进入搜狗图片http://pic.sogou.com/,进入壁纸分类(当然只是个例子Q_Q),因为如果需要爬取某网站...发现我们需要的图片src是在img标签下的,于是先试着用 Python 的 requests提取该组件,进而获取img的s...
  • 下面进入正文:你可能需要的工作环境:Python 3.6官网下载本地下载我们这里以sogou作为爬取的对象。首先我们进入搜狗图片http://pic.sogou.com/,进入壁纸分类(当然只是个例子Q_Q),因为如果需要爬取某网站资料,...
  • 本文实例为大家分享了Python爬取网络图片的具体代码,供大家参考,具体内容如下代码:import urllibimport urllib.requestimport re#打开网页,下载器def open_html ( url):require=urllib.request.Request(url)...
  • 先分析查找要爬取图片的路径 在浏览器F12 审查元素整体实现代码# -- coding:UTF-8 --import requestsfrom bs4 import BeautifulSoupimport os'''思路:获取网址获取图片地址爬取图片并保存'''# 获取网址def getUrl...
  • 没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将...下面这篇文章主要给大家介绍了利用Python3.6爬取搜狗图片网页图片的相关资料,需要的朋友可以参考下。
  • 关于python爬取网页

    千次阅读 多人点赞 2021-03-06 18:59:20
    之前在网上也写了不少关于爬虫爬取网页代码,最近还是想把写的爬虫记录一下,方便大家使用吧! 代码一共分为4部分: 第一部分:找一个网站。 我这里还是找了一个比较简单的网站,就是大家都知道的...
  • 前言 最近几天,研究了一下一直很好奇的爬虫算法。这里写一下最近几天的点点心得。下面进入正文: ...发现我们的src是在img标签下的,于是先试着用 Python 的 requests提取该组件,进而获取img的src然后使
  • python爬取网站源代码+图片

    千次阅读 2020-06-20 15:15:07
    python爬取网站源代码+图片需求分析基础知识正则表达式python网络请求文件读写实现基本思路具体实现结果总结 需求分析 大部分有志青年都想建立属于自己的个人网站,从零开始设计一个网站界面结构虽然听上去很nice,...
  • 爬取某知名网站图片(爬取动态网页)python爬取动态网页图片欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的...
  • 原标题:[Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium)好久没更新Python相关的内容了,这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分上节我们说了如何获取动态网页中的jquery内容[Python...
  • 本文主要介绍了Python爬虫:通过关键字爬取百度图片的方法。具有很好的参考价值,下面跟着小编一起来看下吧使用工具:Python2.7 点我下载scrapy框架sublime text3一。搭建python(Windows版本)1.安装python2.7 ---...
  • python 爬取网页中的图片到本地

    万次阅读 2016-10-15 21:13:23
    最近在学习python,顺便写一个爬取网页图片的程序练练手。 主要分为两个过程: 第一,从给定域名的网页中爬取图片的链接 第二,读取链接对应的图片,保存到本地 第一个过程需要导入utllib包,在python2.7...
  • 都说python爬网页数据方便,我们今天就来试试,python爬取数据到底有多方便简介爬取数据,基本都是通过网页的url得到这个网页的源代码,根据源代码筛选出需要的信息准备ide:pycharm库:requests、lxml 注:requests...
  • Python爬取百度图片

    万次阅读 多人点赞 2017-06-16 08:59:18
    新人上路, 老司机们请多多关照, 写的不好的地方, 还请多指教. 在很久很久以前, 我是一个苦逼的90后挨踢空穴老人, 一个人的夜里可是什么事都能干得出来! 这不, 我用我的把老师的图片给抓了过来… ...1. 分析网页
  • Python爬取网页图片数据

    千次阅读 2018-11-09 17:08:12
    在项目内新建一个python文件TestCrawlers.py TestCrawlers.py # 导入urllib下的request模块 import urllib.request # 导入正则匹配包 import re # -*- encoding:utf-8 -*- """ @作者:小思 @文件名...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,657
精华内容 6,662
关键字:

python爬取网页图片代码

python 订阅