精华内容
下载资源
问答
  • /div/div[@class="contentpic"]/img/@src') image_s.append(image) except: print('此网页出现问题') return image_s # 保存图片 def load(img): # 设置保存图片的路径 path = r'D:\BFgirl\\' num = 0 for ims in ...
    import requests
    import random
    import re
    from lxml import etree
    from urllib import request
    import time
    
    
    # 获取url
    def spider(url):
        url_list = []
        for i in range(1, 10):
            urls = url + str(i) +'.html'
            url_list.append(urls)
    
        return url_list
    
    
    # 清洗数据
    def data(url_list_data):
    
        image_s = []
        for j in url_list_data:
    
            try:
                hd = ['Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36',
                      'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
                      'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
                      'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0',
                      'Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50']
                hds = random.choice(hd)
    
                headers = {'User-Agent': hds,
                           'accept': '*/*',
                           'accept-encoding': 'gzip, deflate, br',
                           'accept-language': 'zh-CN,zh;q=0.9'}
                response = requests.get(url=j, headers=headers)
                # 网页源码出现乱码,使用下面的方法
                response.encoding ='UTF-8'
                html_s = response.text
    
                html = etree.HTML(html_s)
    
                image = html.xpath('//div[@class="content"]/div/div[@class="contentpic"]/img/@src')
                image_s.append(image)
    
            except:
                print('此网页出现问题')
    
        return image_s
    
    
    # 保存图片
    def load(img):
        # 设置保存图片的路径
        path = r'D:\BFgirl\\'
        num = 0
        for ims in img:
            with open(path + str(num) + '.jpg', 'wb') as f:
                req_1 = request.urlopen(ims[0])
                req_2 = req_1.read()
                f.write(req_2)
                f.close()
    
                num += 1
                print(str(num) + '.jpg 正在保存')
                time.sleep(1)
    
    
    # 假设一url,后面需加上page,
    url = 'https://www.xxxxx.com/_'
    sp = spider(url)
    data(sp)
    th = data(sp)
    load(th)
    
    
    展开全文
  • python爬虫爬取图片并保存到本地

    万次阅读 2018-08-29 20:04:00
    这里对于怎么爬取一个网页图片的链接不作介绍,当我们获取到图片的链接(假设为url)时,存到本地有两种方式: 1、以二进制方式写入文件即可 f = open(r"E:\Picture\0.png",'wb')#注意写入方式 f.write...

    这里对于怎么爬取一个网页图片的链接不作介绍,当我们获取到图片的链接(假设为url)时,存到本地有两种方式:

    1、以二进制方式写入文件即可

    f = open(r"E:\Picture\0.png",'wb')#注意写入方式
    f.write(urllib2.urlopen(url).read())
    f.close()

    2、调用urllib库函数

     urllib.urlretrieve(url,"E:\Picture\%s.jpg"%0)

    以上两种方式保存的图片路径均为E:\Picture\0.png

    展开全文
  • python爬虫爬取图片保存到本地文件

    千次阅读 2019-02-16 20:46:00
    今天搜索电脑壁纸突发奇想就把所有壁纸怕取下来了 百度 壁纸 随便挑了一个点进去是zol电脑壁纸ZOL桌面壁纸 现在开始爬取 import requests ...def baocun(url):#此方法是将图片保存文件到本地 只需要传入图片...

    今天搜索电脑壁纸突发奇想就把所有壁纸怕取下来了

    百度 壁纸 随便挑了一个点进去是zol电脑壁纸ZOL桌面壁纸

    现在开始爬取

    import requests
    from lxml import etree
    import time
    import os
    #url = 'http://desk.zol.com.cn/nb/'
    def baocun(url):#此方法是将图片保存文件到本地 只需要传入图片地址
    	root = "E://python//"#这是根文件所在
    	path=root+url.split('/')[-1]#通过’/‘把图片的url分开找到最后的那个就是带.jpg的保存起来
    
    	if not os.path.exists(root):
    		os.mkdir(root)
    	if not os.path.exists(path):
    		r = requests.get(url)
    		r.raise_for_status()
    		with open(path,'wb') as f:#模式以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。一般用于非文本文件如图片等
    			f.write(r.content)#r.content返回二进制,像图片
    			print('爬取成功')
    def getHTML(url):#解析网页 并且解析出来图片地址
    	response = requests.get(url)
    	response.encoding='gbk'#先前解析出来的是乱码 看网页得知编码方式是gbk
    	html = etree.HTML(response.text)#etree.HTML()#是一个方法用来解析html网页的
    	imgurl=html.xpath('//div[@class="wrapper top-main clearfix"]/div[1]/ul[1]/li/a/img/@src')#通过f12开发者工具查看网页代码得知图片地址具体所在
    	count=1
    	for index,i in enumerate(imgurl):
    		# print("这是第"+str(count)+"数据")
    		print(i)
    		baocun(i)
    		count=count+1
    indexa=1
    for i in range(1,100):#做到翻页,先观察这个网址的每一页的规律再进行翻页,因为每一个的网页的xpath都是固定的只需要顺序请求每一页再然后每一页再进行解析就能把全部的图片下载下来
    	url='http://desk.zol.com.cn/nb/%d.html'%i#占位符
    	print('这是第'+str(indexa)+"页数据")
    	indexa=indexa+1
    	getHTML(url)
    	time.sleep(2)#设置请求一页休眠2秒 避免被拦截
    
    • 这是全部代码我花了很长的时间是因为当我使用xpath解析网页的时候一步一步来的把每一个的div的class以及ul跟li的class都写出来可是就是返回的空。最后我在根的div元素开始使用div[index]这样的方式最终获取了图片路径,这里提醒大家如果xpath很仔细还不对可能是网页设计的坑,有一次爬取51job的时候又一个类是后面加了一个空格,不很仔细看看不出来,复制也复制不出来这个空格。最后直接copy的xpath。径才可以。有时候一种方式解析不出换一种方式可能就行了。要仔细。
    展开全文
  • 初学爬虫,将自己成功的案例贴上与大家一起...爬取网站图片,我选择的是这个不错的美图网站 http://www.win4000.com/ 爬取过程比较顺利,直接上代码: import time import urllib import requests from bs4 import...

    初学爬虫,将自己成功的案例贴上与大家一起进步学习。
    所需环境
    pycharm,第三方包下载了requests,bs4,lxml,urllib
    大佬的爬虫第三方库

    爬取网站图片,我选择的是这个不错的美图网站
    http://www.win4000.com/

    爬取过程比较顺利,直接上代码:

    import time
    import urllib
    import requests
    from bs4 import BeautifulSoup
    import lxml
    import re
    import os
    
    #得到页面html代码
    def getPage(url):
        headers = {'User-Agent':"User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}
        html = requests.get(url,headers=headers).content.decode('utf-8')
        return html
    
    #输入图片的网络url路径和存储路径进行存储操作
    def savaImg(picurl,saveurl):
        bytes = urllib.request.urlopen(picurl)
        file = open(saveurl,'wb')
        file.write(bytes.read())
        file.flush()
        file.close()
        return True
    
    def findCount(html):
        pattern = re.compile('(<span>1</span>/<em>(.*)</em>)')
        try:
            Count = int(re.search(pattern,html).group(1))
            return Count
        except:
            print('找不见多少页')
            return 0
    
    #创建文件夹
    def mkdir(path):
        path = path.strip()
        isExists = os.path.exists(path)
    
        if not isExists:
            print('创建文件夹'+path)
            os.makedirs(path)
            return True
        else:
            print('文件夹已经创建')
            return False
    
    start = time.clock()
    url = "http://www.win4000.com/meinvtag7_1.html"  #爬取网页路径
    html = getPage(url)
    soup = BeautifulSoup(html,'lxml')
    picturelink = soup.find('div',class_='w1180 clearfix').find_all('a')
    pictureimg = soup.find('div',class_='w1180 clearfix').find_all('img')
    #print(picturelink[0]['href'])
    
    count = 0
    for img in pictureimg:
        print(img['alt'],img['data-original'])
        mkdir('C:/Users/Lenovo/Desktop/wormpicture/'+img['alt'])#创建文件夹
    
        diru = 'C:/Users/Lenovo/Desktop/wormpicture/'+img['alt']+'/'
        newurl = picturelink[count]['href']
        newhtml = getPage(newurl)
        piccount = findCount(newhtml) #该套图多少张图片
    
        loadnumber=0
        while loadnumber<piccount:
            soup1 = BeautifulSoup(newhtml,'lxml')
            largepicurl = soup1.find('img',class_='pic-large')['url']
            if savaImg(largepicurl,diru+str(loadnumber)+'.jpg'):
                print('保存成功'+img['alt']+'('+str(loadnumber+1)+'/'+str(piccount)+')')
            nextlink = soup1.find('div',class_='pic-next').find('a')['href']#下一张图片链接
            newhtml = getPage(nextlink)
            loadnumber+=1
        count+=1
    
    end = time.clock()
    print('下载成功,花费'+str(end-start)+'秒')
    
    
    

    下载图片

    展开全文
  • 本项目主要用到的库 requests BeautifulSoup ... 学习图片自动保存到本地的方法 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import tim...
  • 爬取百度图片存入本地文件中。 例: 爬取的是怪兽大学百度图片存入本地(嘿嘿安利大家,非常励志的一部电影,看了三次) 首先我们找到图片的链接,将json格式解析, 代码如下: import requests import json...
  • python批量爬取图片并保存本地文件夹下

    千次阅读 多人点赞 2020-02-06 16:42:36
    python批量爬取图片并保存本地文件夹下 本人目前是山西农业大学软件学院大三的一名学生,由于疫情严重,积极响应党和国家的号召宅在家中,今日闲来无事,就对学院的官网下手啦,将官网上介绍学院的老师的照片全部...
  • HTML 或 XML 文件中提取数据的 Python 库.它能够通过你喜欢的转换器实现惯用的文档...爬取该地址的 图片。。。URL = 'http://www.ifanxu.com/alipay_red_packet/'headers = {'User-Agent': 'Mozilla/5.0 (Windows...
  • python爬虫爬取百度图片 1、首先安装requests库 然后,上代码 import requests import re num = 0 numPicture = 0 file = '' List = [] def dowmloadPicture(html, keyword): global num # t =0 pic_url = re...
  • import requests import json import re page=1 path='qcmn' url='https://www.0xu.cn/gallery/'+path url='https://www.0xu.cn/gallery/list?page='+str(page) +'&category='+path def get_html(url): ...
  • 其实和爬取普通数据本质一样,不过我们直接爬取数据会直接返回,爬取图片需要处理成二进制数据保存图片格式(.jpg,.png等)的数据文本。 现在贴一个url=...
  • python爬取图片并保存到本地

    万次阅读 2018-12-18 14:27:19
    Python爬取图片(你懂得) requests与Bs4 这两个模块是本文使用的主要模块,requests可以获取连接,bs4全名BeautifulSoup,是编写python爬虫常用库之一,主要用来解析html标签。这两个模块可以通过cmd终端下载 pip ...
  • 于是我也就写一个python3简单的爬虫爬虫一下贴吧的图片吧。话不多说,我们开始。首先简单来说说一下知识。一、什么是爬虫?网页上面采集数据二、学习爬虫有什么作用?做案例分析,做数据分析,分析网页结构..........
  • 可对一些常见的图片网站进行爬取,对于不同的网站,只需要稍修改parse_html函数中的patern的正则表达式即可。 (该代码参考了网上一些大佬的代码,在此表示感谢,非商用,...dir = './yazi' #图片保存地址 def g...
  • python爬虫爬取moodle课件 用python爬虫爬取moodle课件 1 介绍 2 code 引入模块 登录moodle 正则表达式提取 a 科目的提取 b 文件夹的提取 c 文件的提取 下载 其他 3 最后 1) 介绍 moodle(Modular...
  • python爬虫爬取今日头条街拍美女图片按照标题建立文件夹保存本地文件夹内
  • 目标:python爬虫爬取百度图片。 源码: import requests #首先导入库 import re import os #设置默认配置 MaxSearchPage = 20 # 收索页数 CurrentPage = 1# 当前正在搜索的页数 DefaultPath = "./pictures" # 默认...
  • 这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片。 用到的包: urllib....
  • Python爬取图片项目介绍 网址地址:https://500px.com/popular 第三方库:requests,fake_useragent(产生随机请求头进行访问) 代码实现: import requests from fake_useragent import UserAgent filename=0 ...
  • Python爬取网络图片保存到本地文件夹主要内容第一步 引入库文件第二步 获取网页文档第三步 获取图片地址第四步 通过地址保存图片在main方法执行以上方法执行main()方法爬取结果 主要内容 经过上一次的爬虫实例,我...
  • 爬取过程中首先你需要观察在手机页面变化的过程来使用正则表达式匹配源码中图片的链接然后在保存到本地 其次就是信息过滤,出除了你需要的手机图片以外的其他信息过滤掉:可通过查看网页代码找到图片的起始以及结束...
  • 3. 使用request将图片保存到本地以及会碰到的一些问题 1)获取图片信息,再保存到本地文件中 2). 超时处理 3). 读写超时 4). 超时重试 4.使用urllib 将图片保存到本地以及会碰到的一些问题 1). 使用...
  • 主要介绍了Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码,需要的朋友可以参考下
  • 最近在学习爬虫的过程中正好自己重新温习一下学习的内容,爬取豆瓣top250,并且自己写了将海报图片爬取下来保存到本地。 开始 就像是之前我写几篇博客中那样进行爬取爬取豆瓣top 250是分页的一个爬取 和我之前写的...
  • python爬虫爬取网页图片并存储

    千次阅读 2019-04-02 09:31:21
    爬虫爬取网页图片并存储 >>> import requests >>> import os >>> url="http://5b0988e595225.cdn.sohucs.com/images/20180903/2de4877fe41e4dfe87a753c54c357dd9.jpeg"#图片链接 >...
  • nodejs和python 简单爬取百度图片保存本地近期想搞爬虫,就也顺便学了点python, 百度图片搜索api(通过控制台拿) ...
  • import requests #发送网络请求 ...print(response.content)#打印二进制数据 with open(‘百度logo.png’, ‘wb’) as f:#通过open()函数将二进制数据写入本地文件 f.write(response.content)#写入 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,988
精华内容 4,395
关键字:

python爬虫爬取图片并保存到本地

python 订阅
爬虫 订阅