精华内容
下载资源
问答
  • 可以直接下载整站的图片 代码中使用多线程进行批量下载 代码中相关的内容已经加了注释 下载的同学应该可以自行修改里面的代码了
  • Python爬取网站图片并保存,超级简单 第一步,导入模块 import requests from bs4 import BeautifulSoup requests用来请求html页面,BeautifulSoup用来解析html 第二步,获取目标html页面 hd = {'user-agent': '...

    Python爬取网站图片并保存,超级简单

    先看看结果吧,去bilibili上拿到的图片=-=
    在这里插入图片描述

    第一步,导入模块

    import requests
    from bs4 import BeautifulSoup
    

    requests用来请求html页面,BeautifulSoup用来解析html

    第二步,获取目标html页面

    hd = {'user-agent': 'chrome/10'}  # 伪装自己是个(chrome)浏览器=-=
    
    
    def download_all_html():
        try:
            url = 'https://www.bilibili.com/'  # 将要爬取网站的地址
            request = requests.get(url, timeout=30, headers=hd)  # 获取改网站的信息
            request.raise_for_status()  # 判断状态码是否为200,!=200显然爬取失败
            request.encoding = request.apparent_encoding  # 设置编码格式
            return request.text  # 返回html页面
        except:
            return ''
    

    第三步,分析网站html构造

    1、显示网站html代码
    在这里插入图片描述
    2、找到图片位置
    在这里插入图片描述
    3、分析
    在这里插入图片描述
    在这里插入图片描述

    第四步,直接上代码注释够详细=-=

    def parse_single_html(html):
        soup = BeautifulSoup(html, 'html.parser')  # 解析html,可以单独去了解一下他的使用
        divs = soup.find_all('div', class_='card-pic')  # 获取满足条件的div,find_all(所有)
        for div in divs:  # 瞒住条件的div有多个,我们单独获取
            p = div.find('p')  # 有源代码可知,每个div下都有一个p标签,存储图片的title,获取p标签
            if p == None:
                continue
            title = p['title']  # 获取p标签中的title属性,用来做图片的名称
            img = div.find('img')['src']  # 获取图片的地址
            if img[0:6] != 'https:':  # 根据源代码发现,有的地址缺少"https:"前缀
                img = 'https:' + img  # 如果缺少,我们给他添上就行啦,都据情况而定
            response = requests.get(img)  # get方法得到图片地址(有的是post、put)基本是get
            with open('./Img/{}.png'.format(title), 'wb') as f:  # 创建用来保存图片的.png文件
                f.write(response.content)  # 注意,'wb'中的b 必不可少!!
    
    
    parse_single_html(download_all_html())  # 最后调用我们写的两个函数就行啦,
    
    

    在这里插入图片描述

    查看结果

    在这里插入图片描述

    展开全文
  • python爬取网站图片

    2019-04-12 19:43:00
    代码以爬取电脑壁纸为例 1.导入模块: import requests import urllib.request import uuid from bs4 import BeautifulSoup import os 2.确定图片保存位置: if os.path.exists('D:\image') == True: print(...

    代码以爬取电脑壁纸为例

    1.导入模块:

    
    import requests
    import urllib.request
    import uuid
    from bs4 import BeautifulSoup
    import os
    

    2.确定图片保存位置:

    if os.path.exists('D:\image') == True:  
        print("image dir is exsit")
    else:
        os.mkdir('image')
    

    说明:
    1.如果目录不存在则创建
    2.exists()里写自己的保存路径

    3.获取图片路径并抓取图片:

    i = 0
    for page in range(1, 50):
        url = 'https://bing.ioliu.cn/?p=' + str(page)
        # print(url)
        r = requests.get(url)
        contents = r.text
    
        soup = BeautifulSoup(contents, 'html.parser')
        divs = soup.find_all('div', 'item')
    
        for div in divs:
            imgs = div.find_all('img')
            for img in imgs:
                print(img['src'].replace('320x240', '1920x1080'))
                urllib.request.urlretrieve(img['src'].replace('320x240', '1920x1080'), 'D:\image\%s.jpg' % i)
                i += 1
                print('成功抓取第%s张图片' % i)
    print('共抓取' + str(i) + '张图片')
    

    说明:
    1.for page in range(1, 50)限制爬取的范围 page代表传参的页码

    2.url里写要爬取图片的网址,个人比较喜欢必应的图片,所以此处写的是必应的网址

    3.Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据,详情请自行查阅资料

    4.soup.find_all是一个查找函数,详情请自行查阅资料

    5.replace()替换了图片像素 请参考自己电脑分辨率

    6.urllib.request.urlretrieve将URL表示的网络对象复制到本地文件

    展开全文
  • python爬取百度图片

    2018-05-04 15:04:29
    python爬取百度图片 使用任意关键字 python爬取百度图片 使用任意关键字 python爬取百度图片 使用任意关键字 python爬取百度图片 使用任意关键字 python爬取百度图片 使用任意关键字 python爬取百度图片
  • # ## 爬取的时候只有一张,有时候特别慢,而且爬出来文件全部都不全, ## 图片是我爬了好几次的结果 上代码: ``` import requests from urllib import request from bs4 import BeautifulSoup import re ...
  • 关于UId import random import urllib.request import json import re import requests import time id=(input(请输入要抓的微博uid:))\nna='a' iplist=['112.228.161.57:8118','125.126.164.21:34592','122.72.18....
  • Python批量爬取图片网站图片完整代码,python downimage.py 即可执行
  • python爬取360搜索引擎图片,用于物体识别和样本训练 自定义函数def getBaiduImag(category,length,path),用于采集360图片,三个参数分别为搜索的“关键词”category,采集的图片数量length,保存图片的路径path。...
  • 爬取网页的图片实现的小代码,采取的方式比较简单易懂
  • python爬取百度图片。使用Spyder工具运行,非常方便。
  • 前言 最近几天,研究了一下一直很好奇的爬虫算法。这里写一下最近几天的点点心得。下面进入正文: ...发现我们的src是在img标签下的,于是先试着用 Python 的 requests提取该组件,进而获取img的src然后使
  • import os import requests from bs4 import BeautifulSoup import urllib.request def look_img(soup,i): # 抓取图片地址 ... url_img = [] # 保存需要爬取图片的地址 for img in img_src: n = n + 1
    import os
    import requests
    from bs4 import BeautifulSoup
    import urllib.request
    
    
    
    def look_img(soup,i):
        # 抓取图片地址
        # 抓取img标签
        img_src = soup.findAll("img")
        n = 1
        url_img = []  # 保存需要爬取图片的地址
        for img in img_src:
            n = n + 1
            img = img.get('src')  # 抓取src
            if (n == 5):
                url_img = img
        print(url_img)
        # 保存图片
        root = "C://Users//123//Desktop//images//"  # 保存的根目录
        path = root + str(i) + ".jpg"  # 保存的地址
        try:
            if not os.path.exists(root):  # 判断根目录是否存在
                os.mkdir(root)
            if not os.path.exists(path):  # 如果文件不存在就爬取并保存
                r = requests.get(url_img)
                with open(path, 'wb') as f:  # 'wb'以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
                    f.write(r.content)  # content返回二进制数据,所以使用'wb'
                    f.close()
                    print("文件保存成功")
            else:
                print("文件已存在")
        except:
            print("爬取失败")
    
    
    def main():
        url = 'http://www.cd3000y.com/html/movablerelics/A-01-0000001-1255258500.html'
        r = requests.get(url)
        r.encoding = r.apparent_encoding
        demo = r.text
        soup = BeautifulSoup(demo, "html.parser")
        look_img(soup,1)
    
    main()
    
    展开全文
  • python爬取百度图片,用于物体识别和样本训练 自定义函数def getBaiduImag(category,length,path),用于采集百度图片,三个参数分别为搜索的“关键词”category,采集的图片数量length,保存图片的路径path。 自动...
  • 主要教大家如何简单实现Python爬取网络图片,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • python爬取必应图片

    2018-11-14 18:25:27
    python3爬虫 根据关键字搜索爬取并下载bing上相关图片
  • 主要为大家详细介绍了python爬取淘宝商品详情页数据的相关资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
  • 自己写的网站图片爬虫程序,练手。
  • python图片爬取.rar

    2019-09-27 16:10:12
    运行程序,输入搜索关键词,然后输入文件名称并输入需要爬取的数量 ,所需图片就会下载到当前所建的目录里
  • 本文实例讲述了Python实现的爬取百度贴吧图片功能。分享给大家供大家参考,具体如下: #coding:utf-8 import requests import urllib2 import urllib ``` from lxml import etree class Tieba: def __init__(self)...
  • python爬取网站中的多页图片.py
  • python 3.6 pycharm requests parsel 相关模块pip安装即可 目标网页 请求网页 import requests url = 'https://www.tukuppt.com/peiyue/zonghe_0_0_0_0_0_0_1.html' headers = { 'User-Agent': 'Mozilla/...
  • python爬取搜狗图片,用于物体识别和样本训练 自定义函数def getBaiduImag(category,length,path),用于采集搜狗图片,三个参数分别为搜索的“关键词”category,采集的图片数量length,保存图片的路径path。...
  • mongodb的应用之用python爬取网页内容并用mongodb保存. 由于mongodb是文档型数据库,区别于传统的数据库,它是用来管理文档的。在传统的数据库中,信息被分割成离散的数据段,而在文档数据库中,文档是处理信息的...
  • python爬取视频源代码

    2019-03-19 11:25:07
    利用python中的re和requests模块,实现对网站中的视频进行爬取,对于图片和文字的爬取也是同样的原理,重点是学会就网页html标签的正确正则就能获取到我们需要的数据,这里是用的单线程爬取
  • 实际上这个请求并没有什么反爬取的东西,我们直接爬取就可以了 首先就是url url = 'https://c.m.163.com/ug/api/wuhan/app/data/list-total' 为了能够请求成功我们需要一些请求头来把我们伪装成浏览器,其实直接...
  • Python爬取图片

    千次阅读 2021-02-09 13:11:45
    自从学习编程以来,总是听别人说什么爬虫爬虫的,爬这爬那,我心想老是扒拉来扒拉去不累吗,有啥好爬的,又没啥子用,前两天无聊就想看看python爬取网站图片到底是什么鬼,就从网上开始学习,从下载python到配置,...

    在这里插入图片描述

    前言
    自从学习编程以来,总是听别人说什么爬虫爬虫的,爬这爬那,我心想老是扒拉来扒拉去不累吗,有啥好爬的,又没啥子用,前两天无聊就想看看python爬取网站的图片到底是什么鬼,就从网上开始学习,从下载python到配置,从寻找喜欢的网站到爬的盆满钵满,现在我就来总结一下。
    准备
    1、下载一个python安装并配置环境变量,跟java差不多。
    官网下载地址:https://www.python.org/downloads/windows/点击下载
    在这里插入图片描述
    下载installer的,然后安装直接下一步就好,也可以自行选择下载的位置,最后配置环境变量
    配置环境变量,将python和Scripts都配置上
    在这里插入图片描述
    验证是否配置成功,cmd打开命令行,输入python -V,如图证明配置环境变量成功
    在这里插入图片描述
    2、脚本
    在这里插入图片描述

    # 导入必要的包
    from selenium import webdriver
    from bs4 import BeautifulSoup
    import requests
    
    # 打开谷歌浏览器
    driver = webdriver.Chrome()
    # 设置要爬取的网站
    driver.get('http://pic.netbian.com/4kmeinv/')
    # 初始化一个引用计数,用于后面的图片简单命名
    index = 1
    
    # 定义爬虫方法
    def getImage():
        # 将index置为全局变量
        global index
        # 循环爬取,循环多少次爬取多少页的图片
        for i in range(0,50):
            # 模拟点击下一页,因为爬取完一页需要点击下一页爬取
            driver.find_element_by_link_text("下一页").click()
            # 解析网页
            html = BeautifulSoup(driver.page_source, 'html.parser')
            # 获取原图的url链接
            links =html.find('div', {'class': 'slist'}).find_all('img')
            # 遍历当页获得的所有原图链接
            for link in links:
                # 将原图存至当前目录下的jdimg 文件夹,以index命名,后缀名为图片原名的后三位,即jpg或者gif
                with open('baidu8/{}.{}'.format(index, link.get('src')[len(link.get('src'))-3: len(link.get('src'))]), 'wb') as jpg:
                    jpg.write(requests.get("http://pic.netbian.com/" + link.get('src')).content)
                print("正在爬取第%s张图片" % index)
                index += 1
    # 定义主函数
    def main():
    
        getImage()
    
    main()
    

    我们用记事本将此脚本写入,然后修改后缀名为py,然后在同级目录下创建一个文件夹用来存储图片,代码里的文件夹必须提前创建好,不然运行报错找不到文件夹,如图
    在这里插入图片描述
    我这里的文件夹就是用来存储图片的,已经存的满满当当
    运行脚本
    我们cmd进入命令行例如我这里就进入到d盘的test文件夹下,如图
    在这里插入图片描述
    我们输入py baidu.py来运行我们的脚本,前提我们配置好了环境变量,所以可以在任意位置运行python脚本,最后效果如图
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    总结
    技术是把双刃剑,希望大家合理运用技术,下一次分享爬取小视频的内容,最后说一句,老铁早点睡啊。

    展开全文
  • 主要介绍了python实现爬取百度图片的方法,涉及Python基于requests、urllib等模块的百度图片抓取相关操作技巧,需要的朋友可以参考下
  • python爬取妹纸图片

    千次阅读 2019-10-10 23:29:50
    初学python,刚好看到爬取妹纸图片的教学视频,于是跟着学习学习python网络爬虫,使用python爬取图片。 进入主页,可以看到妹子自拍,一共446页之多 0.0 ,如下图所示: 查看网页url可以发现comment-page-xxx,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 40,256
精华内容 16,102
关键字:

python爬取网站图片

python 订阅