精华内容
下载资源
问答
  • 先分析查找要爬取图片的路径 在浏览器F12 审查元素整体实现代码# -- coding:UTF-8 --import requestsfrom bs4 import BeautifulSoupimport os'''思路:获取网址获取图片地址爬取图片并保存'''# 获取网址def getUrl...

    ?i=2019051015394892.jpg?,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2lwcm90bg==,size_16,color_FFFFFF,t_70

    先分析查找要爬取图片的路径 在浏览器F12 审查元素

    ?i=20190510154205665.jpg?,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2lwcm90bg==,size_16,color_FFFFFF,t_70

    整体实现代码

    # -- coding:UTF-8 --

    import requests

    from bs4 import BeautifulSoup

    import os

    '''

    思路:获取网址

    获取图片地址

    爬取图片并保存

    '''

    # 获取网址

    def getUrl(url):

    try:

    read = requests.get(url) #获取url

    read.raise_for_status() #状态响应 返回200连接成功

    read.encoding = read.apparent_encoding #从内容中分析出响应内容编码方式

    return read.text #Http响应内容的字符串,即url对应的页面内容

    except:

    return "连接失败!"

    # 获取图片地址并保存下载

    def getPic(html):

    soup = BeautifulSoup(html, "html.parser")

    #通过分析网页内容,查找img的统一父类及属性

    all_img = soup.find('ul', class_='thumbnail-group thumbnail-group-165 clearfix').find_all('img') #img为图片的标签

    for img in all_img:

    src = img['src'] #获取img标签里的src内容

    img_url = src

    print(img_url)

    root = "F:/Pic/" #保存的路径

    path = root + img_url.split('/')[-1] #获取img的文件名

    print(path)

    try:

    if not os.path.exists(root): #判断是否存在文件并下载img

    os.mkdir(root)

    if not os.path.exists(path):

    read = requests.get(img_url)

    with open(path, "wb")as f:

    f.write(read.content)

    f.close()

    print("文件保存成功!")

    else:

    print("文件已存在!")

    except:

    print("文件爬取失败!")

    # 主函数

    if __name__ == '__main__':

    html_url=getUrl("https://findicons.com/search/nature")

    getPic(html_url)

    运行结果

    ?i=20190515164805478.jpg?,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2lwcm90bg==,size_16,color_FFFFFF,t_70

    爬取结果

    ?i=20190515164844290.jpg?,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2lwcm90bg==,size_16,color_FFFFFF,t_70

    代码有参考网络部分,如有侵犯请联系删除,谢谢。

    标签:img,Python,爬虫,爬取,url,html,read,print,path

    来源: https://blog.csdn.net/iprotn/article/details/90069342

    展开全文
  • Python爬取一个网页图片保存到相应的电脑存储盘文件夹 1、话不多说,看下列代码 import requests import re # 打开网页,获取网页源码地址 def getHtml(url): html = requests.get(url) # 返回一个网页源码 ...

    Python爬取一个网页的图片保存到相应的电脑存储盘文件夹

    1、话不多说,看下列代码

    import requests
    import re
    
    
    # 打开网页,获取网页源码地址
    def getHtml(url):
        html = requests.get(url)
        # 返回一个网页源码
        return html.text
    
    
    def getImag(html):
        imagelist = re.findall('img src="(.*?)" class="portrait"', html)
    
        pat = 'list/(.*?).png'
        ex = re.compile(pat)
        i = 1
        for url in imagelist:
            # print
            'Downloding:' + url
            # 从图片地址下载数据
            image = requests.get(url)
            #         获取英雄名(这里可以自己为文件取名就行,下面的name变量是从图片地址中提取到的英雄名)
            pat = 'list/(.*?).png'
            ex = re.compile(pat)
            if ex.search(url):
                name = ex.search(url).group(1)
            else:
                pat = 'heroes/(.*?)/hero-select'
                ex = re.compile(pat)
                if ex.search(url):
                    name = ex.search(url).group(1)
                else:
                    name = 'new' + str(i) + '?'
                    i = i + 1
            # 在目标路径创建相应文件(运行代码别傻到指定盘位置没有这个文件夹)
            f = open('D:\\test\\' + name + '.png', 'wb')
            # 将下载到的图片数据写入文件
            f.write(image.content)
            f.close()
    
        return 'end'
    
    
    print('获取ow官网图片')
    url = 'https://ow.blizzard.cn/heroes/'
    print('正在获取图片')
    html = getHtml(url)
    print('download图片中')
    print(getImag(html))
    print('下载OK')
    

    2、运行结果

    在这里插入图片描述

    展开全文
  • python爬虫爬取网页图片并存储

    千次阅读 2019-04-02 09:31:21
    爬虫爬取网页图片并存储 >>> import requests >>> import os >>> url="http://5b0988e595225.cdn.sohucs.com/images/20180903/2de4877fe41e4dfe87a753c54c357dd9.jpeg"#图片链接 >...

    1、找到网页上图片的URL链接
    找到网页上的图片右键即可 找到链接。如下例
    示例图片
    2、设置保存的路径和文件名称

    >>> import requests
    >>> path="D://python_work//pics//1.jpg"
    

    3、设置图片url链接

    >>> url="http://5b0988e595225.cdn.sohucs.com/images/20180903/2de4877fe41e4dfe87a753c54c357dd9.jpeg"
    

    4、用get请求捕获url

    >>> r=requests.get(url)
    >>> r.status_code
    200
    

    5、将捕获的图片(二进制)转化为JPG格式

    >>> with open(path,'wb') as f:#将我们获取的文件打开并定义为文件标识符f
    	f.write(r.content)#将返回的文件以二进制形式写回到文件中
    
    	
    51212
    >>> f.close()
    

    效果如图:
    在这里插入图片描述
    6、用 爬虫爬取网页图片并存储通用代码框架形式:

    >>> import requests
    >>> import os
    >>> url="http://5b0988e595225.cdn.sohucs.com/images/20180903/2de4877fe41e4dfe87a753c54c357dd9.jpeg"#图片链接
    >>> root="D://python_work//pics"#根目录
    >>> path=root+url.split('/')[-1]#保存目录为根目录加上url链接以反斜杠分割的最后一个部分,也即path为本地路径中与图片最后名称一致的文件名称
    >>> try:
    	if not os.path.exists(root):#如果根目录不存在就创建目录
    		os.mkdir(root)
    	if  not os.path.exists(path):#如果文件不存在,就利用代码获取网上的文件
    		r=requests.get(url)
    		with open(path,'wb') as f:
    			f.write(r.content)
    			f.close()
    			print("file save successfully")
    	else:
    		print("such file existed")
    except:
    	print("failed")
    
    	
    51212
    file save successfully
    >>> 
    
    展开全文
  • 以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图片的实例(大家都喜欢看的那种) 小白可以在文章后面先了解完什么是爬虫后,然后我们来动手写一个实例,代码是枯燥的,但我们可以找我们感兴趣的...

    作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流。以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图片的实例(大家都喜欢看的那种)

     小白可以在文章后面先了解完什么是爬虫后,然后我们来动手写一个实例,代码是枯燥的,但我们可以找我们感兴趣的网站和图片进行爬取,博主在这里选择爬取一组美女的写真照片 (仅用来教学哈)

      1.实例上手(附详细注释)

    算法过程:进入目标网站,打开检查元素界面,在里面可以找到我们想用的信息,比如请求方式(有get和post请求),和一些请求中的参数,了解到信息后我们查看页面源代码,找到存储照片的标签并查看规律,以便我们用正则提取我们想要的数据,本案例为图片的src地址,再用content方法获取图片的二进制形式的数据,最后将图片写入我们指定路径。(需要注意的是图片路径得不同,相同路径只能存放一个图片,博主在这坑了好几次,在这里博主选择用num来控制路径)

    小拓展:

    这里我们可以修改请求的参数值来获取更多内容,也可以更改下网页的url和对应的正则表达式来爬取其他网页的图片


     开始:我们先导入需要的包

    import requests  # python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高
    import re        # 正则解析数据需要用到
    import os        # 用来建立文件夹存放爬取到的图片
    if __name__ == '__main__':
        # 创建一个文件夹,保存所有图片
        if not os.path.exists('./p'):
            os.mkdir('./p')
    
        url = 'https://www.soumeitu.com/mt/ugirls.html'
        # 进行UA伪装,让我们的请求伪装成浏览器对网站进行访问
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Edg/94.0.992.38'}
        # 使用通用爬虫对url对应的一整张页面进行爬取
        page_text = requests.get(url=url, headers=headers).text
        # 使用聚焦爬虫将页面中所有的糗图进行解析/提取(正则)
        ex = '<div class="post-thumb">.*?<img src="(.*?)" alt.*?</div>'
        img_src_list = re.findall(ex, page_text, re.S)  # 参数1为正则,参数二为正则作用的文档,re.S和re.M分别为单行匹配和多行匹配
        print(len(img_src_list))  # 打印当前列表中地址个数
        num = 0 # 这里的num用于给照片起名字
        # 加下来就是遍历列表并把它按照指定路径存储了
        for src in img_src_list:
            num = num + 1
            n = str(num)
            img_data = requests.get(url=src, headers=headers).content
            img_name = n + '.jpg' # 照片名称
            imgPath = './q/' + img_name # 存储路径
            with open(imgPath, 'wb') as fp: 
                fp.write(img_data)
                print(img_name, '下载成功!')
    

    获得的图片可以在本地文件夹中打开

    2.爬虫的基本知识

        爬虫在使用场景中的分类

    • 通用爬虫:抓取系统重要组成部分(整张页面爬取)

    • 聚焦爬虫:是建立在通用爬虫的基础之上,抓取的是页面中特定的局部内容

    • 增量式爬虫:检测网站中数据更新的情况,只会爬取网站中最新更新出来的数据

         http协议

    • 概念:就是服务器和客户端进行数据交互的一种形式

        常用请求头信息:

    • User-Agent:请求载体的身份标识

    • Connection:请求完毕后是断开连接还是保持连接

        常用响应头信息:

    • Content-Type:服务器响应客户端的数据类型

       https协议:

    • 安全的超文本传输协议

       加密方式:

    • 对称密钥加密

    • 非对称密钥加密

    • 证书密钥加密

    requests模块

    • urllib模块

    • requests模块

    get和post请求

    • requests中两种不同的请求,差异可以去了解一下

    requests模块:

    python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高

    作用:模拟浏览器发请求

    如何使用:(requests模块的编码流程)

    • 指定url

      • UA检测

      • UA伪装

    • 发起请求

    • 获取响应数据

    • 持久化存储

    环境安装

    博主在这里推荐pycharm,界面比较传统,比较简单和方便,可以官网进行下载社区版

    实战编码

    在这里放上最原始的爬取搜狗首页的数据代码

    • 需求:爬取搜狗首页的页面数据

      代码:

      # 爬取搜狗首页的页面数据
      import requests
      if __name__ == "__main__":
          # 指定url
          url = 'https://www.sogou.com/'
          # 发起请求
          # get方法会返回一个响应对象
          response = requests.get(url=url)
          # 获取响应数据,text返回的是字符串形式的响应数据
          page_text = response.text
          print(page_text)
          # 持久化存储
          with open('./sougou.html', 'w', encoding='utf-8') as fp:
              fp.write(page_text)
          print("爬取数据结束")

    展开全文
  • 利用Python爬虫爬取网页福利图片

    千次阅读 2019-07-30 10:16:29
    最近几天,学习了爬虫算法,通过参考书籍,写下自己简单爬虫项目: 爬取某福利网站的影片海报图片 环境:anaconda3.5+spyder3.2.6 ...利用爬虫爬取http://www.xinxin103.top/L/lunlipian.html...
  • 最近几天,研究了一下一直很好奇的爬虫算法。这里写一下最近几天的点点心得。下面进入正文:你可能需要的工作环境:我们这里以sogou作为爬取的对象。首先我们进入搜狗图片http://pic.sogou.com/,进入壁纸分类(当然...
  • 爬取美图录网页图片爬取美图录网页图片爬取美图录网页图片爬取美图录网页图片爬取美图录网页图片爬虫神器!
  • 网络爬虫可以代替手工做很多事情,比如可以用于做搜索引擎,也可以爬取网站上面的图片,比如有些朋友将某些网站上的图片全部爬取下来,集中进行浏览,同时,网络爬虫也可以用于金融投资领域,比如可以自动爬取一些...
  • 但是嫌弃一个个保存太慢,于是想着写个爬虫直接批量爬取,因为爬虫只是很久之前学过一些,很多基础语句都不记得了,于是直接在网上找了个有基础操作语句的爬虫代码,在这上面进行修改以适应我的要求和爬取网页需求...
  • 爬虫爬取网址:http://www.gamersky.com/news/201804/1039678.shtml 此网页为静态网页,双层套图,无需登录 下面附上一个图片的两张套图的源码截图: 附上源码: import requests from bs4 import B...
  • 主要介绍了Python爬虫爬取一个网页上的图片地址实例代码,具有一定借鉴价值,需要的朋友可以参考下
  • ![]...[图片说明](https://img-ask.csdn.net/upload/201905/14/1557793876_298823.png)如图,我要爬取的是两个日期,然后存入csv文件中。如何把这两个日期转成一行输出。
  • 超详细图片爬虫实战实例讲解(京东商城手机图片爬取)1.创建一个文件夹来存放你爬取图片2.第一部分代码分析3.第二部分代码分析完整的代码如下所示:升级版代码: 爬取过程中首先你需要观察在手机页面变化的过程来使用...
  • 二.Python爬虫 爬虫需要遵守的规则 Robots-网络爬虫排除标准协议 Robots Exclusion Standard 网络爬虫排除标准 作用:网站告知爬虫哪些页面可以抓取,哪些不行 形式:在网站根目录下的robots.txt文件 案例:京东...
  • python 爬虫爬取百度图片

    千次阅读 2017-10-04 11:05:52
    本人初学python爬虫,想试着爬取百度图片搜索上的图片。但简单的只是设置一下爬取网页,然后用正则取筛选图片的链接,在京东或者当当的网页上可以,在百度上不好使。具体的代码如下:import re import urllib....
  • 这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片。 用到的包: urllib....
  • 如何用Python爬虫爬取网页免费小说

    千次阅读 2018-12-20 17:49:15
    如何用python网页(小说阅读网)免费小说 小说网址:https://www.readnovel.com/ 要导入requests和beautifulsoup4的包。pycharm点击File-&amp;gt;setting 点击有点的‘+’ 然后在下面框内输入自己所需的库,...
  • 爬取页面:摄图网(烫金中国风) 代码: # -*- codeing =utf-8 -*- #################引入模块################# from bs4 import BeautifulSoup # 网页解析,获取数据 import requests #################...
  • python3爬虫爬取网页图片简单示例

    万次阅读 热门讨论 2017-10-19 21:44:00
    于是我也就写一个python3简单的爬虫爬虫一下贴吧的图片吧。话不多说,我们开始。 首先简单来说说一下知识。 一、什么是爬虫网页上面采集数据 二、学习爬虫有什么作用? 做案例分析,做数据分析,分析网页...
  • python爬虫爬取图片

    2020-06-08 17:40:53
    爬虫爬取图片python爬取图片代码 python爬取图片代码 这里选择的网址是唯美女生|一双发现美的眼睛,要换别的网址爬取图片的步骤大体上类似,只需观察图片网站的结构,找到图片的正则表达式即可 import requests ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 18,087
精华内容 7,234
关键字:

python爬虫爬取网页图片

python 订阅
爬虫 订阅