精华内容
下载资源
问答
  • http://gitbook.cn/gitchat/column/5a7d1a13a7f22b3dffca7e49课程介绍本课程是 Python 爬虫数据分析项目实战课程,主要分 3 部分:第 1 部分是 Python 爬虫,主要使用 Urllib 3 和 BeautifulSoup 抓取天猫商城和...

    http://gitbook.cn/gitchat/column/5a7d1a13a7f22b3dffca7e49

    课程介绍

    本课程是 Python 爬虫和数据分析项目实战课程,主要分 3 部分:

    第 1 部分是 Python 爬虫,主要使用 Urllib 3 和 BeautifulSoup 抓取天猫商城和京东商城胸罩销售数据,并保存到 SQLite 数据库中;

    第 2 部分是对抓取的胸罩销售数据进行数据清洗,主要是去除空数据,让数据格式更规范;

    第 3 半部分利用 Pandas 对数据进行分析,以及使用 Matplotlib 对分析后的数据进行可视化。

    通过一系列分析,可以得到中国女性胸部尺寸(胸围)的标准大小,想知道中国女性最标准的胸围是多少吗?想知道什么颜色的胸罩最畅销吗?想知道 C 罩杯以上的女性喜欢到天猫还是京东购买胸罩吗?答案尽在本课程中。

    作者介绍

    李宁,欧瑞科技创始人 & CEO,技术狂热分子,IT 畅销书作者,CSDN 特约讲师、CSDN 博客专家,拥有近 20 年软件开发和培训经验。主要研究领域包括 Python、深度学习、数据分析、区块链、Android、Java 等。曾出版超过 30 本 IT 畅销书,主要包括《Python 从菜鸟到专家》、《Swift 权威指南》、《Android 开发指南》等。

    课程内容

    第01课:分析天猫商城胸罩销售数据

    第02课:抓取天猫商城胸罩销售数据

    第03课:抓取京东商城胸罩销售数据

    第04课:数据清洗

    第05课:数据分析库:Pandas

    第06课:数据可视化库:Matplotlib

    第07课:罩杯销售比例分析

    第08课:胸罩颜色和上胸围销售比例和分布

    适宜人群

    Python 程序员

    拥有 Python 开发经验,想了解 Python 爬虫开发的同学

    对 Python 数据分析感兴趣的同学

    达人课购买须知

    本课程为图文内容课程,共计 8 篇。

    付费用户可享受文章永久阅读权限。

    付费用户可获取读者圈 PASS 权限,与讲师进一步互动。

    本课程为虚拟产品,一经付费概不退款,敬请谅解。

    展开全文
  • 通常我们在使用爬虫的时候会爬取很多数据,而这些数据里边什么是有用的数据,什么是没用的数据这个是值得我们关注的,在这一篇文章里,我们将通过一个简单的爬虫,来去简单介绍下如何使用python来去做数据分析爬虫部分...

    查看更多的专业文章、课程信息、产品信息,请移步至:

    “人工智能LeadAI”公众号;

    官网:www.leadai.org.

    作者:云时之间

    正文共769,11图,预计阅读时间6分钟。

    通常我们在使用爬虫的时候会爬取很多数据,而这些数据里边什么是有用的数据,什么是没用的数据这个是值得我们关注的,在这一篇文章里,我们将通过一个简单的爬虫,来去简单介绍下如何使用python来去做数据分析。

    爬虫部分

    在这一篇文章中我们会以淘宝为例,爬取淘宝的店铺和商家信息,然后去进行分析,首先我们打开淘宝首页,搜索你想要查询的产品:

    这里我们会发现在商品信息哪里会有商品的价格,商品的销量,商家店铺名称以及商家的地址,这时候我们就需要去解析网页,去从网页中寻找这些信息,在处理在这些信息我们要用到的是正则匹配公式.(建议多尝试几次,因为有时候服务器不太好会匹配不到)。

    另外在实现翻页的时候,淘宝的页码公式是44(k-1)

    我们匹配的只需要是蓝色地部分,其中需要匹配的是(.*?),不需要匹配的是.*?,detail_url"这个不需要匹配。

    在匹配之后,我们需要将爬取的数据写入文件中,这时候就需要引入pandas模块来去进行处理,写入文件保存在csv文件中.(csv文件无论是在我们机器学习或者是爬虫里都是处理数据的关键文件),在保存完数据之后,我们要对数据进行处理,加上标题,方便之后处理

    在这个例子,我们分析的是店家的销售数据: 这时候销售总额=销量*单价

    数据分析处理部分

    在这一个部分我们处理的是pandas处理数据和matplotlib来绘制图形.

    最后使用plot把图显示出来:样式1样式2

    这时候销量的好坏就可以一目了然,当然,我们还可以做的还可以更多,但是这一篇文章的作用是希望大家能够去动手做更多有意思的事,这才是学习的意义。

    最后代码部分:代码1代码2

    展开全文
  • Python 爬虫数据分析实战

    万次阅读 多人点赞 2018-04-12 10:41:43
    本课程是 Python 爬虫数据分析项目实战课程,主要分 3 部分: 第 1 部分是 Python 爬虫,主要使用 Urllib 3 和 BeautifulSoup 抓取天猫商城和京东商城胸罩销售数据,并保存到 SQLite 数据库中; 第 2 部分是对...

    课程介绍

    本课程以一个小项目带你快速上手 Python 爬虫和数据分析,主要分 3 部分:

    • 第 1 部分是 Python 爬虫,主要使用 Urllib 3 和 BeautifulSoup 抓取天猫商城和京东商城胸罩销售数据,并保存到 SQLite 数据库中;
    • 第 2 部分是对抓取的胸罩销售数据进行数据清洗,主要是去除空数据,让数据格式更规范;
    • 第 3 半部分利用 Pandas 对数据进行分析,以及使用 Matplotlib 对分析后的数据进行可视化。

    通过一系列分析,可以得到中国女性胸部尺寸(胸围)的标准大小,想知道中国女性最标准的胸围是多少吗?想知道什么颜色的胸罩最畅销吗?想知道 C 罩杯以上的女性喜欢到天猫还是京东购买胸罩吗?答案尽在本课程中。

    作者介绍

    李宁,欧瑞科技创始人 & CEO,技术狂热分子,IT 畅销书作者,CSDN 特约讲师、CSDN 博客专家,拥有近 20 年软件开发和培训经验。主要研究领域包括 Python、深度学习、数据分析、区块链、Android、Java 等。曾出版超过 30 本 IT 图书,主要包括《Python 从菜鸟到高手》《Swift 权威指南》《Android 开发指南》等。

    作者在 GitChat 上的个人主页信息详见这里

    课程内容

    第01课:分析天猫商城胸罩销售数据

    本系列文章会带领大家使用多种技术实现一个非常有趣的项目,该项目是关于胸罩销售数据分析的,是网络爬虫和数据分析的综合应用项目。本项目会从天猫和京东抓取胸罩销售数据(利用 Chrome 工具跟踪 Web 数据),并将这些数据保存到 SQLite 数据库中,然后对数据进行清洗,最后通过 SQL 语句、Pandas 和 Matplotlib 对数据进行数据可视化分析。我们从分析结果中可以得出很多有的结果,例如,中国女性胸部标准尺寸是多少、胸罩上胸围的销售比例、哪个颜色的胸罩最受女性欢迎。

    其实关于女性胸部的数据分析已经有很多人做了,例如,Google 曾给出一个全球女性胸部尺寸地图,如图1所示。

    enter image description here

    图1 Google 的全球女性胸部尺寸分布地图

    地图中,红色代表大于 D 罩杯,橙色是 D,黄色 C,蓝色 B,绿色则为 A。从地图上看,中国地区主要集中在蓝色和绿色,也就是主要中国女性胸部罩杯主要以 A 和 B 为主;而全面飘红的俄罗斯女性胸部尺寸全面大于 D 罩杯,不愧是战斗的民族。

    再看一下图2所示的淘宝胸罩(按罩杯和上胸围统计)销售比例柱状图。

    enter image description here

    图2 淘宝胸罩销售比例柱状图(按罩杯和上胸围统计)

    根据淘宝数据平台提供的数据显示,在中国,B 罩杯的胸罩销售量最多。在2012年6月14日至7月13日期间,购买最多的胸罩尺寸为 B 罩杯,前9位中,B 罩杯占比达41.45%,说明中国平均胸部大小都在 B 罩杯。其中,又以 75 B 的销量最好,85 B 则在 B 罩杯中相对落后,仅4.09%,C 罩杯则只有8.96%。

    其实无论 Google 还是淘宝,给出的数据尽管可能在具体的比例上有差异,但总体的趋势是一样的,也就是说,中国女性胸部尺寸以 B 罩杯为主。销售最好的是 75 B(中国女性的标准胸围),其次是 80 B,85 B 的销售比较不好,因为这个身材对于女性来说,确实有点魁梧了。

    前面给出的这些数据都是别人统计的,现在就让我们自己来验证一下,这些数据到底准不准。在本系列文章中,我们选择了天猫和京东两家大电商,多个胸罩品牌,20000条销售记录,利用了数据库和 Pandas 进行统计分析,看看能不能得出与 Google 和淘宝类似的结论。

    说干就干,首先需要从马云同学的天猫商城取点数据,取数据的第一步即使要分析一下 Web 页面中数据是如何来的。也就是说数据,数据是通过何种方式发送到客户端浏览器的。通常来讲,服务端的数据会用同步和异步的方式发送。但同步的方式目前大的网站基本上不用了,主要都是异步的方式。也就是说,静态页面先装载完,然后通过 AJAX 技术从服务端获取 JSON 格式的数据(一般都是 JSON 格式的),再利用 JavaScript 将数据显示中相应的 Web 组件上,基本都是思路,区别就是具体如何实现了。天猫和京东的数据基本上没采用什么有意义的反爬技术,所以抓取数据相对比较容易。

    《Python 爬虫和数据分析实战》

    进到天猫商城(要求使用 Chrome 浏览器,有很方便的调试工具),搜索出“胸罩”商品,然后进入某个胸罩商品页面。浏览商品页面,在页面的右键菜单中点击“检查”菜单项,打开调试窗口,切换到“Network”选项卡,这个选项卡可以实时显示出当前页面向服务端发送的所有请求,以及这些请求的请求头、响应头、响应内容以及其他与调试有关的信息。对于调试和跟踪 Web 应用相当方便。

    打开“Network”选项卡后,进到商品评论处,切换到下一页,会看到“Network”选项卡下方出现很多 URL,这就是切换评论页时向服务端新发出的请求。我们要找的东西就在这些 URL 中。至于如何找到具体的 URL,那就要依靠经验了。可以一个一个点击寻找(在右侧的“Preview”选项卡中显示 URL 的响应内容),也可以根据 URL 名判断,一般程序员不会起无意义的名字,这样很不好维护。根据经验,会找到至少一个名为list_detail_rate.htm的 URL,从表面上看,这是一个静态的页面,其实这个 URL 后面跟着一大堆参数,不可能是静态的,从调试窗后上方的文本框搜索list_detail,也会定位到这个 URL,如图3所示。

    enter image description here

    图3 获取销售数据的 URL

    从该 URL 的响应内容可以明显看到,这是类似于 JSON 格式的数据,而且可以看到评论数据,因此可以断定,这就是我们要找的东西。

    可以直接单击这里,在浏览器地址栏中查看。

    查看后,会得到如图4所示的 JSON 格式的页面。

    enter image description here

    图4 JSON 格式销售数据

    其实这个 URL 是查看某个商品某一页的评论(销售)数据的,如果要查询所有也的评论数据,就需要动态改变 URL 的参数。下面看一下“Headers”选项卡下面的“Query String Parameters”部分,如图5所示,会清楚地了解该 URL 的具体参数值。

    enter image description here

    图5 HTTP GET 请求参数

    在这些参数中有一部分对我们有用,例如,itemId 表示商品 ID,currentPage 表示当前获取的评论页数,在通过爬虫获取这些评论数据时,需要不断改变这些参数值以获取不同的评论数据。

    尽管根据评论数计算(每页20条评论),某些商品的评论页数可能多达数百页,甚至上千页。不过实际上,这个 URL 最多可以返回99页评论数据,也就是最新的近2000条评论数据。我们可以看到“Preview”选项卡中显示的 JSON 数据中有一个 paginator 项,该项目有一个 lastPage 属性,该属性值是99,如图6所示,这个属性值就是最多返回的评论页数。

    enter image description here

    图6 最大评论页数

    现在分析数据的第一步已经搞定了,我们已经知道天猫商城的评论数据是如何从服务的获取的,那么下一步就是抓取这些数据,并保存到本地的 SQLite 数据库中。

    京东商城的胸罩销售数据的分析方法与京东商城类似。首先进到京东商城(要求使用 Chrome 浏览器,有很方便的调试工具),搜索出“胸罩”商品,然后进入某个胸罩商品页面。浏览商品页面,在页面的右键菜单中点击“检查”菜单项,打开调试窗口,切换到“Network”选项卡,如图7所示,这个选项卡可以实时显示出当前页面向服务端发送的所有请求,以及这些请求的请求头、响应头、响应内容以及其他与调试有关的信息,对于调试和跟踪 Web 应用相当方便。

    enter image description here

    图7 切换到“Network”选项卡

    打开“Network”选项卡后,进到商品评论处,切换到下一页,会看到“Network”选项卡下方出现很多URL,这就是切换评论页时向服务端新发出的请求,我们要找的东西就在这些 URL 中,至于如何找到具体的 URL,那就要依靠经验了,可以一个一个单击寻找(在右侧的“Preview”选项卡中显示 URL 的响应内容),也可以根据 URL 名判断,一般程序员不会起无意义的名字,这样很不好维护。根据经验,会找到至少一个名为 productPageComments.action 的 URL,单击这个 URL,会在右侧的“Preview”页面显示返回的数据,数据结构与天猫商城返回的商品评论数据类似,如图8所示。

    enter image description here

    图8 数据结构与天猫商城返回的商品评论数据类似

    从该 URL 的响应内容可以明显看到,这是类似于 JSON 格式的数据,而且可以看到评论数据,因此可以断定,这就是我们要找的东西。

    可以将这个 URL 复制下来,详见这里,在浏览器地址栏中查看。

    查看后,会得到如图9所示的 JSON 格式的页面。

    enter image description here

    图9 JSON 格式的页面

    其实这个 URL 是查看某个商品某一页的评论(销售)数据的,如果要查询所有也的评论数据,就需要动态改变 URL 的参数。下面看一下“Headers”选项卡下面的“Query String Parameters”部分,如图10所示,会清楚地了解该 URL 的具体参数值。

    enter image description here

    图10 URL 具体参数值

    很明显,京东商城返回商品评论数据的 URL 的参数的个数要比天猫商城的少。在这些参数中有一部分对我们有用,例如,productId 表示商品 ID,page 表示当前获取的评论页数,在通过爬虫获取这些评论数据时,需要不断改变这些参数值以获取不同的评论数据。

    尽管根据评论数计算(每页10条评论),某些商品的评论页数可能多达数百页,甚至上千页。不过实际上,这个 URL 最多可以返回100页评论数据,也就是最新的1000条评论数据。我们可以看到“Preview”页面中显示的 JSON 数据中有一个 maxPage 属性,该属性值是100,如图11所示,这个属性值就是最多返回的评论页数。

    enter image description here

    图11 maxPage 属性值

    与天猫商城一样,也需要抓取京东多个商品的评论数据(为了抓取一定数量的评论),所以同样也需要获取搜索页面中商品的 ID。商品搜索页面的数据是直接通 HTML 代码一同发送到客户端的,所以可以直接定位到某个商品出,通过 BeautifulSoup 获取特定的 HTML 代码。在京东商城中可以通过每个商品的 a 标签的 href 属性值提取商品 ID,因为每个商品页面都是用商品 ID 命名的。图12 显示了某个商品的 ID 和搜索页面的关系。

    enter image description here

    图12 某个商品 ID 和搜索页面的关系

    很明显,a 标签的 href 属性值指定的 URL 的页面文件名就是商品 ID,只需要提取这个页面文件名即可。

    现在分析数据的第一步已经搞定了,我们已经知道天猫商城的评论数据是如何从服务的获取的,那么下一步就是抓取这些数据,并保存到本地的 SQLite 数据库中。

    avatar

    点击了解《Python 爬虫和数据分析实战》

    第02课:抓取天猫商城胸罩销售数据
    第03课:抓取京东商城胸罩销售数据
    第04课:数据清洗
    第05课:数据分析库:Pandas
    第06课:数据可视化库:Matplotlib
    第07课:罩杯销售比例分析
    第08课:胸罩颜色和上胸围销售比例和分布

    阅读全文: http://gitbook.cn/gitchat/column/5a7d1a13a7f22b3dffca7e49

    展开全文
  • Python爬虫数据分析相关资源

    千次阅读 2016-12-06 19:37:22
  • python爬虫教程:实例讲解Python爬取网页数据

    万次阅读 多人点赞 2020-03-04 21:59:46
    这篇文章给大家通过实例讲解了Python爬取网页数据的步骤以及操作过程,有兴趣的朋友跟着学习下吧。 一、利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('...
  • 本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下。这次要爬的站点是这个:http://www.weather.com.cn/forecast/要求是把你所在城市过去一年的历史数据爬出来。分析网站首先来到目标数据的网页 ...
  • 系列文章总目录:yeayee:Python数据分析及可视化实例目录​zhuanlan.zhihu.com1.背景介绍(1)话说今日头条在我乎挖走了‘三百勇士’,于是就想知道这些勇士中有木有练Py大法的,是不是真的勇士。本着我不入地狱,...
  • 本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下。 这次要爬的站点是这个:http://www.weather.com.cn/forecast/ 要求是把你所在城市过去一年的历史数据爬出来。 分析网站 首先来到目标数据的网页 ...
  • 在当前数据爆发的时代,数据分析行业势头强劲,越来越多的人涉足数据分析领域。面对大量数据,人工获取信息的成本高、耗时长、效率低,那么是否能用代码去完成大量复杂的工作,从而从网络上获取到目标信息?由此,...
  • python数据分析爬虫五:实例

    千次阅读 2018-08-12 20:06:09
    实例一:淘宝商品比价定向爬虫 打开淘宝,输入衬衫,链接为: https://s.taobao.com/searchq=%E8%A1%AC%E8%A1%AB&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id...
  • python爬虫之session实例精讲

    千次阅读 2020-08-21 02:35:14
    会话对象是一种高级的用法,可以跨请求保持某些参数,比如在同一个Session实例之间保存Cookie,像浏览器一样,我们并不需要每次请求Cookie,Session会自动在后续的请求中添加获取的Cookie,这种处理方式在同一站点...
  • Python爬虫以及数据可视化分析

    万次阅读 多人点赞 2020-12-25 17:43:30
    Python爬虫以及数据可视化分析之B站动漫排行榜信息爬取分析 简书地址:https://www.jianshu.com/u/40ac87350697 简单几步,通过Python对B站番剧排行数据进行爬取,并进行可视化分析 源码文件可以参考Github上传的...
  • 据华为中国官方消息,今日,华为中国发文《小白看过来,让Python爬虫成为你的好帮手》,文中详细介绍了Python爬虫的工作原理,我们来看一下吧。以下为《小白看过来,让Python爬虫成为你的好帮手》全文:随着信息化...
  • Python爬虫数据分析之python教学视频、python源码分享,python Python爬虫数据分析之基础教程:Python的语法、字典、元组、列表 Python爬虫数据分析之进阶教程:文件操作、lambda表达式、递归、yield生成器 ...
  • Python爬虫实例-抓取房天下房源信息 编译环境:anaconda Jupyter Notebook import requests from bs4 import BeautifulSoup 抓取每一个出售房子详细信息的url url = "...soup = BeautifulSoup(res....
  • 本文实例讲述了Python爬虫DNS解析缓存方法。分享给大家供大家参考,具体如下:前言:这是Python爬虫中DNS解析缓存模块中的核心代码,是去年的代码了,现在放出来 有兴趣的可以看一下。一般一个域名的DNS解析时间在10...
  • 本案例主要是为了获取某城市的历史天气数据,字段包含日期,最低气温,最高气温,风向,风力,天气状况,空气质量指标值,空气质量等级和空气质量说明.#导入第三方包import requestsimport timeimport randomimport pandas ...
  • 基本GET请求1.... formdata = { "type":"AUTO", "i":"i love python", "doctype":"json", "xmlVersion":"1.8", "keyfrom":"fanyi.web", "ue":"UTF-8", "action":"FY_BY_ENTER", "typoResult":"true" } url = ...
  • 查看网页源代码,发现每个排行的数据在标签<div class="boxTab clearfix">中,共五个div标签 import requests from bs4 import BeautifulSoup url = 'http://news.ifeng.com/hotnews/' req = requests.get...
  • Python爬虫数据分析之python教学视频、python源码分享,python Python爬虫数据分析之基础教程:Python的语法、字典、元组、列表 Python爬虫数据分析之进阶教程:文件操作、lambda表达式、递归、yield生成器 ...
  • python爬虫入门实例

    2020-06-07 20:01:40
    python爬虫入门实例 这周的CTF的web题没有写很多,因为要复习应考的原因,就零零碎碎的做了2、3题,等题目量多了在出一篇博客做记录叭,但是博客还是每周尽量出一篇叭,鞭策一下自己的课外学习。 那么这篇博客主要是...
  • python爬虫基础及实例---代码经过实测

    万次阅读 多人点赞 2018-09-07 11:09:05
    基于js的数据交换格式,看起来像python类型(列表,字典)的字符串 json.loads 把json字符串转化为python类型的 json.loads(json字符串) 哪里会返回json的数据 浏览器切换到手机版 抓包 import...
  • Python爬虫开发与项目实战(高清版)PDF百度网盘链接:https://pan.baidu.com/s/1MFexF6S4No_FtC5U2GCKqQ提取码:gtz1复制这段内容后打开百度网盘手机App,操作更方便哦内容简介 · · · · · ·随着大数据时代...
  • 希望能够帮助到一些和我一样的python爬虫初学者。 在第一篇文章中,我总结了最近学到的利用requests和bs4第三方库共同作用,基本可以应对python获取静态网页数据的相关问题。但是如果现实中的网页往往比想象中复杂的...
  • 第1章 网络爬虫概述 11.1 认识网络爬虫 11.1.1 网络爬虫的含义 11.1.2 网络爬虫的主要类型 21.1.3 ...41.2.2 Python中实现网页解析 51.2.3 Python爬虫框架 61.3 搭建开发环境 71.3.1 代码运行环境 7...
  • python爬虫+R数据可视化 实例

    千次阅读 2016-06-06 23:20:52
    python 和 r语言这对黄金搭档,在数据获取,分析和可视化展示方面,各具特色,相互配合,当之无愧成为数据分析领域的两把利剑。该项目分为两个模块:1,数据准备阶段 采用python网络爬虫,实现所需数据的抓取,2,...
  • Python爬虫入门实例三之爬取软科中国大学排名

    千次阅读 多人点赞 2020-10-28 19:45:50
    本篇为python爬虫入门简单实例,通过对软科网站上大学排名的爬取,帮助小伙伴们排一些坑,同时更好的理解定向爬取的含义及format格式化输出的使用。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 14,065
精华内容 5,626
关键字:

python爬虫数据分析实例

python 订阅
爬虫 订阅