精华内容
下载资源
问答
  • Python 股票数据采集并做数据可视化(爬虫 + 数据分析) 课题介绍: 我国股票投资者数量为15975.24万户, 如此多的股民热衷于炒股, 首先抛开炒股技术不说, 那么多股票数据是不是非常难找, 找到之后是不是看着密密麻麻的...

    前 言

    嗨喽!大家好,这里是魔王!

    课 题:

    Python 股票数据采集并做数据可视化(爬虫 + 数据分析)

    课题介绍:

    我国股票投资者数量为15975.24万户, 如此多的股民热衷于炒股,

    首先抛开炒股技术不说, 那么多股票数据是不是非常难找,

    找到之后是不是看着密密麻麻的数据是不是头都大了?

    今天带大家爬取某平台的股票数据
    请添加图片描述

    课程亮点

    1. 系统分析网页性质
    2. 结构化的数据解析
    3. csv数据保存
    4. 数据可视化

    开发环境 & 第三方模块:

    • 解释器版本: python 3.8
    • 代码编辑器: pycharm 2021.2
    • requests
      安装方法: pip install requests
    • csv

    爬虫案例的步骤:

    1. 确定url地址(链接地址)
    2. 发送网络请求
    3. 数据解析(筛选数据)
    4. 数据的保存(数据库(mysql\mongodb\redis), 本地文件)
      在这里插入图片描述

    本次目标:

    https://xueqiu.com/hq#exchange=CN&plate=1_3_2&firstName=1&secondName=1_3&type=sha&order=desc&order_by=amount
    在这里插入图片描述

    导入模块

    import requests     # 发送网络请求
    import csv
    

    代码

    file = open('data2.csv', mode='a', encoding='utf-8', newline='')
    csv_write = csv.DictWriter(file, fieldnames=['股票代码','股票名称','当前价','涨跌额','涨跌幅','年初至今','成交量','成交额','换手率','市盈率(TTM)','股息率','市值'])
    csv_write.writeheader()
    # 1.确定url地址(链接地址)
    for page in range(1, 56):
        url = f'https://xueqiu.com/service/v5/stock/screener/quote/list?page={page}&size=30&order=desc&order_by=amount&exchange=CN&market=CN&type=sha&_=1637908787379'
        # 2.发送网络请求
        # 伪装
        headers = {
            # 浏览器伪装
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        json_data = response.json()
        # print(json_data)
        # 3.数据解析(筛选数据)
        data_list = json_data['data']['list']
        for data in data_list:
            data1 = data['symbol']
            data2 = data['name']
            data3 = data['current']
            data4 = data['chg']
            data5 = data['percent']
            data6 = data['current_year_percent']
            data7 = data['volume']
            data8 = data['amount']
            data9 = data['turnover_rate']
            data10 = data['pe_ttm']
            data11 = data['dividend_yield']
            data12 = data['market_capital']
            print(data1, data2, data3, data4, data5, data6, data7, data8, data9, data10, data11, data12)
            data_dict = {
                '股票代码': data1,
                '股票名称': data2,
                '当前价': data3,
                '涨跌额': data4,
                '涨跌幅': data5,
                '年初至今': data6,
                '成交量': data7,
                '成交额': data8,
                '换手率': data9,
                '市盈率(TTM)': data10,
                '股息率': data11,
                '市值': data12,
            }
            csv_write.writerow(data_dict)
    file.close()
    

    炒股总结图

    在这里插入图片描述

    数据可视化

    """
    数据分析: anaconda >>> jupyter notebook  文件格式 .ipynb
    """
    import pandas as pd     # 做表格处理
    
    data_df = pd.read_csv('data2.csv')
    print(data_df)
    

    在这里插入图片描述

    在这里插入图片描述
    好了,我的这篇文章写到这里就结束啦!

    有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง

    喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

    展开全文
  • 零基础学Python爬虫数据分析与可视化从入门到精通作者:孟兵,李杰臣出版日期:2020年11月文件大小:49.45M支持设备:¥60.00在线试读适用客户端:言商书局iPad/iPhone客户端:下载 Android客户端:下载PC客户端:...

    零基础学Python爬虫、数据分析与可视化从入门到精通

    作者:孟兵,李杰臣

    出版日期:2020年11月

    文件大小:49.45M

    支持设备:

    ¥60.00在线试读

    适用客户端:

    言商书局

    iPad/iPhone客户端:下载 Android客户端:下载PC客户端:下载更多详情:查看

    ?对图书下载、阅读卡购买有疑问:立即进入帮助中心>>

    图书简介

    目录

    Python语言功能强大而灵活,具有很强的扩展性,同时它的语法又相对简洁易懂,没有编程基础的普通办公人员经过适当的学习也能轻松上手。本书以Python语言为工具,从编程新手的角度和日常办公的需求出发,深入浅出地讲解如何通过Python编程高效地完成数据的获取、处理、分析与可视化。

    全书共13章。第1章和第2章主要讲解Python编程环境的搭建和Python语言的基础语法知识。第3~6章以数据处理与分析为主题,讲解NumPy模块和pandas模块的基本用法和实际应用。第7~9章以数据获取为主题,由浅入深地讲解如何通过编写爬虫程序从网页上采集数据,并保存到数据库中。第10章主要讲解自然语言处理技术在文本分词中的应用。第11章和第12章以数据可视化为主题,讲解如何使用Matplotlib模块和pyecharts模块绘制图表。第13章通过量化金融案例对前面所学的知识进行了综合应用。

    本书适合想要提高数据处理和分析效率的职场人士和办公人员阅读,也可供Python编程爱好者参考。

    前言

    如何获取学习资源

    第1章 Python快速上手

    1.1 Python编程环境的搭建

    1.2 Python的模块

    1.2.1 初识模块

    1.2.2 模块的安装

    第2章 Python的基础语法知识

    2.1 变量

    2.2 数据类型:数字与字符串

    2.2.1 数字

    2.2.2 字符串

    2.2.3 数据类型的查询

    2.2.4 数据类型的转换

    2.3 数据类型:列表、字典、元组与集合

    2.3.1 列表

    2.3.2 字典

    2.3.3 元组和集合

    2.4 运算符

    2.4.1 算术运算符和字符串运算符

    2.4.2 比较运算符

    2.4.3 赋值运算符

    2.4.4 逻辑运算符

    2.5 编码基本规范

    2.5.1 缩进

    2.5.2 注释

    2.6 控制语句

    2.6.1 if语句

    2.6.2 for语句

    2.6.3 while语句

    2.6.4 控制语句的嵌套

    2.7 函数

    2.7.1 内置函数

    2.7.2 自定义函数

    2.8 模块的导入

    2.8.1 import语句导入法

    2.8.2 from语句导入法

    第3章 数组的存储和处理——NumPy模块

    3.1 创建数组

    3.1.1 使用array()函数创建数组

    3.1.2 创建等差数组

    3.1.3 创建随机数组

    3.2 查看数组的属性

    3.3 选取数组元素

    3.3.1 一维数组的元素选取

    3.3.2 二维数组的元素选取

    3.4 数组的重塑与转置

    3.4.1 一维数组的重塑

    3.4.2 多维数组的重塑

    3.4.3 数组的转置

    3.5 数组的处理

    3.5.1 添加数组元素

    3.5.2 删除数组元素

    3.5.3 处理数组的缺失值

    3.5.4 处理数组的重复值

    3.5.5 拼接数组

    3.5.6 拆分数组

    3.6 数组的运算

    3.6.1 数组之间的四则运算

    3.6.2 数组元素的统计运算

    第4章 数据的简单处理——pandas模块入门

    4.1 数据结构

    4.1.1 Series对象

    4.1.2 DataFrame对象

    4.2 读取数据

    4.2.1 读取Excel工作簿数据

    4.2.2 读取csv文件数据

    4.3 查看数据

    4.3.1 查看数据的前几行

    4.3.2 查看数据的行数和列数

    4.3.3 查看数据的类型

    4.4 选择数据

    4.4.1 选择行数据

    4.4.2 选择列数据

    4.4.3 同时选择行列数据

    4.5 修改行标签和列标签

    第5章 数据的高级处理——pandas模块进阶

    5.1 数据的查找和替换

    5.1.1 查找数据

    5.1.2 替换数据

    5.2 数据的处理

    5.2.1 插入数据

    5.2.2 删除数据

    5.2.3 处理缺失值

    5.2.4 处理重复值

    5.2.5 排序数据

    5.2.6 筛选数据

    5.3 数据表的处理

    5.3.1 转置数据表的行列

    5.3.2 将数据表转换为树形结构

    5.3.3 数据表的拼接

    5.4 数据的运算

    5.4.1 数据的统计运算

    5.4.2 获取数值分布情况

    5.4.3 计算相关系数

    5.4.4 分组汇总数据

    5.4.5 创建数据透视表

    5.5 案例:获取并分析股票历史数据

    第6章 使用Python进行数据分析

    6.1 相关性分析

    6.1.1 获取股价数据

    6.1.2 合并股价数据

    6.1.3 股价数据相关性分析

    6.2 假设检验

    6.3 方差分析

    6.3.1 方差分析的基本步骤

    6.3.2 单因素方差分析的代码实现

    6.3.3 双因素方差分析的代码实现

    6.3.4 利用第三方模块快速完成方差分析

    6.4 描述性统计分析

    6.4.1 描述性统计指标的计算

    6.4.2 数据的分布状态分析

    6.4.3 数据的频数和频率分析

    6.5 线性回归分析

    6.5.1 线性回归分析的数学原理

    6.5.2 线性回归分析的思路

    6.5.3 广告费与销量的一元线性回归分析

    6.5.4 不同渠道的广告费与销量的多元线性回归分析

    第7章 Python爬虫基础

    7.1 认识网页结构

    7.1.1 查看网页的源代码

    7.1.2 网页结构的组成

    7.1.3 百度新闻页面结构剖析

    7.2 requests模块

    7.2.1 requests模块获取数据的方式

    7.2.2 get()函数的参数介绍

    7.3 案例:爬取豆瓣电影动画排行榜

    7.4 正则表达式

    7.4.1 正则表达式基础

    7.4.2 用正则表达式提取数据

    7.5 BeautifulSoup模块

    7.5.1 实例化BeautifulSoup对象

    7.5.2 用BeautifulSoup对象定位标签

    7.5.3 从标签中提取文本内容和属性值

    7.6 XPath表达式

    7.6.1 实例化etree对象

    7.6.2 用XPath表达式定位标签并提取数据

    7.6.3 快速获取标签节点的XPath表达式

    7.7 数据清洗

    7.8 案例:爬取当当网的图书销售排行榜

    第8章 Python爬虫进阶

    8.1 Selenium模块基础

    8.1.1 Selenium模块的安装与基本用法

    8.1.2 Selenium模块的标签定位

    8.1.3 Selenium模块的标签操作

    8.2 Selenium模块进阶

    8.2.1 模拟鼠标操作

    8.2.2

    展开全文
  • 3、爬虫requests请求库、xpath获取数据、代理服务器; 4、selenium用法:无头浏览器、元素定位、显式等待、数据获取; 5、python操作mongodb 02 网站分析 代码和数据我们到后面再贴上,先来分析下目标网站,...

    01

    本文涉及到的知识点

    1、python字符串:分割、拼接、中文字符判断;

    2、python正则表达式;

    3、爬虫requests请求库、xpath获取数据、代理服务器;

    4、selenium用法:无头浏览器、元素定位、显式等待、数据获取;

    5、python操作mongodb

    02

    网站分析

    代码和数据我们到后面再贴上,先来分析下目标网站,这样有利于我们爬取过程更加清晰

    目标网站:开放式基金排行 _ 天天基金网

    我们爬取的就是【开放式基金】里的数据:

    图片

    我们随便点开一个基金,就可以进入其详情页面,不知道你发现没有,该基金详情页面的url就是首页该基金的基金代码和 http://fund.eastmoney.com/ 的一个组合

    比如:

    040011 --- 华安核心优选混合的url:华安核心优选混合(040011)基金净值_估值_行情走势-天天基金网

    005660 --- 嘉实资源精选股票A的url:嘉实资源精选股票A(005660)基金净值_估值_行情走势-天天基金网

    ok,好,我们在基金详情页面往下拉就可以找到该基金的股票持仓信息,也就是该基金买了哪些股票:</

    展开全文
  • 所以,本文就从大众点评上爬取了成都的火锅数据,来进行了分析。1、爬虫首先小编定位为成都,美食类型选的“火锅”,火锅具体类型选的不限,区域选的不限,排序选的智能,如图:你也可以选择别...

    冬天到了,天气越来越冷,小编起床越来越困难了,每一天都想吃辣辣的火锅。成都到处都是火锅店,有名的店,稍微去晚一点,排队都要排好久,没听说的店,又怕味道不好。那么如何选择火锅店呢?最简单的肯定是在美团。大众点评上找一找啊。所以,本文就从大众点评上爬取了成都的火锅数据,来进行了分析。

    1、爬虫

    首先小编定位为成都,美食类型选的“火锅”,火锅具体类型选的不限,区域选的不限,排序选的智能,如图:

    你也可以选择别的选项,只是注意URL的变化。本文都是按照上述选项爬取的数据。接下来翻页观察一下URL的变化:

    第二页:

    第三页:

    很容易观察出翻页变化的知识p后面的数字,倒推回第一页,发现一样的显示内容,因此,写一个循环,便可以爬取全部页面。但是大众点评只提供了前50页的数据,所以,我们也只能爬取前50页。

    这一次,小编用的pyquery来分析网页的,所以我们需要定位到我们所爬取的数据的位置,如图:

    在具体分析的网页的时候,我震惊了,大众点评的反爬做的太过分了,它的数字,一些文字居然都不是明文显示,而是代码,你还不知道怎么分析它。如图:

    很烦的,一些文字又可以显示,一些又用代码表示。一些数字也是,不过好一点的是数字只有9个,只要稍微观察一下,就能发现数字的代码是什么了。这里小编列出来了。 {'hs-OEEp': 0, 'hs-4Enz': 2, 'hs-GOYR': 3, 'hs-61V1': 4, 'hs-SzzZ': 5, 'hs-VYVW': 6, 'hs-tQlR': 7, 'hs-LNui': 8, 'hs-42CK': 9}。值得注意的是,数字1,是用明文表示的。

    那么,如何用pyquery来定位呢,很简单,你找到你要获取的数据,然后右键→copy→cut selector,你复制到代码里面就OK了。pyquery的具体用法百度既有。

    最后,我们获取了火锅50个页面的数据,每页15个数据,一共750家餐厅的数据。

    2、分析

    大众点评已经给出了星级评价,可以看看大致趋势。

    准五星商户最多,可能因为大部分食客都习惯给好评,只有实在不满时才会打出低评有关,造成了评级一般不低,但近满分还是蛮少的。

    在本文,我们假设评论数目为饭店的热度,也就是它越火,评论数目越多。

    评论数目大多在1000以内,但是高于2000,甚至高于4000也还存在一些,这些饭店应该是一些网红店。以5000为约束,筛选出饭店均为小龙坎、蜀大侠都非常知名的火锅店。那么评论数量和星级有关系吗?看下图:

    这里取其评论数平均值,发现对于四星以上商户来说,评论数和星级并不关系,但均比低于四星的饭店销量更好。这说明在四星以上之后,人们选择差别不大,但一般不愿意接受评论太差的饭店。

    对于小编这样的学生党来说,影响较大还有人均消费情况。

    成都的火锅店人均消费大部分都在50-100的区间内,高于150的也有一些。对于小编来讲,吃一顿火锅,人均在50-100是可以接受的,高于100,小编就要低头看看钱包了。那扩展看,人均消费和星级、评论数量有关系吗?

    上图是人均消费和星级的关系,看起来并无任何关系,那说明一些口碑好的火锅店,其实人均也不贵。下面看看人均和评论数目的关系吧。

    通过比较,发现评论数目低于500,人均在50-100区间是最多的。当然这肯定和评论数量、人均消费本身集中于这一阶段有关。

    吃火锅,一家店的生意好坏,肯定还和它的特色菜有关,小编通过jieba分词,将爬取到的推荐菜做了一个词云图,如下。

    小编最爱的牛肉是特色菜之最啊,尤其是麻辣牛肉,只要去吃火锅,都要来上一份,其次是毛肚、虾滑、鹅肠等等。

    接下来是大家都关心的,口味、环境和服务的情况。

    三者得分大多都是集中在8.0-9.2这一阶段,小编认为,低于7.5分的饭店还是不要去尝试了。同时,星级评价应该也是由这三者得分产生的。

    果然如预想的一向,星级评价越好,它在口味、环境和服务的得分越高。那么口味,环境,服务得分与评论数量,平均价格有关系吗?

    如图所看,并无什么直接关系,但是我们发现口味、环境和服务三者之间存在着非常好的线性关系,于是单独拿出来画了一个较大的图。

    我们并且拟合了线性关系,由于三星商户只有一家,它的情况较为特殊之外,其他星级在口味、环境和服务的关系拟合中保持的相当一致,这也证明我们的猜想,这些变量之间存在线性关系。鉴于小编本文最大的目的是做推荐,于是,我们进行了K-means聚类,这里小编取K为3,并且把星级转换为数字,五星对应5分,准五星对应4.5分,以此类推。最终得到了三类,通过作图,看看聚类情况如何吧。

    和我们想要的结果一致,在口味、环境、服务和星级上得分越高,我们就越推荐。然而推荐的店铺还是好多,能不能在集中一些呢?于是小编通过限制评论数量、人均消费和特色菜来进行推荐。由于小编喜欢人少,便宜还有牛肉的店铺,这里得到了如下的结果:

    小编接下来要做的就是,吃遍它们,哈哈哈哈,想想都开心。

    就酱,┏(^0^)

    关注“经管人学数据分析”微信公众号,获取更多优质数据分析文章。

    展开全文
  • 基于python爬虫数据分析系统设计

    千次阅读 2021-02-15 13:09:23
    本文使用Python编写爬虫,通过向端口传送...【关键词】: 拉勾网 招聘信息 爬虫 数据挖掘 数据分析 Python SPSS 使用Python编写爬虫,通过向端口传送请求并且抓取传输过来的json字符串来获取招聘职位信息, 并且分类
  •        中国男女比例的失衡,再加上广大男同胞们都想着努力为自己的事业而奋斗很少能够接触到...2、本爬虫爬取的数据存入到MongoDB数据库中(提供有转换后的.xlsx文件) 3、爬虫代.
  • python爬虫爬取豆瓣电影基本上是爬虫入门必做的一个爬虫了,网上也有很多很好的教程,这篇文章写的就很没有必要,那为什么我还是要写呢,有一个很朴实的原因————期末作业。 并且更重要的是… 作为只有两个...
  • Python爬虫以及数据可视化分析

    万次阅读 多人点赞 2020-12-25 17:43:30
    Python爬虫以及数据可视化分析之B站动漫排行榜信息爬取分析 简书地址:https://www.jianshu.com/u/40ac87350697 简单几步,通过Python对B站番剧排行数据进行爬取,并进行可视化分析 源码文件可以参考Github上传的...
  • 全网最全python爬虫数据分析资源整理

    千次阅读 多人点赞 2021-04-29 14:08:36
    你为什么需要数据分析能力? 第一模块:数据分析基础篇 (16讲) 01丨数据分析全景图及修炼指南 02丨学习数据挖掘的最佳路径是什么? 03丨Python基础语法:开始你的Python之旅 04丨Python科学计算:用NumPy快速处理...
  • python爬虫数据可视化分析

    千次阅读 多人点赞 2021-01-07 09:46:58
    对于刚开始学习编程的小伙伴来说,肯定都对爬虫有一定的兴趣,对于新手来说,从Python爬虫如入门应该是简单易懂的。Python是一种跨平台的计算机程序设计语言。 是一个高层次的结合了解释性、编译性、互动性和面向...
  • Python爬虫以及数据可视化分析

    千次阅读 2020-12-27 14:12:59
    PS: 作为Python爬虫初学者,如有不正确的地方,望各路大神不吝赐教[抱拳] 本项目将会对B站番剧排行的数据进行网页信息爬取以及数据可视化分析 首先,准备好相关库 requests、pandas、BeautifulSoup、...
  • 手把手教你利用 python 爬虫分析基金、股票

    万次阅读 多人点赞 2021-02-16 22:43:28
    文章目录手把手教你利用 python 爬虫分析基金、股票第一步:基金数据爬取第二步:股票增持计算第三步:好股基金选取 从前大家朋友圈都在晒美食,晒旅游,晒玩乐,现在翻来朋友圈一看,竟然有很多人在晒炒股。这是一...
  • 2、本爬虫爬取的数据存入到MongoDB数据库中 3、爬虫代码中有详细注释 代码展示 import re import time from pymongo import MongoClient import requests from lxml import html class BaBaiSpider(): def __init_...
  • 2、本爬虫爬取的数据存入到MongoDB数据库中 3、爬虫代码中有详细注释 4、爬虫爬取的美食是以无锡为例 5、博客末尾附有源码+数据库文件 代码展示 import re import requests import json from pymongo import ...
  • Python爬虫实战+数据分析+数据可视化(猫眼电影)

    千次阅读 多人点赞 2021-01-16 16:26:48
    2、本爬虫爬取的数据存入到MongoDB数据库中 3、爬虫代码中有详细注释 代码展示 import re import time from pymongo import MongoClient import requests from lxml import html from urllib import parse class ...
  • 想必大家也等着急了吧,所以今天就为大家带来两篇实战内容,希望可以帮助到各位更好的认识到爬虫与MySQL数据库结合的知识。 每年的6月都是高考的大日子,所有的学子都为自己的目标大学努力着,拼搏着,所以今天的第...
  •  int(total_page[0])+1): data = { "pn":i, "kd":"python" } print(i) page_url = "https://www.lagou.com/jobs/positionAjax.json?px=default&city=%s&needAddtionalResult=false"%city referer_url = ...
  • 很高兴回答这个问题,python爬虫和做数据分析要分开来看。既然是用python来做,语言基础是二者都需要的,如果你本身就了解python的基本语法,这一步就可以略去,否则你要补充python基础语法知识,如果从来都没有...
  • Python爬虫数据可视化总结

    千次阅读 2021-09-15 19:43:41
    工具: Python,Flask,JS,CSS,HTML,WordCloud 爬取数据并存入数据库 一.导入需要的包 from bs4 import BeautifulSoup # 网页解析,获取数据 import re # 正则表达式,进行文字匹配 import xlwt # 进行excel操作 import ...
  • 数据分析基础 Numpy 模块 numpy 模块是用来处理数组、矩阵的第三方模块 导出Numpy import numpy as np Array 的创建和访问 1)根据Python的数据结构来创建 输出结果: 2) array 的一些重要的属性 3)其他创建 ...
  • 仅有爬虫,而没有数据分析 32个Python爬虫项目实战 第二阶段: 专门用来训练数据处理的实战项目 仅有数据处理和分析, 直接提供标准数据 有部分项目采用了一些特殊的数据分析算法进行预测和评估 《python数据...
  • 2、本爬虫爬取的数据存入到MongoDB数据库中 3、爬虫代码中有详细注释 4、爬虫爬取的美食是以无锡为例 代码展示 import json import re import time from pymongo import MongoClient import requests from lxml ...
  • 这篇文章适合初学者(想要快速入门python爬虫),以及用bootstrap写的页面效果 参考B站IT私塾 爬取豆瓣电影Top250的电影数据
  • 零基础对数据感兴趣却无从下手的人……课程概述有意向转行/跳槽/技能升级/应届毕业生入职数据分析的入职数据分析,不可不知的一些职场"门道"购课价值超过100元可提供纸质发票,邮寄到付。课程简介/收获:Python 作为...
  • 利用爬虫进行小说网站数据分析 介绍 利用爬虫数据分析和挖掘相关方法进行小说网站的“小说分类”数据分析 软件架构 Javaweb前端负责显示 Javaweb后端负责处理请求,访问数据库 controller层 负责处理请求 ...
  • python爬虫数据解析

    2021-10-06 09:02:45
    1 requests库的深度应用 网页信息采集 import requests if __name__=="__main__": url="" ... #UA伪装:让爬虫对应的请求载体身份标识伪装成一款浏览器 #UA伪装:将对应的User-Agent封装到一个字典中

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 97,413
精华内容 38,965
关键字:

python爬虫股票数据分析

python 订阅
爬虫 订阅