精华内容
下载资源
问答
  • Python数据分析与机器学习实战

    万人学习 2017-01-24 10:18:45
    Python数据分析与机器学习实战教程,该课程精心挑选真实的数据集为案例,通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。课程以实战为基础,所有课时都结合代码演示...
  • Python数据分析实例

    万次阅读 多人点赞 2019-06-14 22:13:37
    Python数据分析 Python爬取网页数据

    Python数据分析

    Python爬取网页数据

    // An highlighted block
    import requests
    if __name__=="__main__":
        response = requests.get("https://book.douban.com/subject/26986954/")
        content = response.content.decode("utf-8")
        print(content)
    
    // An highlighted block
    import requests
    url="https://pro.jd.com/mall/active/4BNKTNkRMHJ48QQ5LrUf6AsydtZ6/index.html"
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        print(r.text[:100])
    except:
        print("爬取失败")
    

    Python生成柱状图

    // An highlighted block
    import matplotlib.pyplot as plt  
      
    num_list = [1.5,0.6,7.8,6]  
    plt.bar(range(len(num_list)), num_list,color='rbgy')  
    plt.show()  
    

    在这里插入图片描述
    Python生成堆状柱状图

    // An highlighted block
    import matplotlib.pyplot as plt  
      
    name_list = ['Monday','Tuesday','Friday','Sunday']  
    num_list = [1.5,0.6,7.8,6]  
    num_list1 = [1,2,3,1]  
    plt.bar(range(len(num_list)), num_list, label='boy',fc = 'y')  
    plt.bar(range(len(num_list)), num_list1, bottom=num_list, label='girl',tick_label = name_list,fc = 'r')  
    plt.legend()  
    plt.show()  
    

    在这里插入图片描述
    Python生成竖状柱状图

    // An highlighted block
    import matplotlib.pyplot as plt  
      
    name_list = ['Monday','Tuesday','Friday','Sunday']  
    num_list = [1.5,0.6,7.8,6]  
    num_list1 = [1,2,3,1]  
    x =list(range(len(num_list)))  
    total_width, n = 0.8, 2  
    width = total_width / n  
      
    plt.bar(x, num_list, width=width, label='boy',fc = 'y')  
    for i in range(len(x)):  
        x[i] = x[i] + width  
    plt.bar(x, num_list1, width=width, label='girl',tick_label = name_list,fc = 'r')  
    plt.legend()  
    plt.show()  
    

    在这里插入图片描述
    Python生成折线图

    // An highlighted block
    import pandas as pd
    import numpy as np
     
    df = pd.DataFrame(np.random.rand(15, 4), columns=['a', 'b', 'c', 'd'])
    df.plot.area() 
    

    在这里插入图片描述
    Python生成柱状图

    // An highlighted block
    import pandas as pd
    import numpy as np
     
    df = pd.DataFrame(3 * np.random.rand(5), index=['a', 'b', 'c', 'd','e'], columns=['x'])
    df.plot.pie(subplots=True)
    

    在这里插入图片描述
    Python生成箱型图

    // An highlighted block
    #首先导入基本的绘图包
    import matplotlib.pyplot as plt
    import numpy as np
    import pandas as pd
    
    #添加成绩表
    plt.style.use("ggplot")
    plt.rcParams['axes.unicode_minus'] = False
    plt.rcParams['font.sans-serif']=['SimHei'] 
    
    #新建一个空的DataFrame
    df=pd.DataFrame()
    
    // An highlighted block
    df["英语"]=[76,90,97,71,70,93,86,83,78,85,81]
    df["经济数学"]=[65,95,51,74,78,63,91,82,75,71,55]
    df["西方经济学"]=[93,81,76,88,66,79,83,92,78,86,78]
    df["计算机应用基础"]=[85,78,81,95,70,67,82,72,80,81,77]
    df
    
    // An highlighted block
    plt.boxplot(x=df.values,labels=df.columns,whis=1.5)
    plt.show()
    

    在这里插入图片描述

    // An highlighted block
    #用pandas自带的画图工具更快
    df.boxplot()
    plt.show()
    

    在这里插入图片描述
    Python生成正态分布图

    // An highlighted block
    # -*- coding:utf-8 -*-
    # Python实现正态分布
    # 绘制正态分布概率密度函数
    import numpy as np
    import matplotlib.pyplot as plt
    import math
    
    u = 0  # 均值μ
    u01 = -2
    sig = math.sqrt(0.2)  # 标准差δ
    
    x = np.linspace(u - 3 * sig, u + 3 * sig, 50)
    y_sig = np.exp(-(x - u) ** 2 / (2 * sig ** 2)) / (math.sqrt(2 * math.pi) * sig)
    print(x)
    print("=" * 20)
    print(y_sig)
    plt.plot(x, y_sig, "r-", linewidth=2)
    plt.grid(True)
    plt.show()
    

    在这里插入图片描述
    喜欢的小伙伴可以尝试一下哦

    这是小编公众号,请动动您可爱的小手手,关注一下💓😘
    在这里插入图片描述

    展开全文
  • python数据分析

    万次阅读 多人点赞 2018-07-22 19:43:44
    python绘图、python数据分析、python库、股票分析

    所有资料汇总学习:点这里

    利用python进行数据分析

    数据在这里下载

    github连接

    记得点个star!!!

    里面还放着一些陈年老代码,都是机器学习和数据分析相关的。(没怎么整理,都在里面,看到隐私别慌~)

    Numpy

    Numpy简单使用(入门)

    Pandas入门

    Pandas入门系列(一)-- Series
    Pandas入门系列(二)-- DataFrame
    Pandas入门系列(三)-- 深入理解Series和DataFrame
    Pandas入门系列(四) – Pandas io操作
    Pandas入门系列(五) – Indexing和Selecting
    Pandas入门系列(六) – reindex
    Pandas入门系列(七) – NaN
    Pandas入门系列(八) – 多级index
    Pandas入门系列(九) – Map和replace

    pandas进阶

    Pandas玩转数据(一) – 简单计算
    Pandas玩转数据(二) – Series和DataFrame排序
    Pandas玩转数据(三) – DataFrame重命名
    Pandas玩转数据(四) – DataFrame的merge
    Pandas玩转数据(五) – Concatenate和Combine
    Pandas玩转数据(六) – 通过apply对数据进行处理
    Pandas玩转数据(七) – Series和DataFrame去重
    Pandas玩转数据(八) – 时间序列简单操作
    Pandas玩转数据(九) – 时间序列的采样和画图
    Pandas玩转数据(十) – 数据分箱技术Binning
    Pandas玩转数据(十一) – 数据分组技术Groupby
    Pandas玩转数据(十二) – 数据聚合技术Aggregation
    Pandas玩转数据(十三) – 透视表
    Pandas玩转数据(十四) – 分组和透视功能实战

    Matplotlib入门

    Matplotlib简单画图(一) – plot
    Matplotlib简单画图(二) – subplot
    Matplotlib简单画图(三) – pandas绘图之Series
    Matplotlib简单画图(四) – pandas绘图之DataFrame
    Matplotlib简单画图(五) – 直方图和密度图

    Matplotlib扩展之Seaborn

    Seaborn简单画图(一) – 散点图
    Seaborn简单画图(二) – 直方图和密度图
    Seaborn简单画图(三) – 柱状图和热力图
    Seaborn简单画图(四) – 设置图形显示效果
    Seaborn简单画图(五) – Seaborn调色功能

    获取数据的一个库Tushare

    Tushare获取数据

    简单实战

    股票市场分析实战

    展开全文
  • Python 数据相关性分析

    万次阅读 多人点赞 2018-04-25 15:09:49
    可能是此增彼涨,或者是负相关,也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对数据进行分析,从而给我们的决策提供支持,本文即介绍如何使用 Python 进行数据相关性分析。 关键词 python 方差...

    本文有视频教程,感兴趣的朋友可以前往观看 Python入坑实战系列 Part-2 - 简单数据相关性分析

    概述

    在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对数据进行分析,从而给我们的决策提供支持,本文即介绍如何使用 Python 进行数据相关性分析。
    关键词 python 方差 协方差 相关系数 离散度 pandas numpy

    实验数据准备

    接下来,我们将使用 Anaconda 的 ipython 来演示如何使用 Python 数据相关性分析,我所使用的 Python 版本为 3.6.2 。

    首先,我们将会创建两个数组,数组内含有 20 个数据,均为 [0, 100] 区间内随机生成。

    a = [random.randint(0, 100) for a in range(20)]
    b = [random.randint(0, 100) for a in range(20)]
    print(a)
    >> [35, 2, 75, 72, 55, 77, 69, 83, 3, 46, 31, 91, 72, 12, 15, 20, 39, 18, 57, 49]
    print(b)
    >> [25, 24, 72, 91, 27, 44, 85, 21, 0, 64, 44, 31, 6, 91, 1, 61, 5, 39, 24, 43]
    

    期望

    在进行相关性分析之前,我们需要先为最终的计算分析做好准备。我们在分析前,第一个准备的是计算数据的期望。对于期望的定义,离散变量和连续变量是不一样的,具体定义如下:

    • 对于连续随机变量

    • 在离散随机变量

    在一般情况下,我们通过实验或者调查统计获取的数据很大一部分都属于离散随机变量,那么这里的期望我们也可以简单的理解为平均数,那么既然是平均数,那么我们就可以非常简单编写一个计算离散变量的期望的函数了。

    def mean(x):
      return sum(x) / len(x)
    mean(a)
    >> 46.05
    mean(b)
    >> 39.9
    

    离散度 - 方差与标准差

    接下来,我们需要计算的是数据的离散程度,在统计上,我们通常会使用方差和标准差来描述。
    方差和期望一样,对于连续和离散的随机变量有着不同的定义,具体定义如下:

    • 对于连续随机变量

    • 对于离散随机变量

    与期望类似,这里我们一般只考虑离散变量的方差。还有一点值得注意,我们上面的离散变量方差公式,最后是除以 n ,但实际上,我们计算样本方差的时候一般会使用 n-1 ,具体原因可以参考知乎 《为什么样本方差(sample variance)的分母是 n-1?》

    而标准差,就是方差的平方根。那么,我们也可以像上面计算期望一样,给方差和标准差编写函数。

    # 计算每一项数据与均值的差
    def de_mean(x):
      x_bar = mean(x)
      return [x_i - x_bar for x_i in x]
    # 辅助计算函数 dot product 、sum_of_squares
    def dot(v, w):
      return sum(v_i * w_i for v_i, w_i in zip(v, w))
    def sum_of_squares(v):
      return dot(v, v)
    # 方差
    def variance(x):
      n = len(x)
      deviations = de_mean(x)
      return sum_of_squares(deviations) / (n - 1)
    # 标准差
    import math
    def standard_deviation(x):
      return math.sqrt(variance(x))
    
    variance(a)
    >> 791.8394736842105
    varance(b)
    >> 850.5157894736841
    

    协方差与相关系数

    接下来,我们进入正题,我们开始计算两组数据的相关性。我们一般采用相关系数来描述两组数据的相关性,而相关系数则是由协方差除以两个变量的标准差而得,相关系数的取值会在 [-1, 1] 之间,-1 表示完全负相关,1 表示完全相关。接下来,我们看一下协方差和相关系数的定义:

    • 协方差
    • 相关系数

    同样的,我们根据上述的公式编写函数。

    # 协方差
    def covariance(x, y):
      n = len(x)
      return dot(de_mean(x), de_mean(y)) / (n -1)
    # 相关系数
    def correlation(x, y):
      stdev_x = standard_deviation(x)
      stdev_y = standard_deviation(y)
      if stdev_x > 0 and stdev_y > 0:
        return covariance(x, y) / stdev_x / stdev_y
      else:
        return 0
    
    covariance(a, b)
    >> 150.95263157894735
    correlation(a, b)
    >> 0.18394200852440826
    

    根据上面的结果,相关系数为 0.18,可以推断这两组随机数有弱正相关。当然,我们知道,这两组数据都是使用 random 函数随机生成出来的,其实并没有什么相关性,这也是在数据处理中,需要特别留意的一个地方,统计的方法可以给我们一个定量的数值可供分析,但实际的分析也需要结合实际以及更多的情况综合考虑。

    使用 numpy 计算协方差矩阵 相关系数

    一般我们日常工作,都不会像上面一样把什么期望、方差、协方差一类的函数都重新写一遍,上面的代码只是让我们对这些计算更加熟悉。我们通常情况下会使用 numpy 一类封装好的函数,以下将演示一下如何使用 numpy 计算协方差。

    import numpy as np
    # 先构造一个矩阵
    ab = np.array([a, b])
    # 计算协方差矩阵
    np.cov(ab)
    >> array([[ 791.83947368,  150.95263158],
           [ 150.95263158,  850.51578947]])
    

    这里我们可以看到,这里使用 np.cov 函数,输出的结果是一个矩阵,这就是协方差矩阵。协方差矩阵数据的看法也不难,我们可以以上面的结果为例,矩阵1行1列,表示的是 a 数据的方差,这和我们上面的计算结果一致,然后1行2列和2行1列分别是 a b 以及 b a 的协方差,所以他们的值是一样的,然后最后2行2列就是 b 数据的方差。

    接下来,我们继续使用 numpy 计算相关系数

    np.corrcoef(ab)
    >> array([[ 1.        ,  0.18394201],
           [ 0.18394201,  1.        ]])
    

    计算相关系数,我们使用 numpy 的 corrcoef 函数,这里的输出也是一个矩阵,这个矩阵数据的含义同上面的协方差类似,我们可以看到,这里我们的相关系数是 0.18 ,和我们上面自己编写的函数计算的结果一致。

    使用 pandas 计算协方差、相关系数

    除了使用 numpy,我们比较常用的 python 数据处理库还有 pandas,很多金融数据分析的框架都会使用 pandas 库,以下将演示如何使用 pandas 库计算协方差和相关系数。

    import pandas as pd
    # 使用 DataFrame 作为数据结构,为方便计算,我们会将 ab 矩阵转置
    dfab = pd.DataFrame(ab.T, columns=['A', 'B'])
    # A B 协方差
    dfab.A.cov(dfab.B)
    >> 150.95263157894738
    # A B 相关系数
    dfab.A.corr(dfab.B)
    >>  0.18394200852440828
    dfab
    >>    A   B
    0   35  25
    1    2  24
    2   75  72
    3   72  91
    4   55  27
    5   77  44
    6   69  85
    7   83  21
    8    3   0
    9   46  64
    10  31  44
    11  91  31
    12  72   6
    13  12  91
    14  15   1
    15  20  61
    16  39   5
    17  18  39
    18  57  24
    19  49  43
    

    可以看到,和 numpy 相比,pandas 对于有多组数据的协方差、相关系数的计算比 numpy 更为简便、清晰,我们可以指定计算具体的两组数据的协方差、相关系数,这样就不需要再分析结果的协方差矩阵了。

    小结

    本文通过创建两组随机的数组,然后通过参考定义公式编写函数,再到使用 numpy 以及 pandas 进行协方差、相关系数的计算。到这里我们应该已经了解了数据相关性分析的原理,以及简单的具体实践使用方法,日后在工作中遇到需要做数据相关性分析的时候,就可以派上用场了。

    参考资料

    《数据科学入门.格鲁斯 (Joel Grus).人民邮电出版社》

    展开全文
  • ) (译者注2:毫无疑问,本书是学习Python数据分析最好的参考书。本来想把书名直接译为《Python数据分析》,这样更简短。但是为了尊重第1版的翻译,考虑到继承性,还是用老书名。这样读过第一版的老读者可以方便的...

    译者:SeanCheney

    欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远。

    下载本书代码(本书GitHub地址):https://github.com/wesm/pydata-book (建议把代码下载下来之后,安装好Anaconda 3.6,在目录文件夹中用Jupyter notebook打开)

    本书是2017年10月20号正式出版的,和第1版的不同之处有:

    • 包括Python教程内的所有代码升级为Python 3.6(第1版使用的是Python 2.7)
    • 更新了Anaconda和其它包的Python安装方法
    • 更新了Pandas为2017最新版
    • 新增了一章,关于更高级的Pandas工具,外加一些tips
    • 简要介绍了使用StatsModels和scikit-learn

    对有些内容进行了重新排版。(译者注1:最大的改变是把第1版附录中的Python教程,单列成了现在的第2章和第3章,并且进行了扩充。可以说,本书第2版对新手更为友好了!)

    (译者注2:毫无疑问,本书是学习Python数据分析最好的参考书。本来想把书名直接译为《Python数据分析》,这样更简短。但是为了尊重第1版的翻译,考虑到继承性,还是用老书名。这样读过第一版的老读者可以方便的用之前的书名检索到第二版。作者在写第二版的时候,有些文字是照搬第一版的。所以第二版的翻译也借鉴copy了第一版翻译:即,如果第二版中有和第一版相同的文字,则copy第一版的中文译本,觉得不妥的地方会稍加修改,剩下的不同的内容就自己翻译。这样做也是为读过第一版的老读者考虑——相同的内容可以直接跳过。)

    展开全文
  • Python数据分析三剑客-主流数据分析库精讲
  • Python数据分析与挖掘

    万人学习 2018-01-08 11:17:45
    二、基础篇: 围绕Python基础语法介绍、数据预处理、数据可视化以及数据分析与挖掘......这些核心技能模块展开,帮助你快速而全面的掌握和了解成为一个数据分析师的所有必修功法。   三、数据采集篇: 通过...
  • Python数据类型有哪些,哪些是可变类型,哪些是不可变类型? 类型: 整数int 字符串str 浮点数float 布尔型bool 列表list 字典dict 集合set 元组tuple 可变类型:就是这个数据类型的值在不改变这一块内存空间,而去...
  • Python数据挖掘实战

    千人学习 2017-12-15 12:04:44
    购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 Python数据挖掘技术系列视频培训教程基于真实数据集进行案例实战,使用Python数据科学库从数据预处理开始一步步进行数据建模。对于每个案例首先进行流程解读与...
  • Python数据清洗实战入门

    万人学习 2019-12-09 10:47:41
    本次课程主要以真实的电商数据为基础,通过Python详细的介绍了数据分析中的数据清洗阶段各种技巧和方法。
  • 零基础搞定Python数据分析与挖掘
  • Python数据挖掘简易入门

    千人学习 2020-03-11 14:47:29
    本课程为Python数据挖掘方向的入门课程,课程主要以真实数据为基础,详细介绍数据挖掘入门的流程和使用Python实现pandas与numpy在数据挖掘方向的运用,并深入学习如何运用scikit-learn调用常用的数据挖掘算法解决...
  • Python数据分析实战-Pandas

    千人学习 2019-12-02 10:54:20
           Pandas包是基于Python平台的数据管理利器,已经成为了Python进行... 这门课程目标是,高效快速的让大家在最短的时间内掌握好pandas这个在python数据分析中不可缺少的数据分析框架。 
  • 第四章 Python数据分析实战 习题(数据见附件sizhang.xlsx) 班主任现有一班级的两张表,如下。 表一:成绩表 学 号 C# 线 代 Python 16010203 78 88 96 表二:信息表 姓 名 学 号 手机号码 张三 16010203 ...
  • 【4.5小时极速提升数据能力 数据小白也能轻松上手】 Python数据分析与可视化的学习,重在实操,空谈语法毫无意义。 本课程着重讲解数据分析与可视化工具的实操应用,结合实战案例,带你边学边练,重点知识充分理解...
  • Python数据分析:数据可视化案例

    万次阅读 多人点赞 2019-04-29 21:35:42
    Python数据分析:数据可视化案例 import pandas as pd import matplotlib.pyplot as plt from matplotlib import style style.use('ggplot') # 设置图片显示的主题样式 # 解决matplotlib显示中文问题 plt.rcParams...
  • Python数据分析案例实战 视频课程

    千人学习 2019-08-24 09:58:24
    Python数据分析课程以Python为核心工具,结合其工具包pyecharts+开发IDEA pycharm + web 框架Flask。课程以案例为中心,结合案例讲解让同学们更清晰的掌握每一个知识点的应用与工作流程。 2大项目案例: 重点讲解 ...
  • 【入门基础+轻实战演示】【讲授方式轻松幽默、有趣不枯燥、案例与实操结合,与相关课程差异化】利用python进行数据处理、 分析,并结合大量具体的例子,对每个知识进行实战讲解,本课程通过大量练习和案例对各个知识...
  • Python数据结构与算法视频教程

    千人学习 2018-06-02 10:27:16
    Python数据结构与算法视频培训教程:本课程内容包含了程序员常用的数据结构知识,涉及快速排序、树与二叉树、堆、堆排序、图的概念与遍历、Python常用的内置算法与数据结构等开发知识。数据结构和算法是每个程序员...
  • Python学习之路】Python 数据类型

    万次阅读 2019-12-15 20:58:06
    Python 数据类型 常用数据类型 Common Data Types 类型 例子 整数 -100 浮点数 3.1416 字符串 'hello' 列表 [1, 1.2, 'hello'] 字典 {'dogs': 5, 'pigs': 3} Numpy数组 array([1, 2, 3]) 其他...
  • 您观看课程学习后 免费入群领取【超全Python资料包+17本学习电子书】 真实案例实战python数据分析。是少见的一条龙从数据抓取—清洗—分析—绘图讲解,都是实际案例,让你了解数据分析清洗挖掘的最快途径。通过学习...
  • 在本次数据分析训练营分为四天,前 2天为 Python 编码技术部分,可以帮助学习者快速上手Python数据处理;后2天为数据分析部分,借助通联数据平台的策略建立,实现实际项目结合,将各种策略代码直接开源,并且对各种...
  • Python 数据科学手册

    千次阅读 2018-11-06 11:56:00
    本书共五章,每章介绍一到两个 Python 数据科学中的重点工具包。 第1章 从 IPython 和 Jupyter 开始,它们提供了数据科学家需要的计算环境; 第2章讲解能提供 ndarray 对象的 NumPy,它可以用 Python 高效地存储和...
  • Python数据分析库:Pandas视频教程

    千人学习 2017-11-29 08:34:06
    Pandas视频培训课程,本教程会讲解Python数据分析库Pandas的所有核心API,这些API很多都是依赖其他的库,如NumPy、Matplotlib等,Pandas只是在表层做了一个封装。本课程内容包含Pandas的数据操作,还涉及Numpy,...
  • Python 数据分析学习路线

    万次阅读 多人点赞 2020-03-01 23:27:12
    数据分析有多火就不多说了,数据数据分析在生活中的实用性和重要性都是不言而喻。 刚开始的时候,面对多如牛毛一样信息,感觉像是狗咬刺猬,无处下口。经过大约几个月的摸索,大概有了一定的了解。想着记录自己的...
  •  首先推荐大家通过这两本书来入门数据挖掘这个领域,python数据挖掘这本书较容易,还花了很大的篇幅来讲python基础,而python数据挖掘入门与实践则直接从实例讲起,需要读者有一定的python基础。  数据挖掘主要是...
  • 购买课程后,可扫码进入学习群,获取唐宇迪老师答疑 Python数据分析(统计分析)视频培训课程概述:Python统计分析系列课程以Python爬虫为核心工具,结合其工具包进行统计分析实验。课程内容包括数据科学必备的几种...
  • Python数据分析课程

    千人学习 2019-08-22 16:30:09
    通过学习此课程,可以掌握Python的大数据分析。语法规则、常见通用库的使用,并在老师的带领下做出自己的智能语音机器人。在积累了一定的语言基础上具备成为专业Python工程师的能力。并可以深入全面学习Python爬虫及...
  • 购买课程后,添加小助手微信(微信号:csdn500)回复【唐宇迪】 进入学习群,获取唐宇迪老师社群答疑 使用Python数据分析流行的库Numpy,Pandas,Matplotlib, Scikit-learn结合真实数据集展开可视化特征分析与机器学习...
  • Python数据结构

    千次阅读 多人点赞 2018-12-19 11:54:50
    Python - 数据结构教程 Python - DS简介 Python - DS环境 Python - 数组 Python - 列表 Python - 元组 Python - 词典 Python - 二维数组 Python - 矩阵 Python - 集合 Python - 节点 Python - 链表 Python - 栈 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 547,916
精华内容 219,166
关键字:

python数据

python 订阅