2018-07-22 19:43:44 weixin_39778570 阅读数 16410

所有资料汇总学习:点这里

利用python进行数据分析

Numpy

Numpy简单使用(入门)

Pandas入门

Pandas入门系列(一)-- Series
Pandas入门系列(二)-- DataFrame
Pandas入门系列(三)-- 深入理解Series和DataFrame
Pandas入门系列(四) – Pandas io操作
Pandas入门系列(五) – Indexing和Selecting
Pandas入门系列(六) – reindex
Pandas入门系列(七) – NaN
Pandas入门系列(八) – 多级index
Pandas入门系列(九) – Map和replace

pandas进阶

Pandas玩转数据(一) – 简单计算
Pandas玩转数据(二) – Series和DataFrame排序
Pandas玩转数据(三) – DataFrame重命名
Pandas玩转数据(四) – DataFrame的merge
Pandas玩转数据(五) – Concatenate和Combine
Pandas玩转数据(六) – 通过apply对数据进行处理
Pandas玩转数据(七) – Series和DataFrame去重
Pandas玩转数据(八) – 时间序列简单操作
Pandas玩转数据(九) – 时间序列的采样和画图
Pandas玩转数据(十) – 数据分箱技术Binning
Pandas玩转数据(十一) – 数据分组技术Groupby
Pandas玩转数据(十二) – 数据聚合技术Aggregation
Pandas玩转数据(十三) – 透视表
Pandas玩转数据(十四) – 分组和透视功能实战

Matplotlib入门

Matplotlib简单画图(一) – plot
Matplotlib简单画图(二) – subplot
Matplotlib简单画图(三) – pandas绘图之Series
Matplotlib简单画图(四) – pandas绘图之DataFrame
Matplotlib简单画图(五) – 直方图和密度图

Matplotlib扩展之Seaborn

Seaborn简单画图(一) – 散点图
Seaborn简单画图(二) – 直方图和密度图
Seaborn简单画图(三) – 柱状图和热力图
Seaborn简单画图(四) – 设置图形显示效果
Seaborn简单画图(五) – Seaborn调色功能

获取数据的一个库Tushare

Tushare获取数据

简单实战

股票市场分析实战

2018-05-10 15:06:43 lmseo5hy 阅读数 3175

Python之所以这么流行,这么好用,就是因为Python提供了大量的第三方的库,开箱即用,非常方便,而且还免费哦,学Python的同学里估计有30%以上是为了做数据分析师或者数据挖掘,所以数据分析相关的库一定要熟悉,那么常用的Python数据分析库有哪些呢?

1.NumPy

NumPy是Python科学计算的基础包,它提供:

1).快速高效的多维数组对象ndarray;

2).直接对数组执行数学运算及对数组执行元素级计算的函数;

3).用于读写硬盘上基于数组的数据集的工具;

4).线性代数运算、傅里叶变换,以及随机数生成。

2.Pandas

大名鼎鼎的Pandas可以说只要做数据分析的,无人不知无人不晓,因为它太重要了.Pandas库提供了我们很多函数,能够快速的方便的,处理结构化的大型数据,不夸张的说,Pandas是让Python成为强大的数据分析工具的非常重要的一个因素。

而且对于金融行业,比如基金股票的分析师来说,pandas提供了高性能的时间序列功能和一系列的工具,可以自由的灵活的处理数据,一次使用你就会爱上它。

3.Matplotlib

matplotlib是最流行的用于绘制数据图表的Python库,它和下面我们要讲的IPython结合的很爽,绝对是好基友,提供了一种非常好用的交互式的数据绘图环境。

4.IPython

IPython是Python科学计算标准工具集的组成部分,它可以把很多东西联系到一起,有点类似一个增强版的Python shell。

目的是为了提高编程,测试和调试Python代码的速度,好像很多国外的大学教授,还有Google大牛都很喜欢用IPython,确实很方便,至少我在分析数据的时候,也是用这个工具的,而且不用print,回车就能打印。

如果您对Python数据分析感兴趣,想学习更多Python知识,可以报名参加老男孩教育Python培训班,全面系统的Python培训课程,行之有效的学习方法,技术大牛讲师,让您轻松学会高深技能!
2017-06-02 11:31:20 HuangZhang_123 阅读数 502

本人新书《玩转Python网络爬虫》,可在天猫、京东等商城搜索查阅或通过右侧图书链接购买,项目深入浅出,适合爬虫初学者或者是已经有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员。


操作系统:Windows
Python:3.5
欢迎加入学习交流QQ群:657341423


Python数据分析与挖掘主要流程如图:
这里写图片描述

基本上做一个数据分析,大致的流程都是这样的。最后根据模型说明进行相关的事务决策。

这里简单说一下数据采集,如果数据来源是来自于数据库,直接获取数据库数据即可。如果是源于网站上的数据,这个可以实现爬虫方式爬取数据。基本上数据采集来源都是这2部分的比较多。这里就不做详细的说明。
后续会详细解说后面的流程。


这里用到的库有:numpy,scipy,scikit_learn,statsmodels,pandas,matplotlib,gensim
这个用图片说明作用:
这里写图片描述
这里就不安装Keras了,这个在Windows下体验不理想。

常用库的安装就比较简单,直接用pip install 安装即可完成。安装顺序最好安装上面的顺序,其中一定要安装numpy再安装scipy。

pandas需要频繁的写入和写出,这里还需要安装
pip install xlrd #读取excel功能
pip install xlwt #写入excel功能

其中还有其他库的延伸,比如图片处理的Pillow,视频的处理opencv,高精度运算GMPY2。

2019-10-16 20:27:58 luo8433 阅读数 10


一、前言
      
您好,欢迎来到 python数据分析 学习课堂,我是根华。

昨天我们介绍了 Anacond 的安装与简单使用。

那么今天,我们今天我们先来对数据分析里面要用到的各各库先简单的做一个介绍。
   
      
      
二、NumPy
      
Numpy(Numerical Python的简称)是Python科学计算的基础包。

它提供了以下功能:

  • 快速高效的多维数组对象ndarray。
  • 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。
  • 用于读写硬盘上基于数据的数据集的工具。
  • 线性代数运算、傅里叶变换,以及随机数生成。
  • 用于C、C++、Fortran代码集成到Python的工具。

除了为 Python 提供快速的数组处理能力, NumPy 在数据分析方面还有一个另外一个主要作用,即作为在算法之间传递数据的容器。

对于数值型数据,NumPy 数组在存储和处理数据要比内置的Python数据结构高效得多。

此外,由低级语言(比如C和Fortran)编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作。
   
      
      
三、pandas
      
pandas提供了使我们能快速便捷处理结构化数据的大量数据结构和函数。

你很快就会发现,他是使Python成为强大而高效得数据分析环境的重要因素之一。

我们在使用的时候,用得最多的pandas对象是DataFrame。

它是一个面向列的二维表结构,且含有行标和列标。

pandas兼具NumPy高性能的数组计算功能以及电子表格个关系数据库(如SQL)灵活的数据处理能力。

它提供了复杂精细的索引功能,以便为便捷地完成重塑、切片和切块、集合以及选取数据子集等操作。

pandas这个名字本身源自于panel data(面板数据,这是计量经济学中关于多维结构化数据集的一个术语)以及Python data analysis (Python数据分析)。
   
      
      
四、matplotlib
      
matplotlib是最流行的用于绘制数据图表的Python库。

它最初由John D.Hunter创建,目前由一个庞大的开发人员团队维护。

它非常适合创建出版物上用的图表。

它跟IPython结合得很好,因而提供了一种非常好用的交互式数据绘图环境。

绘制的图表也是交互式的,你可以利用绘图窗口中的工具栏放大图表中的某个区域或对整个图表进行平移浏览。
   
      
      
五、IPython
      
IPython是Python科学计算标准工具集的组成部分,他讲其他所有的东西联系在一起。

它为交互式和探索式计算提供了一个强健而有效的环境。

他是一个增加的Python shell,目的是提高编写、测试、调试Python代码的速度。

它主要用在与交互式数据处理和利用matplotlib对数据进行可视化处理。
   
      
      
六、SciPy
      
SciPy是一组专门解决科学计算中各种标准问题域的包的集合,主要包括下面的这些包:

  • scipy.integrate:数值积分例程和微分方程求解器。
  • scipy.linalg:扩展了有numpy.linalg提供的线性代数例程和矩阵分解功能。
  • scipy.optimize:函数优化器(最小化器)以及根查找算法。
  • scipy.signal:信号处理工具。
  • scipy.sparse: 稀疏矩阵和稀疏线性系统求解器。
  • scipy.stats: 标准连续离散概率分布(如密度函数、采样器、连续分布函数等)、各种统计检验方法,以及更好的描述统计法。

NumPy跟SciPy的有机结合完全可以替代MATLSB的计算功能(包括其插件工工具箱)。
      
      
七、结语
      
到这里我们基本上把所有基本库都简单接介绍了一遍。

接下来便是如何运用这时库来实现数据的分析。

那我们明天就从NunmPy库来进行详细介绍,作为我们的学习的正式开始。

好了,今天内容就到此结束,感谢大家的学习,我们下次再见。
            
      
      
八、参考文献

     ①《利用Python进行数据分析》 Wes McKinney

2016-04-27 23:47:22 lxl20100102 阅读数 107

重点内容

主要介绍本书中处理数据最重要的Python库,包括numpy, pandas, matplotlib, scipy

numpy库

1、多维数组对象array

2、用于对数组执行元素级计算的函数;用于对数组执行数学运算的函数

3、读写硬盘上基于数组的数据集的工具

4、线性代数运算和随机数的生成


pandas库

1、对象DataFrame,一个含有行标和列标的二维表

2、对象Series


matplotlib库

主要用于数据作图


scipy库

1、scipy.intergrate:数值积分方程和微分方程求解器

2、scipy.linalg:线性代数例程和矩阵分解

3、scipy.optimize:函数优化器以及根查找算法

4、scipy.signal:信号处理工具

5、scipy.sparse:稀疏矩阵和稀疏性系统求解器

6、scipy.stats:标准连续和离散概率分布,各种统计检验方法,以及描述统计方法


python数据分析工具

阅读数 1147

没有更多推荐了,返回首页