pandas 订阅
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。 展开全文
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
信息
外文名
pandas
开发与维护
PyData开发组
用    途
Python数据分析模块
起    源
AQR Capital Management
pandas简介
Pandas [1]  是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。
收起全文
精华内容
参与话题
问答
  • Python数据分析实战-Pandas

    千人学习 2019-12-02 10:54:20
    Pandas包是基于Python平台的数据管理利器,已经成为了Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,掌握其使用方法,是使用Python进行数据分析和数据挖掘的必备条件。  本课程通过讲解Pandas基础...
  • Python进阶-Pandas数据分析库

    千人学习 2018-12-18 13:40:12
    Pandaspython中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。本课程会讲解到pandas中最核心的一些知识点,包括Series以及DataFrame的构建,赋值,操作,选择数据,合并等等,以及使用...
  • python 计算均值、方差、标准差 Numpy,Pandas

    万次阅读 多人点赞 2019-10-23 22:58:25
    Python 中的 numpy 包 和 pandas 包都能够计算均值、方差等,本文总结一下它们的用法。 1. Numpy 计算均值、方差、标准差 一般的均值可以用 numpy 中的 mean 方法求得: >>> import numpy as np >>&...


    Python 中的 numpy 包 和 pandas 包都能够计算均值、方差等,本文总结一下它们的用法。

    1. Numpy 计算均值、方差、标准差

    一般的均值可以用 numpy 中的 mean 方法求得:

    >>> import numpy as np
    >>> a = [5, 6, 16, 9]
    >>> np.mean(a)
    9.0
    

    numpy 中的 average 方法不仅能求得简单平均数,也可以求出加权平均数。average 里面可以跟一个 weights 参数,里面是一个权数的数组,例如:

    >>> np.average(a)
    >>> 9.0
    >>> np.average(a, weights = [1, 2, 1, 1])
    >>> 8.4
    

    计算方差时,可以利用 numpy 中的 var 函数,默认是总体方差(计算时除以样本数 N),若需要得到样本方差(计算时除以 N - 1),需要跟参数 ddo f= 1,例如

    >>> import pnumpy as np
    >>> a = [5, 6, 16, 9]
    >>> np.var(a) # 计算总体方差
    18.5
    
    >>> np.var(a, ddof = 1) # 计算样本方差
    24.666666666666668
    
    >>> b = [[4, 5], [6, 7]]
    >>> b
    [[4, 5], [6, 7]]
    
    >>> np.var(b) # 计算矩阵所有元素的方差
    1.25
    
    >>> np.var(b, axis = 0) # 计算矩阵每一列的方差
    array([1., 1.])
    
    >>> np.var(b, axis = 1) # 计算矩阵每一行的方差
    array([0.25, 0.25])
    

    计算标准差时,可以利用 numpy 中的 std 函数,使用方法与 var 函数很像,默认是总体标准差,若需要得到样本标准差,需要跟参数 ddof =1,

    >>> import pnumpy as np
    >>> a = [5, 6, 16, 9]
    >>> np.std(a) # 计算总体标准差
    4.301162633521313
    
    >>> np.std(a, ddof = 1 ) # 计算样本标准差
    4.96655480858378
    
    >>> np.std(b) # 计算矩阵所有元素的标准差
    1.118033988749895
    
    >>> np.std(b, axis = 0) # 计算矩阵每一列的标准差
    array([1., 1.])
    
    >>> np.std(b, axis = 1) # 计算矩阵每一列的标准差
    array([0.5, 0.5])
    

    2. Pandas 计算均值、方差、标准差

    对于 pandas ,也可以用里面的 mean 函数可以求得所有行或所有列的平均数,例如:

    >>> import pandas as pd
    >>> df = pd.DataFrame(np.array([[85, 68, 90], [82, 63, 88], [84, 90, 78]]), columns=['统计学', '高数', '英语'], index=['张三', '李四', '王五'])
    >>> df
    统计学  高数  英语
    张三   85  68  90
    李四   82  63  88
    王五   84  90  78
    
    >>> df.mean() # 显示每一列的平均数
    
    统计学    83.666667
    高数     73.666667
    英语     85.333333
    dtype: float64
    
    >>> df.mean(axis = 1) # 显示每一行的平均数
    张三    81.000000
    李四    77.666667
    王五    84.000000
    dtype: float64
    

    若要得到某一行或某一列的平均值,则可以使用 iloc 选取改行或该列数据,后面跟 mean 函数就能得到,例如:

    >>> df
        统计学  高数  英语
    张三   85  68  90
    李四   82  63  88
    王五   84  90  78
    
    >>> df.iloc[0, :].mean()  # 得到第 1 行的平均值
    81.0
    
    >>> df.iloc[:, 2].mean() # 得到第 3 列的平均值
    85.33333333333333
    

    pandas 中的 var 函数可以得到样本方差(注意不是总体方差),std 函数可以得到样本标准差,若要得到某一行或某一列的方差,则也可用 iloc 选取某行或某列,后面再跟 var 函数或 std 函数即可,例如:

    >>> df.var() # 显示每一列的方差
    统计学      2.333333
    高数     206.333333
    英语      41.333333
    dtype: float64
    
    >>> df.var(axis = 1) # 显示每一行的方差
    张三    133.000000
    李四    170.333333
    王五     36.000000
    dtype: float64
    
    >>> df.std() # 显示每一列的标准差
    统计学     1.527525
    高数     14.364308
    英语      6.429101
    dtype: float64
    
    >>> df.std(axis = 1) # 显示每一行的标准差
    张三    11.532563
    李四    13.051181
    王五     6.000000
    dtype: float64
    
    >>> df.iloc[0, :].std() # 显示第 1 行的标准差
    11.532562594670797
    
    >>> df.iloc[:, 2].std() # 显示第 3 列的标准差
    6.429100507328636
    
    展开全文
  • pandas python 分组统计的方法

    万次阅读 多人点赞 2017-05-17 11:43:14
    首先,看看本文所面向的应用场景:我们有一个数据集df,现在想统计数据中某一列每个元素的出现次数。这个在我们前面文章《如何画直方图》中已经介绍了方法,利用value_counts()就可以实现(具体回看文章) ...

    首先,看看本文所面向的应用场景:我们有一个数据集df,现在想统计数据中某一列每个元素的出现次数。这个在我们前面文章《如何画直方图》中已经介绍了方法,利用value_counts()就可以实现(具体回看文章)

    但是,现在,我们考虑另外一个场景,我们假如要想统计其中两列元素出现次数呢?举个栗子:


    在df数据集中,如果我们想统计A、B两列的元素的出现情况,也就是说,得到如下表。


    从上面的最后一列可以看到,在A、B两列中,1 2 出现了2次,1 4 出现1次 ,1 6出现1次,2 3出现了2次, 2 4 出现1次, 3 1出现了1次

    具体实现的代码:

    import pandas as pd
    df=pd.DataFrame([[1,2,2],[1,4,5],[1,2,4],[1,6,3],[2,3,1],[2,4,1],[2,3,5],[3,1,1]],columns=['A','B','C'])
    


    gp=df.groupby(by=['A','B'])
    gp.size()

    所以,如果想统计更多列,只要在groupby()中的by参数添加就可以,例如统计3列。

    gp=df.groupby(by=['A','B','C'])

    由gp.size()得到的是可以mulitiindex Series。

    下面,要转化成DataFrame的结构。

    newdf=gp.size()
    newdf.reset_index(name='times')

    其中name中参数就是我们可以为最后一列添加新的名字,例如这里的“times”

    这个时候newdf已经是DataFrame的类型了。


    展开全文
  • import pandas as pd df = pd.read_csv('./某某.csv') df['Sex'].value_counts(ascending=True)
    import pandas as pd
    df = pd.read_csv('./某某.csv')
    df['Sex'].value_counts(ascending=True)
    

    从该表中提取提取出性别列中的标签统计各标签的数量

    展开全文
  • Pandas Python读取CSV文件中的某一列

    万次阅读 2017-09-28 16:47:52
    本人菜鸟一枚,刚刚接触Python,也不是专门研究Python的,但是在处理数据的时候需要用到,就简单的记录一下的自己学习。 1.首先就是读取csv文件 address=pd.read_csv("C:/..../文件名",usecols=[2]) #括号中第...


    
    本人菜鸟一枚,刚刚接触Python,也不是专门研究Python的,但是在处理数据的时候需要用到,就简单的记录一下的自己学习。
    

    1.首先就是读取csv文件

    address=pd.read_csv("C:/..../文件名",usecols=[2])

    #括号中第一个参数是读取文件的路径,第二个参数是读取csv文件中的某一列,2代表第三列

    2.输出csv文件

    address.to_csv("C:/..../文件名.csv")

    #输出csv文件,参数为输出文件路径。

    3.输出结果

    展开全文
  • 除了使用xlrd库或者xlwt库进行对excel表格的操作读与写,而且pandas库同样支持excel的操作;且pandas操作更加简介方便。 首先是pd.read_excel的参数:函数为: pd.read_excel(io, sheetname=0,header=0,skiprows=...
  • 比如有一个挺大的文件,用pd.read_csv来读取时,会出现memoryerror的错误。.../usr/bin/env python # -*- coding: UTF-8 -*- import pandas as pd from pandas import DataFrame as df path=u'G...
  • Python使用pandas读取CSV文件

    千次阅读 2019-09-25 13:49:02
    使用pandas读取CSV文件 import pandas as pd csv_data = pd.read_csv("./path_file/file.csv", encoding = 'UTF-8') 如果报错 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte 可以试...
  • Python安装pandas模块

    万次阅读 2019-07-07 20:53:50
    在学习Python过程中,我们经常需要安装一些模块,那么今天小编就手把手教大家如何简单安装pandas这个模块 首先,Windows+R打开命令窗口,即 然后,查看自己Python中Scripts的安装路径(小编的路径为D:\soft2\python\...
  • python安装pandas包过程中遇到的问题总结 安装pandas包时,在网上看的教程有手动安装和自动安装两个方法:手动安装是手动安装pandas包,在安装pandas第三方模块时,需要依赖好多环境配置,为了省去这些配置,可以...
  • python安装pandas失败问题

    千次阅读 2019-09-22 17:02:09
    在处理一个阿里云天池获取的用户行为数据分析的csv文件(大约3.4G)时需要进行python处理,需要pandas进行分析,打开Pycharm进行下载pandas包发现如图种问题,无法进行pandas的安装。搜索半天发现是,由于服务器问题...
  • PythonPandas 安装失败解决方案

    千次阅读 2019-04-10 21:01:08
    PythonPandas 安装失败解决方案 我的问题是由于路径不对,在我的python的lib路径下使用 pip install pandas命令,成功安装
  • python pandas获取groupby之后的数据 >>> import pandas as pd # 原始数据 >>> df = pd.read_excel(r'D:/myExcel/1.xlsx') >>> df name math 0 bog 45 1 jiken 67 2 bob 23 3 jiken 34 ...
  • Py之PandasPythonpandas库简介、安装、使用方法详细攻略 目录 pandas库简介 pandas库安装 pandas库使用方法 1、函数使用方法 2、使用经验总结 3、绘图相关操作 pandas库简介 在 Python 自带...
  • Python Pandas 排序

    千次阅读 2017-12-03 17:38:01
    import pandas as pd security = ['601318.XSHG','600036.XSHG','000333.XSHE','000651.XSHE','600660.XSHG','600887.XSHG','600004.XSHG','002415.XSHE','600519.XSHG','000002.XSHE','601166.XSHG','601006.XSHG'
  • Pandas安装下载和 Matplotlib安装下载

    千次阅读 2019-09-09 11:13:40
    我看了很多pandas安装的教程,都有一些前提条件:什么numpy的版本要新、要下什么python的什么包啊,先下载镜像啊,网速要好(这个的确是的)这些的,五花八门的,但是我就是先下了python、pip模块、numpy然后用...
  • Pythonpandas dataframe删除一行或一列:drop函数

    万次阅读 多人点赞 2018-02-10 20:10:25
    用法:DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False) 在这里默认:axis=0,指删除index,因此删除columns时要指定axis=1; inplace=False,默认该删除操作不改变原数据,而是返回...
  • PythonPandas 的 apply 函数使用示例

    万次阅读 多人点赞 2016-11-03 11:25:42
    apply 是 pandas 库的一个很重要的函数,多和 groupby 函数一起用,也可以直接用于 DataFrame 和 Series 对象。主要用于数据聚合运算,可以很方便的对分组进行现有的运算和自定义的运算。 数据集 使用的数据...
  • Python使用Pandas对csv文件进行数据处理

    万次阅读 多人点赞 2018-04-13 18:43:22
    估计是XAMPP套装里面全默认配置的MySQL性能不给力,又尝试用R搞一下吧结果发现光加载csv文件就要3分钟左右的时间,相当不给力啊,翻了翻万能的知乎发现了Python下的一个神器包:Pandas(熊猫们?),加载这个140多M的...
  • - 一、首先生成数据: ...import pandas as pd from pandas import DataFrame,Series df = pd.DataFrame(np.random.randn(20).reshape(4,5),index = [1,2,3,4],columns=['a','b','c','d','e',]) df Out[2]: ...
  • import pandas as pd Python安装pandas模块

    千次阅读 2018-11-11 15:29:00
    在学习python过程中需要用到一个叫pandas的模块,在pycharm中安装时总是出错。 千般百度折腾还是无果,后来发现它需要安装很多依赖包。就问你气不气~ 需要手动安装啊,千万记住,这里有个python模块包的网址:点击...
  • Python Pandas使用

    千次阅读 2020-02-07 17:50:55
    PandasPython的一个数据分析包,该工具为解决数据分析任务而创建。 Pandas纳入大量库和标准数据模型,提供高效的操作数据集所需的工具。 Pandas提供大量能使我们快速便捷地处理数据的函数和方法。 Pandas是字典...
  • python pandas 将行合并

    千次阅读 2016-07-27 20:34:49
    首先引入pandas库import pandas as pdpandas 提供了一个叫做concat的方法,详情见Merge, join, and concatenate大致功能如下图可以清楚的看出来: 合并步骤: 1. 首先df1、df2、df3是已经创建好的需要合并的...
  • python pandas更新

    万次阅读 2017-05-01 22:12:03
    今晚更新了python里的pandas模块,在这之前似乎一直是0.9.0版本的,导致很多函数里面的参数不全。不过更新的过程中也出现了很多问题,还好最后都解决了,这里记录一下。 更新pandas的方法直接用的是 pip install -...
  • PythonPandas中Series、DataFrame实践

    万次阅读 2016-01-06 16:00:33
    PythonPandas中Series、DataFrame实践1. pandas的数据结构Series1.1 Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。 1.2 Series的字符串表现...
  • Python pandas更新

    万次阅读 2018-12-02 21:05:29
    最近学习Python,然后运行一些程序发现需要使用pandas模块。 在网上找了安装方法后,发现是在CMD进行安装。方法也很简单,如下: 但是安装完这个后,系统却提示: 然后我又查了查资料,后来没找着,然后就随手...
  • Python3.7 安装pandas

    千次阅读 2019-12-07 23:22:44
    原本使用pip install pandas语句安装即可,但是发现下载安装的速度太过缓慢 于是选择在官网下载:官网下载链接 ...选择好自己对应的版本,下图是对应本机的python3.7 window10 ...
  • 在Pycharm中安装Pandas库方法(简单易懂)

    万次阅读 多人点赞 2019-09-02 17:18:31
    Python、Anaconda、Pandas以及PyCharm的安装 文章来源:企鹅号 - Michael的笔记本 开发环境的搭建是一件入门比较头疼的事情,在上期的文稿基础上,增加一项Anaconda的安装介绍。Anaconda是Python的一个发行版本,...
  • Python使用pandas读取excel表格数据

    万次阅读 多人点赞 2019-04-08 16:14:04
    import pandas as pd 若使用的是Anaconda集成包则可直接使用,否则可能需要下载:pip install pandas 读取表格并得到表格行列信息 df=pd.read_excel('test.xlsx') height,width = df.shape print(height,width,type...

空空如也

1 2 3 4 5 ... 20
收藏数 126,367
精华内容 50,546
关键字:

pandas