精华内容
下载资源
问答
  • 我有个从csv导入数据帧,它(经过大量简化)如下所示:date = ['2013-08-10','2013-08-10','2013-08-10','2013-08-10','2013-08-10','2013-08-10','2013-08-10','2013-08-10','2013-08-10','2013-08-10']event = ...

    我对熊猫不太熟悉,有点不知所措。我有一个从csv导入的数据帧,它(经过大量简化)如下所示:date = ['2013-08-10','2013-08-10','2013-08-10','2013-08-10','2013-08-10',

    '2013-08-10','2013-08-10','2013-08-10','2013-08-10','2013-08-10']

    event = ['213','213','213','213','214','214','214','215','215','215']

    side = ['A','B','B','B','A','B','A','B','A','B',]

    value = [0.193,0.193,0.092,0.027,0.027,0.058,0.027,0.079,0.193,0.159]

    df = pd.DataFrame(zip(event,date,side,value),

    columns=['event','date','side','value'])

    event date side value

    0 213 2013-08-10 A 0.193

    1 213 2013-08-10 B 0.193

    2 213 2013-08-10 B 0.092

    3 213 2013-08-10 B 0.027

    4 214 2013-08-10 A 0.027

    5 214 2013-08-10 B 0.058

    6 214 2013-08-10 A 0.027

    7 215 2013-08-10 B 0.079

    8 215 2013-08-10 A 0.193

    9 215 2013-08-10 B 0.159

    我想要的是对每个事件的每一个边对应的值求和。我用groupby实现了这一点:

    ^{pr2}$

    但我还想添加一个新的列,每边的平均值都在扩大,如下所示:value

    event side roll_mean

    213 A 0.193 0

    B 0.312 0

    214 A 0.054 0.193

    B 0.058 0.312

    215 A 0.193 0.124

    B 0.238 0.185

    请注意,每个事件都有两面性,但并不总是A和B。我想要的是类似excel的东西平均值。如果函数,该函数计算当前边的所有值的扩展平均值,并应用于前面的所有行。如有任何帮助,我们将不胜感激。在

    展开全文
  • 情景:计算两次考试,所有学生平均成绩: '''a.csv date,name,grade 2020-07-01,mary,70 2020-07-01,tom,80 2020-07-01,jerry,70 2020-07-02,mary,80 2020-07-02,tom,90 2020-07-02,tom,100''' grade = pd....

    情景:计算两次考试,所有学生的平均成绩:

     

    '''a.csv
    date,name,grade
    2020-07-01,mary,70
    2020-07-01,tom,80
    2020-07-01,jerry,70
    2020-07-02,mary,80
    2020-07-02,tom,90
    2020-07-02,tom,100'''
    
    grade = pd.read_csv('C:\\test\\a.csv')
    
    # average grade at 0701 and 0702
    avg = grade['grade'].groupby(grade['date']).mean()
    
    # format grade avg to 'avg: XX'
    import math
    avg_new = avg.apply(lambda x: 'avg: '+str(math.floor(x))) 
    
    # last step, change avg_new to key-value
    avg_new.to_dict()

    结果:

     

    展开全文
  • 我有下个DataFrame:data=pd.read_csv('anual.csv', parse_dates='Fecha', index_col=0)dataDatetimeIndex: 290 entries, 2011-01-01 00:00:00 to 2011-12-31 00:00:00Data columns (total 12 columns):HR 2...

    我有下一个DataFrame:

    data=pd.read_csv('anual.csv', parse_dates='Fecha', index_col=0)

    data

    DatetimeIndex: 290 entries, 2011-01-01 00:00:00 to 2011-12-31 00:00:00

    Data columns (total 12 columns):

    HR 290 non-null values

    PreciAcu 290 non-null values

    RadSolar 290 non-null values

    T 290 non-null values

    Presion 290 non-null values

    Tmax 290 non-null values

    HRmax 290 non-null values

    Presionmax 290 non-null values

    RadSolarmax 290 non-null values

    Tmin 290 non-null values

    HRmin 290 non-null values

    Presionmin 290 non-null values

    dtypes: float64(4), int64(8)

    哪里:

    data['HR']

    Fecha

    2011-01-01 37

    2011-02-01 70

    2011-03-01 62

    2011-04-01 69

    2011-05-01 72

    2011-06-01 71

    2011-07-01 71

    2011-08-01 70

    2011-09-01 40

    ...

    2011-12-17 92

    2011-12-18 78

    2011-12-19 79

    2011-12-20 76

    2011-12-21 78

    2011-12-22 80

    2011-12-23 72

    2011-12-24 70

    此外,有些月份并不总是完整的.我的目标是从每日数据计算每个月的平均值.这是通过以下方式实现的:

    monthly=data.resample('M', how='mean')

    HR PreciAcu RadSolar T Presion Tmax

    Fecha

    2011-01-31 68.586207 3.744828 163.379310 17.496552 0 25.875862

    2011-02-28 68.666667 1.966667 208.000000 18.854167 0 28.879167

    2011-03-31 69.136364 3.495455 218.090909 20.986364 0 30.359091

    2011-04-30 68.956522 1.913043 221.130435 22.165217 0 31.708696

    2011-05-31 72.700000 0.550000 201.100000 18.900000 0 27.460000

    2011-06-30 70.821429 6.050000 214.000000 23.032143 0 30.621429

    2011-07-31 78.034483 5.810345 188.206897 21.503448 0 27.951724

    2011-08-31 71.750000 1.028571 214.750000 22.439286 0 30.657143

    2011-09-30 72.481481 0.185185 196.962963 21.714815 0 29.596296

    2011-10-31 68.083333 1.770833 224.958333 18.683333 0 27.075000

    2011-11-30 71.750000 0.812500 169.625000 18.925000 0 26.237500

    2011-12-31 71.833333 0.160000 159.533333 17.260000 0 25.403333

    我发现的第一个错误是在降水列中,因为所有观测结果在1月份都是0,而在这个特定月份获得的平均值为3.74.

    当Excel中的平均值与上面的结果进行比较时,存在显着差异.例如,Febrero的HR平均值是

    mean HR using pandas=68.66

    mean HR using excel=67

    我找到的另一个细节:

    data['PreciAcu']['2011-01'].count()

    29 and should be 31

    难道我做错了什么?

    我该如何解决这个错误?

    附件csv文件:

    展开全文
  • I have a pandas dataframe that looks like thisID country month revenue profit ebit234 USA 201409 10 5 3344 USA 201409 9 7 2532 UK ...

    I have a pandas dataframe that looks like this

    ID country month revenue profit ebit

    234 USA 201409 10 5 3

    344 USA 201409 9 7 2

    532 UK 201410 20 10 5

    129 Canada 201411 15 10 5

    I want to group by ID, country, month and count the IDs per month and country and sum the revenue, profit, ebit.

    The output for the above data would be:

    country month revenue profit ebit count

    USA 201409 19 12 5 2

    UK 201409 20 10 5 1

    Canada 201411 15 10 5 1

    I have tried different variations of groupby, sum and count functions of pandas but I am unable to figure out how to apply groupby sum and count all together to give the result as shown. Please share any ideas that you might have. Thanks!

    解决方案

    It can be done using pivot_table this way:

    >>> df1=pd.pivot_table(df, index=['country','month'],values=['revenue','profit','ebit'],aggfunc=np.sum)

    >>> df1

    ebit profit revenue

    country month

    Canada 201411 5 10 15

    UK 201410 5 10 20

    USA 201409 5 12 19

    >>> df2=pd.pivot_table(df, index=['country','month'], values='ID',aggfunc=len).rename('count')

    >>> df2

    country month

    Canada 201411 1

    UK 201410 1

    USA 201409 2

    >>> pd.concat([df1,df2],axis=1)

    ebit profit revenue count

    country month

    Canada 201411 5 10 15 1

    UK 201410 5 10 20 1

    USA 201409 5 12 19 2

    展开全文
  • 1、批量修改datafram中某一列 在数据处理过程中,经常会出现对某列批量做某些操作,比如dataframe df要对列名为“values”做大于等于30设置为1,小于30设置为0操作,可以这样使用dataframeapply函数来实现,具体...
  • pandas常用知识一、读取csv文件为dataframe二、dataframe数据概况三、取数据四、取行数据五、取某一单元格数据六、缺失值处理七、归一化处理八、排序九、索引重新编号十、求均值十一、矢量化操作(批量操作)十二...
  • pandas常用知识一、读取csv文件为dataframe二、dataframe数据概况三、取数据四、取行数据五、取某一单元格数据六、缺失值处理七、归一化处理八、排序九、索引重新编号十、求均值十一、矢量化操作(批量操作)十二...
  • 但是如果时间序列是表中的某一列,可以把这一列设为index 例如: 代码: DF=df2.set_index(df1['time_slot1']) DF.index=pd.to_datetime(DF.index,unit='ns') ticket=DF.ix[:,['all_time']] #以20分钟为一个时间...
  • Python实现按某一列关键字分组,并计算各列的平均值,并用该值填充该分类该列的nan值。DataFrame数据格式fillna方式实现groupby方式实现DataFrame数据格式以下是数据存储形式:fillna方式实现1、按照industryName1列...
  • 但是如果时间序列是表中的某一列,可以把这一列设为index 例如: 代码: DF=df2.set_index(df1['time_slot1']) DF.index=pd.to_datetime(DF.index,unit='ns') ticket=DF.ix[:,['all_time']] #以20分钟为一个...
  • Python实现按某一列关键字分组,并计算各列的平均值,并用该值填充该分类该列的nan值。DataFrame数据格式fillna方式实现groupby方式实现DataFrame数据格式以下是数据存储形式:fillna方式实现1、按照industryName1列...
  • Python实现按某一列关键字分组,并计算各列的平均值,并用该值填充该分类该列的nan值。DataFrame数据格式fillna方式实现groupby方式实现DataFrame数据格式以下是数据存储形式:fillna方式实现1、按照industryName1列...
  • GroupBy使用聚合意思指是对数据框架中某一类型数据进行整合,在整合后可以对其进行求和、平均值等操作,下面举例说明:对上面创建数据框架按公司进行分类,各公司人均销售额:再来统计一下各公司...
  • pandas

    2018-09-03 21:52:16
    apply()作用于DataFrame中的行或者列,一维的向量上,每个列的均值等操作... applymap()作用于DataFrame的每个元素上 计算某一列中的去重复后的元素数:df[df.columns[1]].nunique() sort df.sort_values(by=...
  • 文章目录生成数据单行或者单列操作按行或者列聚合按axis...如果是单列操作,就指某一列。 如果是聚合操作,像求均值这样,指是跨列cross columns。 生成数据 单行或者单列操作 按行或者列聚合 按axis=0/in
  • 求和 对每行或每列求和。 均值 对每行或每列求均值。 最大最小值 对每行或每列最大值或最小值。 中位数 对每行或每列中位数。 相关系数和协方差 ...统计某一列的值的...
  • Pandas学习之综合练习

    2020-07-01 23:54:40
    1.删除最后一列为缺失值行,并所有在杭州发货商品单价均值 删除列为缺失值行,有两种方法: 第一种方法 利用notna()函数,筛选出该列不为空值行,则相当于把该列为空值行删除掉了 import numpy as np ...
  • 1、求某一列数据的均值 import pandas as pd pd.set_option("display.max_rows", 5) reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0) median_points = reviews.points....
  • Pandas 数据分组 pd.groupby 相关操作(二)数据准备、数据平移 df.shift1.1 上下平移1.2 左右平移1.3 分组数据平移二、数据滚动 df.rolling2.1 滚动求和2.2 滚动求均值三、排名 df.rank3.1 总排名3.1 分组后,...
  • 一.准备知识 pandas.isnull(Series对象) 返回bool型Series对象 同 Series对象.isnull() ...NAN和任何值做计算时,结果都为NAN,所以在对某一列做求和,求均值等操作时,需先过滤掉缺失值 *.mean(...
  • Pandas - groupby-agg 分组统计 分组统计是数据分析中较为复杂一种操作,但是使用...以某一列为参照物对另一列进行分组统计 对data1按照key1进行分组,然后求均值: """ 数据聚合与分组技术, 利用Python进行数据分析
  • 博主真真是个遍历BUG小能手,这个问题原因是在pd.read_csv()之类操作时候,没有指定...要问我怎么发现,我在使用DEBUG功能时候,使用了这个函数:意思就是对dataframe的某一列求均值啦,返回typeerror,我...
  • ele2),修改某一个位置元素值. Matrix1+Matrix2 : Matrix add(Matrix mid1,Matrix mid2,int flag=1),矩阵加和操作接口,可选位运算加速. Flag is how to compete the ele ,default 1 ,bitwise operation(位...

空空如也

空空如也

1 2
收藏数 27
精华内容 10
关键字:

pandas求某一列的均值