精华内容
下载资源
问答
  • 用公式 / 求平均值data = [[' ', ' Scarface ', ' Godfather', ' Avatar'],['Al Pachino ', ' 1', ' 1', ' -1'],['Marlon Brando ', ' -1',...

    用公式 / 求平均值data = [

    [' ', ' Scarface ', ' Godfather', ' Avatar'],

    ['Al Pachino ', ' 1', ' 1', ' -1'],

    ['Marlon Brando ', ' -1', ' 1', ' -1'],

    ['De Niro ', ' -1', ' 1', ' -1'],

    ['Sigorny Weaver', ' -1', ' -1', ' 1']

    ]

    def compute_average(row):

    average = 0

    count = 0

    for column in row:

    count += 1

    try:

    value = int(column)

    except ValueError:

    continue

    if value > 0:

    average += value

    return float(average) / count

    for row in data[1:]:

    print compute_average(row)

    如果需要类似 / 的公式,只需将count += 1行从for循环的顶部移动到if value > 0语句。在

    try/except部分只是因为Python在尝试解析整数形式的非整数字符串时会出现错误,它允许您获取任何数据,而只跳过非整数的数据。在

    展开全文
  • 这在R语言中使用rowMeans求取多行平均值,或colMeans求取多列平均值 示例如下: #create data frame data <- data.frame(var1 = c(0, NA, 2, 2, 5), var2 = c(5, 5, 7, 8, 9), var3 = c(2, 7, 9, 9, 7)

    在Excel 使用average先求取两格子的平均值,然后可以进一步拉两个格子求取整行/整列的平均值。

    这在R语言中使用rowMeans求取多行平均值,或colMeans求取多列平均值

    示例如下:

    #create data frame
    data <- data.frame(var1 = c(0, NA, 2, 2, 5),
                       var2 = c(5, 5, 7, 8, 9),
                       var3 = c(2, 7, 9, 9, 7))
    
    #view data frame
    data
    
      var1 var2 var3
    1    0    5    2
    2   NA    5    7
    3    2    7    9
    4    2    8    9
    5    5    9    7
    
    #find average value in each row
    rowMeans(data, na.rm=TRUE)
    
    [1] 2.333333 6.000000 6.000000 6.333333 7.000000

     

    展开全文
  • 目前,它正在获取所有中所有值的平均值:def average_column (csv):f = open(csv,"r")average = 0Sum = 0row_count = 0for row in f:for column in row.split(','):n=float(column)Sum += nrow_count += 1aver...

    这是对你的函数的清理,但它可能不做你想做的事情。

    目前,它正在获取所有列中所有值的平均值:def average_column (csv):

    f = open(csv,"r")

    average = 0

    Sum = 0

    row_count = 0

    for row in f:

    for column in row.split(','):

    n=float(column)

    Sum += n

    row_count += 1

    average = Sum / len(column)

    f.close()

    return 'The average is:', average

    我将使用csv模块(这使csv解析更容易),使用^{}对象管理列总数,使用context manager打开文件(不需要close()):import csv

    from collections import Counter

    def average_column (csv_filepath):

    column_totals = Counter()

    with open(csv_filepath,"rb") as f:

    reader = csv.reader(f)

    row_count = 0.0

    for row in reader:

    for column_idx, column_value in enumerate(row):

    try:

    n = float(column_value)

    column_totals[column_idx] += n

    except ValueError:

    print "Error -- ({}) Column({}) could not be converted to float!".format(column_value, column_idx)

    row_count += 1.0

    # row_count is now 1 too many so decrement it back down

    row_count -= 1.0

    # make sure column index keys are in order

    column_indexes = column_totals.keys()

    column_indexes.sort()

    # calculate per column averages using a list comprehension

    averages = [column_totals[idx]/row_count for idx in column_indexes]

    return averages

    展开全文
  • 给定一个Spark数据帧,我想根据该的非缺失值和非未知值计算一个平均值。然后,我想采用这个平均值,并用它替换缺少的未知值。例如,假设我使用的是:名为df的数据帧,其中每条记录代表一个单独的记录,所有...

    给定一个Spark数据帧,我想根据该列的非缺失值和非未知值计算一个列的平均值。然后,我想采用这个平均值,并用它替换列缺少的未知值。

    例如,假设我使用的是:名为df的数据帧,其中每条记录代表一个单独的记录,所有列都是整数或数字

    名为age的列(每条记录的age)

    名为missing_age的列(如果该个人没有年龄,则等于1,否则为0)

    名为unknown_age的列(如果该个人的年龄未知,则等于1,否则为0)

    然后我可以计算这个平均值,如下所示。calc_mean = df.where((col("unknown_age") == 0) & (col("missing_age") == 0))

    .agg(avg(col("age")))

    或者通过SQL和windows函数mean_compute = hiveContext.sql("select avg(age) over() as mean from df

    where missing_age = 0 and unknown_age = 0")

    如果可以的话,我不想使用SQL/windows函数。我的挑战是采用这种方法,并使用非SQL方法替换未知/缺少的值。

    我试过使用when()、where()、replace()、with column、udf和组合。。。不管我做什么,我要么会犯错,要么结果不是我所期望的。这里有一个例子,我试过的很多事情中有一个没有用。imputed = df.when((col("unknown_age") == 1) | (col("missing_age") == 1),

    calc_mean).otherwise("age")

    我在网上搜索过,但还没有发现类似的归责类型的问题,所以非常感谢任何帮助。可能是我错过了一些很简单的事情。

    附带说明——我正在尝试将此代码应用于Spark数据帧中的所有列,这些列的名称中没有未知或缺少。我可以将与Spark相关的代码包装成Python的“for loop”并遍历所有适用的列来完成这项工作吗?

    更新:

    还知道了如何遍历列。。。这里有一个例子。for x in df.columns:

    if 'unknown_' not in x and 'missing_' not in x:

    avg_compute = df.where(df['missing_' + x] != 1).agg(avg(x)).first()[0]

    df = df.withColumn(x + 'mean_miss_imp', when((df['missing_' + x] == 1),

    avg_compute).otherwise(df[x]))

    展开全文
  • ] 我想查找每平均值,但不包括标头和时间作为计算的一部分,但要保留标头作为输出,并且仅保留小数点后一位.总的来说,我想产生这样的东西: average_data_list= [['','Header1','Header2','Header3'], ['', 2.3', '...
  • 学习笔记-DataFrame求多列平均值

    千次阅读 2020-02-28 01:46:43
    # 如果没有0,求的是两列所有平均数 df >> > A B C D E 0 1 1 1 1.0 1.0 1 1 4 4 2.5 2.5 2 1 3 3 2.0 2.0 3 2 2 2 2.0 2.0 4 2 1 1 1.5 1.5 ...
  • # coding=utf-8 import numpy as np ...填充nan的数据,为该平均值 ''' def fill_ndarray(t1): for i in range(t1.shape[1]): temp_col = t1[:,i] #取每一 print(temp_col) nan_num...
  • 天空澄碧,纤云不染本文转载来源于微信公众号:数据仓库与Python大数据(ID:dw_zzxx)前言在几乎所有的数据仓库与数据分析挖掘项目中都会遇到缺失数据的存在,数据缺失会导致...一般情况下,我们会使用变量的平均值...
  • Linux 求某一列平均值

    2013-02-21 16:29:00
    要求这些数字的平均值,可用如下方法:cat data|awk '{sum+=$1} END {print "Average = ", sum/NR}' 其中,$1表示第一 参考资料:http://lixjluck.iteye.com/blog/961271 转载于:https://www.cnblogs.c...
  • 八、相关操作 描述性统计: 1.a.mean() 默认对每一的数据求平均值;若加上参数a.mean(1)则对每一行求平均值; 2.统计某一x中各个值出现的次数:a[‘x’].value_counts(); 3.对数据应用函数 a.apply(lambda x:x...
  • 几乎任何一个数据集都含缺失数据。缺失数据有多种表示形式。...Pandas中的NaN来自NumPy库,在NumPy中,缺失有几个表达形式:NaN、NAN或者nan,但它们都是等同的。缺失和其它类型的数据不同,实际...
  • 描述性统计: 1.a.mean() 默认对每一的数据求平均值;若加上参数a.mean(1)则对每一行求平均值; 2.统计某一x中各个值出现的次数:a['x'].value_counts(); 3.对数据应用函数 a.apply(lambda x:x.max()-x.min()) ...
  • 重复的处理利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID.import pandas as pddf = pd.DataFrame({"ID": ["A1000","A1001","A1002", "A1002"],"departmentId": [60001,600...
  • 它将以时间格式给出平均值-SELECTSEC_TO_TIME(AVG(TIME_TO_SEC(yourColumnName)))asanyVariableNamefromyourTableName;为了理解上述概念,让我们创建一个表。以下是查询-mysql>createtableAverageOnTime−>(−...
  • max_min_df = new_df.apply((lambda x:x.max() - x.min()),axis = 1)#计算横轴最大最小值之差 err_mean_df = new_df.apply((lambda x:x-x.mean()),axis = 1)#计算横轴数值与平均值之差 也可分别计算new_df中每数值...
  • [size=24px]现有三张表:查询条件是[/size] [size=18px] 学生:s(sno,sname , sex , age , dept );表中属性分别为:学号,姓名,性别,年龄和系名。...[color=#FF0000]统计英语成绩高于该课程平均成绩的人数[/color]
  • 首先利用csv的reader方法,其中delimiter可有可无,它是一个分隔符,原本的就是逗号,所以加不加无所谓 reader返回的是一个可以迭代的对象,需要使用for循环遍历,row的部分输出如下: next(row)的作用是读取第...
  • .conf 文件里面 写入输出速度的 参数 veldcdfreq 500 run MD mv r3.veldcd r3vel.dcd vmd .psf r3vel.dcd 执行脚本 输出 velocity.dat 6 cat velocity.dat| awk ’ {sum+=$1} END {print "average = ", sum/NR}’ ...
  • 我有一个pandas数据框,由一些传感器读数组成,这些读数是经过一段时间采集的,如下所示:diode1 ... 4.1, 14.9, 17.5] 我想知道是否有一种更有效的方法将索引为“mean”的行和每平均值添加到pandas数据框的底部。
  • 00:00 83.333333 2000-01-01 00:01:00 100.000000 2000-01-01 00:02:00 100.000000 2000-01-01 00:03:00 200.000000 在你的问题中,你期望在2分钟到3分钟之间的结果是150,但事实并非如此,因为在这一分钟内的是...
  • 9. 表格中缺失处理import numpy as npimport pandas as pddates = pd.date_range('20130101', periods=6)df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))s1 = pd.Series([1,2,3,4,5,...
  • 计算popularity列平均值 df['popularity'].mean() 10.将grammer列转换为list df['grammer'].to_list() 11.将DataFrame保存为EXCEL df.to_excel('test.xlsx') 12.查看数据行列数 df.shape 13.提取popularity列值大于3...
  • 计算year平均值、age的最大值 以字典数据"state": [‘a’, ‘b’, ‘c’, ‘d’], “year”: [1991, 1992, 1993, 1994], “pop”: [6, 7, 8, 9], “age”: [45, 23, 46, 78]},为基础创建一个DataFrame对象, ...
  • 事实证明这是一个很困难的问题,想要得到该平使用Hypothesis库来考虑以下的测试案列:这并不是关于正确性的测试,只是测试平均值是否在列表的合理的限制范围内:在不作为平均值的情况下,有许多函数可以满足这个要求...
  • 这将产生以下输出-+--------+ | Number | +--------+ | 56 | | 78 | | 89 | | 98 | | 91 | | 96 | +--------+ 6 rows in set (0.00 sec) 以下是查询以获取值的平均值-mysql> select (sum...
  • 本文介绍了在SQL Server计算平均值的方法。
  • import pandas as pd import numpy as np a = np.array([[1,0,np...#第一步,获取每列平均值 col_mean = np.nanmean(a,axis=0) #第二步,获取NAN值所在索引 inds = np.where(np.isnan(a)) #如果报错,可以考虑替换...
  • 本文粗浅比较了C语言中常用的几种读取文件的函数的效率,并给出了几段求取某列平均值的代码。 第一部分:比较读取文件的效率 在之前的文章《生信(五)awk求取某一列的平均值》中,笔者曾经给出过C语言求取某列平均...
  • 事实证明这是一个很困难的问题,想要得到该平使用Hypothesis库来考虑以下的测试案列:这并不是关于正确性的测试,只是测试平均值是否在列表的合理的限制范围内:在不作为平均值的情况下,有许多函数可以满足这个要求...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,638
精华内容 1,455
关键字:

列平均值