精华内容
下载资源
问答
  • 年龄分组标准
    千次阅读
    2021-01-19 08:01:39

    分组查询

    在SQL Server中使用的分组查询是ORDER BY子句,使用ORDER BY子句要同聚合函数配合使用才能完成分组查询,在SELECT查询的字段中如果字段没有使用聚合函数就必须出现在ORDER BY子句中(即SELECT后边的字段名要么出现在聚合函数中,要么在ORDER BY子句中使用)

    使用group by进行分组查询

    在使用group by关键字时,在select列表中可以指定的项目是有限制的,select语句中仅许以下几项:

    *被分组的列

    *为每个分组返回一个值得表达式,例如用一个列名作为参数的聚合函数

    注意:group by 有一个原则,就是 select 后面的所有列中,没有使用聚合函数的列,必须出现在 group by 后面

    HAVING子句与WHERE子句的区别

    HAVING子句和WHERE子句的相似之处在于,它也定义搜索条件。但与WHERE子句不同,HAVING子句与组有关,而不是与单个的行有关。

    1、如果指定了GROUP BY子句,那么HAVING子句定义的搜索条件将作用于这个GROUP BY子句创建的那些组。

    2、如果指定WHERE子句,而没有指定GROUP BY子句,那么HAVING子句定义的搜索条件将作用于WHERE子句的输出,并把这个输出看作是一个组。

    3、如果既没有指定GROUP BY子句也没有指定WHERE子句,那么HAVING子句定义的搜索条件将作用于FROM子句的输出,并把这个输出看作是一个组。

    4、在SELECT语句中,WHERE和HAVING子句的执行顺序不同。上面SELECT语句的执行步骤可知,WHERE子句只能接收来自FROM子句的输入,而HAVING子句则可以接收来自GROUP BY子句、WH

    更多相关内容
  • 检测表只有身份证号,无年龄和性别字段,需要对检测数据进行年龄分组2.需要根据性别的不同对数据进行比较,性别不同,比较的标准也不一样SELECT age,uw.patient_id,IFNULL(count,0) as countFROM UWuwLEFT JOIN ...

    需求:1.检测表只有身份证号,无年龄和性别字段,需要对检测数据进行年龄分组

    2.需要根据性别的不同对数据进行比较,性别不同,比较的标准也不一样

    SELECT  age,uw.patient_id,IFNULL(count,0) as count

    FROM UW uw

    LEFT JOIN (

    select age as age,a.patient_id,a.ua,count(*) as count from

    (

    select

    case

    when TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())  = ]]>0  and TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())   20  then '0~20'

    when TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())  = ]]>  21 and TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())    30  then '21~30'

    when TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())  = ]]> 31 and TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())    40  then '31~40'

    when TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())  = ]]>  41 and TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())    50  then '41~50'

    when TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())  = ]]>  51 and TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())    60 then '51~60'

    when TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())  = ]]>  61 and TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())    70  then '61~70'

    when TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())  = ]]> 71 and TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate())  80 then '71~80'

    when TIMESTAMPDIFF(YEAR,STR_TO_DATE(substr(patient_id,7,8),'%Y%m%d'),sysdate()) ]]> 80 then '80+'

    END AS age,

    patient_id as patient_id,

    ua as ua  from UW a INNER JOIN archive b on a.patient_id=b.ARCHIVEID  where ((a.ua    0.2 or a.ua   ]]> 0.42) and b.GENDER='GB_T_2261.1_2003_1' or (a.ua 0.14 or a.ua   ]]> 0.36) and b.GENDER='GB_T_2261.1_2003_2')

    )a group by age

    )tb  on uw.patient_id=tb.patient_id group by age

    展开全文
  • 4 数据分组cut 数据计算是根据原有的字段数据,采用简单、函数等计算方式得到新的计算字段数据的过程,方便进行下一步数据处理或数据分析工作。 1 简单计算 简单计算,是指通过对已有字段进行加、减、乘、除等...

    目录

    1 简单计算

    2 时间计算

     3 数据标准化

    3.1 0-1标准化

    3.2 z-score标准化 scale

    4 数据分组 cut


    数据计算是根据原有的字段数据,采用简单、函数等计算方式得到新的计算字段数据的过程,方便进行下一步数据处理或数据分析工作。

    1 简单计算

    简单计算,是指通过对已有字段进行加、减、乘、除等运算得出新的字段的过程。例如,已知商品的数量和单价,计算商品总额。在R语言中,直接使用两个数值列进行四则运算时,两个向量对应位置的数值会进行四则运算,计算结果会返回在对应的位置,从而得到一组计算结果的列,代码如下:

    #简单计算
    data = read.csv('C:/Users/ABC/Desktop/书籍源代码和配套资源/谁说菜鸟不会数据分析(R语言篇)--数据/第四章/4.6.1 简单计算/单价数量.csv',
                    fileEncoding="utf8",
                    stringsAsFactors=FALSE)
    data$total = data$price * data$num

    2 时间计算

    时间计算是指计算两个时间点之间的距离天数的过程。例如,根据用户的注册时间的当前时间计算用户的注册天数,根据当前时间计算用户的注册天数,可以直接使用当前时间减去用户的注册时间,而当前时间可以直接用Sys.time函数进行获取,代码如下。

    #时间计算
    data = read.csv('C:/Users/ABC/Desktop/书籍源代码和配套资源/谁说菜鸟不会数据分析(R语言篇)--数据/第四章/4.6.2 时间计算/时间计算.csv',
                    fileEncoding="utf8",
                    stringsAsFactors=FALSE)
    #把字符型的“注册时间”列,转换为时间型的“时间”列
    data$时间 = strptime(data$注册时间, format ='%Y/%m/%d')
    #注册天数 = 当前时间 - 注册时间
    data$注册天数 = Sys.time() - data$时间

     

     可以看到,“注册天数”列带有小数点,如果只希望获取证书的注册天数,则可以使用as.integer函数提取天数的整数部分

    #“注册天数”列的数据类型简化,只保留注册天数的整数部分
    data$注册天数 = as.integer(data$注册天数)

     3 数据标准化

    数据标准化,是指将数据按比例缩放,使之落入特定区间的过程。数据标准化的作用就是消除单位量纲的影响,方便进行不同变量间的对比分析。

    通常在进行综合评价分析、聚类分析、因子分析、主成分分析之前,如果各个变量存在单位量纲不统一的情况,就需要先进行数据标准化处理。常用的数据标准化方法有0-1标准化、z-score标准化。

    3.1 0-1标准化

    0-1标准化也称为离差标准化,会对原始数据进行线性变换,使结果落到【0,1】区间。0-1标准化保留了原来数据中存在的关系,是消除单位量纲的最简单的方法。0-1标准化的公式为,向量中       的每个值(x)与所在向量中的最小值(min)的差除以所在向量中的最大值(max)与最小值(min)的差,即

    x^{^{*}}=\frac{x-min}{max-min}

    #数据标准化
    data = read.csv('C:/Users/ABC/Desktop/书籍源代码和配套资源/谁说菜鸟不会数据分析(R语言篇)--数据/第四章/4.6.3 数据标准化/标准化.csv',
                    fileEncoding="utf8",
                    stringsAsFactors=FALSE)
    #0-1标准化
    data$消费标准化 = round(
      (
        data$消费-min(data$消费)
      )/(
        max(data$消费)-min(data$消费)
      )
      ,2
    )
    

     

    3.2 z-score标准化

     z-score标准化也称为标准差标准化,经过z-score标准化处理的数据符合标准正态分,即均值为0,标准差为1,其转化公式为

    x^{^{*}}=\frac{x-x\bar{}}{\sigma }

    z-score适用于数据分布过于凌乱、数据的最大值与最小值未知,或者数据中存在过多的离群值的情况。在进行聚类分析、因子分析、主成分分析等多元统计分析时,通常采用这种方法。

    在R语言中,可以使用scale函数实现z-score标准化。

    #z-score标准化,默认center = TRUE, scale = TRUE
    data$'消费Z-score标准化' = scale(data$消费)

    4 数据分组 

    数据分组,是指根据分析目的将数值型数据进行等距或非等距分组的过程,这个过程也称为数据离散化,一般看分布,如消费分布、收入分布、年龄分布。数组分组把数组对象分为不同的部分来进行研究,以解释其内在的联系和规律性。

    在R语言中,使用cut函数进行数据分组。

    cut(x, breaks, right = TRUE, labels = TRUE)
    参数说明
    x被分组的向量
    breaks用于指定分组阈值的向量,函数会对向量中的数值从小到大排序
    right在分组时是否左开右闭,默认为TRUE,即分组区间左开右闭,为FALSE时分组区间左闭右开
    labels分组的自定义标签,默认为空,即可以不自定义

    示例数为电话号码与月消费

    #分组的数组
    #确定cost列中的最小值 2
    min(data$cost)
    #确定cost列中的最大值 100
    max(data$cost)
    #因为最小值为2,组距为20
    #所以,设置最小的区间为(0,20]
    #因为最大值为100,而且,cut函数默认右区间闭合
    #所以,设置最大的区间为(80,100]
    #这样,[2,100]内的所有数值都落入分组
    breaks =c(0,20,40,60,80,100)
    #对指定列进行分组
    data$cut = cut(data$cost,breaks)

     

    展开全文
  • 许多分组标准,例如实际年龄(“传统”课堂)、性别(如体育课)、成绩分数(Floyd,1954;Morgan 和 Stucker,1960))IQ(Goldberg,1962)、社会计量数据( Schmid, 1960) 和心理年龄被单独和结合使用 大多数关于...
  • 作为种族/性别分组的函数,这些关系的大小没有显着差异,支持 k-ABC 的结构有效性作为黑人、白人、西班牙裔、男性和女性儿童能力和成就的发展衡量标准。 在过去十年中,用于评估少数民族或其他弱势儿童的教育和心理...
  • 一个双因素解决方案,基本上对应于韦克斯勒将子测试先验分组为语言和非语言或表现量表,最好地描述了每个年龄级别的 1 I WPPSI 子测试。 跨年龄水平的子测试的共同、特定和误差方差分量的检查表明,当使用单个测试的...
  • 这样每个年龄组购车的平均售价就出来了,同理还可以求中位数,标准差等等很多内容,缺点是by参数只能分组一个变量,分组两个变量就会报错,不能计算标准误,需要手动计算。OK,这样我们的数据转换就完成了,和我们用...

    在科学研究中免不了和数据打交道,收集到原始数据往往不能直接使用,我们经常需要对其进行清洗、转换才能得到我们需要的数据。既往我们已经介绍了通过R进行数据转换,今天来介绍一下通过stata进行数据分组转换操作及分组统计。

    在这里插入图片描述

    继续使用我们的汽车销售数据来演示,先导入数据,我是直接粘贴
    在这里插入图片描述
    我们来看下数据,car就是汽车售价,age是年龄,gender是性别,inccat是收入,这里分成4个等级,ed是教育程度。
    下面开始我们的转换:

    1. 假设我们想把年龄age分成5个组别,然后求出每个组别买车年龄的平均值
      先把年龄分组,生成5个年龄组
    cluster kmeans age ,gen(group) k(5)
    

    在这里插入图片描述
    求每个组的购车平均售价

    egen meancar=mean(car),by(group)
    

    在这里插入图片描述
    这样每个年龄组购车的平均售价就出来了,同理还可以求中位数,标准差等等很多内容,缺点是by参数只能分组一个变量,分组两个变量就会报错,不能计算标准误,需要手动计算。
    2. 假设我们想知道不同教育阶段购车年龄、价格的关系
    如果不使用stat函数控制输出,默认的是输出平均值

    tabstat car age , by( ed )
    

    在这里插入图片描述
    如果我们想多输出点内容,结果包含平均值和标准差、标准误,semean就是标准误的意思,等于standard error of mean (sd/sqrt(n))

    tabstat car age , by( ed ) stat(mean sd semean)
    

    在这里插入图片描述
    Tabstat函数和egen函数的缺点都是只能分组一个变量,不能分组两个变量。
    3. 假设我们想知道不同教育水平中,不同性别的人群购车关系
    假设想知道不同教育水平中不同性别人群购车的平均价

    collapse (mean) car= car ,by( ed gender )
    

    在这里插入图片描述
    我们还可以在这个基础上加入年龄

    collapse (mean) car= car age=age,by( ed gender )
    

    在这里插入图片描述
    Collapse函数一次可以分组两个变量,但是不能出两个结果,如果你还想知道标准误的结果,只能再做一次,然后合并,这一点就比不上R了。不过也就是多做一次,也不麻烦。

    collapse (semean ) se= car ,by( ed gender )
    

    在这里插入图片描述
    合并数据,其实很简单直接粘贴在Excel合并就好了。
    在这里插入图片描述
    OK,这样我们的数据转换就完成了,和我们用R语言做出来的一模一样哦,本章完结,如果觉得有用,记得分享给需要的人哦。

    展开全文
  • 随机分组方法可分为简单随机分组、区组随机分组、分层随机分组和动态随机分组。简单随机分组和区组随机分组较为常见,但未对非处理因素加以限制,样本量少时难以保证组间特征的均衡。分层随机分组能较好实现分层因素...
  • 分组(group by)一般与聚合结合使用(1)查询按性别分组select gender from students group by gender;(2)查询按性别分组并统计每组的数量...(3)查询按性别分组并统计每组的最大年龄select gender,max(age) from studen...
  • } 测试结果 Type类型为A Type类型为B 小结一下 GroupSequence注解是一个标准的Bean认证注解。正如之前,它能够让你静态的重新定义一个类的,默认校验组顺序。然而GroupSequenceProvider它能够让你动态的定义一个...
  • R语言标准化死亡率 (SMR)计算(2)

    千次阅读 2021-08-25 09:10:15
    上一篇文章中我们已经介绍了使用ems计算标准化死亡率 (SMR),但是它需要两个率,一个实际死亡率,一个估计死亡率,我们平时使用生存数据数据中没有估计死亡率,估计死亡率需要自己计算。 本章我们来介绍使用R语言...
  • SQL字符串的分组聚合

    2022-07-07 10:38:19
    SQL字符串的分组聚合 我们在开发过程中有时需要对表中的数据进行分组,又需要查询出具体信息。 本文中用到的是 group_concat() 函数 作用: 函数返回一个字符串结果,该结果由分组中的值连接组合而成。(多条数据,...
  • 年龄问题既可以当成年龄组的分类问题,也可以当成回归问题。 传统的比较好的方法LBP+SVM。 1.网络结构: 网络包含:3个卷积层,2个全连接层。使用了类似Alexnet的网络结构,层数比较小,这样可以避免过...
  • 什么是聚合? 在SQL中我们经常使用 GROUP BY 将某个字段,按...分组之后,每组都会有至少1条数据, 将这些数据进一步处理返回单个值的过程就是聚合,比如 分组之后计算算术平均值, 或者分组之后计算频数,都属于聚合 ...
  • DRGs智能分组器,疾病智能编码,手术智能编码,疾病诊断相关组分组策略。
  • 分组器及事前控制相关系统介绍

    千次阅读 2022-04-01 10:18:03
    CHS-DRG分组器 及事前控制 系统简介 2022-3-31 前言 2021年5月27日国家医疗保障局发布了《国家医疗保障疾病诊断相关分组(CHS-DRG)分组方案(1.1版)基于医保疾病诊断和手术操作分类与代码...
  • 他们使用这些年龄段及其年龄分组对一组深度学习模型进行了训练,然后将这些模型的输出进行组合以获得最终估计值。 他们通过使用“自适应数据扩充”解决了与数据集相关的年龄分布不平衡的问题。 (4)Agustsson(2017...
  • 数据聚合与分组运算——GroupBy技术(1),有需要的朋友可以参考下。...计算分组摘要统计,如计数、平均值、标准差,或用户自定义函数。对DataFrame的列应用各种各样的函数。应用组内转换或其他运算,如规格...
  • 每个城市都会对DRG标准分组进行本地化,但是基本规则都是一致的。 由于时间关系,DRG分组规则会陆续发布,敬请留意。 入组相关重要数据: 年龄,性别,新生儿体重,主要诊断、其他诊断,主要手术。 MDCA、MDCP、...
  • 上图是一个典型的规则分组情况,另外还有一些不规则的分组情况,典型情况就是按段分组,比如时间段、年龄段等,也就是按照某个值区间完成记录分组。 上图的例子中我们可以看到,分别统计了 “2012 年圣诞前”、...
  • 代码 4-52 GroupBy 类求均值,标准差,中位数 代码 4-53 agg和aggregate函数的参数及其说明 代码 4-54 使用agg分别求字段的不同统计量 代码 4-55 使用agg方法求不同字段的不同数目统计量 代码 4-56 在agg...
  • 信息年龄、新鲜度、数据寿命、边缘计算等读书报告
  • python对分组进行排序

    2020-12-29 08:31:59
    python 分组排序问题请教按照城市进行分组,然后按照数值进行排序。多谢各位def top(self,n=5): return self.sort('num',ascending=True)[:n] 表名.groupby(['city']).apply(top)按照城市进行分组,然后按照数值进行...
  • R语言分组计算描述性统计量

    千次阅读 2020-02-19 12:20:52
    R语言分组计算描述性统计量 在上一篇博客中介绍了如何计算数据整体的描述性统计量,点击查看。这里将注重介绍如何分组计算描述性统计量,介绍两个函数:aggregate()、dexcribe.by() 1、aggregate 这个函数的功能比较...
  • 1、标准书写样式 (只能按照循序写) SELECT .... FROM .... WHERE (条件) .... GROUP BY (分组) .... HAVING (筛选) .... ORDER BY (排序) .... 2、sql执行循序 ①、FROM ②、WHERE ③、...
  • 【单选题】每个表有()个唯一索引 【问答题】下颌下腺开口于( ) 【简答题】查询每一位同学的学号,姓名,总成绩,并按总成绩从高到低排序 【单选题】在select语句中,下列()子句用于对分组统计进一步设置条件 【单选题】...
  • 有时候需要按照某种特性来进行分组,然后将分组的内容进行一些操作,这时候需要用到分组这个概览。...这里以性别`sex`为分组标准,求出两组平均值: 为了更方便看到平均分数是哪个性别的,可以加上一个sex se
  • R之分组计算描述性统计统计量

    千次阅读 2017-12-25 16:10:24
    # 中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系 # 数。最后,若norm=TRUE(不是默认的),则返回正态分布统计量,包括偏度和峰度(以及它们 # 的统计显著程度)和Shapiro...
  • group by分组语法

    千次阅读 2019-04-18 10:54:47
    Group by就是分组的意思,根据某个字段进行分组。 基本语法:group by 字段名; 使用前面的学生表,我们来进行练习 举例:根据性别分组 根据上面显示,我们使用了分组语句,结果出现了数据丢失的情况。分组之后男和...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 18,969
精华内容 7,587
热门标签
关键字:

年龄分组标准