精华内容
下载资源
问答
  • MIMICIII 数据库患者住院次数分布

    千次阅读 热门讨论 2018-11-14 21:41:54
    MIMICIII 数据库患者住院次数分布数据库三个病人IDsubject_id:hadm_idicustay_id数据库患者住院次数的分布使用聚合函数进行查询使用R链接数据库进行绘图 数据库三个病人ID 最近用MIMICIII数据库提取一些...

    数据库中三个病人ID

    最近在用MIMICIII数据库提取一些数据,突然意识到一个问题,提取出的数据很多患者都是多次入院的。因此,特地去查看下数据库中到底有多少患者住了多少次的医院。
    在MIMICIII数据库中,存在这三个病人ID,分别为:subject_id, hadm_id, icustay_id。这三个不同的ID分别代表了不同的意义:

    subject_id:

    在数据库的官方文档是这样描述的:

    SUBJECT_ID is a unique identifier which specifies an individual patient.

    因此subject_id代表了每一个患者,在数据库中,一个subject_id就收入了一个患者。

    hadm_id

    数据库的官方文档,对于hamd_id的定义为:

    HADM_ID, which represents a single patient’s admission to the hospital.

    hadm_id相当于国内医院的住院号,每一次的住院就会自动给你生成一个住院号,一个患者可能会拥有多个住院号。

    icustay_id

    这个标识符用于患者在ICU中停留,在官方文档的解释是:

    ICUSTAY_ID is unique to a patient ICU stay.

    当然,一个患者一次住院可以有多次进入ICU。但是同时也存在这一个ICU转入另一个ICU单元时,icustay_id不变的情况:

    As an ICUSTAY_ID groups all ICU admissions within 24 hours of each other, it is possible for a patient to be transferred from one type of ICU to another and have the same ICUSTAY_ID.

    理解这三个不同的标识符很重要,详情可以仔细阅读MIMICIII数据库的官方文档。

    数据库患者住院次数的分布

    在这里,我们主要使用SQL查询语句进行查询。想要知道“每个患者在这个数据库中住了多少次医院?”,我们只需要知道,“每个患者到底有多少个hamd_id”,也就是说,“在以hadm_id,作为唯一标识符的ADMISSIONS表中,查看出现了多少次的subject_id”就行了。

    使用聚合函数进行查询

    要完成上述这个目标,我们需要对ADMISSIONS表进行聚合查询。聚合函数有很多,以下五种比较常用:

    • COUNT:计算表中的记录数目
    • SUM:计算表中数值列中数据的合计值
    • AVG:计算表中数值列中数据的平均值
    • MAX:计算表中数值列中数据的最大值
    • MIN:计算表中数值列中数据的最小值

    我们所需要的是COUNT函数来计算出现多少次的subject_id。当然,仅仅使用COUNT函数,回报的就是这个表有多少行。比如:

    SELECT COUNT(*)
    FROM mimiciii.admissions
    

    执行结果为:

    count
    ------
    58976
    

    所以,我们还需要使用GROUP BY语句进行分组,查询如下:

    SELECT subject_id,count(*) as admissiontimes
    FROM mimiciii.admissions
    GROUP BY subject_id
    

    这样,我们就可以得到每个subject_id出现了多少次了。
    那么,如果我们想要得到仅仅只住了一次医院的病人怎么办?
    我们可以使用HAVING子句在分组中选择住院一次的患者:

    SELECT subject_id,COUNT(*) as admissiontimes
    FROM mimiciii.admissions
    GROUP BY subject_id
    HAVING COUNT(*) =1
    

    至于,HAVINGWHERE子句的区别,这里主要简单的提一点。
    WHERE子句是指定行所对应的条件,而HAVING子句指定组所对应的条件。

    使用R链接数据库进行绘图

    比起SQL,我更加喜欢把数据导入到R进行探索和分析。这个过程最容易联想到的是,从SQL的软件中将查询好的表格导出,然后用R将表格进行导入。其实不用那么麻烦,在R中提供了外接数据库的包,这里我使用的是PostgreSQL,因此我在R中配置的也是这个数据的包。由于我嫌麻烦,所以直接写了一个函数,方便直接调用进行查询,具体代码如下:

    #载入数据库的包
    library(RPostgreSQL)
    library(DBI)
    #连接数据库,并将其封装为一个函数
    query <-function(query)
    {
    drv<-dbDriver("PostgreSQL")
    con<-dbConnect(drv,host="localhost",port="5432",dbname="mimic",
                   user="",password="")  ## 这里删除了用户名和密码
    on.exit(
              {
                        dbDisconnect(con)
              }
    )
    dbGetQuery(con,query)
    }
    

    这样我就可以调用函数直接导入数据:

    ## MIMIC数据库中患者入院次数的统计
    ### 将SQL语句传入pt_sql的向量中
    pt_sql <- "SELECT subject_id,count(*) as admissiontimes
    FROM mimiciii.admissions
    GROUP BY subject_id"
    ### 进行查询
    pt_times <- query(pt_sql) 
    ### 生成表格
    x <- table(pt_times$admissiontimes)
    ###绘制条形图
    barplot(x)
    

    得到的结果挺让我惊讶的。
    在这里插入图片描述
    居然最多的患者住了42次医院?!
    好了,这次就这样,如有错误,请大家多多指正。

    展开全文
  • 锂离子电池充电的过程Li+从正极脱出,嵌入到石墨负极之,Li+石墨负极的均匀性会对电池的循环寿命产生显著的影响。但是由于电池结构特点和石墨负极的动力学特性的限制,因此Li+负极内部的分布往往是不均匀...

    锂离子电池在充电的过程中Li+从正极脱出,嵌入到石墨负极之中,Li+在石墨负极的均匀性会对电池的循环寿命产生显著的影响。但是由于电池结构特点和石墨负极的动力学特性的限制,因此Li+在负极内部的分布往往是不均匀的,这不仅可能造成局部析锂,也会导致在石墨负极内部产生应力分布不均,引起锂离子电池的循环寿命降低。

    近日,德国慕尼黑工业大学的D. Petz(第一作者)和A. Senyshyn(通讯作者)等人采用飞秒级分辨率的中子衍射、同步辐射等工具对满电状态下Li在石墨负极内的分布均匀性进行了研究,测试结果表明随着电池循环次数的增加,Li在负极内分布变得更加不均匀

    a7ac7adffa8f451618b772ac62b5fb49.png

    实验中以18650电池为研究对象,其中正极为NCA(LiNi0.80Co0.15Al0.05O2),负极为石墨,电池在常温下以1.625A恒流恒压充电至4.2V,然后以6A恒流放电至2.5V,以此制度进行循环。

    作者使用了三只电池进行循环,分别循环120次、210次和400次,该电池的初始容量为3170mAh,经过120次循环后电池剩余容量为2528mAh,经过210次循环后剩余容量为2346mAh,经过400次后剩余容量为1950mAh,表明该电池循环性能较差,在经过120次循环后电池容量就降低到了80%以下,这主要是受到作者采用的充放电电流比较大的影响。下图b为新电池和循环老化后的电池的单频中子衍射图谱,从下图b中能够看到该图谱主要是由NCA正极、石墨相1和相2,Al箔和Cu箔,以及18650电池的不锈钢外壳构成。

    从测试结果可以看到,随着循环次数的增加,NCA材料晶胞参数中的a和c值不断增加,这主要是因为正极在嵌锂状态下发生活性物质损失,因此困于正极中无法参与反应的Li增多,导致正极晶胞参数中的a和c有所增加。而石墨的2相/1相的比值也在增加,这主要是受到活性Li减少的影响,石墨中嵌入的Li的数量在减少,因此LiC12所占的比例有所增加。表征石墨嵌锂量的LixC6中x值,在新电池和循环不同次数后分别为0.851、0.772、0.752和0.701,表明随着循环次数的增加能够嵌入到石墨负极中活性锂明显减少。

    6be8d2f4098152242d697f5a101c44d7.png

    下图为根据上述的衍射结果制作的Li在石墨负极中分布的二维图,从图中能够看到在新鲜电池中除了个别的地方,Li在负极中的分布还是比较均匀的,锂浓度比较低的部分主要正极活性物质比较少的地方,例如电极的开头和结尾,以及极耳位置。

    表征负极的Li含量可以通过平均值XLi、平台值Xp和中位数等参数进行表征,从下图可以看到随着电池循环次数的增加,满电状态下负极中Li的平均浓度呈现下降趋势,表明随着循环次数的增加电池内部的活性Li的数量呈现明显的下降趋势。

    下图最下层是Li的分布图,其中浅色区域为Li的平台浓度区域,从下图可以看到随着循环次数的增加,平台浓度区域数量在减少,同时Li含量较高的深色区域主要集中在电芯的外部区域,表明随着循环次数的增加电池内部的Li浓度分布均匀性也在逐渐降低。

    d74ed37a03c34951272f07128fcd359c.png

    虽然上面的测试数据表明随着循环次数的增加,Li在负极分布的均匀性持续降低,但是上述的测试结果分辨率仍然比较低,因此虽然从测试结果可以看到Li的浓度分布均匀性在降低,但是不同电池之间的差距并不大。为了获得更高分辨率的Li分布图像,作者降新电池和循环400次后的电池进行了解剖,将满电负极取出,采用粉末衍射的方式对锂的分布进行了检测。下图c展示了负极中Li的分布。从图中能够看到在新电池中除了受到正极部分区域没有活性物质的影响,负极相应位置的Li浓度比较低外,其余位置的负极中Li的分布比较均匀,但是在电极的宽度方向能够看到上下边缘的Li浓度稍低,这主要是受到在电极内部电流分布的影响。

    be558d057f4caef74298cdbf43406b35.png

    下图为经过400次循环后的负极中的Li浓度分布,从图中能够看到相比于新电池的负极,循环后的电池负极中的Li浓度出现了明显的降低,表明循环过程中电池损失了相当数量的活性Li,同时负极上下边缘中Li的浓度分布变得更加不均匀。

    f5a7066dd8592253af83fc77298c34b5.png

    D. Petz的研究表明随着电池循环的进行,石墨负极中的Li浓度显著降低,这主要是由于循环中活性Li持续消耗引起的。同时循环还导致了石墨负极中的Li分布变得更加不均匀,这可能会对电池的安全性和循环性能造成负面影响。

    本文主要参考以下文献,文章仅用于对相关科学作品的介绍和评论,以及课堂教学和科学研究,不得作为商业用途。如有任何版权问题,请随时与我们联系。

    Lithium heterogeneities in cylinder-type Li-ion batteries – fatigue induced by cycling, Journal of Power Sources xxx (xxxx) xxx, D. Petz, M.J. Mühlbauer, V. Baran, M. Frost, A. Schokel, C. Paulmann, Y. Chen, D. Garces, A. Senyshyn

    文/凭栏眺

    展开全文
  • 简单次数分布表:适合数据个数和分布范围比较小的时候用,依据每一个分数值一列数据出现的次数或总计数资料编制成的统计表。2.分组次数分布表:适合数据个数和分布范围比较大的时候用,数据量很大时,应该把所有...

    教你看次数分布表

    f4e8a32b8c4e95223e1f1f0cb09ab8a0.png

    次数分布(frequency distribution)分为:

    1.简单次数分布表:适合数据个数和分布范围比较小的时候用,依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。

    2.分组次数分布表:适合数据个数和分布范围比较大的时候用,数据量很大时,应该把所有的数据先划分在若干区间,然后按其数值大小划分到相应区域的组别内,分别统计各个组别中包括的数据的个数,再用列表的形式呈现出来。

    (1)编制步骤:

    ①求全距(R),即最大数和最小数之间的差距。

    ②定组距和组数。

    组距(i),任意一组的起点和终点的距离,根据全距来定。全距大,组距也可以大一些,一般取23451020等数值,这样便于计算。

    组数(K),分组数目,要根据数目的多少来确定,如果数据在100个以上,一般分10~20组。i=全距/K

    ③列分组区间:即组限,一个组的起点和终点之间的距离。组限有表述上下限(10~1920~29)和精确上下限(9.5~19.49919.5~29.499),一般书写时按照表述上下限,计算和分组时按照精确上下限。

    由于连续变量中一个特定的数值并不是代表一个点,而是对应实数的一个区间,对于上述10~1910这个分数,实际上是代表的是9.5~11.5这一段区域,所以在次数分布表中,10~19这个组的下限是9.5而不是10

    ④登次数:将数据登记到相应的组别内。

    ⑤算次数:计算各组次数和总次数并核对,然后写出组中值、次数、频数和百分次数。

    注:组中值为每组精确下限加上组距的二分之一,或精确上下限之和的一半。

    (2)评价

    ①优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。B.可显示一组数据的集中情况和差异情况等。

    ②缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。

    3188493e000e556b70782cb70dd5a733.png

    展开全文
  • 今天一次撞到我知识点非常不稳固的一题,题目其实并不困难,...定义:泊松分布是一种常用的离散分布, 代表事件 单位时间内发生的次数分布列为: 参数 ,记为 例子:一天内,来到某商场的顾客数 是一天内来某...

    05fe13825ffdef65a8c47ddeb8195af3.png

    今天在一次撞到我知识点非常不稳固的一题,题目其实并不困难,但是由于知识点缺乏,导致卡住了做不下去。来看看是怎样的一题

    继续是茆诗松老师《概率论与数理统计》里

    是来自泊松分布
    的一个样本,证明
    是充分统计量

    什么是泊松(Poisson)分布?

    定义:泊松分布是一种常用的离散分布,

    代表事件
    在单位时间内发生的次数

    分布列为:

    参数

    ,记为

    例子:在一天内,来到某商场的顾客数

    是一天内来某商场的顾客数

    是每天来某商场的顾客数为
    的概率

    的取值

    是一天内来某商场的
    平均顾客数,是一个常数

    泊松分布还有一个定义,那就是

    过程

    计数过程称为

    过程需要满足
    个条件:
    1. 时刻某事件
      发生的次数
    2. 过程有平稳独立增量,意思是:在一段时间的每一个小时间段内,事件
      发生的次数
      之间时独立的
    3. 时,
      ,意思是:将这一段时间
      等切分,让
      ,就是在极其细小的时间段内,每个小区间
      发生
      次或
      次以上的概率趋于
      是时间增量
    4. 存在
      ,当
      时,
      ,意思是,在极其细小的时间段内,事件发生
      次的概率等于一段时间内平均发生次数
      乘以这个时间增量

    时间增量

    可以用
    来表示,事件发生
    次的概率
    会非常小),事件不发生的概率为
    ,这恰好是
    次伯努利试验,其中,事件发生
    次就等于试验成功,不发生就是等于试验失败。

    与二项分布的关系(推导)

    设单位时间段

    内,取一个自然数
    ,将
    进行
    等分:

    假设:

    • 恰好在每个小的时间段
      中发生事件
      的概率,根据几何概型,近似和每一段的长度
      成正比,设为
      ,当
      非常大的时候,即非常非常短的小时间段
      内,假设发生两次或者更多次事件
      是不可能的,所以在小时间段内
      不发生事件
      的概率为
    • 每个小时间段
      是相互独立的

    内发生事件
    的个数,即小时间段
    内发生事件
    的个数


    【泊松原理】记

    重伯努利试验中,记事件
    在一次试验中发生的概率为
    (与试验次数有关),如果当
    时,有

    由于泊松定理是在

    的条件下获得的,故在计算二项分布
    时,当
    很大,
    很小,而乘积
    大小适中时,可以用泊松分布来近似,即

    而且,当

    越大,
    越小时,近似程度越好

    e2bb4a20ddb5c79f6b5bd9ff2f3c8eb2.png
    展开全文
  • 通过科学试验的观察、测定和记载,可得到大量的数据资料,这些资料必须按照一定的程序进行整理和分析,才能透过数据表现看到蕴藏数据的客观规律。资料整理和分析时试验工作的重要组成部分。 一、总体及其样本 ...
  • 一个数字排序数组分布一定是连续的,题目其实是一个排序数组查找数字的意思,我使用二分查找 代码 class Solution { public: int GetNumberOfK(vector&lt;int&gt; data ,int k) { int ...
  • 1.概率分布 λ表示单位时间(面积或体积等)该事件平均发生次数(到达率) 则p(x=k)表示单位时间(面积或体积等)该事件发生k次的概率...实际事例,当一个事件以固定的平均速率出现时随机且独立地出现时,那么
  • (1)伯努利分布(Bernoulli distribution)伯努力分布 是描述二值随机变量的分布函数。二值随机变量表示事件只有两个状态... 是n次实验,实验成功的次数为 的概率。之所以叫他二项分布,是因为分布函数使用了...
  • 常见概率分布R的应用

    千次阅读 2014-03-18 23:48:21
    常见概率分布   离散型 1.二项分布Binomial distribution:binom 二项分布指的是N重伯努利实验,记为X ~ b(n,p),E(x)=np,Var(x)=np(1-p) ...size指总的实验次数,prob指每次实验成功发生的概率 dbinom
  • 而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率每一次独立试验都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布医学...
  • (1)伯努利分布(Bernoulli distribution)伯努力分布 是描述二值随机变量的分布函数。二值随机变量表示事件只有两个状态... 是n次实验,实验成功的次数为 的概率。之所以叫他二项分布,是因为分布函数使用了...
  • 例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件单位时间(面积或体积)内...
  • 泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的...
  • 有时候我们需要对某一篇文章或新闻进行数据...下面是web页面使用的两个核心方法: //统计某一字符串每一个字符出现的次数 function tongji(str) { if (str == "") return; var array = str...
  • 表示相同长度间隔的分布概率是等可能的。 概率密度函数: 公式 正态分布(高斯分布) 常见的连续概率分布,若一个随机变量X服从一个位置参数μ,尺度参数为σ的正态分布记为: 概率密度函数: 期望为μ,方差为...
  • 二项分布:N次重复且独立的伯努利实验,随机变量为N次实验出现某种情况(概率为p)的次数K 泊松分布:二项分布的极限形式(N趋于无穷大,P趋于0);描述一段时间T内,事件发生K次的概率。将时间段分割成很多...
  • 原文链接:拓端数据科技 / Welcome to tecdat​tecdat.cn保险业,由于分散投资,通常会合法的大型投资组合提及大数定律。一定时期内,损失“可预测”。当然,标准的统计假设下,即有限的期望值和独立性...
  • 保险业,由于汇集和分散投资,通常会合法的大型投资组合提及大数定律(最初由SiméonPoisson命名为loi des grands nombres,参见例如http://en.wikipedia.org/…)。一定时期内,损失越“可预测”。当然,...
  • 大纲:常见的离散型概率分布(二项,几何,超几何,泊松)...二项分布中,我们关注的是n次试验中成功的次数(区别于几何分布)。举个栗子:当我们要计算抛硬币n次,恰巧有x次正面朝上的概率,可以使用二项分布的...
  • 泊松分布和指数分布

    千次阅读 2017-10-09 14:03:46
    一、泊松分布日常生活,大量事件是有固定频率的。 * 一本书一页上的印刷错误数目 * 一手机某一时间段内收到信息的次数 * 某放射物体一定时间内放射出粒子数目 * 一定的时间区间内进入某书亭的人数 * 某医院...
  • 问题背景:大量文本,对每个单词的出现次数进行统计,可以得到一张单词出现次数的表格。如: word #existance #of word with same existance a 100,000 20 an 100,000 20 boy 99,888 19 cat 99,...
  • 布朗语料库使用条件概率分布函数ConditionalFreqDist,可以查看每个单词各新闻语料出现的次数。这微博情感分析非常有用,比如判断feature vector代表positive or negative or neutral的各feature每条...
  • 概率论和统计学,二项分布是n个独立的成功/失败实验成功的次数的离散概率分布,其中每次试验成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n=1时,二项分布就是伯努利分布。一般地,如果...
  • 概率与统计的基本分布总结

    千次阅读 2018-07-10 18:56:56
     一次实验出现的所以结果次数M,将每一种结果映射到某种数值函数X(e)(e表示是某一次实验发生的结果),这种命映射的结果值称为随机变量。 2、随机变量分为离散型和连续型的。 3、分布律:只有离散型随机变量...
  • 《常用的离散分布1》,我们介绍了二项分布和泊松分布,这两种分布的适用场景是分析独立事件发生次数的概率,或者是有放回的重复抽样。常用的离散分布1 二项分布,泊松分布​mp.weixin.qq.com如果是有限的样本...
  • 离散型概率分布1、柏松概率分布定义柏松分布是一种常见的离散型概率分布,它主要用来估计特定时间段或空间某事件发生的次数。泊松实验的性质:第一、任意两个相等长度的区间上,事件发生的概率相等;第二、...
  • 的列向量表示的这个属性的特征,纵坐标表示特征出现的次数 plt.figure(figsize=(15,10)) df[' _conds'].value_counts().head(15).plot(kind='bar') plt.title('15 most common weathers in Delhi') plt....
  • ,伯努利指出了如果这样的试验次数足够大,那么成功次数所占的比例以概率1接近p。 雅克·伯努利是这个最著名的数学家庭的第一代。后来的三代里,一共有8到12个伯努利,概率论、统计学和数学上做出了杰出的...
  • 离散型概率分布

    千次阅读 2018-12-23 13:28:59
    2) 二项分布 n次独立重复试验成功的次数P(X=n) 3) 泊松分布 一种小概率事件的分布,对于二项分布在n较大,p较小时的一种近似,便于计算。 4)几何分布 独立重复试验,直到首次试验成功的次数n.即:前n-1次都是...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 898
精华内容 359
关键字:

在次数分布中