精华内容
下载资源
问答
  • 之所以有多个表型数据,或者是多个重复,或者是多个地点的数据,或者是多个年份的数据如何计算得到一个表型数据呢? 可以使用多个表型的平均,作为品种的表型,现在有更好的方法:BLUE。 2. 为何使用BLUE...

    1. 为何要计算BLUE值?

    一年多点或者多年多点的植物数据中,一个基因型(品种)往往有多个表型数据,但只有一个基因型,在GWAS关联分析中,就需要一个基因型对应一个表型数据。

    之所以有多个表型数据的原因:

    • 或者是多个重复
    • 或者是多个地点的数据
    • 或者是多个年份的数据

    问题:如何计算得到一个表型数据呢?

    解答:可以使用多个表型值的平均值,作为品种的表型值,现在有更好的方法:BLUE值。

    2. 为何使用BLUE值?

    一般,有两个选择,BLUE值或者BLUP值,在GWAS中大都使用的BLUE值。

    BLUE和BLUP的区别:

    • BLUE值是混合线性模型中固定因子的估计效应值
    • BLUP值是混合线性模型中随机因子的估计效应值

    BLUE和BLUP的代表:

    • BLUE值着重在于评估品种现在的表现
    • BLUP值着重在于预测品种将来的表现

    BLUE和BLUP的方差变化

    • BLUE只是对表型值根据地点,年份进行矫正,得到的数据和原来数据尺度一样
    • BLUP值会对表型数据进行压缩

    3. 示例数据

    数据为learnasreml中的MET数据集。数据包括2年,5个地点,每个地点4个重复,共有10品种,观测值为产量(yield)


    代码

    library(learnasreml)
    library(magrittr)
    data("MET")
    head(MET)
    

    数据

    4. lme4包如何分析

    模型:

    • 固定因子:Cul
    • 随机因子:Year + Location + Location:Rep

    代码:

    dat = MET
    m1 = lmer(Yield ~ Cul  + (1|Location) + (1|Location:Rep) + (1|Year), data=dat)
    as.data.frame(fixef(m1))
    


    注意:
    植物中,一般的BLUE值需要加上截距(Intercept)。因为BLUE值中,第一个水平会当做0,其它为相对值,可以手动进行相加,也可以使用lsmeans包中的lsmeans

    library(lsmeans)
    re = lsmeans(m1,"Cul") 
    re
    


    数据中的lsmeans即为品种的BLUE值,可以作为GWAS或者GS的表型值进行后续的计算。

    5. asreml对比结果

    总所周知,asreml是一个非常强大的商业软件,如果用asreml进行结果对比,可以判断lme4计算是否正确。

    代码

    library(asreml)
    m2 = asreml(Yield ~ Cul , random = ~Location/Rep + Year, data=dat)
    pre = as.data.frame(predict(m2,classify = "Cul")$pvals)
    pre
    

    结果

    结果中的predicted.value即为品种的BLUE值。

    两者结果对比

    library(tidyverse)
    ls_value = as.data.frame(re)
    as_value  = pre
    
    head(ls_value)
    head(as_value)
    
    merge(ls_value,as_value,by = "Cul") %>% select(lsmean ,predicted.value) %>% cor
    

    相关性分析结果:

    散点图:

    可以看出,两者结果完全一致。

    展开全文
  • 之所以有多个表型数据的原因:或者是多个重复或者是多个地点的数据或者是多个年份的数据问题:如何计算得到一个表型数据呢?解答:可以使用多个表型的平均,作为品种的表型,现在有更好的方法:BLUE。2. ...

    cb095fac1ac052f6d51405f540e37c75.png

    1. 为何要计算BLUE值?

    一年多点或者多年多点的植物数据中,一个基因型(品种)往往有多个表型数据,但只有一个基因型,在GWAS关联分析中,就需要一个基因型对应一个表型数据。

    之所以有多个表型数据的原因:

    • 或者是多个重复
    • 或者是多个地点的数据
    • 或者是多个年份的数据

    问题:如何计算得到一个表型数据呢?

    解答:可以使用多个表型值的平均值,作为品种的表型值,现在有更好的方法:BLUE值。

    2. 为何使用BLUE值?

    一般,有两个选择,BLUE值或者BLUP值,在GWAS中大都使用的BLUE值。

    BLUE和BLUP的区别:

    • BLUE值是混合线性模型中固定因子的估计效应值
    • BLUP值是混合线性模型中随机因子的估计效应值

    BLUE和BLUP的代表:

    • BLUE值着重在于评估品种现在的表现
    • BLUP值着重在于预测品种将来的表现

    BLUE和BLUP的方差变化

    • BLUE只是对表型值根据地点,年份进行矫正,得到的数据和原来数据尺度一样
    • BLUP值会对表型数据进行压缩

    3. 示例数据

    数据为learnasreml中的MET数据集。数据包括2年,5个地点,每个地点4个重复,共有10品种,观测值为产量(yield)

    65831f367b6b87cf8bb29428e3745b58.png

    代码

    library(learnasreml)
    library(magrittr)
    data("MET")
    head(MET)

    数据

    ab29f7a60130b416c8b566a44eb29de3.png

    4. lme4包如何分析

    模型:

    • 固定因子:Cul
    • 随机因子:Year + Location + Location:Rep

    代码:

    dat = MET
    m1 = lmer(Yield ~ Cul  + (1|Location) + (1|Location:Rep) + (1|Year), data=dat)
    as.data.frame(fixef(m1))

    be5886a8e9d1d9d5536e4e3ec5f4bda9.png

    注意: 植物中,一般的BLUE值需要加上截距(Intercept)。因为BLUE值中,第一个水平会当做0,其它为相对值,可以手动进行相加,也可以使用lsmeans包中的lsmeans

    library(lsmeans)
    re = lsmeans(m1,"Cul") 
    re

    a694fd1254e57af59765b6ed42b3994f.png

    数据中的lsmeans即为品种的BLUE值,可以作为GWAS或者GS的表型值进行后续的计算。

    5. asreml对比结果

    总所周知,asreml是一个非常强大的商业软件,如果用asreml进行结果对比,可以判断lme4计算是否正确。

    代码

    library(asreml)
    m2 = asreml(Yield ~ Cul , random = ~Location/Rep + Year, data=dat)
    pre = as.data.frame(predict(m2,classify = "Cul")$pvals)
    pre

    结果

    bbf891627f118e3faff1704fbfe8cfae.png

    结果中的predicted.value即为品种的BLUE值。

    两者结果对比

    library(tidyverse)
    ls_value = as.data.frame(re)
    as_value  = pre
    
    head(ls_value)
    head(as_value)
    
    merge(ls_value,as_value,by = "Cul") %>% select(lsmean ,predicted.value) %>% cor

    相关性分析结果:

    828f2a80e6a4d9b7fe53a3dbd04eac07.png

    散点图:

    11f4a495820f6f5d4cee7b2105dc1671.png

    可以看出,两者结果完全一致。

    展开全文
  • 选择最好的数据集划分 :param dataSet: :return: """ numFeatures = len(dataSet[0]) -1 # 最后一列是分类 baseEntropy = calcShannonEnt(dataSet) #返回整个数据集的信息熵 bestInfoGain = 0.0 best...
  • 简单来说,当我们的数据源中存在重复值时,而我们只想将重复值计算一次,来计算不重复的项目有多少个。比如我们的统计表中每个人会对应一个部门,但是一个部门肯定是有多个员工存在,就会有一个部门出现多次的情况...
    98eaca676c6cdf418ce4cf5742cdd05e.png

    各位读者朋友们大家好,今天给大家介绍COUNTIFS函数的技巧性用法一,去除重复值计数。何为去除重复值计数呢?简单来说,当我们的数据源中存在重复值时,而我们只想将重复值计算一次,来计算不重复的项目有多少个。比如我们的统计表中每个人会对应一个部门,但是一个部门肯定是有多个员工存在,就会有一个部门出现多次的情况出现,而我们要想知道总共有多少个部门,这该如何处理呢?

    7d0f0fcfdd498901c1d213471297a504.png

    第一步:当我们无从下手的时候,我们看题目说的是计数,那大概率应该是用CLOUNTIFS函数,而COUNTIFS函数计数,对什么计数?去哪里计数呢?既然是要求部门数,我们可以试着用每个部门去部门列计数试一下,我们使用公式=COUNTIFS(A$2:A$22,A2),向下填充得到如下结果:

    f949f27455a95108f32cf05b1955f9a9.png

    第二步:得到上图的结果后,我们观察到每一个相同部门对应记录的结果是一样的,比如部门A出现了6次,那就会出现6个6;部门B出现了7次,就会出现7个7;部门C出现8次,就会出现8个8。显然这并不是我们想要的结果,但是我们发现已经将三个部门名称转变成了三个数字。我们最终要得到的结果是3,也就是说我们现在的问题变成了计算去重后的数字个数。继续思考,怎么让6个6变成1个1呢?这就是数学运算了,我们可以用1去除以每一个6,进而得到6个1/6,然后再将6个1/6加起来,不就变成1了吗?其他的数字同理可以变换成1,这个时候再将3个1相加,不就是我们想要的结果吗?

    我们来一步步操作,首先用1除以对应的数字,得到下面的结果,这里我特意用分数来表示结果:

    922b1c97a203b2b09da01f10c1743443.png

    然后我们再将这些分数相加,最终得到的结果为3。

    6e5313fd006b395429d2f3cb46285a57.png

    第三步:以上是分步拆解动作,但是我们想要的其实是不用这些辅助列,一步步地做,我们希望的是一条公式能够直接得出结果。好,我们重新整理一下,我们利用数组公式将每一个部门一起拿到部门列中去计数,公式=COUNTIFS(A2:A22,A2:A22),这个公式维数组公式,得到的结果与我们第一步的结果是一样的,只不过没有完全显示出来。

    4eee8529934645b2d3cf827e78de8e10.png

    然后再批量的用1去除以每一个数,得到分数,公式=1/COUNTIFS(A2:A22,A2:A22),同样为数组公式,得到的结果是每一个数字被1除以的结果。

    9b3fce6de36a6142b480e4cb21c455c1.png

    最后我们再用SUM函数将得到的所有分数进行加总求和,即可得到对应的部门数,公式=SUM(1/COUNTIFS(A2:A22,A2:A22))

    2ae4e06082ffad6828771040efaa2b65.png

    到这里我们就将整个分析的过程融合成一条公式,进而得到了我们想要的结果。我们还是那句话,写函数重在思路的构造,先将思路分析清楚,这个过程可以先用辅助列来一步步实现,最后再用函数技巧,将整个过程联合起来,就得到了我们想要的结果,你学会了吗?

    写在最后:原创不易,请大家多多支持,期待与大家互相学习,共同进步!

    展开全文
  • 简单来说,当我们的数据源中存在重复值时,而我们只想将重复值计算一次,来计算不重复的项目有多少个。比如我们的统计表中每个人会对应一个部门,但是一个部门肯定是有多个员工存在,就会有一个部门出现多次的情况...
    dd0686b5ae9ba799d3b401ece2169f01.png

    各位读者朋友们大家好,今天给大家介绍COUNTIFS函数的技巧性用法一,去除重复值计数。何为去除重复值计数呢?简单来说,当我们的数据源中存在重复值时,而我们只想将重复值计算一次,来计算不重复的项目有多少个。比如我们的统计表中每个人会对应一个部门,但是一个部门肯定是有多个员工存在,就会有一个部门出现多次的情况出现,而我们要想知道总共有多少个部门,这该如何处理呢?

    93734b19eec93f7b4a6e1b7adef8a3d3.png

    第一步:当我们无从下手的时候,我们看题目说的是计数,那大概率应该是用CLOUNTIFS函数,而COUNTIFS函数计数,对什么计数?去哪里计数呢?既然是要求部门数,我们可以试着用每个部门去部门列计数试一下,我们使用公式=COUNTIFS(A$2:A$22,A2),向下填充得到如下结果:

    8deed3851ed0342798667b4642272a4d.png

    第二步:得到上图的结果后,我们观察到每一个相同部门对应记录的结果是一样的,比如部门A出现了6次,那就会出现6个6;部门B出现了7次,就会出现7个7;部门C出现8次,就会出现8个8。显然这并不是我们想要的结果,但是我们发现已经将三个部门名称转变成了三个数字。我们最终要得到的结果是3,也就是说我们现在的问题变成了计算去重后的数字个数。继续思考,怎么让6个6变成1个1呢?这就是数学运算了,我们可以用1去除以每一个6,进而得到6个1/6,然后再将6个1/6加起来,不就变成1了吗?其他的数字同理可以变换成1,这个时候再将3个1相加,不就是我们想要的结果吗?

    我们来一步步操作,首先用1除以对应的数字,得到下面的结果,这里我特意用分数来表示结果:

    21ca118effec49cfed68e283a0f8e88d.png

    然后我们再将这些分数相加,最终得到的结果为3。

    4d253dc966c63cf4700e6b0e3d4e6014.png

    第三步:以上是分步拆解动作,但是我们想要的其实是不用这些辅助列,一步步地做,我们希望的是一条公式能够直接得出结果。好,我们重新整理一下,我们利用数组公式将每一个部门一起拿到部门列中去计数,公式=COUNTIFS(A2:A22,A2:A22),这个公式维数组公式,得到的结果与我们第一步的结果是一样的,只不过没有完全显示出来。

    ebaf95e09105ea5cf1be3646c11606db.png

    然后再批量的用1去除以每一个数,得到分数,公式=1/COUNTIFS(A2:A22,A2:A22),同样为数组公式,得到的结果是每一个数字被1除以的结果。

    db2a8f42e71a0f3f8e61856efc1db1d9.png

    最后我们再用SUM函数将得到的所有分数进行加总求和,即可得到对应的部门数,公式=SUM(1/COUNTIFS(A2:A22,A2:A22))

    2d8daf9a6b918590520e349a0c84bc90.png

    到这里我们就将整个分析的过程融合成一条公式,进而得到了我们想要的结果。我们还是那句话,写函数重在思路的构造,先将思路分析清楚,这个过程可以先用辅助列来一步步实现,最后再用函数技巧,将整个过程联合起来,就得到了我们想要的结果,你学会了吗?

    写在最后:原创不易,请大家多多支持,期待与大家互相学习,共同进步!

    展开全文
  • 8个输入1个输出,调整BPANN中各种可调参数都无法使测试集R2稳定在0.85以上,最后在算法中加入循环,每次都用随机选择训练数据进行训练,把上一次权值和阈值赋值给下一次,重复15左右可以使测试R2稳定在预期,...
  • 对于数据集中的每个样本xi_ii​,计算其到每个聚类中心的距离,并将其分配给距离最小的聚类中心所对应的类中。 重新计算每个类的聚类中心, 重复2、3步直到聚类中心的位置不再变化 k值如何决定: 肘部法则(elbow ...
  • 数据透视表的作用快速做出数据的统计分析建立数据透视表的数据,要满足那些需求每个字段对应一列数据/所有数据不可以有合并单元格/字段和数据没有重复歧义/如何建立数据透视表点击任意一个单元格---点击插入---数据...
  • 顺序存储方式主要用于线性的数据结构,它把逻辑上相邻的数据元素存储在物理上相邻的存储单元里,结点之间的关系由存储单元的邻接关系来体现。 链式存储结构就是在每个结点中至少包含一个指针域,用指针来体现数据...
  • 数据运营思维导图

    2018-04-26 14:24:22
    消费属性指用户的消费意向、消费意识、消费心理、消费嗜好等,对用户的消费有个全面的数据记录,对用户的消费能力、消费意向、消费等级进行很好的管理 用户心理属性 心理属性指用户在环境、社会或者交际、感情过程...
  • 2019数据运营思维导图

    2019-03-29 21:34:09
    需要重点关注大R用户 付费率高,arpu低 ——小R用户较多,要多关注小R用户 ARPPU 名词定义 平均每付费用户收入 统计时间段内,付费用户平均所创造的收入,一般以月为单位统计,因为月的数据相对比较稳定 ...
  • 大话数据结构

    2019-01-10 16:35:22
    双向链表既然是比单链表多了如可以反向遍历查找等的数据结构,那么也就需要付出一些小的代价。 3.15总结回顾 84 3.16结尾语 85 如果你觉得上学读书是受罪,假设你可以活到80岁,其实你最多也就吃了20年苦。用人生...
  • 大话数据结构 程杰

    2018-09-01 10:06:43
    双向链表既然是比单链表多了如可以反向遍历查找等的数据结构,那么也就需要付出一些小的代价。 3.15总结回顾 84 3.16结尾语 85 如果你觉得上学读书是受罪,假设你可以活到80岁,其实你最多也就吃了20年苦。用人生...
  • 双向链表既然是比单链表多了如可以反向遍历查找等的数据结构,那么也就需要付出一些小的代价。 3.15总结回顾 84 3.16结尾语 85 如果你觉得上学读书是受罪,假设你可以活到80岁,其实你最多也就吃了20年苦。用人生...
  • 大话数据结构-程杰

    2014-07-13 23:45:52
    双向链表既然是比单链表多了如可以反向遍历查找等的数据结构,那么也就需要付出一些小的代价。 3.15 总结回顾 84 3.16 结尾语 85 如果你觉得上学读书是受罪,假设你可以活到80岁,其实你最多也就吃了20年苦。用...
  • #x1为原始数据对应的等级,为1--6(如原数据缺失,则为空值。为便于判断,需将x1的缺失填充为0) #原则是,如x1(数据等级)为空值,则不进行判定(返回空值)。如等级为1或6,单独计算。如等级介于1和6之间...
  • 双向链表既然是比单链表多了如可以反向遍历查找等的数据结构,那么也就需要付出一些小的代价。 3.15总结回顾 84 3.16结尾语 85 如果你觉得上学读书是受罪,假设你可以活到80岁,其实你最多也就吃了20年苦。用人生...
  • 双向链表既然是比单链表多了如可以反向遍历查找等的数据结构,那么也就需要付出一些小的代价。 3.15 总结回顾 84 3.16 结尾语 85 如果你觉得上学读书是受罪,假设你可以活到80岁,其实你最多也就吃了20年苦。用人生...
  • 两列数据查找相同值对应的位置 查找数据公式两个(基本查找函数为VLOOKUP,MATCH) 【输入数据的技巧】 谈谈Excel输入的技巧 一列中不输入重复数字 如果要查找重复输入的数字 单元格输入 大量0值输入超级技巧 如何在C...
  • 涉及的内容是基本的数据结构。在日本,晚上没事安排@…@,时间还是充足的...,于是自己整理下本系列知识点的上章内容。 <p><img alt="moiunt-Fuji" src=...
  • EXCEL函数公式集

    热门讨论 2010-03-16 03:26:38
    两列数据查找相同值对应的位置 查找数据公式两个(基本查找函数为VLOOKUP,MATCH) 【输入数据的技巧】 谈谈Excel输入的技巧 一列中不输入重复数字 如果要查找重复输入的数字 单元格输入 大量0值输入超级技巧 如何在C...
  • excel使用

    2012-11-25 17:06:01
    (7) 在单元格中显示公式如果工作表中的数据多数是由公式生成的,想要快速知道每个单元格中的公式形式,以便编辑修改,可以这样做:用鼠标左键单击“工具”菜单,选取“选项”命令,出现“选项”对话框,单击“视图...
  • FMLDATA源码

    2014-06-02 15:57:42
    第一个参数M是个数值,可以是0或者数值型股票代码,如果M=0,读取当前股票代码的数据,如果为股票代码,则读取该股票的数据,前提是对应的文件已经存在!;第二个参数也是个数据,含义同"[email=FMLDATA@WRITE]...
  • 如何运用规范化原则到如何做成实际的数据库表,从如何保护数据库完整性到如何提高数据库的性能,从数据库的安全机制到并发事务控制,从数据库设计开发的常用模式到应用程序的数据访问策略,既有理论又紧扣实践。...
  • 反投影直方图的结果是一个概率映射,作用在于替换一个输入图像中的每个像素,使其变成归一化直方图中对应的概率,体现了已知图像的特定内容出现在图像中特定位置的概率。 下面一个简单的例子演示如何利用mean...
  • 引用类型和原始类型具有不同的特征和用法,它们包括:大小和速度问题,这种类型以哪种类型的数据结构存储,当引用类型和原始类型用作某个类的实例数据时所指定的缺省。对象引用实例变量的缺省为 null,而原始...
  • 2.11 如何向接受结构参数函数传入常量?怎样创建无名中间常量结构? 2.12 怎样从/向数据文件读/写结构? 结构填充 2.13 为什么我编译器在结构中留下了空洞?这导致空间浪费而且无法与外部数据文件...
  • 说明: 与 NLS_TIME_TZ_FORMAT 相似, 其中一对指定 TIMESTAMP 数据类型默认值, 该类型除存储 YEAR, MONTH 和 DAY 日期, HOUR, MINUTE 和 SECOND 时间, 还存储 TIMEZONE_HOUR 和 TIMEZONE_MINUTE。...
  • 用Delphi实现Word文件预览

    热门讨论 2005-07-13 15:37:57
    因为该方法只是我们的 applet 类的一个成员,所以我们将为 applet 添加数据成员以存储任何需要的数据。您可以把我们将使用的数据成员插入到 applet 类中,如下所示: double totalAngle; // Current angular ...

空空如也

空空如也

1 2 3 4 5 6
收藏数 118
精华内容 47
关键字:

如何计算重复值对应的数据