精华内容
下载资源
问答
  • 两组数据的差异程度
    千次阅读
    2020-11-21 03:54:19
    差异分析是基础数据分析手段,在进行样本间差异比较的时候经常被用到。所以无论是中文核心期刊还是SCI论文,常常需要绘制差异分析柱形图。 显著性标记柱形图是在差异分析柱形图的基础上添加显著性标识,可以直观的呈现不同样本间的差异关系和差异显著性。在不同品种的表型差异分析或样本间基因表达量统计中均被经常使用。 图形由柱形图、误差线和显著性标识三部分组成。柱形图表示样本的表型或表达量数值;误差线代表每个样本存在的潜在误差;显著性标识代表样本间差异的显著程度(图 1)。   9af0e383879f631f53a645b8736fb24a.png c08ffa42727cb34da2accb600deb8697.png 图1 差异分析柱形图   在日常的实验中,我们会获得大量样本的表型或表达量数据,如果用Excel一个一个进行t检验然后P上显著性标识,既繁琐又耗时,并且还有可能一次性需要输出多张图,如果不会使用R语言就很难操作了。一想到进行一个差异分析都这么麻烦,还不得不做,就感觉头秃。 98d86edeefe236a434ef0731e7746428.png 不过没关系,Omicshare Tools可以帮你“一分钟”实现差异分析并在柱形图上添加显著线。一起来看一下如何操作吧。

    操作步骤

    1

    进入工具

    3ee04e9116283b5105b7b83bbef46fda.png   2aed41be239484bc8998affcfd1d6598.png 图2 显著性标记柱形图工具图标 差异分析工具分为两种,两组数据之间差异分析进入“显著性标记柱形图(两组)”;多组数据间两两进行差异分析进入“显著性标记柱形图(多组)”。 工具地址: https://www.omicshare.com/tools/Home/Soft/2_groups_sig 复制前往以上链接或点击 ,登录Omicshare云平台→“我的软件”→搜索“显著性标记柱形图”

    2

    输入文件

    点击图标进入后跳转至操作界面。界面包含 “数据输入”与“调整参数”两部分,其中需要输入的两个文件为txt格式,可以用excel表另存为txt格式。 fcc83d7e7ef7827a882c34470427d31e.png 图3 输入文件页面 输入两组数据: 输入的表格为差异检验表,第一列是不同样本的名称,之后每一行为该样本每个重复的数据,输入的样本为两组。但是要注意的是,每次至少要输入三次重复。  
    A288.93276.81527.85……
    B924.31746.8651.47……
    图4 输入两组数据的表格 输入多组数据: 与输入两组数据的格式相同,不同的是每次输入的多组样本。  
    A288.93276.81527.85......
    B924.31746.8651.47......
    C321.4351.64388.41......
    图5 输入多组数据的表格  

    3

    参数调整

    通过参数调整可以对输出图形做简单修改: 统计检验 方法选择: 可以选择T检验或wilcoxon秩和检验。 输入图片的标题。 输入x轴和y轴的标题。 需要注意的是,每个标题必须是英文,要不然无法显示。 8c564d06c76e721cb1b7db69653a4ad7.gif 图6 作图相关参数

    4

    输出结果

    在Omicshare云平台提交任务后会输出结果压缩包,包含结果表格与柱形图两个部分内容。 结果表格 表头从左到右表示比较组、P值、显著性和分析方法。*代表显著性,ns代表组间无差异。
    comparep.formatp.signifmethod
    A-vs-B0.023*T-test
    图7 两组差异分析结果表格
    comparep.formatp.signifmethod
    A-vs-B0.023*T-test
    A-vs-C0.722nsT-test
    B-vs-C0.025*T-test
    图8 多组差异分析结果表格 输出图形   8f7ea679ddf9f3f26c54f6918ee8010a.png 图9 显著性标识柱形图(两组) db0e1194d0fc683c2923eb0b68d27dc1.png 图10 显著性标识柱形图(多组) 图形解读:横坐标为两个比较组名称,纵坐标为比较组数据的平均值。 *代表显著性,*代表p值小于0.05.**代表p值小于0.01,***代表p值小于0.001,以此类推。 Omicshare Tools 包含78个实用的小工具,一键操作,可以帮您快速、便捷的进行图形绘制和数据分析,会员还免费呢,快来Omicshare试试呀! 参考文献 [1] Ting Z , Pengbo X , Wenxiu W , et al. Arabidopsis G-Protein βSubunit AGB1 Interacts with BES1 to Regulate Brassinosteroid Signaling and CellElongation[J]. Frontiers in Plant Science, 2018, 8:2225. [2] 代资举, 王新涛, 杨青, et al. 玉米雄穗分枝数主效QTL定位及qTBN5近等基因系构建[J]. 作物学报, 2018,v.44(08):27-35. 474de9f606ee77e2c68b5b89cf94a1ba.gif实用科研工具推荐      
    详实生信软件教程分享
    前沿创新组学文章解读
    独家生信视频教程发布 1833a5d31289b4e542d22355381eb124.gif
    更多相关内容
  • 不同的展示方法,其效果往往差异巨大。这里我将结合近期的一些阅读和实践,试图给出一些方法,希望能帮助到你。1. 展示之前的思考在正式开始展示数据之前,希望你去思考几个问题。这些问题将有利于你后面的一些选择...
    ↑  关注 + 星标 ~ 有趣的不像个技术号 每晚九点,我们准时相约  ddf8f38b1f5bcf4037c99bb70de2cdc6.png 偶尔应金主爸爸要求改时间 d41dc39f6b309001a6d14b736a01bd7a.png 33967962d8eb304659bf15c5861439ff.png

    大家好,我是朱小五c0ceba84ab2651541c68d6ea1421ee33.png

    如何来展现的你的数据?是你有时不得不去思考的一个问题。

    不同的展示方法,其效果往往差异巨大。这里我将结合近期的一些阅读和实践,试图给出一些方法,希望能帮助到你。

    1. 展示之前的思考

    在正式开始展示数据之前,希望你去思考几个问题。这些问题将有利于你后面的一些选择。

    Who

    1. 首先要确定,这些数据展示的受众群体是谁?

    2. 深入去了解这些受众,以及他们的认知程度如何?

    3. 是否是第一次接受类似的数据?

    4. 最关键的,他们如何看待数据,是否对你很重要?

    上述分析将帮助你发现你与受众之间的距离,从而采取必要的展示技巧,来确保他们能听懂你传递的信息。

    What

    1. 你希望受众群体了解的数据是哪些?

    2. 这些数据是否准确,经得起推敲嘛?

    3. 数据口径是什么?是否符合人们的通常的认知?

    是否包含了反面的数据?人为地清洗数据或只拿出佐证自己观点的正面数据,往往是站不住脚的。

    Goal

    1. 你展示数据的目的是什么?

    2. 你想表达的观点是什么?

    3. 现有数据是否足够支撑你的观点?

    Where

    1. 是在什么场合展示这些数据?汇报、交流、商务等

    2. 具体的形式是怎样的?PPT、纸质报告、图书等

    How

        在你回答了上述问题之后,你才能真正准备好面对最后这个问题:如何用数据表达你的观点?

    2. 数据展示手段:文本篇

    文本,是用来展示数据最简单的方式,也是最容易令人忽略的方式。人们总是有种倾向,希望采用某种炫酷的方式来说明数据;但其实最简单直接的方式效果最为显著。当你只有一两项数据需要分享时,简单文本是绝佳的沟通方法。可考虑只用数字(尽可能突出)和一些辅助性文字来清晰地阐述观点。此时如果使用其他方式,例如在表格或图形里只放入一、两个数字,但这种方式通常只会让展示方式带走人的眼球,而忽略了真正需要表达的信息本身。所以,当你确实只需要表达一两项数据时,不妨考虑只用数据本身。

    1561c7f68863dc859e438287cff3c0cd.png

    比较上面两种展示数据的方式,左侧通过常见的柱状图表达,右侧通过简单文本方式表达。哪种更具备表现力,一目了然。

    信息失真

    在用文本表达数据时,有时是需要将数据收敛归纳出一、两个结论性数据来展示,但此时需要考虑信息失真的问题。例如上面例子表述为“2019年GDP比2018年增加1880亿或增长了6.2%”,这种就会产生数据失真问题。丢失了数据原有部分信息,应避免这种情况。

    3. 数据展示手段:表格篇

    当需要展示更多的数据时,表格或图形一般来说是好的选择。但需要注意的是,表格形式具有其特殊性,其与我们口头表达系统交互方式类似,这意味着我们是会阅读表格。当面前有一张表格时,通常会用到食指:我会一行一列地读,并且比较每个格子里的值。

    61e92f035bcced9c6b62dd37ea996823.png

    表格最适合的场景是,有大量数据需要展示或受众群体关注点不同。但在PPT中使用表格往往不是一个好主意。当受众阅读表格的时候,他们不再听你口头表达的观点。当你在幻灯片或者报告中使用表格的时候,问问自己:你想要表达什么观点?你有可能找到更好的办法可视化这些兴趣点。如果这样做丢失了太多信息,不妨考虑将完整的表格放在附录中,用一个链接来满足受众的需要。

    突出原则

    使用表格时,因为本身就包含了大量数据,需要受众去阅读。如何在短时间内,突出核心内容,方便受众理解,就是关键所在。这里的原则就是尽量让设计融入背景,让数据占据核心地位。不要让厚重的边框和阴影与数据争夺受众的注意力。相反,要使用窄边框或者空白来区分表格的元素。注意下例中,上下用法的差异。

    6fc10092f729a156f1df76a8233f1611.png

    还可以使用另一种方式,突出你的数据。就是通过运用颜色差异,将表格中的细节和视觉暗示的使用结合起来,那就是热力图。热力图是用表格的形式可视化数据的一种方法,在显示数据的地方(在数据之外)利用着色的单元格传递数据相对大小的信息。用颜色饱和度提供视觉上的暗示,帮助眼睛和大脑更快地捕捉潜在的兴趣点。

    5f1288fba6a8104a9439bc776991ce02.png

    在上边的热力图中,色彩的饱和度越高,对应的数字就越大。这使得受众很容易找出最大的数据(GDP值最高的地区和年份)。

    4. 数据展示手段:图形篇

    与表格的交互方式不同,图形是与视觉系统交互。视觉系统处理信息的速度更快,这也就意味着设计良好的图形通常能够比设计良好的表格更快地传达信息。

    1). 线性图

    线图是最为常用的一种图形,经常用来表示连续数据间的数据关系。通常,连续性数据都以时间为单位:天、月、季度和年度。如果不具备连续特性的数据,不适合用这种方式。

    ★ 折线图

    最为常见的线性图,就是折线图。

    a9703bae21bab540faa766f3bfddde96.png

    如果存在多组数据,可使用下面分列显示,这样比较清晰。如数据量不大,也可以在一张图内显示,但应该是坐标口径一致,并做好标注工作。

    668215f26202fb700703017a7d423b17.png

    ★ 斜率图

    还有一种特殊的折线图,被称为斜率图。它适用表现两个时间段或者两组对比数据点,可以快速地展示两组数据之间各维度的相对提升、降低等差异。斜率图组合了很多信息,除了绝对数值(数据点本身)之外,连接数据点的线条能够在视觉上直观地告诉你是提升还是降低以及变化的程度(通过倾斜方向和斜率),而无需解释这些线条的意义和变化程度具体是多少。

    024a1d3a8ab375d60f8dfa644aa4d5af.png

    2). 条形图

    条形图易于阅读。用眼睛比较条形图的末端,很容易快速得出结论:哪一类最大、哪一类最小以及类别之间的增减区别。

    ★ 水平条形图

    水平条形图,顾名思义通过水平条线对比多组数据。人们通过对比右侧末端的位置,很容易比较出各组的差异。这种方式是比较符合人们的阅读习惯,即从左往右,从上至下的方式。特别是对于组别较多的情况,这种方式非常适合。

    806b2f01b4142a19c0b5145284a9122f.png

    上面在一张图中展示31个省市自治区的GDP数据,使用条形图展示就非常合适。上图还使用了两个常见的条形图技巧。一个数值排序,这样有利于受众数值对比,二是使用了色温显示进一步加强了对比。

    ★ 竖直条形图(直方图)

    跟水平条形图类似的就是竖直条形图。例如下图

    c0e82a295fb048b1818a551b32987f89.png

    ★ 多组条形图

    条形图也支持一组以上的数据。但需要注意的是,当你添加多组数据时,专注其中一组并得出结论就变得更为困难,所以谨慎使用包含多组数据的条形图。同时也要注意,有多组数据时,空白会把条形图分隔成视觉组。这使得类别的相对顺序变得重要。考虑你希望受众比较什么,并以此构造分类的层级,使之越简单越好。如下图所示,判读起来已经不太容易。

    242376cd22b2b0a6d0ae584624359cd9.png

    ★ 堆叠图

    作为条形图的一种特例,还有一种堆叠图。其旨在比较各类别之间总体区别的同时还能看出每个类别中子成分的占比情况。但这会很快产生视觉上的压力,尤其是采用大多数作图应用中的默认配色方案后。除了底部的子成分,你很难比较其他子成分在跨类别时的情况,因为不再有统一的基线可供比较。

    8dd4ddaf86452a43fc0ac91c457e3aaa.png

    3). 饼图

    饼图,是大家经常使用的,但其实也是难以阅读一种图。当饼图的各部分大小相近时,你是无法或者很难判断哪一块更大。当大小相差较多时,你最多也只能判断某一块比另一块更大,却无法确定大多少。为了克服这个问题,你需要像下图一样添加数据标签。但我仍然觉得饼图不值它占据的这块地方。

    b1a423a9d00bc0af0b62ac5c773f3e29.png

    用水平条形图替代饼图,按从大到小或者反向组织。记住,在条形图中,我们的眼睛会比较条形图的末端。由于以统一的基线对齐,很容易比较相对大小。这样不仅可以很直观地了解哪块最大,还能了解它比其他类别大多少。从饼图转换成条形图可能会有所遗漏。饼图能够传达的一个独特的信息就是整体和部分的概念。但如果图形本身难以理解,

    286b211a0b8ba2bd50ae8d1fe29c6b06.png

    4). 散点图

    散点图在展示两个因素的关系时很有用,因为可以同时将数据对应到x轴和y轴上,观察是否存在某种关系以及存在何种关系。散点图在科学领域使用更为频繁。

    954f088291cfb40b45cdc2eedbcaeff6.png

    5). 面积图

    人眼不擅于在二维空间进行定量的度量,这使得面积图比我们讨论过的其他图表类型更难阅读。因此通常避免使用面积图,只有一个当需要可视化相差极大的数值时。方形带有第二个维度(同时有长和宽,而条形图只有长或者宽),因而能比单一维度更紧凑地进行可视化。

    c0f2baf89b57df76c2d4d4e31e86100a.png

    5.展示原则:认知负荷(简化、简化、简化)

    人脑的处理能力是有限的。在展示数据时,应尽量减少受众脑力消耗,即用更低耗的方式展示。消耗受众脑力却对他们理解信息毫无帮助。这是我们需要避免的。最重要的在于受众感知的认知负荷:他们认为需要付出多少精力才能提取出信息。他们并不会通过深思熟虑地做这个决定,但这会影响你的信息能否成功传达。总之,要考虑为受众最小化感知到的认知负荷。这里可采取一些常规的原则:

    • 排序

      通过数据排序,让受众更容易消化数据,更快速抓住信息要点。对比下图中的上下对比。

    • 对齐文字

      对齐文字,特别是坐标系的文字,方便读者更容易对比数据。常见的策略是左侧坐标系文字右对齐,右侧左对齐,避免居中对齐的情况。

    • 适当留白

      边界处避免出现文字和图表。避免拉伸图表撑满可用空间的欲望,根据内容多少决定图表的合适大小。

    • 去除边框

      对于图中边框,一般是不需要的。可以考虑使用留白对页面中的图表和其他元素进行合理的区分。

    • 去除网格线

      如果网格线对受众寻找数据对应的坐标值有帮助,或者感觉网格线会使数据得到更有效的处理,那可以保留。但也请尽量使用更细以及灰色等浅色的网格线。千万不要让网格线和数据形成视觉上的竞争。尽可能地完全去除网格线,这样会形成更强烈的对比,从而使数据更突出。

    • 去除数据标记

      每一个元素都会增加受众的认知负荷。使用数据标记,就是在为本来已经可以根据线条直观处理的数据增加认知负荷。这并不是说永远不要使用数据标记,而是要有目的地使用,尤其不要因为它们默认包含在你的绘图软件里而使用。

    • 清理坐标轴标签

      坐标轴的标签,常见的原点标注,一般都是不需要的。除非展示数据过多,且无法标注的情况,可以考虑使用。

    • 选择是否需要坐标轴

      作图时常常需要决定是保留坐标轴标签还是省略坐标轴而直接标记数据点。为了做这个决定,你需要考虑特异性的程度。如果你希望受众重点关注整体趋势,可以考虑保留坐标轴,但是将其置灰来削弱其重要性。如果某些具体的数值很重要,直接标记或许更好。在后一种情况下,通常最好省略坐标轴以避免包含重复信息。总是要考虑你希望受众如何使用图表,并以此来作图。

    • 直接标记数据

      在图例和数据之间切换是非常麻烦的。可将需要尽量识别出任何可能消耗受众精力的问题自行承担。建议在需要描述的数据旁进行标记。

    • 慎用颜色

      在少量使用时,颜色是吸引受众注意的最强大的工具之一。但请克制为了丰富多彩而使用颜色的冲动。有选择、有策略地使用颜色这一工具突出图表中的重要部分。建议自行选择颜色的使用,而不是让工具自动选择。可以考虑统一色调、对比色、品牌色的使用。

    • 强调大小

      大小很重要。相对大小代表了相对重要性。如果你需要展示几件重要性相同的事情,请使用相似的大小。相反,如果有一件事情尤其重要,那么用大小来体现这一点:将它变大!

    • 文字体

      包围,加粗,斜体,间隔,下划线。这些对文字的处理,也可以帮助突出信息,可酌情使用。

    • 位置

      大多数受众会从图表或者幻灯片的左上角开始,按“之”字形扫视屏幕或者页面。他们会最先看到页面的顶端,这使得这里成为了风水宝地。考虑将最重要的内容放在这里。

    8e2858ab3b223973b8870b0926ffb5af.png 近期文章,点击图片 即刻 查看 4c441c625b5abae5ecc516518a22d15c.png 4f4219093de865c1da0c620829862ad4.png 5f9a625a443a39781eea3cc9595fad1a.png c8337fff0e1f32743bac095c2b1b3689.png

    昨日留言“HeoiJinChan”、“烷炸”+20积分;

    最赞留言“安宁”+50积分

    其余所有留言+10积分

    点击 积分 ,了解积分规则~

    ee9b51e2d1a9dbee29f080d049b5904f.gif

    本文为“HeoiJinChan”推荐,获得20积分奖励~

    如果大家想要投稿or荐文,点击原文链接即可!

    7d0f48f5be0b3a4fdbee6318d7b568a3.png

    朱小五

    展开全文
  • 可视化学习小组第一周:解构数据可视化【数据科学家学习小组】之数据可视化(第一期)第一周(20191111-20191117)​mp.weixin.qq.com完整的数据可视化过程可以分为四个步骤:确定数据可视化的主题;提炼可视化主题的...

    13fde58858dc838449f032d187d55be9.png

    可视化学习小组第一周:解构数据可视化

    【数据科学家学习小组】之数据可视化(第一期)第一周(20191111-20191117)​mp.weixin.qq.com
    d99933b84bca102b9017983b8ba6666b.png

    完整的数据可视化过程可以分为四个步骤:

    76fe1774055843e50005b5a354da9036.png
    • 确定数据可视化的主题;
    • 提炼可视化主题的数据;
    • 根据数据关系确定图表;
    • 进行可视化布局及设计;

    1.确定数据可视化的主题

    根据实际业务需求来确定可视化的目的,做可视化之前要先知道为什么要做。

    2.提炼可视化主题的数据

    057baf4a69917ce85ae292f96a65e0ec.png

    2.1确定数据指标

    根据目的去确认需要哪些指标,有针对性的作图。比如快递寄件业务,指标就有寄件量,运 输时效,下单渠道等等

    2.2明确数据间的相互关系(选择指标维度)

    b6a4440895a2df731b4410b4b190e9c1.png

    趋势型:通常研究的是某一变量随另一变量的变化趋势,常见的有时间序列数据的可视化。

    90c39d454f4b54d66ea0034fcae5713a.png
    例:趋势型-折线图

    对比型:对比两组或者两组以上的数据,通常用于分类数据的对比。

    c92882d781481370624aebc5752e5e85.png
    例:基于分类的对比-柱状图

    比例型:数据总体和各个构成部分之间的比例关系。

    01b78300689f6a93cca79d6e968c6f0d.png
    例:饼图

    分布型:展现一组数据的分布情况,如描述性统计中的集中趋势、离散程度、偏态与峰度等

    83a3696909a82227fee680759d1d292d.png
    例:符合正态分布的直方图

    区间型:显示同一维度上值的不同分区差异,常用来表示进度情况。

    9217ab3bd7bf64eb43daa782ef378678.png
    例:表示进度的仪表盘图

    关联型:用于直观表示不同数据之间的相互关系,如包含关系、层级关系、分流关系、联结关系等。

    dadeee180ac63bf7d384288965f7fa55.png
    例:表达流程关系的漏斗图

    地理型:通过数据在地图上的地理位置,来展示数据在不同地理区域上的分布情况,根据空间维度不同,通常分为二维地图和三维地图。

    00886b3cd5370c75a8cfd0917c7457a7.png
    例:包含地理属性的地图型

    2.3确定用户关注的重点指标(问用户两个问题):

    在做可视化之前,不仅要知道为什么要做(目的),还要知道我们要做什么(需求),需求来自于我们的用户,所以在动手之前,我们要知道客户最想要看到的信息是什么?客户为什么想把这些信息展示出来?通过这两个问题,就能了解到客户的核心诉求了。

    3.确定图表

    a1825f5c1e5ab257fb03c676b55d94f1.png

    根据目的,需求,去选择最合适的图表去可视化数据,切记不能炫技,可视化的目的是简洁明了,突出主题。

    daeb67ce3e25893ab754b06f2312bd49.png
    居士分享的常见的数据关系和图表类型的对应关系

    4.可视化布局及设计

    1e25cca2e29dc6756d7bed460d6d4d9d.png

    4.1页面布局

    4.1.1聚焦

    凸显主体,吸引用户,提高效率

    4.1.2平衡

    合理利用空间,保持元素间的空间平衡,提高设计美感

    4.1.3简洁

    突出重点,避免冗余

    4.2图表制作

    4.2.1数据层面

    数据中的极端值,异常值,或过多的分类等,都会影响可视化的效果,可以通过前期的预处理来清洗整理数据,达到我们想要的效果

    4.2.2分数据层面

    图表形状,颜色,边框,背景,网格等辅助元素,一定程度上可以帮助用户聚焦,但使用过当的情况下会使得图表杂乱,视觉上不够聚焦,影响观看

    思维导图总结:

    ff32fc4b4c4b3007c016e4dfc48c3c53.png

    5.细节补充

    Tao:对数据可视化步骤的说明及补充​zhuanlan.zhihu.com
    914372f3158b4ef3631d4354201b015c.png

    6.下一篇

    Tao:数据可视化2-时序数据和比例型数据​zhuanlan.zhihu.com
    0c271b121fee1ac447f4f712b43bf87f.png
    展开全文
  • 如果不想看下边长篇大论,请看小编给您总结的懒人包:标准差:群体的标准差是群体中所有数据方差的平方根,它衡量的是群体中某个测量值的离散程度。我们可以看到下面左图中三个群体(正态分布曲线)的某个测量值的均值...

    e35caec9b868e81bf12a2434643a7cce.png

    本文来源:小麦研究联盟

    今天跟大家详细总结一下我们农业试验数据统计中常用的 量,图,和线。


    如果不想看下边长篇大论,请看小编给您总结的懒人包:

    9ce35068369d3c20c670062c159f71b4.png


    标准差:

    群体的标准差是群体中所有数据方差的平方根,它衡量的是群体中某个测量值的离散程度。

    f4b7153909f8fba449fbcaa1102b8b5c.png

    我们可以看到下面左图中三个群体(正态分布曲线)的某个测量值的均值是相同的(x = u),但测量值的离散程度不同(标准差不同)。右边的图大家应该比较熟悉,它的意义是判断某个值是否是小概率事件,比如某个个体的测量值在三个标准差之外,我们就说这个数据点是个小概率事件(p< 0.01),在我们农业试验中也即意味着这个数据是个outlier,很有可能是混杂的种子,或者是测量出错了,数据输错了。

    f79116a31c3bda57ed49fa89d189eb7e.png

    用于描述这种测量值离散程度的图大多为Histogram(直方图)和Box plot(箱式图)。我们以后再介绍这两个图,尤其箱式图,是一个很不错的工具。

    这里要特别提醒一下:以上举的例子是以整个群体为对象的,但在我们实际操作过程中,我们拿到的数据一般都只是一个群体中的一部分样本(比如一个200个RIL的作图panel是从所有可能的RIL个体中随机挑选出来的),对于样本的标准差的公式如下:分子是n-1,而不是n。所以大家在Excel中计算SD的时候应该用STDEV.S,而不是STDEV.P。

    497d04502fd3f95bdbd55186cba600d2.png

    均值的标准误:

    接下来我们来看标准误。标准误衡量的是样本均值的离散程度,可以用来衡量样本的均值和整个群体实际均值之间的差别。也就是标准误越小,就说明样本的均值越接近于整个群体实际的均值。下面是标准误的计算公式,我们可以看到所取的样本量越大,标准误就越小,我们得到的均值就越接近于整个群体实际的均值。

    8b460bf88b58c600b9b59ac25c03f776.png

    基于SEM的这个统计学意义,当我们用t-test 测验两个样本均值是否有差异时,在均值上添加SEM更恰当,而非SD。当然,不得不说的是,现在大部分RNA表达的图都是用柱状图和标准差来做,我想其中一个罪魁祸首就是Excel吧,竟然没有直接SEM的计算公式,我以前用Excel处理数据时就只知道Average和SD,自然而然的就就采用这两个来做图了。另外一个原因也是现实情况所致,当一个试验的样本量特别大的时候,SEM就会非常小,甚至接近于0,画在柱状图上就看不到了,这也是有人选择标准差做error bar的原因吧。

    均值的置信区间:

    另外描述均值分布的还有均值的置信区间(Confidence Interval of the mean),用来估计均值误差范围的区间。它的计算公式如下:

    097c0e234ed9ec28527bf358f2283b44.png

    其中S/√n为标准误,t = TINV(0.05, N-1), N 为样本大小,在Excel中输入此公式就可以得到t值,然后再代入均值置信区间的公式。从下面的t表来看,当样本量足够大时,t接近c的值1.96(a=0.05),这个c值用于大家平常在网上查到的均值置信区间的公式(如下),但我们平常的农业试验单因素样本量很少能达到500,所以此公式慎用。

    9f8db42abd5d976301367893ebe54208.png

    至于原因以及关于均值置信区间的计算公式的推导,具体参考这个网页:https://zhuanlan.zhihu.com/p/35389951。 

    902c83bce2e8d808bc940ff5dcc34dd5.png

    另外,从这个表中,我们也可以看到,当样本量小于10的时候,置信区间范围将比SD还要大。大家可以根据SD,SEM和CI of the mean三者的公式自行推算。

    这里要注意标准误(Standard Error:SE)和置信区间(Confidence Interval:CI)都只是一个统称,它们既可以描述均值,也可以描述中位数,甚至可以描述标准差。也就是说在文章中SE和CI后面一定要有定语。只有当它们用于描述均值的时候才成了Standard Error of the mean(SEM)和CI of the mean。

    另一点要注意的是:判断两组数据的均值差异是否显著,不能只看均值大小,误差线,或者p值;而是应该结合起来看:当样本比较少时,标准误也就大,这时计算的value可能不显著,但增加了样本数量后,标准误降低了,p值可能就显著了。

    小提琴图示例

    说了这么多理论,下面我们用三种图(柱状图,点状图和小提琴图)来展示一下SD, SEM,和CI of the mean 之间的区别。下面用到了三组数据:左边的和右边两组是极显著差异,右边两组没有显著差异。

    1.左图是柱状图加SD,右边是小提琴图加SD。本来好好的极显著差异就这样被埋没了:尤其是柱状图加SD,很难看出极显著。

    6432aa43c49c0951319ae4102fdf5cdd.png

    2.左图是柱状图加SEM,右边是小提琴图加SEM。加SEM显然要比SD“好看”很多。尤其是小提琴图,由于比柱状图在纵坐标上有优势,看起来就是极显著。但加SEM也有“缺点”,第二组和第三组数据的均值有差异,二且SEM没有重叠,给人一种二者也是显著差异的感觉。

    3b17f43ede872f41d8b9925310b4a0f8.png

    3.左图是柱状图加CI of the mean,右边是小提琴图加CI ofthe mean。对于这三组数据,最佳方案就是均值加均值的置信区间了。完美的避免了上面所提到的缺点:既可以明显看出极显著差异,又可以化解不显著的差异。

    b1ee664b8e3cab25cd110a76a5a6e12c.png

    有没有老师告诉过你:误差线重叠,差异就不显著了!下面我们给你总结了最全面的说法:

    置信区间没有重叠,二者肯定有显著差异。但置信区间有重叠,不一定说明二者没有显著差异。

    标准误有重叠,二者肯定没有显著差异。但标准误没有重叠,不能说明二者就一定有显著差异。

    点状图示例:

    另一组示例,还是左边的和右边两组是极显著差异,右边两组没有显著差异。这个示例主要是看当样本量很小时(比如RNA 表达实验),采用SEM更恰当,因为CI of the mean太大了。。。三个图从左到右依次为点状图加SD,SEM,和CIof the mean.

    fa6d3332a280d7bec842b555072e16cf.png

    重要提醒:

    由于微信平台改版,公号内容将不再以时间排序展示,为方便粉丝朋友第一时间看到我们的推送,强烈建议设为星标、点亮【在看】。星标具体步骤为:

    (1)点击页面最上方“论文项目硕博招聘”,进入公众号主页

    (2)点击右上角的小点点,在弹出页面点击“设为星标

    感谢支持,比心4f41e049df226ceda19c61362205f9f4.png

    相关阅读:

    SCI投稿各阶段邮件模板,必备请收藏!

    各地大学教师自曝2018年收入,最真实一手数据!

    因提前返校,两名学生被所在大学通报!

    原来我熬到博士毕业,才刚够应聘辅导员的资格……

    最新一区二区杂志清单(按学科排列)

    博士100万、硕士80万安家补助,聘期满可提副处,杭州某区开出的择优引进党政储备人才公告

    微信加群:

    浙江高校群、国基交流群、青椒交流群、博士交流群、求职交流群,Python学习交流群、论文学术交流群,加小编微信sqzhang3322

    0e3df64894da2d18f72ba1937c3c5090.png

    版权申明:

    本文系网络转载文章,公众号不声明拥有版权、转载不涉及任何商业目的,也不代表我平台的观点立场,如涉侵权,请联系后台,我们会及时处理。

    点个“在看” ↓↓

    展开全文
  • 这两组分数原始分分布不同,但平均数都是70,转化为Z分数后,可以分别看到这两组数据各自分数的相对位置,注意是各自的,也就是说如果你直接单看这两组的Z分数,通过这两组的Z分数比较这两组差异是没有意义的。...
  • python-两组数的差异

    千次阅读 2019-02-13 12:49:26
    两组数的差异(10分) 题目内容: 给出两组相同数量的整数,求这两组整数的差异估算,即:对应数差值平方之和。 第一组为a1, a2....an 第二组为b1, b2....bn 求 (a1-b1)^2+(a2-b2)^2+....+(an-bn)^2   输入...
  • 如何检测两组数据是否同分布?

    千次阅读 2021-09-30 00:33:12
    T检验(Binary) T检验是一种适合小样本的统计分析方法,通过比较不同数据的均值,研究两组数据是否存在差异。 我们参考《python科学计算第二版》: ...
  • 怎么评价两组数据是否接近 接近组数据(组间) (Approaching group data (between-group)) A typical situation regarding solving an experimental question using a data-driven approach involves several groups ...
  • T检验(Binary) T检验是一种适合小样本的统计分析方法,通过比较不同数据的均值,研究两组数据是否存在差异。 我们参考《python科学计算第二版》: ...
  • 如题,这两组数据的对应位置无关,属于统计学的范畴。譬如说,A、B两组数据中,A组数据符合正态分布,那么求B组数据属于A组数据的可能性?这个应该用什么方法呢?
  • r怎么对两组数据统计检验Business analytics and data science is a convergence of many fields of expertise. Professionals form multiple domains and educational backgrounds are joining the analytics ...
  • 数据差异的显著性检验是数据分析的重要技术之一。然而,如何正确选择检验方法是很多初学者困惑和容易出现错误的地方。下面为大家总结一下数据差异显著性检验的方法及适用范围。显著性检验首先需要理解什么是数据差异...
  • 有过编制预算经验的朋友,应该会很熟悉,在预测技术里,回归分析应用非常广泛,是用来进行定量数据分析的方法。线性回归分析是一种统计方法,用于确定某个变量(或一组变量)对另一个变量的影响。这个解释其实有点拗口...
  • 1. 数据点的横坐标不是等间距时的曲线绘制用实验数据作图时,会遇到数据点的横坐标不是等间距的情况,比如:X:1,3,4,8,9,12,...Y:10.2,10.5,11.4,11.8,10.9,10.2,...如果只有一组实验数据,则按照普通...
  • Excel作为最常用的办公软件之一,科研中自然也少不了它的用武之地,不论是数据分析还是绘图都有着不错的表现。做出来的图相比Graphpad等专业软件丝毫不逊色!Graphpad图片类型:Excel图片类型:01Excel做柱状图、箱...
  • 数据统计分析(4):数据的离散程度描述

    万次阅读 多人点赞 2019-04-09 23:53:29
    极差又被称为范围差或全距(Range),以R表示,是用来表示统计资料中的变异量数,其最大值与最小值之间的差距,即最大值减最小值后所得之数据。 它是标志值变动的最大范围,它是测定标志变动的最简单的指标。移动极...
  • 平均值:看某一组数据的平均情况(注:平均数对异常值的敏感程度太低,其结果往往很有争议) 四分位数:用来比较不同类别数据的整体情况;通过箱线图可以用来检验出异常值 标准差:用来衡量数据的波动大小 标准分:...
  • 使用DESeq2进行两组间的差异分析

    千次阅读 2018-09-26 19:58:00
    欢迎关注”生信修炼手册”!DESeq2 接受raw count的定量表格,然后根据样本分组进行差异分析,具体步骤如下1. 读取数据读取基因的表达量表格和样本的分组信息两个文件,其中表达量...
  • 横向对比分析是同类现象在同一时间不同空间的指标数值进行对比,可以反应同类现象在不同空间上的差异程度和现象发展不平衡的状况,空间比较数为 甲空间某一现象的数值/乙空间同类现象的数值,比如从绝对数来看,...
  • 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两...如果只是两组线性数据比较,那只要比出来一个关联度就好了。但是如果是两个表格(多对多组数据,两两比较,就需要相关度表 correlation matr...
  • 【学习笔记】组间差异比较及相关问题总结

    万次阅读 多人点赞 2021-03-22 11:07:27
    前 言 ...Q2:有些资料上提到,当两组服从正态分布的数据进行比较时,小样本(<30)使用t检验,大样本(>30)使用z检验,为什么SPSS等一些软件中只有t检验? Q3:为什么 Wilcoxon rank-sum tes.
  • ​ 上一期文章我们详细讲解了符合正态分布的数据要比较组间的差异,采用独立样本t和单因素方差分析。 请看:《SPSS独立样本T检验与SPSS单因素方差分析详细教程》 本次我们来详细讲解一下非正态分布数据组间差异比较...
  • 写在前面: 一致性检验的目的在于比较不同方法得到的结果是否具有一致性。...Kappa系数检验,适用于两次数据(方法)之间比较一致性,比如两位医生的诊断是否一致,两位裁判的评分标准是否一致等。
  • 就是组间的差异分析以及显著性检验,应用统计学上的假设检验方法,检验组间是否有差异及其差异程度。 坦率地讲,所有的差异检验都基于一个假设:组间没有差异,变量之间没有关系(即原假设,H0H_0H0​)。也说
  • 数理统计与描述性统计:本文主要介绍了描述数据的几个常用指标。
  • 5种数据同分布的检测方法

    千次阅读 2021-03-03 14:17:25
    数据挖掘比赛中,很重要的一个技巧就是要确定训练集与测试集特征是否同分布,这也是机器学习的一个很重要的假设。但很多时候我们知道这个道理,却很难有方法来保证数据同分布,这篇文章就分享一下我所...
  • 变量间Pearson、Spearman、Kendall、Polychoric、Tetrachoric、Polyserial、Biserial相关系数简介及R计算对于给定数据集中,变量之间的关联程度以及关系的方向,常通过相关系数衡量。就关系的强度而言,相关系数的值...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,044
精华内容 3,217
关键字:

两组数据的差异程度