精华内容
下载资源
问答
  • 数据分析 检验差异

    千次阅读 2020-08-29 11:07:47
    分析差别:做出一些必要的假设:假设,数据是服从正态分布,而且不同之间不受到其它因素的影响 做下一步的分析:两组之间阅读量的差别,是因为文案本身的原因,还是其它某些随机的因素 具体流程:a.做出两组...

    方差分析-用于两个及两个以上样本差别的显著性检验

    当比较两个不同样本之间的问题时,如:比较两个不同样本(文案)之间的问题

    分析差别:做出一些必要的假设:假设,数据是服从正态分布,而且不同组之间不受到其它因素的影响

                         做下一步的分析:两组之间阅读量的差别,是因为文案本身的原因,还是其它某些随机的因素

    具体流程:a.做出两组之间无差异的假设,并服从正态分布(即u1-u2=0)

                       b.计算样本之间平均值的差异,构建我们需要检验的统计量(Z)

         

    3.选择合适的显著水平(0.05)和临界值(+-1.96)

    4.比较两者之间的大小,判断是否接受默认假设

    展开全文
  • 数据差异的显著检验是数据分析的重要技术之。然而,如何正确选择检验方法是很多初学者困惑和容易出现错误的地方。下面为大家总结一下数据差异显著检验的方法及适用范围。 显著检验 首先需要理解什么是...

    数据分析技术:数据差异的显著性检验

    数据差异的显著性检验是数据分析的重要技术之一。然而,如何正确选择检验方法是很多初学者困惑和容易出现错误的地方。下面为大家总结一下数据差异显著性检验的方法及适用范围。

    数据分析技术:数据差异的显著性检验

    显著性检验

    首先需要理解什么是数据差异的显著性检验。在数据分析中,如果仅仅基于个案(某个数据)的采样数据是没有很强说服力的。例如:一种新药,不能因为一个人使用后,效果良好就大面积地推广,而应该基于大规模的样本判定这种新药是否有效,这就需要验证在大规模样本中实验组数据是否优于对照组数据,二者是否存在显著性的差别。显著性检验的理论就是在这种具体需求下提出来的。

    所谓数据差异的显著性检验,是面向两组或多组数据的一种数据分析方法,其目的是对两组数据之间是否存在显著的差异进行判断。一般来说,两组观测数据不可能完全相同,肯定存在或多或少的差异,但研究者关心的是两组数据的差异是否显著。如果差异显著,就可以说两组数据之间存在显著性差异;否则,它们之间的差异不显著,甚至可以说是无差别。

    数据差异的显著性可以运用在各类科学研究中,例如,在教学研究中,研究者可以研究某种教学法是否有效。在医学领域,可以研究某种新药是否对患者有效等等。

    数据的分类

    数据类型的不同,将直接影响到差异显著性检验的使用方法。数据主要可以分成三类:定距变量,定序变量和定类变量。

    定类变量:根据定性的原则区分总体中个案类别的变量。定类变量的值只能把研究对象分类,只能决定研究对象是同类或不同类,例如:性别分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况分为未婚、已婚、分居、离婚、丧偶等类。

    定序变量:区别同一类的个案中等级次序的变量。变量的值能把研究对象排列高低或大小,它是比定类变量层次更高的变量,也具有定类变量的特点,例如:文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。这些变量的值,既可以区分异同,也可以区别高低或大小。但是,各个定序变量的值之间没有确切的间隔距离,比如大学究竟比高中高出多少,是没有确切的尺度来测量的。

    定距变量:区别同一类别个案中等级次序及其距离的变量。它除了包括定序变量的特性外,还能确切测量出个案之间高低、大小次序之间的距离。

    定距变量是最常见、区分度最高的变量,这类变量可以被求取均值、方差、标准差和标准误等描述性信息,在数据分析中最受欢迎,被称为高测度数据。定序变量和定类变量则因为数据的特点,通常无法求取它们的均值和方差等信息,被称为低测度数据,需要采用与定距变量不同的分析技术。数据分析培训

    转载于:https://www.cnblogs.com/amengduo/p/9587273.html

    展开全文
  • 差异分析是基础数据分析手段,在进行样本间差异比较的时候经常被用到。所以无论是中文核心期刊还是SCI论文,常常需要绘制差异分析柱形图。显著标记柱形图是在差异分析柱形图的基础上添加显著标识,可以直观的...
    差异分析是基础数据分析手段,在进行样本间差异比较的时候经常被用到。所以无论是中文核心期刊还是SCI论文,常常需要绘制差异分析柱形图。 显著性标记柱形图是在差异分析柱形图的基础上添加显著性标识,可以直观的呈现不同样本间的差异关系和差异显著性。在不同品种的表型差异分析或样本间基因表达量统计中均被经常使用。 图形由柱形图、误差线和显著性标识三部分组成。柱形图表示样本的表型或表达量数值;误差线代表每个样本存在的潜在误差;显著性标识代表样本间差异的显著程度(图 1)。   9af0e383879f631f53a645b8736fb24a.png c08ffa42727cb34da2accb600deb8697.png 图1 差异分析柱形图   在日常的实验中,我们会获得大量样本的表型或表达量数据,如果用Excel一个一个进行t检验然后P上显著性标识,既繁琐又耗时,并且还有可能一次性需要输出多张图,如果不会使用R语言就很难操作了。一想到进行一个差异分析都这么麻烦,还不得不做,就感觉头秃。 98d86edeefe236a434ef0731e7746428.png 不过没关系,Omicshare Tools可以帮你“一分钟”实现差异分析并在柱形图上添加显著线。一起来看一下如何操作吧。

    操作步骤

    1

    进入工具

    3ee04e9116283b5105b7b83bbef46fda.png   2aed41be239484bc8998affcfd1d6598.png 图2 显著性标记柱形图工具图标 差异分析工具分为两种,两组数据之间差异分析进入“显著性标记柱形图(两组)”;多组数据间两两进行差异分析进入“显著性标记柱形图(多组)”。 工具地址: https://www.omicshare.com/tools/Home/Soft/2_groups_sig 复制前往以上链接或点击 ,登录Omicshare云平台→“我的软件”→搜索“显著性标记柱形图”

    2

    输入文件

    点击图标进入后跳转至操作界面。界面包含 “数据输入”与“调整参数”两部分,其中需要输入的两个文件为txt格式,可以用excel表另存为txt格式。 fcc83d7e7ef7827a882c34470427d31e.png 图3 输入文件页面 输入两组数据: 输入的表格为差异检验表,第一列是不同样本的名称,之后每一行为该样本每个重复的数据,输入的样本为两组。但是要注意的是,每次至少要输入三次重复。  
    A288.93276.81527.85……
    B924.31746.8651.47……
    图4 输入两组数据的表格 输入多组数据: 与输入两组数据的格式相同,不同的是每次输入的多组样本。  
    A288.93276.81527.85......
    B924.31746.8651.47......
    C321.4351.64388.41......
    图5 输入多组数据的表格  

    3

    参数调整

    通过参数调整可以对输出图形做简单修改: 统计检验 方法选择: 可以选择T检验或wilcoxon秩和检验。 输入图片的标题。 输入x轴和y轴的标题。 需要注意的是,每个标题必须是英文,要不然无法显示。 8c564d06c76e721cb1b7db69653a4ad7.gif 图6 作图相关参数

    4

    输出结果

    在Omicshare云平台提交任务后会输出结果压缩包,包含结果表格与柱形图两个部分内容。 结果表格 表头从左到右表示比较组、P值、显著性和分析方法。*代表显著性,ns代表组间无差异。
    comparep.formatp.signifmethod
    A-vs-B0.023*T-test
    图7 两组差异分析结果表格
    comparep.formatp.signifmethod
    A-vs-B0.023*T-test
    A-vs-C0.722nsT-test
    B-vs-C0.025*T-test
    图8 多组差异分析结果表格 输出图形   8f7ea679ddf9f3f26c54f6918ee8010a.png 图9 显著性标识柱形图(两组) db0e1194d0fc683c2923eb0b68d27dc1.png 图10 显著性标识柱形图(多组) 图形解读:横坐标为两个比较组名称,纵坐标为比较组数据的平均值。 *代表显著性,*代表p值小于0.05.**代表p值小于0.01,***代表p值小于0.001,以此类推。 Omicshare Tools 包含78个实用的小工具,一键操作,可以帮您快速、便捷的进行图形绘制和数据分析,会员还免费呢,快来Omicshare试试呀! 参考文献 [1] Ting Z , Pengbo X , Wenxiu W , et al. Arabidopsis G-Protein βSubunit AGB1 Interacts with BES1 to Regulate Brassinosteroid Signaling and CellElongation[J]. Frontiers in Plant Science, 2018, 8:2225. [2] 代资举, 王新涛, 杨青, et al. 玉米雄穗分枝数主效QTL定位及qTBN5近等基因系构建[J]. 作物学报, 2018,v.44(08):27-35. 474de9f606ee77e2c68b5b89cf94a1ba.gif实用科研工具推荐      
    详实生信软件教程分享
    前沿创新组学文章解读
    独家生信视频教程发布 1833a5d31289b4e542d22355381eb124.gif
    展开全文
  • Firmicutes|Clostridia 0.090041 0.170246 0.00483188 0.0465328 0.122702 0.0402301 0.0460614 0.135201 0.0115835 0.0537381 数据格式转换 数据分析前需要对数据格式进行转换,原始数据可以为...

    导读

    • LEfSe(Linear discriminant analysis Effect Size)通过将用于统计显着性的标准检验与编码生物一致性和效果相关性的检验相结合,确定最有可能解释类别之间差异的特征。
    • LEfSe分析可以实现多个分组之间的比较,还进行分组比较的内部进行亚组比较分析,从而找到组间在丰度上有显著差异的物种(即biomaker)。

    原理

    在这里插入图片描述

    1. 首先在多组样本中采用的非参数检验Kruskal-Wallis秩和检验检测不同分组间丰度差异显著的特征;
    2. 然后在上一步中获得的显著差异特征,用成组的Wilcoxon秩和检验进行组间差异分析(若没有亚组,该步跳过);
    3. 最后用线性判别分析(LDA)对数据进行分类和评估差异显著的物种的影响力(即LDA score)。

    LDA score计算

    计算步骤包括(详细计算过程看源码):

    1. 拟合lda模型,获取第一特征向量;
    2. 对第一特征向量进行标准化;
    3. 根据标准化后的第一特征向量,计算样本新坐标;
    4. 根据分组信息,计算组间距离,作为效应系数;
    5. LDA score = 效应系数 * 标准化后特征向量 ;
    6. 对LDA score进行log转换。
    def test_lda_r(cls,feats,cl_sl,boots,fract_sample,lda_th,tol_min,nlogs):
        fk = list(feats.keys())
        means = dict([(k,[]) for k in feats.keys()])
        feats['class'] = list(cls['class'])
        clss = list(set(feats['class']))
    
        for uu,k in enumerate(fk):
            if k == 'class':
                continue
    
            ff = [(feats['class'][i],v) for i,v in enumerate(feats[k])]
    
            for c in clss:
                if len(set([float(v[1]) for v in ff if v[0] == c])) > max(float(feats['class'].count(c))*0.5,4):
                    continue
    
                for i,v in enumerate(feats[k]):
                    if feats['class'][i] == c:
                        feats[k][i] = math.fabs(feats[k][i] + lrand.normalvariate(0.0,max(feats[k][i]*0.05,0.01)))
    
        rdict = {}
    
        for a,b in feats.items():
            if a == 'class' or a == 'subclass' or a == 'subject':
                rdict[a] = robjects.StrVector(b)
            else:
                rdict[a] = robjects.FloatVector(b)
    
        robjects.globalenv["d"] = robjects.DataFrame(rdict)
        lfk = len(feats[fk[0]])
        rfk = int(float(len(feats[fk[0]]))*fract_sample)
        f = "class ~ "+fk[0]
    
        for k in fk[1:]:
            f += " + " + k.strip()
    
        ncl = len(set(cls['class']))
        min_cl = int(float(min([cls['class'].count(c) for c in set(cls['class'])]))*fract_sample*fract_sample*0.5)
        min_cl = max(min_cl,1)
        pairs = [(a,b) for a in set(cls['class']) for b in set(cls['class']) if a > b]
    
        for k in fk:
            for i in range(boots):
                means[k].append([])
    
        for i in range(boots):
            for rtmp in range(1000):
                rand_s = [lrand.randint(0,lfk-1) for v in range(rfk)]
                if not contast_within_classes_or_few_per_class(feats,rand_s,min_cl,ncl):
                    break
    
            rand_s = [r+1 for r in rand_s]
            means[k][i] = []
    
            for p in pairs:
                robjects.globalenv["rand_s"] = robjects.IntVector(rand_s)
                robjects.globalenv["sub_d"] = robjects.r('d[rand_s,]')
                z = robjects.r('z <- suppressWarnings(lda(as.formula('+f+'),data=sub_d,tol='+str(tol_min)+'))')
                robjects.r('w <- z$scaling[,1]')
                robjects.r('w.unit <- w/sqrt(sum(w^2))')
                robjects.r('ss <- sub_d[,-match("class",colnames(sub_d))]')
    
                if 'subclass' in feats:
                    robjects.r('ss <- ss[,-match("subclass",colnames(ss))]')
    
                if 'subject' in feats:
                    robjects.r('ss <- ss[,-match("subject",colnames(ss))]')
    
                robjects.r('xy.matrix <- as.matrix(ss)')
                robjects.r('LD <- xy.matrix%*%w.unit')
                robjects.r('effect.size <- abs(mean(LD[sub_d[,"class"]=="'+p[0]+'"]) - mean(LD[sub_d[,"class"]=="'+p[1]+'"]))')
                scal = robjects.r('wfinal <- w.unit * effect.size')
                rres = robjects.r('mm <- z$means')
                rowns = list(rres.rownames)
                lenc = len(list(rres.colnames))
                coeff = [abs(float(v)) if not math.isnan(float(v)) else 0.0 for v in scal]
                res = dict([(pp,[float(ff) for ff in rres.rx(pp,True)] if pp in rowns else [0.0]*lenc ) for pp in [p[0],p[1]]])
    
                for j,k in enumerate(fk):
                    gm = abs(res[p[0]][j] - res[p[1]][j])
                    means[k][i].append((gm+coeff[j])*0.5)
    
        res = {}
    
        for k in fk:
            m = max([numpy.mean([means[k][kk][p] for kk in range(boots)]) for p in range(len(pairs))])
            res[k] = math.copysign(1.0,m)*math.log(1.0+math.fabs(m),10)
    
        return res,dict([(k,x) for k,x in res.items() if math.fabs(x) > lda_th])
    
    

    安装

    # 新建虚拟环境,lefse依赖于python2
    conda create -n lefse python=2.7
    
    # 激活虚拟环境
    source activate lefse
    
    # conda安装lefse
    conda install lefse
    
    # 退出虚拟环境
    source deactivate
    

    报错:如果是r2py的问题,基本都是python版本的问题。
    解决:虚拟环境中重新安装python2.7(推荐)。另一种方式是对虚拟环境中的conda降级,之后再进行安装。


    报错:如果是axis_bgcolor()的问题,那就是matplotlib版本问题。
    解决:虚拟环境中重新安装metaplotlib 2.0版本,conda install matplotlib=2.0(推荐)。另一种方式是将lefse-plot_cladogam.py文件中的axis_bgcolor()修改为facecolor()


    分析

    文件输入格式

    文本制表符(单个Tab)分隔的输入文件由特征列表,分类向量和可选的亚组变量和样本ID向量组成。元数据位于前几行,特征矩阵随后。

    bodysite                                mucosal         mucosal         mucosal         mucosal         mucosal         non_mucosal     non_mucosal     non_mucosal     non_mucosal     non_mucosal
    subsite                                 oral            gut             oral            oral            gut             skin            nasal           skin            ear             nasal
    id                                      1023            1023            1672            1876            1672            159005010       1023            1023            1023            1672
    Bacteria                                0.99999         0.99999         0.999993        0.999989        0.999997        0.999927        0.999977        0.999987        0.999997        0.999993
    Bacteria|Actinobacteria                 0.311037        0.000864363     0.00446132      0.0312045       0.000773642     0.359354        0.761108        0.603002        0.95913         0.753688
    Bacteria|Bacteroidetes                  0.0689602       0.804293        0.00983343      0.0303561       0.859838        0.0195298       0.0212741       0.145729        0.0115617       0.0114511
    Bacteria|Firmicutes                     0.494223        0.173411        0.715345        0.813046        0.124552        0.177961        0.189178        0.188964        0.0226835       0.192665
    Bacteria|Proteobacteria                 0.0914284       0.0180378       0.265664        0.109549        0.00941215      0.430869        0.0225884       0.0532684       0.00512034      0.0365453
    Bacteria|Firmicutes|Clostridia          0.090041        0.170246        0.00483188      0.0465328       0.122702        0.0402301       0.0460614       0.135201        0.0115835       0.0537381
    

    数据格式转换

    数据分析前需要对数据格式进行转换,原始数据可以为16S那种reads count,也可以是宏基因组相对丰度数据,但需要按照指定格式,行为分组和物种信息,列为样本。-c指定分组行;-s指定亚组行,若没有可以不指定;-u指定样本编号;-o指定归一化后范围,主要针对宏基因组数据,目的是对相对丰度进行放大。

    lefse-format_input.py hmp_aerobiosis_small.txt hmp_aerobiosis_small.in -c 1 -s 2 -u 3 -o 1000000
    

    详细参数:

    usage: lefse-format_input.py [-h] [--output_table OUTPUT_TABLE] [-f {c,r}]
                                 [-c [1..n_feats]] [-s [1..n_feats]] [-o float]
                                 [-u [1..n_feats]] [-m {f,s}] [-n int]
                                 [-biom_c BIOM_CLASS] [-biom_s BIOM_SUBCLASS]
                                 INPUT_FILE OUTPUT_FILE
    
    LEfSe formatting modules
    
    positional arguments:
      INPUT_FILE            the input file, feature hierarchical level can be
                            specified with | or . and those symbols must not be
                            present for other reasons in the input file.
      OUTPUT_FILE           the output file containing the data for LEfSe
    
    optional arguments:
      -h, --help            show this help message and exit
      --output_table OUTPUT_TABLE
                            the formatted table in txt format
      -f {c,r}              set whether the features are on rows (default) or on
                            columns
      -c [1..n_feats]       set which feature use as class (default 1)
      -s [1..n_feats]       set which feature use as subclass (default -1 meaning
                            no subclass)
      -o float              set the normalization value (default -1.0 meaning no
                            normalization)
      -u [1..n_feats]       set which feature use as subject (default -1 meaning
                            no subject)
      -m {f,s}              set the policy to adopt with missin values: f removes
                            the features with missing values, s removes samples
                            with missing values (default f)
      -n int                set the minimum cardinality of each subclass
                            (subclasses with low cardinalities will be grouped
                            together, if the cardinality is still low, no pairwise
                            comparison will be performed with them)
      -biom_c BIOM_CLASS    For biom input files: Set which feature use as class
      -biom_s BIOM_SUBCLASS
                            For biom input files: set which feature use as
                            subclass
    
    

    lefse分析

    转换格式后,可以进行lefse差异分析。需要指定输入和输出文件。还可以通过-a指定组间比较检验水准阈值,-w指定成组比较检验水准阈值,-l指定lda score阈值。除了可以选择lda,还可以选择svm进行分析。

    run_lefse.py hmp_aerobiosis_small.in hmp_aerobiosis_small.res
    

    详细参数:

    usage: run_lefse.py [-h] [-o str] [-a float] [-w float] [-l float]
                        [--nlogs int] [--verbose int] [--wilc int] [-r str]
                        [--svm_norm int] [-b int] [-e int] [-c int] [-f float]
                        [-s {0,1,2}] [--min_c int] [-t str] [-y {0,1}]
                        INPUT_FILE OUTPUT_FILE
    
    LEfSe 1.0
    
    positional arguments:
      INPUT_FILE      the input file
      OUTPUT_FILE     the output file containing the data for the visualization
                      module
    
    optional arguments:
      -h, --help      show this help message and exit
      -o str          set the file for exporting the result (only concise textual
                      form)
      -a float        set the alpha value for the Anova test (default 0.05)
      -w float        set the alpha value for the Wilcoxon test (default 0.05)
      -l float        set the threshold on the absolute value of the logarithmic
                      LDA score (default 2.0)
      --nlogs int     max log ingluence of LDA coeff
      --verbose int   verbose execution (default 0)
      --wilc int      wheter to perform the Wicoxon step (default 1)
      -r str          select LDA or SVM for effect size (default LDA)
      --svm_norm int  whether to normalize the data in [0,1] for SVM feature
                      waiting (default 1 strongly suggested)
      -b int          set the number of bootstrap iteration for LDA (default 30)
      -e int          set whether perform the wilcoxon test only among the
                      subclasses with the same name (default 0)
      -c int          set whether perform the wilcoxon test ing the Curtis's
                      approach [BETA VERSION] (default 0)
      -f float        set the subsampling fraction value for each bootstrap
                      iteration (default 0.66666)
      -s {0,1,2}      set the multiple testing correction options. 0 no correction
                      (more strict, default), 1 correction for independent
                      comparisons, 2 correction for independent comparison
      --min_c int     minimum number of samples per subclass for performing
                      wilcoxon test (default 10)
      -t str          set the title of the analysis (default input file without
                      extension)
      -y {0,1}        (for multiclass tasks) set whether the test is performed in
                      a one-against-one ( 1 - more strict!) or in a one-against-
                      all setting ( 0 - less strict) (default 0)
    
    

    绘制lefse结果图

    将lefse分析结果绘图。可以根据需求指定绘图格式。

    lefse-plot_res.py hmp_aerobiosis_small.res hmp_aerobiosis_small.png
    

    详细参数:

    usage: lefse-plot_res.py [-h] [--feature_font_size FEATURE_FONT_SIZE]
                             [--format {png,svg,pdf}] [--dpi DPI] [--title TITLE]
                             [--title_font_size TITLE_FONT_SIZE]
                             [--class_legend_font_size CLASS_LEGEND_FONT_SIZE]
                             [--width WIDTH] [--height HEIGHT] [--left_space LS]
                             [--right_space RS] [--orientation {h,v}]
                             [--autoscale {0,1}] [--background_color {k,w}]
                             [--subclades N_SCL]
                             [--max_feature_len MAX_FEATURE_LEN]
                             [--all_feats ALL_FEATS] [--otu_only]
                             [--report_features]
                             INPUT_FILE OUTPUT_FILE
    
    Plot results
    
    positional arguments:
      INPUT_FILE            tab delimited input file
      OUTPUT_FILE           the file for the output image
    
    optional arguments:
      -h, --help            show this help message and exit
      --feature_font_size FEATURE_FONT_SIZE
                            the file for the output image
      --format {png,svg,pdf}
                            the format for the output file
      --dpi DPI
      --title TITLE
      --title_font_size TITLE_FONT_SIZE
      --class_legend_font_size CLASS_LEGEND_FONT_SIZE
      --width WIDTH
      --height HEIGHT       only for vertical histograms
      --left_space LS
      --right_space RS
      --orientation {h,v}
      --autoscale {0,1}
      --background_color {k,w}
                            set the color of the background
      --subclades N_SCL     number of label levels to be dislayed (starting from
                            the leaves, -1 means all the levels, 1 is default )
      --max_feature_len MAX_FEATURE_LEN
                            Maximum length of feature strings (def 60)
      --all_feats ALL_FEATS
      --otu_only            Plot only species resolved OTUs (as opposed to all
                            levels)
      --report_features     Report important features to STDOUT
    
    

    绘制特征条形图

    另外,可以分别对指定的物种,或者所以差异物种绘制条形图。

    # 单个特征
    lefse-plot_features.py -f one --feature_name "Bacteria.Bacteroidetes" hmp_aerobiosis_small.in hmp_aerobiosis_small.res Bacteroidetes.png
    
    # 差异特征
    lefse-plot_features.py -f diff --archive zip hmp_aerobiosis_small.in hmp_aerobiosis_small.res biomarkers.zip
    

    详细参数:

    usage: lefse-plot_features.py [-h] [--width WIDTH] [--height HEIGHT]
                                  [--top TOP] [--bot BOT]
                                  [--title_font_size TITLE_FONT_SIZE]
                                  [--class_font_size CLASS_FONT_SIZE]
                                  [--class_label_pos {up,down}]
                                  [--subcl_mean {y,n}] [--subcl_median {y,n}]
                                  [--font_size FONT_SIZE] [-n flt]
                                  [--format {png,pdf,svg}] [-f {all,diff,one}]
                                  [--feature_name FEATURE_NAME]
                                  [--feature_num FEATURE_NUM]
                                  [--archive {zip,none}]
                                  [--background_color {k,w}] [--dpi DPI]
                                  INPUT_FILE INPUT_FILE OUTPUT_FILE
    
    Cladoplot
    
    positional arguments:
      INPUT_FILE            dataset files
      INPUT_FILE            LEfSe output file
      OUTPUT_FILE           the file for the output (the zip file if an archive is
                            required, the output directory otherwise)
    
    optional arguments:
      -h, --help            show this help message and exit
      --width WIDTH
      --height HEIGHT
      --top TOP             set maximum y limit (-1.0 means automatic limit)
      --bot BOT             set minimum y limit (default 0.0, -1.0 means automatic
                            limit)
      --title_font_size TITLE_FONT_SIZE
      --class_font_size CLASS_FONT_SIZE
      --class_label_pos {up,down}
      --subcl_mean {y,n}
      --subcl_median {y,n}
      --font_size FONT_SIZE
      -n flt                unused
      --format {png,pdf,svg}
                            the format for the output file
      -f {all,diff,one}     wheter to plot all features (all), only those
                            differentially abundant according to LEfSe or only one
                            (the one given with --feature_name)
      --feature_name FEATURE_NAME
                            The name of the feature to plot (levels separated by
                            .)
      --feature_num FEATURE_NUM
                            The number of the feature to plot
      --archive {zip,none}
      --background_color {k,w}
                            set the color of the background
      --dpi DPI
    
    
    

    绘制系统发育树图

    可以将差异结果,结合物种进化关系,绘制系统发育树图。前提是输入文件必须指定物种所有的物种等级。例如metaphlan的输出结果。如果物种太多,可以进一步对差异分析结果进行筛选过滤,只对差异特征进行绘图。

    ## 可直接绘制单个水平的图,也可将所有水平进行分析后,得到的结果进行绘图
    ## 如果很多特征都是没有组间差异的,可以对特征进行筛选后再绘图 grep -v '-' 即可
    ## --clade_sep 默认为1.5,但绘图时会自动调整,也可以自己设定
    ## --abrv_stop_lev 7 默认为5,即展示到第5水平,可设置到7,暂时到第7水平的结果。可以结合标签参数和缩写参数来展示。
    lefse-plot_cladogram.py --dpi 500 all_level_lefse_significant.res all_level_lefse_significant_cladogram.pdf --format pdf --clade_sep 0.05 --abrv_stop_lev 7
    

    详细参数:

    usage: lefse-plot_cladogram.py [-h] [--clade_sep CLADE_SEP]
                                   [--max_lev MAX_LEV]
                                   [--max_point_size MAX_POINT_SIZE]
                                   [--min_point_size MIN_POINT_SIZE]
                                   [--point_edge_width MARKEREDGEWIDTH]
                                   [--siblings_connector_width SIBLINGS_CONNECTOR_WIDTH]
                                   [--parents_connector_width PARENTS_CONNECTOR_WIDTH]
                                   [--radial_start_lev RADIAL_START_LEV]
                                   [--labeled_start_lev LABELED_START_LEV]
                                   [--labeled_stop_lev LABELED_STOP_LEV]
                                   [--abrv_start_lev ABRV_START_LEV]
                                   [--abrv_stop_lev ABRV_STOP_LEV]
                                   [--expand_void_lev EXPAND_VOID_LEV]
                                   [--class_legend_vis CLASS_LEGEND_VIS]
                                   [--colored_connector COLORED_CONNECTORS]
                                   [--alpha ALPHA] [--title TITLE]
                                   [--sub_clade SUB_CLADE]
                                   [--title_font_size TITLE_FONT_SIZE]
                                   [--right_space_prop R_PROP]
                                   [--left_space_prop L_PROP]
                                   [--label_font_size LABEL_FONT_SIZE]
                                   [--background_color {k,w}]
                                   [--colored_labels {0,1}]
                                   [--class_legend_font_size CLASS_LEGEND_FONT_SIZE]
                                   [--dpi DPI] [--format {png,svg,pdf}]
                                   [--all_feats ALL_FEATS]
                                   INPUT_FILE OUTPUT_FILE
    
    Cladoplot
    
    positional arguments:
      INPUT_FILE            tab delimited input file
      OUTPUT_FILE           the file for the output image
    
    optional arguments:
      -h, --help            show this help message and exit
      --clade_sep CLADE_SEP
      --max_lev MAX_LEV
      --max_point_size MAX_POINT_SIZE
      --min_point_size MIN_POINT_SIZE
      --point_edge_width MARKEREDGEWIDTH
      --siblings_connector_width SIBLINGS_CONNECTOR_WIDTH
      --parents_connector_width PARENTS_CONNECTOR_WIDTH
      --radial_start_lev RADIAL_START_LEV
      --labeled_start_lev LABELED_START_LEV
      --labeled_stop_lev LABELED_STOP_LEV
      --abrv_start_lev ABRV_START_LEV
      --abrv_stop_lev ABRV_STOP_LEV
      --expand_void_lev EXPAND_VOID_LEV
      --class_legend_vis CLASS_LEGEND_VIS
      --colored_connector COLORED_CONNECTORS
      --alpha ALPHA
      --title TITLE
      --sub_clade SUB_CLADE
      --title_font_size TITLE_FONT_SIZE
      --right_space_prop R_PROP
      --left_space_prop L_PROP
      --label_font_size LABEL_FONT_SIZE
      --background_color {k,w}
                            set the color of the background
      --colored_labels {0,1}
                            draw the label with class color (1) or in black (0)
      --class_legend_font_size CLASS_LEGEND_FONT_SIZE
      --dpi DPI
      --format {png,svg,pdf}
                            the format for the output file
      --all_feats ALL_FEATS
    
    

    参考资料

    https://github.com/SegataLab/lefse

    展开全文
  • RNA-seq:转录组数据分析处理(上)

    万次阅读 多人点赞 2019-01-26 17:04:52
    RNA-seq:转录组数据分析处理 、流程概括 RNA-seq的原始数据(raw data)的质量评估 raw data的过滤和清除不可信数据(clean reads) reads回帖基因组和转录组(alignment) 计数(count ) 基因差异分析(Gene ...
  • 差异分析流程(数据预处理

    千次阅读 2019-12-14 00:16:07
    差异基因分析三大包说明、 Limma 参考链接: https://www.jianshu.com/p/8c187c8f4d09 http://www.freesion.com/article/752576024/ https://cloud.tencent.com/developer/article/1492130 ...h...
  • 在很多模型及假设检验中都需要满足个假设条件:数据需服从正态分布。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法:描述统计方法和统计检验方法。 描述统计方法 描述统计就是用描述的数字或...
  • 探索性数据分析

    万次阅读 多人点赞 2019-01-05 21:15:22
    探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的数据分析方法,该方法在上世纪70年代由美国统计学家J....
  • 不同类型的微阵列的可用以及形成微阵列研究的各种样品的不断增加,给微阵列数据分析带来了新的挑战。 现有的用于识别差异表达基因的聚类算法前景不佳,因为它们无法处理微阵列数据中的不同条件。 为了克服这些...
  • SPSS比较两组数据有无显著性差异 独立样本T检验

    万次阅读 多人点赞 2021-01-15 12:08:26
    输入两组需要检验有无显著性差异数据列为(分组变量),列为数据(检验变量) 选择比较平均值→独立样本T检验 设置分组变量和检验变量 点击定义 填写名 填写完毕后,点击确定 结果如下所示 ...
  • 经500 多组数据验证,该方法优于已有的量化分析法,具有较高的判断准确率。  0 引言  变压器是电力系统输变电的关键设备,其安全稳定运行对保障电力系统的可靠具有重要意义。变压器在遭受近区突发短路后,绕组
  • 无论是传统的多细胞转录组测序(bulk RNA-seq)还是单细胞转录组测序(scRNA-seq),差异表达分析(differential expression analysis)是比较两组不同样本基因表达异同的基本方法,可获得一组样本相对于另一组样本...
  • 探索性数据分析是运用一些分析方法从大量的数据中发现未知且有价值信息的过程。 分类 探索性数据分析可分为以下4种: * RFM分析 * 聚类分析 * 因子分析 * 对应分析 RFM分析 RFM分析是针对销售行为的种...
  • 阅读时长:10 min 背景介绍(Introduction)宏基因学宏基因学目前的主要研究方法包括:16S/ITS/18S扩增子、宏基因、宏转录和代谢,其中以扩增子研究最为广泛。目的意义本系列文章将带领大家结合较新的16S...
  • 利用R的bioconductor包进行分析。由于安装的是R3.5+版本所以实际用的是用biomanager指令,其他基本一样,系统走遍流程,记录网络有用资料。
  • 数据挖掘:探索性数据分析(EDA)

    千次阅读 多人点赞 2020-02-21 15:48:22
    数据挖掘:探索性数据分析
  • R统计计算--差异性检验

    万次阅读 2018-08-09 17:49:55
    差异性检验: t检验、秩和检验(如wilcox检验)、Kolmogorov-Smirnov检验 间差异检验:方差分析、Fisher检验、卡方检验 相关性分析:相关性检验(pearson、spearman和kendall等)、cos相关性检验 基本概念: 1....
  • //2014年9月6日 //还有方差分析等等
  • 差异表达分析通常作为根据基因表达矩阵进行生物信息学分析的第步,有助于我们观察基因在不同样本中的表达差异,从而确定要研究的基因和表型之间的联系。常用的基因表达数据来自基因芯片或高通量测序。虽然矩阵看...
  • 数据分析与可视化()1.1 数据分析1.1.1数据、信息与数据分析 1.1 数据分析 1.1.1数据、信息与数据分析 数据: 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的...
  • 利用R包DEseq2进行差异表达...转录组数据分析主要参考了生信技能树Jimmy老师的相关课程及推文。 RNA-seq的read count普遍认为符合泊松分布,但是之前分析过的芯片数据符合正态分布,所以筛选DEGs的方法有一定差别。 .
  • 经500 多组数据验证,该方法优于已有的量化分析法,具有较高的判断准确率。  0 引言  变压器是电力系统输变电的关键设备,其安全稳定运行对保障电力系统的可靠具有重要意义。变压器在遭受近区突发短路后,
  • 思考:输入到NN模型中的特征要做归一化处理...言归正传,airbnb根据不同特征做不一样的归一化,因为他们对数据进行了观察,发现了部分长尾数据,因此做了log的归一化处理[1],这点很惊喜。在我刚工作的时候,也有人...
  • 代谢数据分析的统计学方法综述

    万次阅读 多人点赞 2018-10-01 21:34:14
    代谢学研究产生大量的数据,这些数据具有高维、小样本、高噪声等复杂特征。...据此,本文针对目前代谢数据分析中的常用统计学方法及其研究进展进行介绍。 代谢学数据的特点 代谢学是...
  • 宏基因有参分析和无参分析差异

    千次阅读 2019-06-15 18:06:42
    宏基因有参分析和无参分析差异分析流程解决问题结果差异 本文参考宏基因教程Metagenomics Tutorial (HUMAnN2) 分析流程 有参流程:质控–物种组成和功能组成分析差异分析及可视化 无参流程:质控–物种...
  • 非靶向代谢数据分析方法总结

    万次阅读 多人点赞 2019-04-30 18:53:10
    其中,代谢学是相对比较年轻的一门学科,“代谢”(metabolome)的概念于1998第次被提出。基因学和转录学是生物信息的上游,更多的体现的是生物活动的内在本质因素,而代谢学是生物信息的最下游,体现的...
  • 无论是传统的多细胞转录组测序(bulk RNA-seq)还是单细胞转录组测序(scRNA-seq),差异表达分析(differential expression analysis)是比较两组不同样本基因表达异同的基本方法,可获得一组样本相对于另一组样本...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 147,623
精华内容 59,049
关键字:

一组数据怎么分析差异性