精华内容
下载资源
问答
  • 深度学习如何选择模型

    千次阅读 2017-09-26 22:21:10
    深度学习如何选择模型

    原文:http://blog.csdn.net/ybdesire/article/details/74780130

    深度学习有很多种模型,那我们在使用过程中,如何根据自己的问题,来选择合适的模型呢?

    Quora上对这个问题有讨论(看这里),有一张表,囊括了常用的深度学习模型:

    展开全文
  • 对于近缘序列,有人喜欢MP,因为用到的假设最少,远缘序列上一般用NJ或者ML,这两个方法都是需要选择模型的。对于相似性很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),这种现象有时候会严重...

    对于经常构建进化树的朋友来说,MEGA应该是个老朋友了。MEGA从1993年的第一个版本问世一直锤炼到去年刚刚发布的MEGA-X,已经经历了26年,在这期间,MEGA共更新八个版本,先后在Molecular Biology and Evolution、Bioinformatics、Computer Applications in the Biosciences等期刊上发表共十篇论文,总引用量已经超过11万。对于如此熟悉的一个老朋友,让我们今天一起来了解一下它的新版本MEGA-X,开发它更多的使用方法。 MEGA-X的官网网址是 https://www.megasoftware.net/,它支持在Windows、MacOS 以及Linux 系统下运行,有图形界面和命令行两个版本可供选择,支持64 位和32 位,与之前的版本比较,MEGA-X 最大的特点是大数据运算能力增强,并且支持多种计算平台

     

    今天主要介绍的是在MEGA-X图形界面下构建系统发育树并且对发育树进行美化。下载安装好MEGA-X后,首先打开软件。

     

    此处我们以一株细菌的16S rRNA序列为目标序列,首先在NCBI中进行Blast比对,下载将要一起比对建树的菌株序列。在NCBI中输入序列或者上传文件,选择数据库时可以选择「Nucleotide collection(nr/nt)」或者「16S ribosomal RNA sequences」数据库,一般来说nr/nt库信息比较全面。

     

    我们选择了10个不同种的16S rRNA序列进行下载。另外,此处还可以比对下载2-3条大肠杆菌(Escherichia coli)和沙门氏杆菌(Salmonella)的16S rRNA序列作为外类群(在Organism选项中进行物种限定),后面推断进化时间的时候可以用到。将所有下载的序列整理在一个文件中,为了方便后面的建树可以将菌株名称后面多余的信息在这里替换删除掉(只是名称上的信息,不要改动碱基序列),然后将文件的扩展名改为.fasta。在MEGA-X首页选择DATA,点击Open a File/Session,选择刚才的文件。

     

    打开文件时询问「Analyze or Align File?」,此处点击Align。序列中可能会出现混合碱基符号,混合碱基符号指两种或多种碱基(核苷)混合物的表示符号,或未完全确定可能属于某两种或多种碱基(核苷)的符号:R表示A+G;Y表示C+T;M表示A+C;K表示G+T;S表示C+G;W表示A+T;H表示A+C+T;B表示C+G+T;V表示A+C+G;D表示A+G+T;N表示A+C+G+T。

     

    接下来选择序列比对的方法:Muscle或者ClustalW。ClustalW的基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,是一种经典的比对方法,使用范围也比较广泛。Muscle的功能仅限于多序列比对,它的最大优势是速度,比ClustalW的速度快几个数量级,而且序列数越多速度的差别越大。方法可以通过点击图中上方Alignment或者下方的图标「W」和「Muscle」来选择。如果你的序列是DNA编码序列,就一定要选择Align Codons,因为序列通过密码子比对比DNA序列的比对会更加真实,避免间隙对比对结果产生的影响。MEGA可以比较方便快速地将密码子排列比对,后续作为输入文件在软件PAML或DATAMONKEY中进行进化压力的分析时就会比较方便。

     

    在这里我们选择Muscle进行序列排列,点击Align DNA,会出现一些参数选项,根据自己需要进行修改,在这里直接点击OK选择默认参数即可。

     

    比对之后要去检查一下比对的情况,有的差异很大的或许是因为序列方向反了,这个时候要把它反转回来,右击这条序列,点击Reverse Complement,反转后一定要再次点击Muscle比对,检查是否大部分都对齐了。

     

    这里我们可以将最后对比后的文件导出,可以导出保存为MEGA格式。

     

    然后点击Data中的Phylogenetic Analysis直接进行系统发育分析。

     

    分析后返回主页面,接下来我们要选择一个最优的模型,提高建树的精确度。如果想要快速建树可以省去这一步,直接选择默认的模型。点击MODELS中的Find Best DNA/Protein Models(ML) 软件就会根据你的数据帮你计算寻找最适合的模型。

     

    分析时选择默认参数,开始进行分析计算。

     

    不久就会显示分析计算结果。具有最低BIC分数(BayesianInformation Criterion)的模型被认为是最好地描述替代模式。对于每个模型,还给出了AICc值(Akaike Information Criterion, corrected,值越低拟合程度越好),以及用来计算上述两个分值的最大似然值(lnL)和参数数量(包括分支长度)。在这里就可以看到,BIC分数最低的模型是K2+G+I,K2+G+I在这里就是最好的模型。

     

    但因为实际在后面的模型选择中,软件有时没有提供组合的模型来选择,所以我们继续看下面的BIC分数,可以找到单个模型中得分最小的,就是我们在这里要选择的最优模型。看到这里的BIC值最低的单个模型是TN93(Tamura-Nei)。

     

    模型选好后,就可以点击PHYLOGENY进行方法的选择了。构建系统发育树有三种主要的建树方法,分别是距离法、最大节约法(maximumparsimony, MP)和最大似然法(maximum likelihood,ML)。最大似然法考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果;距离树考察数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度,基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等;最大节约法考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。在这些方法中,如果模型合适,ML的效果较好。对于近缘序列,有人喜欢MP,因为用到的假设最少,远缘序列上一般用NJ或者ML,这两个方法都是需要选择模型的。对于相似性很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),这种现象有时候会严重干扰进化树的构建。其实当序列的相似性比较高时,各种方法都会得到不错的结果,模型之间的差别也不是很大。所以平时我们一般推荐用两种不同的方法进行建树,如果得到的进化树类似,则结果较为可靠。这里我们先选择Neighbor-Joining法建树。

     

    点击方法后,选择自展值,即重复建树以进行检验的次数,一般选择1000以上才比较可靠。模型的话选择之前计算好的最优的模型,点击OK。

     

    稍等片刻,就初步构建好了这个树,接下来我们对这棵树进行一些调整和美化。首先我们看到每棵树的前面都标有自展值,这主要是对进化树进行评估的一个百分比值。因为进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的「进化树」。这里的数值表示我们将该树重复构建1000(之前设置的数值)次,得到相同结果的次数占重复次数的百分比值。一般Bootstrap的值>70%,则认为构建的进化树非常可靠,50%-70%认为基本可靠,小于50%认为不可靠(不同的人对于这个阈值有不同的划分)。如果Bootstrap值太低,则有可能进化树的拓扑结构有错误。当Bootstrap的值小于50%时,我们一般选择隐去。

     

    点击左上的工具图标,隐去较低的自展值可以点击此处的Branches。

     

    设置隐去50以下的数值。

     

    这个工具栏里的其他选项还可以对字体和线条粗线长短等进行修改,并且将想要突出的菌株和分枝信息进行重点标注。

     

    左边的工具栏里还可以对进化树进行修改,比如改变树根,调整分枝的上下位置,以及重点标记突出某个分枝信息。

     

    最后美化结果。

     

    在这里还可以点击树形图标将进化树修改成为圆圈型和松针型。

     

    结果图展示如下。

     

    为了数据更加可靠,大家可以再选择另外一种方法进行建树,和上一种方法构建出的进化树进行比对。然后最后导出储存图片,这里提供EMP、SVG (矢量图,可进一步通过绘图软件如AI编辑)、PDF、PNG和TIFF (位图)几种格式来导出。

     

    记得将进化树的文本文件也保存一下。点击File中的Export Current Tree(Newick)保存Newick格式。

     

     保存后的树文件格式如下,导出的树文件便于之后在iTOL、Evolview、Figtree等工具中进行更进一步的美化,比如添加分类颜色、标记以及热图和条形图等。

     

    MEGA的使用非常方便,作为一个历史悠久并且极具创新精神的软件,它一直在提高自己的计算速度,丰富自己的计算平台。今天主要介绍了用图形界面MEGA-X建树的操作步骤,下次我们来介绍下根据MEGA-X构建的进化树来推断物种进化时间以及链接到DATAMOKEY等软件去计算进化压力等,期待一下吧。 参考文献:Kumar S, Stecher G, LiM, et al. MEGA-X: Molecular Evolutionary Genetics Analysis across computingplatforms[J]. Molecular Biology & Evolution, 2018.

    展开全文
  • 模型评估与模型选择

    千次阅读 多人点赞 2021-04-03 20:42:40
    我们来学习一下模型评估与选择的相关问题。在进入正式的学习之前,请你思考一下:我们为什么要做模型的评估与选择呢? 导论 在某个特定的数据场景下,我们事先并不知道什么样的模型可以近似刻画数据的规律。我们的...


    我们来学习一下模型评估与选择的相关问题。在进入正式的学习之前,请你思考一下:我们为什么要做模型的评估与选择呢?

    导论

    在某个特定的数据场景下,我们事先并不知道什么样的模型可以近似刻画数据的规律。我们的模型选择可以有很多,比如:线性回归(n 元一次函数)、多项式回归(一元 n 次函数)等。即便是使用线性回归模型,在设置不同的超参数(如学习率、迭代次数)进行训练时,得到的模型参数也会有差异。(模型参数不同,实际上就是模型本身的不同)

    既然可供选择的模型有很多,那必然就有好有坏,我们要从中挑选出最能刻画数据规律的模型。注意,这里所说的数据࿰

    展开全文
  • 模型选择

    千次阅读 2018-03-23 19:50:51
    模型选择一个模型可能有很多种情况出现,那么我们如何选择最优的模型呢?1、哪条曲线拟合效果是最好的? 2、 泛化机器学习的目标是使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作的很好;即便...

    模型选择

    一个模型可能有很多种情况出现,那么我们如何选择最优的模型呢?

    1、哪条曲线拟合效果是最好的?

    这里写图片描述
    这里写图片描述

    2、 泛化

    机器学习的目标是使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作的很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力,称为“泛化”(generalization)能力。

    具有强泛化能力的模型能很好地适用于整个样本空间。(现实任务中的样本空间的规模通常很大,如 20 个属性,每个属性有 10 个可能取值,则样本空间的规模是 10^20 )。

    还有一个泛化的概念:

    【基础概念】模型具有好的泛化能力指的是:模型不但在训练数据集上表现的效果很好,对于新数据的适应能力也有很好的效果。
    当我们讨论一个机器学习模型学习能力和泛化能力的好坏时,我们通常使用过拟合和欠拟合的概念,过拟合和欠拟合也是机器学习算法表现差的两大原因。
    【基础概念】过拟合 overfitting:模型在训练数据上表现良好,在未知数据或者测试集上表现差。
    【基础概念】欠拟合 underfitting:在训练数据和未知数据上表现都很差。

    3、欠拟合

    这里写图片描述

    图 1 和图 2 都是模型欠拟合的情况:即模型在训练集上表现的效果差,没有充分利用数据,预测准确率很低,拟合结果严重不符合预期。

    产生的原因:模型过于简单出现的场景:欠拟合一般出现在机器学习模型刚刚训练的时候,也就是说一开始我们的模型往往是欠拟合也正是因为如此才有了优化的空间,我们通过不断优化调整算法来使得模型的表达能力更强。

    解决办法:
    (1)添加其他特征项:因为特征项不够而导致欠拟合,可以添加其他特征项来很好的解决。
    (2)添加多项式特征,如图(3)我们可以在线性模型中通过添加二次或三次项使得模型的泛化能力更强。
    (3)减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,需要减少正则化参数。

    4、过拟合

    这里写图片描述

    图四是模型过拟合的情况:即模型在训练集上表现的很好,但是在测试集上效果却很差。也就是说,在已知的数据集合中非常好,再添加一些新数据进来效果就会差很多。

    产生的原因:可能是模型太过于复杂、数据不纯、训练数据太少等造成。
    出现的场景:当模型优化到一定程度,就会出现过拟合的情况。

    解决办法:
    (1)重新清洗数据:导致过拟合一个原因可能是数据不纯导致的,
    (2)增大训练的数据量:导致过拟合的另一个原因是训练数据量太小,训练数据占总数据比例太低。
    (3)采用正则化方法对参数施加惩罚:导致过拟合的原因可能是模型太过于复杂,我们可以对比较重要的特征增加其权重,而不重要的特征降低其权重的方法。常用的有 L1 正则和 L2 正则,稍后会提到。
    (4)采用 dropout 方法,即采用随机采样的方法训练模型,常用于神经网络算法中。
    注意:模型的过拟合是无法彻底避免的,我们能做的只是缓解,或者说减小其风险,因为机器学习面临的是 NP 难问题(这列问题不存在有效精确解,必须寻求这类问题的有效近似算法求解),但是有效算法必然是在多项式时间内运行完成的,因此过拟合是不可避免的。

    在实际的任务中往往通过多种算法的选择,甚至对同一个算法,当使用不同参数配置时,也会产生不同的模型。那么,我们也就面临究竟选择哪一种算法,使用哪一种参数配置?这就是我们在机器学习中的“模型选择(model select)”问题,理想的解决方案当然是对候选模型的泛化误差进行评估,然后选择泛化误差最小的那个模型。

    喜欢就点赞评论+关注吧

    这里写图片描述

    感谢阅读,希望能帮助到大家,谢谢大家的支持!

    展开全文
  • 模型选择和特征选择经验总结

    千次阅读 2016-11-10 17:27:02
    模型以及特征选择 机器学习的关键部分无外乎是模型以及特征选择 模型选择 常见的分类模型有:SVM,LR,Navie Bayesian,CART以及由CART演化而来的树类模型,Random Forest,GBDT,最近详细研究了GBDT,...
  • 训练集/测试集分割用于模型验证的缺点K折交叉验证是如何克服之前的不足交叉验证如何用于选择调节参数、选择模型、选择特征改善交叉验证 1. 模型验证回顾¶ 进行模型验证的一个重要目的是要选出一个最...
  • 模型选择之特征选择

    千次阅读 2014-11-12 15:03:18
    当我们在训练模型时,其中一个很重要的部分是训练模型的参数,也就是模型中各个特征的值,不同的模型具有不同的特征组合,因此对于特征的选择也就对应了模型选择。举个文本分类的例子,在文本分类的任务中,特征...
  • 交叉验证如何用于选择调节参数、选择模型、选择特征 改善交叉验证 1. 模型验证回顾进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要...
  • 训练集/测试集分割用于模型验证的缺点K折交叉验证是如何克服之前的不足交叉验证如何用于选择调节参数、选择模型、选择特征改善交叉验证 1. 模型验证回顾¶ 进行模型验证的一个重要目的是要选出一个最合适...
  • 模型选择与特征选择

    千次阅读 2017-04-24 23:36:42
     模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)?  还有一类参数选择问题:...
  • 模型选择准则

    千次阅读 2015-12-14 19:15:28
    对一堆数据进行建模的时候,特别是分类和回归模型,我们有很多的变量可供使用,选择不同的变量组合可以得到不同的模型,例如我们有5个变量,2的5次方,我们将有32个变量组合,可以训练出32个模型。但是哪个模型更加...
  • 数据缺失时,怎样选择合适的模型

    千次阅读 2017-10-15 21:44:54
    在机器学习中建模的时候,往往面临两个困难,一是... 看到这个标题,对于初学机器学习的人来说,也许会非常不解,难道在有数据缺失和没数据缺失的情况下,选择模型还会不一样?是的。 1、 在数据缺失时,如何选择合
  • 模型选择和训练、验证、测试集

    千次阅读 2019-04-06 10:46:13
    我们是根据测试集的数据来选择模型和评估检测的,但是这是一个不过你公平的过程,因为我们用来进行模型选择和评估的数据是一组相同的数据,拟合的情况肯定很好,但是对于那些没有出现在测试集中的数据没有泛化作用。...
  • 最优模型选择的准则:AIC、BIC准则

    万次阅读 多人点赞 2018-07-30 16:34:46
    选择最优模型的指导思想是从两个方面去考察:一个是似然函数最大化,另一个是模型中的未知参数个数最小化。似然函数值越大说明模型拟合的效果越好,但是我们不能单纯地以拟合精度来衡量模型的优劣,这样回导致模型中...
  • 模型选择和交叉验证

    万次阅读 2018-05-16 13:10:06
    模型选择 holdout方法 在典型的机器学习应用中,为进一步提高模型在预测未知数据的性能,还要对不同的参数设置进行调优和比较,该过程称为模型选择。指的是针对某一特定问题,调整参数以寻求最优超参数的过程。 ...
  • scikit-learn进行模型参数的选择

    千次阅读 2016-05-08 10:18:57
    我们该怎样选择模型用于监督学习任务?我们该如何选择调整得到最好的模型参数?我们该如何对测试数据进行预测估计? 1. 使用整个数据集进行训练和测试 这里我们使用手中的整个数据集来训练模型...
  • 交叉验证--模型参数选择

    千次阅读 2016-07-06 14:50:31
    机器学习中有监督的学习,通过标注data训练model时,通常采用交叉验证的方法选择模型参数。 将有标注的data分为训练集,(交叉)验证集,测试集三份: 机器学习的model中,有些模型参数是需要事先指定的,...
  • 模型选择之交叉验证

    千次阅读 2014-11-11 15:28:42
    比如说,在正则化后的logistic regression中,正则项和损失函数之间的参数t就是一个超参数,不同的t取值对应了不同的模型,我们对于t的选取实际上也就是对模型选择,我们试图找到一个t,使得t对应的模型最优。...
  • 对于解决同一个问题,如怎么选择模型去拟合线性回归中只有一个特征时房价预测问题,如可能有不同的模型去解决,如: 1、d = 1,h(θ) = θ0+θ1x 2、d = 2,h(θ) = θ0+θ1x+θ2x^2 3、d = 3,h(θ) = θ0...
  • 作者:Sebastian Raschka翻译:reason_W编辑:周翔简介正确使用模型评估、模型选择和算法选择技术无论是对机器学习学术研究还是工业场景应用都至关重要。本文将对这三个任务的相关技术进行回顾,并就每种技术的理论...
  • 统计分析:模型评估和模型选择

    千次阅读 2016-01-22 10:22:01
    机器学习算法 原理、实现与实战——模型评估与模型选择原文地址:http://www.cnblogs.com/ronny/p/4062792.html1. 训练误差与测试误差机器学习的目的是使学习到的模型不仅对已知数据而且对未知数据都能有很好的预测...
  • 通过模型进行特征选择

    万次阅读 多人点赞 2018-01-15 15:17:55
    sklearn在Feature selection模块中内置了一个SelectFromModel,该模型可以通过Model本身给出的指标对特征进行选择,其作用与其名字高度一致,select (feature) from model。 SelectFromModel 是一个通用转换器,其...
  • 我们该怎样选择模型用于监督学习任务?我们该如何选择调整得到最好的模型参数?我们该如何对测试数据进行预测估计? 1. 使用整个数据集进行训练和测试 这里我们使用手中的整个数据集来训练模型使用同样的...
  • 十、模型自变量选择方法

    万次阅读 2018-07-18 19:51:22
    本文将详细介绍模型选择方法 一、概念 模型选择方法的想法很直观。它回答了以下问题: 如何为最佳模型选择正确的输入变量? 如何定义最佳模型? 最优模型是使数据与评估指标的最佳值相匹配的模型。 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,185,926
精华内容 474,370
关键字:

怎么选择模型