精华内容
下载资源
问答
  • 学习曲线和遗忘曲线

    千次阅读 2015-08-13 01:51:59
    学习曲线的定义为"在一定时间内获得的技能或知识的速率",又称练习曲线(practice curves)。 人们为了知道学习进程中的现象和进步的快慢的详情,作为以后努力的指针,应用统计图的方法作一条线,把它表示出来。...
    学习曲线的定义为"在一定时间内获得的技能或知识的速率",又称练习曲线(practice curves)。
    人们为了知道学习进程中的现象和进步的快慢的详情,作为以后努力的指针,应用统计图的方法作一条线,把它表示出来。它源于“二战”时期的飞机工业,当产量上升时,生产每架飞机的劳动时间会极大地下降。随后的研究表明,在许多行业都存在这种现象。学习曲线体现了熟能生巧。
    中文名
    学习曲线
    外文名
    learning curve
    横    轴
    表示反复次数
    纵    轴
    各种学习测试的学习过程的曲线
    类    型
    曲线
    定    义
    获得的技能或知识的速率

    1简介编辑

    学习曲线learning curve 以横轴表示反复次数(探索次数)。以纵轴表示各种学习测试的学习过程的曲线。作为学习测试,在用错误数、时间、反应潜时等情况下的负加速下降曲线,如果用正反应数或正反应率为纵坐标。则呈S型或负加速的上升曲线。然而这些曲线型。不仅表示学习效果的增减。而且根据测试的特性,多依赖于理论的界限、生理或行为的界限。另外,把直到学习成功所需的反复探索数并不相同的许多个体资料,简单地取反复探索次数的平均值来表示,则难以表示学习过程的特征,导致错误的结论。所以提出了将学习开始和完成时期划齐,即用各个体的横轴或伸或缩,将曲线加合起来的方法。这样得到的平均曲线称为奋森曲线(Vincent curve),但几乎无人使用,不过对从个体所得到的资料还是受重视的。
    学习曲线也称为经验曲线,是随着产品累计产量的增加,单位产品的成本会以一定的比例下降。学习曲线(Learning curve)是表示单位产品生产时间与所生产的产品总数量之间的关系的一条曲线。
    熟练工程,也称动态评价技术。他们对缩短工时进行动态评价的技术,广泛应用于生产领域中。
    学习曲线将学习效果数量化绘制于坐标纸上,横轴代表练习次数(或产量),纵轴代表学习的效果(单位产品所耗时间),这样绘制出的一条曲线,就是学习曲线。
    学习曲线有广义和狭义之分。狭义的学习曲线又称为人员学习曲线,它是指直接作业人员个人的学习曲线。广义的学习曲线也称为生产进步函数,是指工业某一行业或某一产品在其产品寿命周期的学习曲线,是融合技术进步、管理水平提高等许多人努力的学习曲线。
    学习曲线是在飞机制造业中首先发现的,利用数据和资料为企业经营管理工作提供预测和决策依据的一种方法,是引起非线性成本的一个重要原因。美国康乃尔大学的商特博士总结飞机制造经验而得出了学习曲线规律,认为每当飞机的产量积累增加1倍时,平均单位工时就下降约20%,即下降到产量加倍前的80%。商特则将累积平均工时与产量的函数称为“学习曲线”。
    学习曲线体现了熟能生巧。学习曲线是分析采购成本、实施采购降价的一个重要工具和手段。学习带来成本的降低,其原因可以归结为以下因素:
    (1)随着生产经验的丰富,提高了操作人员的操作速度;
    (2)降低报废率和更正率;
    (3)改进了操作程序;
    (4)因生产经验带来模具设计的改进;
    (5)价值工程和价值分析的应用。
    学习曲线(图2)学习曲线(图2)

    2概念编辑

    在考虑产能大小的决定时,往往要考虑到学习效应这一决定产能大小的重要因素。所谓学习效应是指当以个人或一个组织重复地做某一产品时,做单位产品所需的时间会随着产品数量的增加而逐渐减少,然后才趋于稳定。如下图所示:
    由上图可以看出,学习效应包括两个阶段:一是学习阶段,单位产品的生产时间随产品数量的增加逐渐减少;二是标准阶段,学习效应可忽略不计,可用标准时间进行生产。上图中的曲线称为学习曲线(learning curves)。它所表示的是单位产品的直接劳动时间和累积产量之间的关系。类似的表示学习效应的概念还有“制造进步函数”(manufacturing progress function)和“经验曲线”(experience curve),但它们所描述的不是单位产品直接劳动时间与累积产量之间的关系,而是单位产品的附加成本与累积数量之间的关系。这两种曲线的原理与学习曲线是相同的。
    常见的学习效应有两种:个人学习和组织学习。所谓个人学习,是指当一个人重复地做某一产品时,由于动作逐渐熟练,或者逐渐摸索到一些更有效的作业方法后,作一件产品所需的工作时间(即直接劳动时间)会随着产品累积数量的增加而减少。组织学习是指管理方面的学习,指一个企业在产品设计、工艺设计、自动化水平提高、生产组织以及其他资本投资等方面的经验累积过程,也是一个不断改进管理方法,提高人员作业效率的过程。

    3影响因素编辑

    学习曲线(图3)学习曲线(图3)
    学习效果受许多因素的影响,主要有:
    1)操作者的动作熟练程度。这是影响学习曲线的最基本因素
    2)管理技术的改善,正确的培训、指导,充分的生产准备与周到的服务,工资奖励及惩罚等管理政策的运用
    3)产品设计的改善
    4)生产设备与工具的质量
    5)各种材料的连续供应和质量
    6)信息反馈的及时性
    7)专业化分工程度

    4方程编辑

    三个假设

    1)每次完成给定任务或者单位产品后,下一次完成该任务或单位产品的时间将减少;
    2)单位产品完成时间将以一种递减的速度下降;
    3)单位产品完成时间的减少将循环一个可以预测的模式。
    学习曲线方程的一般形式是:
    yx=kxn(n为x的指数)
    式中: x=单位数量
    yx=生产第x个产品所需的直接劳动小时数
    k=生产第一个产品所需的直接劳动小时数
    n=lgb/lgx,其中b=学习比例

    绘制


    为了绘制一条有用的学习曲线,有许多种对以前数据进行分析的方法。首先我们将按数学程序采用简单的指数曲线,接着将进行对数分析。在数学制表方法中,一列产品单位数量通过依次倍乘的方式得出,如:1、2、4、8、16……生产第1个单位产品的时间乘以一个学习率得出生产第一、第二件商品的平均时间,生产第1、2个单位产品的时间再乘以一个学习率将得出生产第1~4个单位产品的平均时间时间,依此类推,因此,如果我们绘制一条80%的学习曲线,将得到下表1(80%的学习曲线所需的单位、累计、累计平均值劳动时间)中第2列的数字。为便于计划通常要知道累计直接劳动时间,下表1(80%的学习曲线所需的单位、累计、累计平均值劳动时间)的第4列也提供了这方面的信息。这些数字的计算比较简单。

    5分析编辑

    对数分析

    学习曲线方程的标准形式是(此方程说明随着生产数量的增加,任何一个给定单位产品的直接劳动小时数将按指数规律递减):
    n
    Yx=KX
    式中:X----单位数量;
    Yx---生产第X个产品所需要的直接劳动小时数;
    K----生产第一个产品所需要的直接劳动小时数;
    n----㏒b/㏒2 其中b为学习率
    上述问题我们可经用数学方法解决,好可以用下面的表来解决。
    例题:
    利用数学方法我们计算上表一中第8个单位产品所需要的劳动时间。
    我们利用下式计算:
    n
    Yx=KX
    ㏒0.8/㏒2 -0.322  0.322
    Y8=100 000×8 =100 000×8 =100 000/8
    =100 000/1.9535
    =51 192
    因此生产第8个产品将需要52 192小时。

    学习曲线表

    知道学习率后,就可以利用下面给出的表2和表3非常方便的估计出某一特定产品或某一组产品的劳动时间。我们只需要把最初的劳动小时数乘以表中给出的相应值。
    方法详解如下:
    假设我们检查上表1中第16个单位产品的劳动小时数和累计劳动小时数。我们从下表2可以查知,第16个单位产品在80%的学习率下提高系数为0.4096,该数乘以生产第一个单位产品的小时数100 000得到40960,验证同上表一中给出的完全一样。从下表3中查知,前16个单位产品的累计提高系数为8.920,同样乘以生产第一个单位产品的小时间数100 000后得到892000。同上表1中得出的值892014非常接近。

    学习率的估计

    如果已经开始生产了一段时间,通过以前的生产记录能够很容易的得到学习率。一般来说,生产时间越长,评估就越准确,因为生产的初期可能发生很多情况,所以大部分的生产公司直到生产了一些产品后才收集用于学习曲线分析的数据。
    在估计学习率时还应采用统计分析。采用指数学习曲线可以看出该曲线对以前数据的符合程度。这些数据也可以在对数坐标纸上绘制,以观察其是否具有直线性。
    如果生产还未开始,对学习率的估计就是一个具有启发性的猜测问题。在这种情况下,分析员有以下三种选择:
    1、假设估计的学习率同以前性质的企业中的学习率一样;
    2、假设估计的学习率与同样的或类似的产品的学习率是一样的;
    3、分析学习前的运转方式与前面的运转方式的相同点和不同点,并由此得出适合此种情况的经过修正的学习率。

    6应用编辑

    学习曲线(图4)学习曲线(图4)
    1)在生产制造方面,它可以应用于估计产品设计时间和生产时间,同时可以应用于估计成本
    2)学习曲线也是公司战略设计的组成部分,比如价格、投资成本和营运成本的决策
    3)应用于个体学习组织学习的能力。
    4)学习曲线如使用不当也是有一定风险的。这是指管理人员往往容易忘记环境动态变化的特性,在这种情况下,环境变化中的不测因素有可能影响学习规律,从而给企业带来损失。一个著名事例是道格拉斯飞机制造公司被麦克唐纳兼并的事例。道格拉斯飞机曾经根据学习曲线估计它的某种新型喷气式飞机成本能够降低,于是对顾客许诺了价格和交货日期,但是飞机在制造过程中不断地修改工艺,致使学习曲线遭破坏,也未能实现成本降低,因此遇到了严重的财务危机,不得不被兼并。
    学习曲线法则是指在一个合理的时间段内,连续进行有固定模式的重复工作,工作效率会按照一定的比率递增,从而使单位任务量耗时呈现一条向下的曲线。学习曲线效应是在以下两种因素的共同作用下产生的:一是熟能生巧,连续进行有固定套路的工作,操作会越来越熟练,完成单位任务量的工作时间会越来越短;二是规模效应,生产10件产品与100件产品所需要的生产准备时间、各生产环节间的转换时间是一样的,因此一次生产的产品越多,分摊到每件产品上的准备时间和转换时间越少,单位生产效率越高。
    学习曲线法则告诉我们,应尽量集中处理性质相同的事务性工作, 如一次性处理具有相同性质的所有文件,一次性打完所有的沟通电话,一次购齐所需的生活用品,一次性做完所有家务等。这样既有利于提高工作的熟练程度,又能通过批量作业减少准备工作和中间环节占用的时间,从而达到节约时间、提高效率的目的。
    例题:
    某数码电子有限公司有一条手动插件生产线,该线有35名员工,手工插14英寸彩色电视机主板日产量为1200块,每个主板的单位生产成本为9元人民币。生产线管理人员要求,在一个星期内该生产线累计完成10000块。问每块主板的单位生产成本是多少?
    如果该生产线的经验曲线为90%,那么,一星期内该生产线累计完成10000块主板的生产成本应该是:9×90%=8.10元人民币。
    学习曲线可通过数学列表、数学对数或其它的一些曲线拟合方法得到,这取决于可利用数据的形式及可利用数据的多少。
    从学习曲线考虑,效率的提高有二种方法,既单位产品生产时间学习曲线或单位时间生产量学习曲线。
    单位产品生产时间学习曲线给出了每连续生产一件产品所需要的生产时间,累计平均时间曲线给出了产品总数目增加时的累计平均操作时间。单位产品生产时间曲线和累计平均时间曲线也称为“进步曲线”、“产品学习曲线”,它们对于复杂的产品或生产周期长的产品较适应。单位时间生产量曲线也称为工业学习曲线,通常用于大量生产(短周期)。

    7指导编辑

    学习曲线(图7)学习曲线(图7)
    1、个人学习
    有许多因素影响个人的表现和学习率。学习率和初始水平是其中最重要的两个因素。我们假定为了完成一项简单任务,测试两个员工生产某件产品的时间,这项测试被行政部用来作为对装配线上招聘员工考核的一部分。
    有两个人应聘装配线员工,你将聘用那一个?应聘者A开始效率高但学习速度慢;应聘者B虽然开始效率低,但是他的学习速度很快。很明显B是一个更好的聘用人。以上说明不仅学习率本身很重要,起始操作时间也很重要。
    为了改善个人的操作水平,基于学习曲线的一般指导方针有:
    ⑴合理选择员工。应采用某些测试来帮助选择员工;这些测试对计划好的工作具有代表性:装配工作测试其灵巧性,脑力工作测试其脑力劳动能力,服务性工作测度其与顾客沟通的能力等。
    ⑵合理的培训。培训方式越有效,学习率就越高。
    ⑶激励。除非有报酬,否则基于学习曲线的生产任务很难完成。
    工作专业化。一般的规律是:任务愈简单,学习的愈快。应注意由于长期操作同一作业所导致的厌烦感是否会对工作产生干扰。如果确实对工作产生了干扰,那么就要对任务进行重新设计。
    ⑸一次完成一项或很少的作业。对于每一项工作,一次只完成一项比同时做所有的工作学习的快。
    ⑹使用能够辅助或支持操作的工具或设备。
    ⑺能够提供快速而简单响应帮助的方法。
    ⑻让员工协助重新设计他们的工作。把更多的操作因素考虑到学习曲线的范围中,实际上能够使曲线向下倾斜的速度更快。
    组织同样也在学习,从工业工程(IE)角度考虑组织学习对于企业间的竞争也是关键的。对于个人来说,知识如何获得和保存以及这些将对个人学习产生多大的影响等方面的概念很容易建立。当然组织学习主要源于所有聘用员工个人学习的结果。
    例如:随着操作者越来越熟练,知识就嵌入到软件和操作方法中去了。知识也可以嵌入到组织的结构中去。如:当一个组织把它的工业工程(IE)团队从集中于某一地点的功能组织中转移到员工分散在工厂各地的分权组织中时,怎样提高生产率这些方面的知识将会嵌入到组织结构中去。
    如果个人离开组织,知识将贬值。
    如果技术水平达不到或难以使用,知识也会贬值。
    例题:
    一个求职者正在测试自己能否胜任一条装配线上的工作,管理部门认为,在操作1000次后就大体上达到了稳定状态。预计普通装配员工在4分钟内完成该任务。
    ⑴如果求职者第一次操作时间为10分钟,第二次操作为9分钟,是否该聘用此求职者?
    ⑵该求职者第10次操作的预期时间是多少?
    解:
    ⑴学习率=9分钟/10分钟=90%
    从上表三中查知,第1000次操作要求的时间为0.3499×10分阶段钟=3.449分钟。因此,该聘用此人。
    ⑵从上表二中查知,学习率在90%时,第10次操作的提高系数为0.7047,因此第10次操作时间为0.7047×10=7.047分钟。

    遗忘曲线 

    遗忘曲线由德国心理学家艾宾浩斯(H.Ebbinghaus)研究发现,描述了人类大脑对新事物遗忘的规律。人体大脑对新事物遗忘的循序渐进的直观描述,人们可以从遗忘曲线中掌握遗忘规律并加以利用,从而提升自我记忆能力。该曲线对人类记忆认知研究产生了重大影响。
    中文名
    艾宾浩斯遗忘曲线
    外文名
    The Ebbinghaus Forgetting Curve
    别    称
    遗忘曲线
    提出者
    艾宾浩斯
    提出时间
    1885年
    应用学科
    生理学
    适用领域范围
    大脑记忆规律研究

    1一般规律

    德国心理学家艾宾浩斯(H.Ebbinghaus)研究发现,遗忘在学习之后立即开始,而且遗忘的进程并不是均匀的。最初遗忘速度很快,以后逐渐缓慢。他认为"保持和遗忘是时间的函数",他用无意义音节(由若干音节字母组成、能够读出、但无内容意义即不是词的音节)作记忆材料,用节省法计算保持和遗忘的数量。[1] 并根据他的实验结果绘成描述遗忘进程的曲线,即著名的艾宾浩斯记忆遗忘曲线[2] 
    时间间隔 记忆量
    刚记完
    100%
    20分钟后
    58.2%
    1小时后
    44.2%
    8~9小时后
    35.8%
    1天后
    33.7%
    2天后
    27.8%
    6天后
    25.4%
    设初次记忆后经过了x小时,那么记忆率y近似地满足y=1-0.56x^0.06
    这条曲线告诉人们在学习中的遗忘是有规律的,遗忘的进程很快,并且先快后慢。观察曲线,你会发现,学得的知识在一天后,如不抓紧复习,就只剩下原来的25%。随着时间的推移,遗忘的速度减慢,遗忘的数量也就减少。有人做过一个实验,两组学生学习一段课文, 甲组在学习后不复习,一天后记忆率36%,一周后只剩13%。乙组按艾宾浩斯记忆规律复习,一天后保持记忆率98%,一周后保持86%, 乙组的记忆率明显高于甲组。
    使用艾宾浩斯遗忘曲线复习计划表后的效果图

    2记忆

    技巧

    人的大脑是一个记忆的宝库,人脑经历过的事物,思考过的问题,体验过的情感情绪,练习过的动作,都可以成为人们记忆的内容。例如英文的学习中单词短语句子,甚至文章的内容都是通过记忆完成的。从"记"到"忆"是有个过程的,这其中包括了识记、保持、再认和回忆。有很多人在学习英语的过程中,只注重了学习当时的记忆效果,孰不知,要想做好学习的记忆工作,是要下一番工夫的,单纯的注重当时的记忆效果,而忽视了后期的保持和再认,同样是达不到良好的效果的。

    空间

    在信息的处理上,记忆是对输入信息的编码、贮存和提取的过程,从信息处理的角度上,英文的第一次学习和背诵只是一个输入编码的过程。人的记忆的能力从生理上讲是十分惊人的,它可以存贮10的15次方比特(二进制数字中的位,信息量的度量单位,是由英文BIT音译而来,为信息量的最小单位)的信息,理论上可以将全世界图书馆的所有图书信息记住。这是因为,有些人只关注了记忆的当时效果,却忽视了记忆中的更大的问题--即记忆的牢固度问题,那就牵涉到心理学中常说的关于记忆遗忘的规律。

    3曲线

    根据我们所知道的,记忆的保持在时间上是不同的,有短时的记忆和长时的记忆两种。
    输入的信息在经过人的注意过程的学习后,便成为了人的短时的记忆,但是如果不经过及时的复习,这些记住过的东西就会遗忘,而经过了及时的复习,这些短时的记忆就会成为了人的一种长时的记忆,从而在大脑中保存着很长的时间。他得出一些关于记忆的结论。他选用了一些根本没有意义的音节(由两个辅音夹着一个元音构成的无意义的三字母单兀,例如CEG,DAX。 
    遗忘曲线
    遗忘曲线(2张)
    他经过对自己的测试,得到了一些数据。
    然后,艾宾浩斯又根据了这些点描绘出了一条曲线,这就是非常有名的揭示遗忘规律的曲线:艾宾浩斯遗忘曲线,图中竖轴表示记忆程度(用来表示机械记忆的保持程度),横轴表示时间(天数),曲线表示机械学习实验的结果。
    这条曲线告诉人们在学习中的遗忘是有规律的,遗忘的进程不是均衡的,不是固定的一天丢掉几个,转天又丢几个的,而是在记忆的最初阶段遗忘的速度很快,后来就逐渐减慢了,到了相当长的时候后,几乎就不再遗忘了,这就是遗忘的发展规律,即"先快后慢"的原则。观察这条遗忘曲线,你会发现,学得的知识在一天后,如不抓紧复习,就只剩下原来的25%。随着时间的推移,遗忘的速度减慢,遗忘的数量也就减少。

    差异

    而且,艾宾浩斯还在关于记忆的实验中发现,记住12个无意义音节,平均需要重复16.5次;为了记住36个无意义章节,需重复54次;而记忆六首诗中的480个音节,平均只需要重复8次!这个实验告诉我们,凡是理解了的知识,就能记得迅速、全面而牢固。不然,愣是死记硬背,那也是费力不讨好的。因此,比较容易记忆的是那些有意义的材料,而那些无意义的材料在记忆的时候比较费力气,在以后回忆起来的时候也很不轻松。因此,艾宾浩斯遗忘曲线是关于遗忘的一种曲线,而且是对无意义的音节而言,对于与其他材料的对比,艾宾浩斯又得出了不同性质材料的不同遗忘曲线,不过他们大体上都是一致的。
    因此,艾宾浩斯的实验向我们充分证实了一个道理,学习要勤于复习,而且记忆的理解效果越好,遗忘的也越慢。[3] 

    个性化

    上述的艾宾浩斯记忆曲线是艾宾浩斯在实验室中经过了大量测试后,产生了不同的记忆数据,从而生成的一种曲线,是一个具有共性的群体规律。此记忆曲线并不考虑接受试验个人的个性特点,而是寻求一种处于平衡点的记忆规律。
    但是记忆规律可以具体到我们每个人,因为我们的生理特点、生活经历不同,可能导致我们有不同的记忆习惯、记忆方式、记忆特点。规律对于自然人改造世界的行为,只能起一个催化的作用,如果与每个人的记忆特点相吻合,那么就如顺水扬帆,一日千里;如果与个人记忆特点相悖,记忆效果则会大打折扣。因此,我们要根据每个人的不同特点,寻找到属于自己的艾宾浩斯记忆遗忘曲线

    4定量性

    美国1999年世界记忆学大会上公布了一个成果,是“关于艾宾浩斯记忆曲线的定量性研究”研究成果表明在人类大脑记忆过程中,在某一时间内,会形成三种记忆,即感觉记忆短时记忆和联想记忆,如图所示:
    这个是一个记忆事件,我们以一个记单词事件为例,当记单词事件发生后,你在几秒钟之内会产生一个“感觉记忆”,这个感觉记忆转瞬即失,每个人各不相同,但基本上都在3、4秒之内,这个在记单词时不会感觉太深,在什么时候感觉深呢?感觉记忆之后还会有一个“短时记忆”,也叫“工作记忆”。这个记忆的延续时间也各不相同,大概在4~16个小时之间,不同的人相差四倍,这个在什么时候用到呢?比如:老师在课间给学生说:下节课要听写昨天学的单词,你特别着急,下课后赶紧背,管不管用,管用!但是放学回家吃顿饭或玩了一下,就什么也记不起来了,这是短时记忆,也是记完后马上会消失掉。在这两个记忆消失的过程中,会产生一个长时记忆痕迹,这是我们最关心的东西,也是最有用的东西,你真正的记忆,学习一个单词,学习任何东西,都会用到长时记忆痕迹,它是一个抛物线,就会有个最顶点,是个最高点,这是你这次记忆单词的记忆最强点,这个点能产生一个记忆强度,在这,还能产生一个记忆时间T,在某个时间段,你对这次记忆单词会产生一个这次的一个最强点,那么,我们简单的来说,如果有谁能找到这点,这个时间段T,在这进行第二次的拉高复习,这是最有效的,我们翻书,我们看小纸片,其实是在模拟这个T,这个重复时间,即记忆黄金序列是由每个遗忘点排列而成。
    科学家们评价说如果说内燃机的发明把人类从繁重的体力劳动中解放出来,记忆核系统将把人类从学习过程中繁重的脑力劳动中解放出来。这场人类脑力的革命,将让大脑突破其生理极限运转,大大超越人类现有的学习速度,从根本上改变人类传统学习方式。

    5艾宾浩斯

    保持和遗忘是一对冤家对头。你对以前学过的知识能够
    艾宾浩斯遗忘曲线艾宾浩斯遗忘曲线
    回忆起来,就是保持住了,如果回忆不起来或回忆错了,就是遗忘。
    德国心理学家艾宾浩斯(Hermann Ebbinghaus)对遗忘现象做了系统的研究,他用无意义的音节作为记忆的材料,把实验数据绘制成一条曲线,称为艾宾浩斯遗忘曲线。
    这条曲线一般称为艾宾浩斯遗忘曲线,也称艾宾浩斯保持曲线,它的纵坐标代表保持量。曲线表明了遗忘发展的一条规律:遗忘进程是不均衡的,在识记的最初遗忘很快,以后逐渐缓慢,到了相当的时间,几乎就不再遗忘了,也就是遗忘的发展是“先快后慢”。
    遗忘的进程不仅受时间因素的制约,也受其他因素的制约。学生最先遗忘的是没有重要意义的、不感兴趣、不需要的材料。不熟悉的比熟悉的遗忘的要早。
    人们对无意义的音节的遗忘速度快于对散文的遗忘,而对散文的遗忘速度又快于有韵律诗。
    在学习过程中,对一种材料达到一次完全正确地背诵后仍然继续学习,叫做过度学习。适当的过度学习可以使学习的材料保持得更好。研究结果表明,适当限度的过度学习比刚能背诵的效果好,但如果超过这个限度,其保持效果不再增加。如学习四遍后恰能背诵,则再学习两遍效果最好,但再学习效果则适得其反,对人的身心造成危害。
    一般记住后,在5分钟后重复一遍,20分钟后再重复一遍,1小时后,12小时后,1天后,2天后,5天后,8天后,14天后就会记得很牢。

    6主要贡献

    第一个在心理学史上对记忆进行系统实验的是德国著名心理学家艾宾浩斯。他对记忆研究的主要贡献一是对记忆进行严格数量化的测定,二是对记忆的保持规律作了重要研究并绘制出了著名的“艾宾浩斯遗忘曲线”1886年他出版了《论记忆》一书。从此,记忆成了心理学研究的重要领域。[3] 

    7运用

    复习点的确定

    1. 第一个记忆周期:5分钟
    2. 第二个记忆周期:30分钟
    3. 第三个记忆周期:12小时
    4. 第四个记忆周期:1天
    5. 第五个记忆周期:2天
    6. 第六个记忆周期:4天
    7. 第七个记忆周期:7天
    8. 第八个记忆周期:15天

    背诵方法

    1. 初记单词时需要记忆的内容:
    a)单词外观,b) 单词的中文释义,c) 单词的记忆法
    2. 每个list的具体背诵过程(每个list按12页,每页10个单词计):
    a) 背完一页(大约5分钟),立即返回该页第一个单词开始复习(大约几十秒)
    b) 按上面方法背完1~6页(大约在30分钟),回到第1页开始复习(两三分钟)
    c) 按上面同样方法背完7~12页,一个list结束
    d) 相当于每个list被分为12个小的单元,每个小的单元自成一个复习系统;每6个小单元组成一个大单元,2个大单元各自成为一个复习系统。背一个list总共需要一小时左右的时间。

    复习过程

    a) 复习方法:遮住中文释义,尽力回忆该单词的意思,几遍下来都记不住的单词可以做记号重点记忆。
    b) 复习一个list所需的时间为20分钟以内
    c) 当天的list最好在中午之前背完,大约12小时之后(最好睡觉前)复习当天所背的list
    d) 在其后的1,2,4,7,15天后分别复习当日所背的list
    e)复习的原则
    时间间隔:30秒 1分钟 5分钟 30分钟 1小时 8小时 1天 2天 6天 31天
    重学节省诵读时间百分数:58.2 44.2 35.8 33.7 27.8 25.4 21.1

    复习点的确定

    人的记忆周期分为短期记忆和长期记忆两种。
    第一个记忆周期是 5分钟
    第二个记忆周期是30分钟
    第三个记忆周期是12小时
    这三个记忆周期属于短期记忆的范畴。
    下面是几个比较重要的周期。
    第四个记忆周期是 1天
    第五个记忆周期是 2天
    第六个记忆周期是 4天
    第七个记忆周期是 7天
    第八个记忆周期是15天
    以上的8个周期应用于背词法,作为一个大的背词的循环的8个复习点,可以最大程度的提高背单词的效率
    背单词就找个小本子窄窄的那种,每页中间对折左边英文右边中文,每天背100个,分5组每组20个,每一个看过留下读音和拼写的印象,基本上5~8分钟一组,全部5组大概看30分钟,最好不要超过40分钟,然后再从第一组再看,每天一百个新的,看过的按记忆周期在第2、4、7、15天重新复习,基本每天进行的300~400个单词记忆。

    注意事项

    a) 每天连续背诵2个list,并完成复习任务;
    b) 复习永远比记新词重要,要反复高频率的复习,复习,再复习;
    c) 一天都不能间断,坚持挺过这15天,之后每天都要花大约1小时复习;
    6. 时间表(左边序号表示第几天,*号之后表示复习内容)

      第1天 list1→2 *list1→2
      第2天 *list1→2 list3→4 *list3→4
      第3天 *list3→4 list5→6 *list5→6
      第4天 *list1→2 *list5→6 list7→8 *list7→8
      第5天 *list3→4 *list7→8 list9→10 *list9→10
      第6天 *list5→6 *list9→10 list11→12 *list11→12
      第7天 *list1→2 *list7→8 *list11→12 list13→14 *list13→14
      第8天 *list3→4 *list9→10 *list13→14 list15→16 *list15→16
      第9天 *list5→6 *list11→12 *list15→16 list17→18 *list17→18
      第10天 *list7→8 *list13→14 *list17→18 list19→20 *list19→20
      第11天 *list9→10 *list15→16 *list19→20 list21→22 *list21→22
      第12天 *list11→12 *list17→18 *list21→22 list23→24 *list23→24
      第13天 *list13→14 *list19→20 *list23→24
      第14天 *list15→16 *list21→22
      第15天 *list1→2 *list17→18 *list23→24
      第16天 *list3→4 *list19→20
      第17天 *list5→6 *list21→22
      第18天 *list7→8 *list23→24
      第19天 *list9→10
      第24天 *list19→20
      第25天 *list21→22
      第26天 *list23→24
      第27天
      第28天
      第29天
      第30天 *list1→2
      第31天 *list3→4
      第32天 *list5→6
      第33天 *list7→8
      第34天 *list9→10
      第35天 *list11→12
      第36天 *list13→14
      第37天 *list15→16
      第38天 *list17→18
      第39天 *list19→20
      第40天 *list21→22
      第41天 *list23→24
      起始(单元或页码)编号为1
      截止(单元或页码)编号为24
      总共需要复习的编号数为24
      每天需要复习的编号数为2
      你需要41天时间完成任务[4] 

    8相关信息

    遗忘曲线对于英语学习的帮助
    那么,对于我们来讲,怎样才叫做遗忘呢,所谓遗忘就是我们对于曾经记忆过的东西不能再认起来,也不能回忆起来,或者是错误的再认和错误的回忆,这些都是遗忘。艾宾浩斯在做这个实验的时候是拿自己作为测试对象的,他得出了一些关于记忆的结论。他选用了一些根本没有意义的音节,采用辅音音节-元音音节-辅音音节的组合方式,比如rok,goch,tis,等等。他经过对自己的测试,得到了一些数据。[5] 
    这条曲线告诉人们在学习中的遗忘是有规律的,遗忘的进程不是均衡的,不是固定的一天丢掉几个,转天又丢几个的,而是在记忆的最初阶段遗忘的速度很快,后来就逐渐减慢了,到了相当长的时候后,几乎就不再遗忘了,这就是遗忘的发展规律,即"先快后慢"的原则。观察这条遗忘曲线,你会发现,学得的知识在一天后,如不抓紧复习,就只剩下原来的25%)。随着时间的推移,遗忘的速度减慢,遗忘的数量也就减少。
    纠正这些错误,一年出口成章没问题
    错误一:说英语要有词汇量,单词背得越多越好
    一个人的词汇量是一个长期的日积月累的过程,绝不是一两个月的突击就能有好效果的。况且,大部分人都没有这么好的记忆力,会被这种枯燥的背单词“工程”吓倒的,到头来还是会选择放弃。研究表明:最常用的前5000个单词,出现几率或使用频率达97%。一个人的词汇量在5000左右就可以和老外正常的交流了,重要的是培养自己造句子的能力,能不能用有限的词语造出不同的句子,举一反三,把不同的句子用在不同的场合,再根据自己的生活和工作所需,去补充一些新的单词,理解地记下来,然后使用他们,渐渐地你就具备了驾驭英语的能力,从而快速走出“要学英语,先背单词”这个大大的误区。
    错误二:只要集中时间学习,英语也可以速成
    依照艾宾浩斯遗忘曲线,我们应该知道只有按照大脑的记忆规律,才能把输入的信息变成长时规律。这就大大的说明了,各种速成学习法是靠不住的。最多只能增加你的短时记忆。而如果每周学习时间超过大脑可以负荷的学习时间,其学习就会变得无效,被大脑遗忘。但同时,我们也应该明白,在相同的有限学习时间内,如果可以遵循一定的规律记忆学习,就会比单纯的突击能取得更好的效果。
    错误三:光学不练,语言吸收和输出不成比例
    打个比方,假如你想学骑自行车。我给你一本题目叫"如何骑自行车"的书,把书从头背到底,甚至倒背如流,但你肯定还是不会骑。原因是骑自行车不是简单的知识问题,它首先是一项技能。要学会一项技能,核心问题是练,光有书本知识是不行的。学外语当然比学骑自行车要复杂得多,但它首先也是一项技能,光看语法书、默背单词是远远不够的。必须练,要把知识变成技能。知道不等于知道怎么做。知道怎么做不等于实际上会做。从知道怎么做到实际会做中间有个反复练习的环节。
    错误四:学习缺乏系统性,学一套说一套
    市场上学英语的资料、方法、信息铺天盖地,处理不好就会带来不良的后果。今天用这个学、明天换另一个,或者干脆学习的内容和练习表达的内容毫无关系,学习便失去了系统性,也就无法达成完整的语言使用系统。

    展开全文
  • 机器学习——标准化/归一化的目的和作用

    万次阅读 多人点赞 2017-10-27 09:25:44
    机器学习——归一化的目的、作用和场景 1) 首先,数据标准化是为了将不同数量级的数据变成同一数量级,消除数量级的影响,比如:在K近邻算法中,如果不对解释变量进行标准化,那么具有小数量级的解释变量的...

    机器学习——标准化/归一化的目的、作用和场景


    (一)归一化的作用

    在机器学习领域中,不同评价指标(即特征向量中的不同特征就是所述的不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。其中,最典型的就是数据的归一化处理。(可以参考学习:数据标准化/归一化

    简而言之,归一化的目的就是使得预处理的数据被限定在一定的范围内(比如[0,1]或者[-1,1]),从而消除奇异样本数据导致的不良影响。

    1)在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0~1之间是统计的概率分布,归一化在-1~+1之间是统计的坐标分布。

    2)奇异样本数据是指相对于其他输入样本特别大或特别小的样本矢量(即特征向量),譬如,下面为具有两个特征的样本数据x1、x2、x3、x4、x5、x6(特征向量—>列向量),其中x6这个样本的两个特征相对其他样本而言相差比较大,因此,x6认为是奇异样本数据。


    奇异样本数据的存在会引起训练时间增大,同时也可能导致无法收敛,因此,当存在奇异样本数据时,在进行训练之前需要对预处理数据进行归一化;反之,不存在奇异样本数据时,则可以不进行归一化。

          解释范例http://www.cnblogs.com/silence-tommy/p/7113498.html

    --如果不进行归一化,那么由于特征向量中不同特征的取值相差较大,会导致目标函数变“扁”。这样在进行梯度下降的时候,梯度的方向就会偏离最小值的方向,走很多弯路,即训练时间过长。



    --如果进行归一化以后,目标函数会呈现比较“圆”,这样训练速度大大加快,少走很多弯路。


    综上可知,归一化有如下好处,即

    1)归一化后加快了梯度下降求最优解的速度;

    2)归一化有可能提高精度(如KNN)

    注:没有一种数据标准化的方法,放在每一个问题,放在每一个模型,都能提高算法精度和加速算法的收敛速度。



    (二)归一化的方法

    1)最大最小标准化(Min-Max Normalization

    a). 本归一化方法又称为离差标准化,使结果值映射到[0 ,1]之间,转换函数如下:

    为什么一些机器学习模型需要对数据进行归一化?

    b). 本归一化方法比较适用在数值比较集中的情况

    c). 缺陷:如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量来替代max和min。

    d).  应用场景:在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法(不包括Z-score方法)。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围

    2)Z-score标准化方法

    a). 数据处理后符合标准正态分布,即均值为0,标准差为1,其转化函数为:

    为什么一些机器学习模型需要对数据进行归一化?

    其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

    b). 本方法要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得很糟糕;

    c). 应用场景:分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,Z-score standardization表现更好。

    3)非线性归一化

    a). 本归一化方法经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。

    b). 该方法包括 log,正切等,需要根据数据分布的情况,决定非线性函数的曲线:

           ---log对数函数转换方法

    y = log10(x),即以10为底的对数转换函数,对应的归一化方法为:x' = log10(x) /log10(max),其中max表示样本数据的最大

    值,并且所有样本数据均要大于等于1.

    ---atan反正切函数转换方法

    利用反正切函数可以实现数据的归一化,即

    x' = atan(x)*(2/pi)

    使用这个方法需要注意的是如果想映射的区间为[01],则数据都应该大于等于0,小于0的数据将被映射到[10]区间上.

    ---L2范数归一化方法

    L2范数归一化就是特征向量中每个元素均除以向量的L2范数:

    (三)应用场景说明

    1)概率模型不需要归一化,因为这种模型不关心变量的取值,而是关心变量的分布和变量之间的条件概率;

    2)SVM、线性回归之类的最优化问题需要归一化,是否归一化主要在于是否关心变量取值;

    3)神经网络需要标准化处理,一般变量的取值在-1到1之间,这样做是为了弱化某些变量的值较大而对模型产生影响。一般神经网络中的隐藏层采用tanh激活函数比sigmod激活函数要好些,因为tanh双曲正切函数的取值[-1,1]之间,均值为0.

    4)在K近邻算法中,如果不对解释变量进行标准化,那么具有小数量级的解释变量的影响就会微乎其微。


    (四)参考文献:

    [1] http://blog.csdn.net/acdreamers/article/details/44664205

    [2] http://www.cnblogs.com/silence-tommy/p/7113498.html

    [3] http://blog.csdn.net/debug_snail/article/details/51781046

    [4] http://www.open-open.com/lib/view/open1429697131932.html

    [5] http://www.cnblogs.com/chaosimple/archive/2013/07/31/3227271.html

    [6] http://blog.csdn.net/zbc1090549839/article/details/44103801

    [7] http://blog.csdn.net/uestc_c2_403/article/details/75804617

    [8] http://blog.csdn.net/u011650143/article/details/71515927






    展开全文
  • 不同评价指标(即特征向量中的不同特征就是所述的不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比...



    (一)归一化的作用

    在机器学习领域中,不同评价指标(即特征向量中的不同特征就是所述的不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。其中,最典型的就是数据的归一化处理。(可以参考学习:数据标准化/归一化

    简而言之,归一化的目的就是使得预处理的数据被限定在一定的范围内(比如[0,1]或者[-1,1]),从而消除奇异样本数据导致的不良影响。

    1)在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0~1之间是统计的概率分布,归一化在-1~+1之间是统计的坐标分布。

    2)奇异样本数据是指相对于其他输入样本特别大或特别小的样本矢量(即特征向量),譬如,下面为具有两个特征的样本数据x1、x2、x3、x4、x5、x6(特征向量—>列向量),其中x6这个样本的两个特征相对其他样本而言相差比较大,因此,x6认为是奇异样本数据。


    奇异样本数据的存在会引起训练时间增大,同时也可能导致无法收敛,因此,当存在奇异样本数据时,在进行训练之前需要对预处理数据进行归一化;反之,不存在奇异样本数据时,则可以不进行归一化。

          解释范例http://www.cnblogs.com/silence-tommy/p/7113498.html

    --如果不进行归一化,那么由于特征向量中不同特征的取值相差较大,会导致目标函数变“扁”。这样在进行梯度下降的时候,梯度的方向就会偏离最小值的方向,走很多弯路,即训练时间过长。



    --如果进行归一化以后,目标函数会呈现比较“圆”,这样训练速度大大加快,少走很多弯路。


    综上可知,归一化有如下好处,即

    1)归一化后加快了梯度下降求最优解的速度;

    2)归一化有可能提高精度(如KNN)

    注:没有一种数据标准化的方法,放在每一个问题,放在每一个模型,都能提高算法精度和加速算法的收敛速度。



    (二)归一化的方法

    1)最大最小标准化(Min-Max Normalization

    a). 本归一化方法又称为离差标准化,使结果值映射到[0 ,1]之间,转换函数如下:

    为什么一些机器学习模型需要对数据进行归一化?

    b). 本归一化方法比较适用在数值比较集中的情况

    c). 缺陷:如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量来替代max和min。

    d).  应用场景:在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法(不包括Z-score方法)。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围

    2)Z-score标准化方法

    a). 数据处理后符合标准正态分布,即均值为0,标准差为1,其转化函数为:

    为什么一些机器学习模型需要对数据进行归一化?

    其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

    b). 本方法要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得很糟糕;

    c). 应用场景:分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,Z-score standardization表现更好。

    3)非线性归一化

    a). 本归一化方法经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。

    b). 该方法包括 log,正切等,需要根据数据分布的情况,决定非线性函数的曲线:

           ---log对数函数转换方法

    y = log10(x),即以10为底的对数转换函数,对应的归一化方法为:x' = log10(x) /log10(max),其中max表示样本数据的最大

    值,并且所有样本数据均要大于等于1.

    ---atan反正切函数转换方法

    利用反正切函数可以实现数据的归一化,即

    x' = atan(x)*(2/pi)

    使用这个方法需要注意的是如果想映射的区间为[01],则数据都应该大于等于0,小于0的数据将被映射到[10]区间上.

    ---L2范数归一化方法

    L2范数归一化就是特征向量中每个元素均除以向量的L2范数:

    (三)应用场景说明

    1)概率模型不需要归一化,因为这种模型不关心变量的取值,而是关心变量的分布和变量之间的条件概率;

    2)SVM、线性回归之类的最优化问题需要归一化,是否归一化主要在于是否关心变量取值;

    3)神经网络需要标准化处理,一般变量的取值在-1到1之间,这样做是为了弱化某些变量的值较大而对模型产生影响。一般神经网络中的隐藏层采用tanh激活函数比sigmod激活函数要好些,因为tanh双曲正切函数的取值[-1,1]之间,均值为0.

    4)在K近邻算法中,如果不对解释变量进行标准化,那么具有小数量级的解释变量的影响就会微乎其微。


    (四)参考文献:

    [1] http://blog.csdn.net/acdreamers/article/details/44664205

    [2] http://www.cnblogs.com/silence-tommy/p/7113498.html

    [3] http://blog.csdn.net/debug_snail/article/details/51781046

    [4] http://www.open-open.com/lib/view/open1429697131932.html

    [5] http://www.cnblogs.com/chaosimple/archive/2013/07/31/3227271.html

    [6] http://blog.csdn.net/zbc1090549839/article/details/44103801

    [7] http://blog.csdn.net/uestc_c2_403/article/details/75804617

    [8] http://blog.csdn.net/u011650143/article/details/71515927


    原文地址:

    https://blog.csdn.net/zenghaitao0128/article/details/78361038

    展开全文
  • 决策曲线 Decision Curve

    千次阅读 多人点赞 2019-04-01 17:08:58
    本文转自:决策曲线分析法(Decision Curve Analysis,DCA) 简介 评价一种诊断方法是否好用,一般是作ROC曲线,计算AUC。但是,ROC只是从该方法的特异性和敏感性考虑,追求的是准确。而临床上,准确就足够了吗?...

    本文转自:决策曲线分析法(Decision Curve Analysis,DCA)

    简介

    评价一种诊断方法是否好用,一般是作ROC曲线,计算AUC。但是,ROC只是从该方法的特异性和敏感性考虑,追求的是准确。而临床上,准确就足够了吗?患者就一定受益吗?

    比如我通过某个生物标志物预测患者是否患了某病,无论选取哪个值为临界值,都会遇到假阳性和假阴性的可能,有时候避免假阳性受益更大,有时候则更希望能避免假阴性。既然两种情况都无法避免,那我就想要找到一个净受益最大的办法。

    2006年,MSKCC(纪念斯隆凯特琳癌症研究所)的AndrewVickers博士等人研究出另一种评价方法,叫决策曲线分析法(Decision Curve Analysis,DCA)。相对于二战时期诞生的ROC曲线,DCA还很年轻,也一直在完善之中,不过2012-2016年间,Ann InternMed.、JAMA、BMJ、J Clin Oncol等杂志都已陆续发文,推荐使用决策曲线分析法。

          

          Lancet. 2016 Jun 4;387(10035):2302-11.

    这是一个来自Lancet的例子,研究者为了评价房颤患者口服抗凝药的出血风险,开发了一种新的评价方法,即基于生物标志物的ABC出血风险评分(Age,Biomarkers,Clinicalhisory),让它和传统的ORBIT及HAS-BLED法比较。这种类型的研究,咱们通常就是作ROC曲线。但他们没有,而是采用了决策曲线分析法。

    这幅图的横坐标为阈概率(ThresholdProbability)。当各种评价方法达到某个值时,患者i的出血风险概率记为Pi;当Pi达某个阈值(记为Pt),就界定为阳性,采取某种干预措施(比如更改抗凝方案)。

    那么改了抗凝方案,自然就改变了出血与血栓形成之间的利弊平衡,纵坐标就是利减去弊之后的净获益率(Net Benefit, NB)。

    可这幅图除了三种评价方法的曲线外,还有两条虛线,它们代表两种极端情况。横的那条表示,所有样本都是阴性(Pi < Pt),所有人都没干预,净获益为0。斜的那条表示所有样本都是阳性,所有人都接受了干预,净获益是个斜率为负值的反斜线(原理见后文)。其它的曲线就与它们相比较。

    从图中可以看出,HAS-BLED曲线和两条极端曲线很接近,也就是说它没什么应用价值。而在一个很大的Pt区间范围内,ABC法和ORBIT法的获益都比极端曲线高,所以它们可选的Pt范围都比较大,相对安全。而ABC又比ORBIT好一些。

     

    绘制决策曲线

    毕竟这是新的算法嘛,传统的统计软件好像还木有跟上,R语言倒是跟得挺快。2016年,Kerr等人专为决策曲线制作了个名为DecisionCurve的R语言包。

    这里有一份示例数据,是NHLBI(美国国家心肺血液研究所)的Framingham心脏研究专项数据集的一个子集,4000多个样本。

          

    自变量分别为性别(sex)、收缩压(sbp)、舒张压(dbp)、血清胆固醇(scl)、年龄(age)、身体质量指数(bmi)等,因变量为冠心病相关死亡事件(chdfate)。因变量必须是二元变量,随访时间内死亡为1,未死亡为0。

    下面建立两个模型,来演示怎样画出DCA曲线。一个是简单模型,以血清胆固醇值为预测方法(predictor),死亡事件为结果(outcome);另一个是复合模型,联合性别、年龄、BMI、血清胆固醇、收缩压、舒张压为预测方法,死亡事件为结果。

    准备工作

    //#library(DecisionCurve) # 注:DecisionCurve包已经不再维护,更名为rmda
    library(rmda)
    setwd('D:\\DCA')
    Data<- read.csv('2.20.Framingham.csv',sep = ',')

    DCA运算

    simple<- decision_curve(chdfate~scl,data = Data, family = binomial(link ='logit'),
    thresholds= seq(0,1, by = 0.01),
    confidence.intervals =0.95,study.design = 'case-control',
    population.prevalence = 0.3)

    #decision_curve()函数中,family =binomial(link = ‘logit’)是使用logistic回归来拟合模型。threshold设置横坐标阈概率的范围,一般是0 ~ 1;但如果有某种具体情况,大家一致认为Pt达到某个值以上,比如40%,则必须采取干预措施,那么0.4以后的研究就没什么意义了,可以设为0 ~ 0.4。by是指每隔多少距离计算一个数据点。

    # Study.design可设置研究类型,是cohort还是case-control,当研究类型为case-control时,还应加上患病率population.prevalance参数。
    complex<- decision_curve(chdfate~scl+sbp+dbp+age+bmi+sex,data = Data,
    family = binomial(link ='logit'), thresholds = seq(0,1, by = 0.01),
    confidence.intervals= 0.95,study.design = 'case-control',
    population.prevalence= 0.3)
    # 基本和simple相同,就是那几个联合应用的变量之间用个+号连接起来。
    List<- list(simple,complex)
    #把刚才计算的simple和complex两个对象合成一个list,命名为List。

    DCA曲线绘制

    plot_decision_curve(List,curve.names= c('simple','complex'),
    cost.benefit.axis =FALSE,col = c('red','blue'),
    confidence.intervals =FALSE,standardize = FALSE)

    #plot_decision_curve()函数的对象就是刚才的List,如果只画一根曲线,就不需要合成的那步,直接把List替换成simple或complex就好了。

    # curve.names是出图时,图例上每条曲线的名字,书写顺序要跟上面合成list时一致。cost.benefit.axis是另外附加的一条横坐标轴,损失收益比,默认值是TRUE,所在不需要时要记得设为FALSE。col就是颜色。confidence.intervals设置是否画出曲线的置信区间,standardize设置是否对净受益率(NB)使用患病率进行校正。

    好了,这样就得到如下曲线:

          

    可见,在Pt约为0.1~0.5范围内,复合评价模型的净受益率都比简单模型高。

    然后可用summary(complex,measure= 'NB')查看complex模型曲线上的各数据点,当然,NB也可以改成sNB,表示经过患病率的标准化:

          

    接下来的一个函数,就是Kerr等人对DCA算法的进一步发展了,即绘制临床影响曲线(Clinical Impact Curve):

    plot_clinical_impact(simple,population.size = 1000,cost.benefit.axis = T,
          n.cost.benefits= 8,col = c('red','blue'),
          confidence.intervals= T)

    # 使用simple模型预测1000人的风险分层,显示“损失:受益”坐标轴,赋以8个刻度,显示置信区间,得到下图:

          

    红色曲线(Numberhigh risk)表示,在各个阈概率下,被simple模型划分为阳性(高风险)的人数;蓝色曲线(Number high risk with outcome)为各个阈概率下真阳性的人数。意义一目了然吧。

     

    DCA算法的设计原理

    其实了解到上面的也够了,再了解下面的就锦上添花啦~

    它相当于在回归预测分析的基础上,引入了损失函数。先简单定义几个概念:

    P:给真阳性患者施加干预的受益值(比如用某生化指标预测某患者有癌症,实际也有,予活检,达到了确诊的目的);

    L:给假阳性患者施加干预的损失值(比如预测有癌症,给做了活检,原来只是个增生,白白受了一刀);

    Pi:患者i有癌症的概率,当Pi > Pt时为阳性,给予干预。

    所以较为合理的干预的时机是,当且仅当Pi × P >(1 – Pi) × L,即预期的受益高于预期的损失。推导一下可得,Pi > L / ( P + L )即为合理的干预时机,于是把L / ( P + L )定义为Pi的阈值,即Pt。

    但对二元的预测指标来说,如果结果是阳性,则强制Pi=1,阴性则Pi = 0。这样,二元和其他类型的指标就有了可比性。

    然后我们还可用这些参数来定义真阳性(A)、假阳性(B)、假阴性(C)、真阴性(D),即:

    A:Pi ≥ Pt,实际患病;

    B:Pi ≥ Pt,实际不患病;

    C:Pi < Pt,实际患病;

    D:Pi < Pt,实际不患病。

    我们有一个随机抽样的样本,A、B、C、D分别为这四类个体在样本中的比例,则A+B+C+D = 1。那么,患病率(π)就是A + C了。

    在这个样本中,如果所有Pi ≥ Pt 的人我们都给做了活检,那么就会有人确诊,有人白白被拉了一刀,那么净受益率NB = A × P – B × L。

    但Vickers认为,知道P和L的确切值并没有什么实际意义,人们可能更关心L/P的比值,所以将上面的公式强行除以P,变成NB = A – B × L/P。根据Pt定义公式可推导出:NB = A – B × Pt / ( 1 – Pt )。以Pt为横坐标,U为纵坐标,画出来的曲线就是决策曲线。

    若使用患病率进行校正,则U = A ×π– B ×(1 –π) × Pt / ( 1 – Pt )。

    那么两个极端情况的曲线也很好推导了。当所有样本都是阴性(Pi < Pt),所有人都没干预,那么A = B = 0,所以NB = 0。当所有样本都是阳性,所有人都接受干预,那么C = D = 0,A = π,B = 1 –π(因为A+B+C+D=1),则NB = π– ( 1 –π )Pt / ( 1 – Pt ),所以它斜率为负值(

    当然实际上,由这个表达式可知,阳性极端线不是直线,而是曲线)。

     

    以上是分类模型中的决策曲线。生存模型也是有决策曲线的,具体请参考:mskcc/decision-curve-analysis

     

    参考资料:

    1.Decision curve analysis: anovel method for evaluating prediction models

    2.Decision curve analysisrevisited: overall net benefit, relationships to ROC curve analysis, andapplication to case-control studies

    3.Assessing the Clinical Impactof Risk Prediction Models With Decision Curves: Guidance for CorrectInterpretation and Appropriate Use

     

    展开全文
  • 然而,有效地查询地理空间数据是相当大的挑战,因为数据是二维的(有时候更高),不能用标准的索引技术来查询位置。空间索引通过各种各样的技术来解决这个问题。在这篇博文中,我将介绍几种:四叉树,geohash(不要...
  • 封装:WPF绘制曲线视图

    千次阅读 热门讨论 2018-05-09 17:57:12
    一、目的:绘制简单轻量级的曲线视图 二、实现: 1、动画加载曲线 2、点击图例显示隐藏对应曲线 3、绘制标准基准线 4、绘制蒙板显示标准区域 曲线图示例: 心电图示例: 三、实现代码 View: &...
  • 四叉树和希尔伯特曲线做空间索引

    千次阅读 2018-03-17 17:16:56
    用四叉树和希尔伯特曲线做空间索引 随着越来越多的数据和应用和地理空间相关,空间索引变得愈加重要。然而,有效地查询地理空间数据是相当大的挑战,因为数据是二维的(有时候更高),不能用标准的索引技术来查询...
  • 生存曲线怎么看

    千次阅读 2020-08-06 10:35:08
    在此,笔者结合自己长期统计分析和绘制生存曲线的经验,浅谈如何解读生存曲线。 1,为什么要绘制生存曲线 可能有读者要问,为什么要绘制生存曲线?如果想要比较两组患者的预后,我直接比较两组的生存时间不就可以...
  • 高斯曲线 ,又叫做gaussian curve,是正态分布中的一条标准曲线。具有以下特征: 1.1 正态曲线在横轴上方均数处最高; 1.2 正在分布以均数为中心,左右对称; 1.3 正态分布有两个参数,即均数和标准差;标准正态...
  • 椭圆曲线乘法ECDSA

    千次阅读 2019-04-07 22:03:07
    比特币使用了secp256k1标准定义的一条特殊的椭圆曲线和一系列数学常数。 在讲解ECDSA算法之前,先了解一下计算机是如何实现乘法和除法的。 计算机所能完成的基本操作是:+、- 和左移、右移。在计算机中所有的...
  • 简单曲线拟合

    千次阅读 2011-08-13 17:11:01
    简单曲线拟合 对于许多实验数据和统计数据来说,为了描述不同变量之间的关系,进一步分析曲线特征。根据已知数据找出相应得函数关系,经常需要对曲线进行拟合。 Origin 提供了多种可以进行数据拟合的函数,除线性...
  • 椭圆曲线的研究可以被追溯至十九世纪中叶,那是代数学家、几何代数学家、以及数论专家都在研究。本书描绘了椭圆曲线中一些完美的特性。1984年,Hendrik Lenstra 阐述了一个依据于椭圆曲线的因数分解算法。这就导致了...
  • Matlab绘制曲线

    千次阅读 2014-07-08 11:07:16
    当年学习MATLAB主要目的是被她的强大画图功能所吸引的,自那以后就开始了我漫长的自学历程。刚开始我只是认为是画图,而不是绘图。俩者差别很大! 先从介绍都有什么绘图功能开始吧。 plot X-Y方向绘图 loglog ...
  • 根据以下帖子整理: ...一、用函数方式实现曲线拟合 http://www.cnblogs.com/linkr/p/3632032.html https://blog.csdn.net/sinat_20265495/article/details/50043833 如何确定拟合的多项式阶数的N? ...
  • 用最小二乘法构造拟合曲线

    千次阅读 2012-10-21 19:57:02
    拟合曲线目的是要离散点尽量靠近拟合函数 拟合函数构造原则:按Q(逼近函数在各点的值)与Y(各点的精确值)之间误差最小原则作为“最优”标准 最小二乘法:按均方误差(各点误差的平方和R)达到极小(即偏微...
  • ROC曲线和PR(Precision-Recall)曲线的联系

    千次阅读 2016-02-22 13:22:02
    在机器学习中,ROC(Receiver Operator Characteristic)曲线被广泛应用于二分类问题中来评估分类器的可信度,但是当处理一些高度不均衡的数据集时,PR曲线能表现出更多的信息,发现更多的问题。 1.R
  • 椭圆曲线算法:入门(1)

    千次阅读 2019-05-16 10:49:04
    这两条都不是符合标准曲线 a和b的取值变化决定了曲线在坐标系上的不同形状。从图中可以看到,椭圆曲线是相对X轴对称。 为了达到我们的目的,我们还要定义一个 无穷大的点 (也可以成为理想点),从现在开始...
  • 新兴技术成熟度曲线

    千次阅读 2018-04-01 01:10:00
    2017年7月,Gartner公司发布了年度新兴技术成熟度曲线。Gartner认为,2017年技术成熟度曲线揭示了未来5-10年的三方面技术趋势。未来10年,人工智能将成为最具颠覆性的技术。通用人工智能/神经形态硬件/深度强化学习/...
  • 相关评价指标在这片文章里有很好介绍 ... ROC曲线 得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性
  • 使用约登指数寻找最佳ROC曲线阈值

    千次阅读 2020-09-29 11:26:19
    一文让你彻底理解准确率,精准率,召回率,真正率,假正率,ROC/AUC) 而TPR与FPR的计算是根据选定的一系列阈值(Threshold)得到的,本文的目的便是寻找最优阈值,在假正率FPR与真正率TPR之间折中。ROC用以判断分类...
  • ROC曲线,AUC,

    千次阅读 2013-12-11 09:33:10
    在信号检测理论中,接收者操作特征曲线(receiver ...那是怎么达到这一目的的呢? 首先要了解几个概念。 真阳性TP,真阴性TN,伪阳性FP,伪阴性FN,伪阳性率(FPR),真阳性率(TPR)。 举个例子,比如你预测
  • ,正则化的目的是用来防止 过拟合 的,但是现在模型出现了欠拟合,则需要减少正则化参数。    过拟合:  在训练数据上表现良好,在未知数据上表现差。高方差 通俗一点地来说过拟合就是模型把数据学习的...
  • 平行的三阶贝塞尔曲线画法

    千次阅读 2018-05-12 18:31:34
    目的:使用L-Edit绘制DC耦合器版图其中的弯曲部分就是基于贝塞尔曲线画出来的。长这样↓使用语言:C语言写了两个版本。一个是基于L-edit平台的版本,一个是基于VS平台版本(我的是2017版)。这里说下VS的版本,不过...
  • 模式识别 评价方法 ROC曲线 DET曲线 FPPW FPPI etc. 因个人在模式识别相关的工作,模式识别算法最终的性能评价是关键。但苦于网上很难找到具体、详细的评价流程、方法以及代码,所以本人打算近期准备如题所示评价...
  • 用OpenGL进行曲线、曲面的绘制

    千次阅读 2020-01-16 13:59:51
    实验目的 理解Bezier曲线、曲面绘制的基本原理;理解OpenGL中一维、二维插值求值器的用法。 掌握OpenGL中曲线、曲面绘图的方法,对比不同参数下的绘图效果差异; 代码1:用四个控制点绘制一条三次Bezier曲线 ...
  • 比特币椭圆曲线加密的数学理解

    千次阅读 2018-09-02 21:31:12
    使用公钥与私钥的目的就是实现安全信息传输,必须实现如下目的: 我发送给你的内容必须加密,在信息的传输过程中不能被别人看到。 必须保证是我发送的信息,不是别人冒充我的。 信息不能被修改。 ...
  • HDR中HLG与PQ曲线的互转

    千次阅读 2020-11-19 21:02:17
    HDR视频中由于电光转换曲线的不同,技术标准也大致分为了杜比视界、HDR10+、HDR10、HLG等,目前常用的主要是以PQ曲线的HDR10和HLG。这两者之间的区别在HDR视频编码参数中进行过详细的说明。一般的HLG适用于广电...
  •  尽管de Boor算法是一个计算对应于给定u的B-样条曲线上的点的标准方法, 我们许多情况下(例如,曲线插值和逼近)真正需要的是这些系数。我们将阐述一个简单方法来这个。  给定一个由 n+1个控制点P0, P1, ...,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 39,751
精华内容 15,900
关键字:

做标准曲线的目的