精华内容
下载资源
问答
  • 登革热是一种黄病毒,通过受感染埃及伊蚊和白纹伊蚊叮咬传播给人类。... 此外,进行了敏感性分析,数值模拟表明,增加人抗体比例并采取控制策略以最小化载体咬入率足以将疾病感染率降低到最低水平。
  • 敏感性分析能够定量地评价模型输人变量变化对输出结果产生影响,是揭示模型蕴含规律有效途径。本文将敏感分析方法应用于BP神经网络巢湖水华预测模型中,分析结果表明巢湖水华形成受诸多环境因子共同影响,水温...
  • 该项目旨在为基于动物细胞的肉类(ACBM)成本预测模型提供全面的敏感性分析。 注意:此仓库是一个分支版本。对于最新版本,请参阅。 用法 安装 git clone git@github.com:fangzhouli/ACBM-SA.git cd path/to/ACBM-SA...
  • 该代码使用两种敏感性分析方法计算增殖入侵放射治疗 (PIRT) 模型的时空敏感性(预定义目标函数相对于辐照信号的梯度):伴随敏感性分析和有限差分法。 更多信息: K. Fujarewicz, K. Łakomiec:肿瘤生长模型的伴随...
  • VIC模型参数的敏感性分析,张续军,吴志勇,本文运用敏感度分析理论,采用中国湿润地区八个典型流域的实测资料,对大尺度分布式水文模型VIC(Variable Infiltration Capacity)模型七个
  • 作物生长模型广泛应用于作物长势监测和产量预测。为了有效识别作物模型关键参数,减少模型模拟的...研究证明,基于扩展傅立叶幅度检验法(EFAST)的敏感性分析对模型修正具有指导意义,可为模型参数“本地化”提供重要依据。
  • 基于模型的IaaS云可用性敏感性分析
  • AnnAGNPS非点源污染模型参数敏感性分析,董聪丽,董增川,非点源污染模型参数不确定性直接影响模型模拟准确性,本文以苏南丘陵地区句容市赤山湖汇水流域为研究对象,利用GIS和AnnAGNPS模�
  • GLUE方法对新安江模型参数的敏感性分析,刘娜,,简要介绍普适似然不确定估计GLUE方法的原理,应用该方法研究新安江水文模型的参数敏感性问题,以资水流域资料为例,分析日径流参�
  • 柔性双段腿SLIP模型参数敏感性分析,冯华山,李勇政,动物强健稳定奔跑跳跃运动通常被简化为SLIP模型(Spring Loaded Inverted Pendulum)。但SLIP模型作为整体模型,在足式机器人设计和控制中
  • 堤坝土水耦合管涌模型的参数敏感性研究,王劲,罗玉龙,利用作者建立的堤坝土水耦合管涌模型探讨了模型参数的敏感性。研究表明,网格密度及初始液化细颗粒浓度对模型的数值稳定性影响显
  • 基于系统论银行排队模型敏感性分 论文 写排队系统可以看看
  • 地理元胞自动机模型的模拟...理元胞自动机模型的模拟精度, 对地理元胞自动机模型的尺度敏感性进行了分析; 并从元胞 转换规则入手, 研究了元胞自动机模型尺度敏感性产生的原因: ( 1) 元胞尺度会对地理元胞 自动机模型
  • 基于LH-OAT方法SWAP-EPIC模型参数敏感性分析,能锋田,姜瑶,综述文章:以背景、研究现状、研究用途结构书写,篇幅以150~300字左右为宜,不用第一人称做主语,不与正文语句重复。一般研究性
  • 为了反映腿部多段串联多参数耦合特性,以 SLIP(spring loaded inverted pendulum)模型为基础,建立了小腿含有串联线性伸缩...最后基于 ADAMS 与 MATLAB 联合仿真验证了柔性双段腿模型中参数敏感度排序正确
  • 密云水库WASP模型敏感性分析,王倩,邹志红,基于WASP富营养化模型,运用Morris法分析模型参数的敏感性,有效地识别关键参数,减少模型未知参数的不确定性,提高参数优化的效率�
  • 【翻译自 :Prediction Intervals for Machine Learning】 【说明:Jason ... 这取决于特定的数据集和模型的选择,尽管这通常意味着使用更多的数据可以带来更好的性能,并且使用较小的数据集来估计模型...

            【翻译自 : sensitivity-analysis-of-dataset-size-vs-model-performance

           【说明:Jason Brownlee PhD大神的文章个人很喜欢,所以闲暇时间里会做一点翻译和学习实践的工作,这里是相应工作的实践记录,希望能帮到有需要的人!】

            机器学习模型的性能通常随着用于预测建模的数据集大小的提高而提高。

            这取决于特定的数据集和模型的选择,尽管这通常意味着使用更多的数据可以带来更好的性能,并且使用较小的数据集来估计模型性能的发现通常可以扩展为使用较大的数据集。

            问题在于,对于给定的数据集和模型,该关系是未知的,对于某些数据集和模型,该关系可能不存在。此外,如果确实存在这种关系,则可能存在收益递减的一个或多个点,在这些点上添加更多数据可能无法改善模型性能,或者数据集太小而无法有效地大规模捕获模型的功能。这些问题可以通过执行敏感性分析来量化数据集大小和模型性能之间的关系来解决。一旦计算出,我们就可以解释分析结果,并决定多少数据足够了,以及可以有效估计较大数据集性能的数据集可能有多小。

          在本教程中,您将发现如何对数据集大小与模型性能进行敏感性分析。完成本教程后,您将知道:

    选择用于机器学习的数据集大小是一个具有挑战性的开放性问题。
    灵敏度分析提供了一种量化给定模型和预测问题的模型性能与数据集大小之间关系的方法。
    如何对数据集大小执行敏感性分析并解释结果。

    教程概述

          本教程分为三个部分:他们是:

    数据集大小敏感性分析
    综合预测任务和基线模型
    数据集大小的敏感性分析

    数据集大小敏感性分析

             机器学习预测模型所需的训练数据量是一个悬而未决的问题。这取决于您选择的模型,准备数据的方式以及数据本身的详细信息。有关选择训练数据集大小的挑战的更多信息,请参见教程:机器学习需要多少训练数据?解决此问题的一种方法是执行敏感性分析,并发现数据集上模型的性能随或多或少的数据而变化。这可能涉及评估具有不同大小的数据集的同一模型,并寻找数据集大小与性能之间的关系或收益递减点。通常,训练数据集大小和模型性能之间存在很强的关系,尤其是对于非线性模型。这种关系通常涉及到一定程度的性能改进,并且随着数据集大小的增加,模型的预期方差通常会减小。

           出于多种原因,了解模型和数据集的这种关系可能会有所帮助,例如:

    评估更多模型。
    寻找更好的模型。
    决定收集更多数据。

           您可以在较小的数据集样本上快速评估大量模型和模型配置,并确信性能可能会以特定方式推广到较大的训练数据集。与给定的可用时间相比,这可能允许您评估更多的模型和配置,进而可能发现更好的总体性能模型。您也许还可以将模型性能的预期性能归纳并估算出更大的数据集,并估算值得收集更多训练数据而付出的努力还是付出的代价。现在我们已经熟悉了对数据集大小进行模型性能敏感性分析的想法,让我们来看一个可行的示例。

    综合预测任务和基线模型

            在进行敏感性分析之前,让我们选择一个数据集和基线模型进行调查。在本教程中,我们将使用合成的二进制(两类)分类数据集。 这是理想的,因为它使我们能够根据需要缩放针对相同问题的生成样本的数量。

           make_classification()scikit-learn函数可用于创建综合分类数据集。 在这种情况下,我们将使用20个输入要素(列)并生成1,000个样本(行)。 伪随机数生成器的种子是固定的,以确保每次生成样本时都使用相同的基本“问题”。

           下面的示例生成综合分类数据集,并汇总生成数据的形状。

    # test classification dataset
    from sklearn.datasets import make_classification
    # define dataset
    X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=1)
    # summarize the dataset
    print(X.shape, y.shape)

            运行示例将生成数据并报告输入和输出组件的大小,从而确认期望的形状。

    (1000, 20) (1000,)

           接下来,我们可以在该数据集上评估预测模型。我们将使用决策树(DecisionTreeClassifier)作为预测模型。 选择它是因为它是一种非线性算法,并且具有很高的方差,这意味着我们希望性能随着训练数据集大小的增加而提高。我们将使用重复分层k折交叉验证的最佳实践来评估数据集上的模型,该模型具有3个重复和10折。下面列出了在综合分类数据集上评估决策树模型的完整示例。

    # evaluate a decision tree model on the synthetic classification dataset
    from sklearn.datasets import make_classification
    from sklearn.model_selection import cross_val_score
    from sklearn.model_selection import RepeatedStratifiedKFold
    from sklearn.tree import DecisionTreeClassifier
    # load dataset
    X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=1)
    # define model evaluation procedure
    cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
    # define model
    model = DecisionTreeClassifier()
    # evaluate model
    scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)
    # report performance
    print('Mean Accuracy: %.3f (%.3f)' % (scores.mean(), scores.std()))

            运行示例将创建数据集,然后使用所选的测试工具评估问题模型的性能。

           注意:由于算法或评估程序的随机性,或者数值精度的差异,您的结果可能会有所不同。 考虑运行该示例几次并比较平均结果。

           在这种情况下,我们可以看到平均分类精度约为82.7%。

    Mean Accuracy: 0.827 (0.042)

           接下来,让我们看看如何对模型性能进行数据集大小的敏感性分析。

    数据集大小的敏感性分析

            上一节显示了如何在可用数据集上评估所选模型。它提出了一些问题,例如:

            有许多方法可以执行敏感性分析,但也许最简单的方法是定义测试工具以评估模型性能,然后使用大小不同的数据集针对同一问题评估同一模型。这将使数据集的训练和测试部分随整个数据集的大小而增加。为了使代码更易于阅读,我们将其分成多个函数。首先,我们可以定义一个函数来准备(或加载)给定大小的数据集。 数据集中的行数由函数的参数指定。如果您将此代码用作模板,则可以更改此功能以从文件加载数据集并选择给定大小的随机样本。

    # load dataset
    def load_dataset(n_samples):
    	# define the dataset
    	X, y = make_classification(n_samples=int(n_samples), n_features=20, n_informative=15, n_redundant=5, random_state=1)
    	return X, y

            接下来,我们需要一个函数来评估加载的数据集上的模型。我们将定义一个函数,该函数接收数据集并返回使用该数据集上的测试工具评估的模型的性能摘要。该函数在下面列出,用于获取数据集的输入和输出元素,并返回数据集上决策树模型的均值和标准差。

    # evaluate a model
    def evaluate_model(X, y):
    	# define model evaluation procedure
    	cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
    	# define model
    	model = DecisionTreeClassifier()
    	# evaluate model
    	scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)
    	# return summary stats
    	return [scores.mean(), scores.std()]

            接下来,我们可以定义一系列不同的数据集大小进行评估。大小的选择应与您可用的数据量和您愿意花费的运行时间成正比。在这种情况下,我们将保持适度的大小以限制运行时间,在粗略log10规模上从50行增加到100万行。

    # define number of samples to consider
    sizes = [50, 100, 500, 1000, 5000, 10000, 50000, 100000, 500000, 1000000]

            接下来,我们可以枚举每个数据集的大小,创建数据集,评估数据集上的模型,并存储结果以供以后分析。

    # evaluate each number of samples
    means, stds = list(), list()
    for n_samples in sizes:
     # get a dataset
     X, y = load_dataset(n_samples)
     # evaluate a model on this dataset size
     mean, std = evaluate_model(X, y)
     # store
     means.append(mean)
     stds.append(std)

             接下来,我们可以总结数据集大小和模型性能之间的关系。在这种情况下,我们将简单地绘制带有误差线的结果,以便我们可以直观地发现任何趋势。我们将使用标准偏差作为估计模型性能不确定性的量度。 如果性能遵循正态分布,则可以通过将该值乘以2以覆盖大约95%的预期性能来实现。这可以在图表上显示为数据集大小的平均预期性能周围的误差线。

    # define error bar as 2 standard deviations from the mean or 95%
    err = [min(1, s * 2) for s in stds]
    # plot dataset size vs mean performance with error bars
    pyplot.errorbar(sizes, means, yerr=err, fmt='-o')

            为了使图更易读,我们可以将x轴的比例更改为log,因为我们的数据集大小在log10比例上。

    # change the scale of the x-axis to log
    ax = pyplot.gca()
    ax.set_xscale("log", nonpositive='clip')
    # show the plot
    pyplot.show()

             就是这样。我们通常希望平均模型性能随数据集大小的增加而增加。 我们还希望模型性能的不确定性会随数据集大小的增加而降低。综上所述,下面列出了执行数据集大小对模型性能的敏感性分析的完整示例。

    # sensitivity analysis of model performance to dataset size
    from sklearn.datasets import make_classification
    from sklearn.model_selection import cross_val_score
    from sklearn.model_selection import RepeatedStratifiedKFold
    from sklearn.tree import DecisionTreeClassifier
    from matplotlib import pyplot
    
    # load dataset
    def load_dataset(n_samples):
    	# define the dataset
    	X, y = make_classification(n_samples=int(n_samples), n_features=20, n_informative=15, n_redundant=5, random_state=1)
    	return X, y
    
    # evaluate a model
    def evaluate_model(X, y):
    	# define model evaluation procedure
    	cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
    	# define model
    	model = DecisionTreeClassifier()
    	# evaluate model
    	scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)
    	# return summary stats
    	return [scores.mean(), scores.std()]
    
    # define number of samples to consider
    sizes = [50, 100, 500, 1000, 5000, 10000, 50000, 100000, 500000, 1000000]
    # evaluate each number of samples
    means, stds = list(), list()
    for n_samples in sizes:
    	# get a dataset
    	X, y = load_dataset(n_samples)
    	# evaluate a model on this dataset size
    	mean, std = evaluate_model(X, y)
    	# store
    	means.append(mean)
    	stds.append(std)
    	# summarize performance
    	print('>%d: %.3f (%.3f)' % (n_samples, mean, std))
    # define error bar as 2 standard deviations from the mean or 95%
    err = [min(1, s * 2) for s in stds]
    # plot dataset size vs mean performance with error bars
    pyplot.errorbar(sizes, means, yerr=err, fmt='-o')
    # change the scale of the x-axis to log
    ax = pyplot.gca()
    ax.set_xscale("log", nonpositive='clip')
    # show the plot
    pyplot.show()

             运行示例将报告数据集大小与估计的模型性能之间的状态。

             注意:由于算法或评估程序的随机性,或者数值精度的差异,您的结果可能会有所不同。考虑运行该示例几次并比较平均结果。

             在这种情况下,我们可以看到预期的趋势,即使用分类精度的标准偏差来衡量,平均模型性能随数据集大小的增加而减少的模型方差的趋势。我们可以看到,在估计大约10,000或50,000行的模型性能时,收益可能会递减。具体来说,我们确实看到了更多行的性能提高,但是对于10K或50K行的数据,我们可能几乎没有差异地捕获了这种关系。我们还可以看到1,000,000行数据的估计性能有所下降,这表明我们可能在100,000行以上最大化模型的功能,而正在测量估计中的统计噪声。这可能意味着期望性能的上限,并且可能超出此点的更多数据将不会改善所选测试工具的特定模型和配置。

    >50: 0.673 (0.141)
    >100: 0.703 (0.135)
    >500: 0.809 (0.055)
    >1000: 0.826 (0.044)
    >5000: 0.835 (0.016)
    >10000: 0.866 (0.011)
    >50000: 0.900 (0.005)
    >100000: 0.912 (0.003)
    >500000: 0.938 (0.001)
    >1000000: 0.936 (0.001)

             该图使数据集大小与估计的模型性能之间的关系更加清晰。该关系与对数数据集大小几乎呈线性关系。 在图中,以误差线表示的不确定性变化也从50个或100个样本的非常大的值急剧减少到5,000和10,000个样本的适度的值,并且实际上超出了这些大小。给定5,000和10,000个样本的适度分布以及几乎对数线性关系,我们可能可以避免使用5K或10K的行来近似模型性能。

            我们可以将这些发现用作测试其他模型配置甚至不同模型类型的基础。危险在于,不同的模型在处理或多或少的数据时可能会表现出很大差异,因此明智的做法是,使用不同的所选模型重复进行敏感性分析以确认关系成立。 或者,用一组不同的模型类型重复分析可能会很有趣。

    Further Reading

    This section provides more resources on the topic if you are looking to go deeper.

    教程

    APIs

    文章

    总结

           在本教程中,您发现了如何对数据集大小与模型性能进行敏感性分析。具体来说,您了解到:

    选择用于机器学习的数据集大小是一个具有挑战性的开放性问题。
    灵敏度分析提供了一种量化给定模型和预测问题的模型性能与数据集大小之间关系的方法。
    如何对数据集大小执行敏感性分析并解释结果。

     

    展开全文
  • prosail模型敏感性分析

    千次阅读 2020-04-06 22:07:55
    敏感性分析一般借助simlab软件,具体敏感性分析方法可以参考https://www.jianshu.com/p/2656af9f8d81 首先通过simlab软件进行样本采样,生成.SAM文件(我定义了7个参数), 然后读取文件中参数值,代入PROSAIL...

    敏感性分析一般借助simlab软件,具体敏感性分析的方法可以参考https://www.jianshu.com/p/2656af9f8d81
    首先通过simlab软件进行样本采样,生成.SAM文件(我定义了7个参数),
    在这里插入图片描述然后读取文件中的参数值,代入PROSAIL模型
    不了解PROSAIL的可以参考https://blog.csdn.net/weixin_45452300/article/details/105300067
    得到的结果生成是simlab可以读取的模型结果文件。

    import os
    import prosail
    para_dir = r'C:\Users\Administrator\Desktop\在家写的小程序'
    data_dir = r'C:\Users\Administrator\Desktop\在家写的小程序'
    
    with open(os.path.join(para_dir,'prosailoutput3.txt'),'a') as fp2:# 打开创建输出结果文件
        fp2.writelines(['1','\n','spectrum','\n','time = yes','\n'])
        with open(os.path.join(para_dir,'prosailminganx3.sam'),'r') as fp:
            fp.readline() # 第一行
            number = fp.readline() #第二行为生成参数个数
            fp.readline() #变量个数
            fp.readline() #0  此后开始读参数
            fp2.write(str(number))
            for i in range(int(number)):#提取参数
                sim_paraments = list(map(float,fp.readline().split('\t')[:-1]))
                rr = prosail.run_prosail(sim_paraments[0], sim_paraments[1], sim_paraments[2], sim_paraments[3], sim_paraments[4], sim_paraments[5], sim_paraments[6], -0.35, 0.01,
                            30., 10., 0., typelidf=2, 
                            rsoil = 1., psoil=1., factor="SDR")
                fp2.writelines(['RUN',' ',str(i),'\n'])
                fp2.write('2101')
                fp2.write('\n')
                for j in range(2101):
                    fp2.writelines([str(j+400),' ',str(rr[j]),'\n'])
                if i%50==0:
                    print(i)
    

    得到结果
    在这里插入图片描述
    经过simlab分析后得到敏感性结果,做成图如下
    这里有个问题尚未解决,采样一阶敏感性指数作图时发现采样次数小的话,参数的一阶敏感性指数之和会大于一,3000次左右采样后就不大于一了。
    采样2000次
    在这里插入图片描述
    采样3500次
    在这里插入图片描述

    展开全文
  • 基于蛋白质相互作用的药物敏感性预测模型,张乃千,,综合利用多种基因组学数据预测抗癌药物的敏感性,以指导临床用药是精准医疗的核心目标之一。目前,针对药物敏感性预测问题的研究
  • 介绍了SWAT2005模型参数敏感性分析和自动率定模块原理,并在新疆玛纳斯河流域中进行应用,通过敏感性分析及参数率定前后结果对比,证明该模块对模型应用重要性。根据LH-OAT敏感性分析法,辨析出影响玛纳斯河流...
  • 以深圳市龙华镇为案例区,构建了土地利用/覆被变化的元胞自动机模型,从时间和空间两个方面定量研究了LUCC模型的尺度效应。通过改变模型输入数据的空间分辨率和模型模拟的时间长度,探讨了尺度对土地利用变化模型的...
  • 白介素1β对compactin处理的人血管平滑肌细胞模型他汀敏感性的影响,赵蕾,,目的:观察炎症因子白介素1β能否干扰人血管平滑肌细胞对compactin的敏感性并探讨其分子机制。 方法:给予不同浓度compactin(0,1,10,...
  • 在对煤储层应力敏感性分析基础上,推导了考虑应力敏感性的煤层气气井产能模型,提出了用产量降低幅度值(β)描述应力敏感性对煤层气井产量影响程度,揭示了有效应力对煤储层渗透性和煤层气井产能影响规律。...
  • Lorenz模型敏感性试验

    2011-04-29 17:20:31
    通过对初始值的改变,测试Lorenz模型的非线性和混沌,结果显示初始值的微小改变,对后续结果有很大的影响。有图片显示。
  • PageRank模型参数与其敏感性分析

    千次阅读 2015-05-11 15:10:39
    PageRank模型参数与其敏感性分析

    附注:本博文内容对应书本5、6章

    一、α因子

    上一篇博客中引入参数a来产生谷歌矩阵:

    这里写图片描述

    当a→1时,幂法所需要的期望迭代次数急剧上升。如下表所示:
    这里写图片描述

    当a→1时,由跳转矩阵这里写图片描述所带来的人为成分会减少,但计算时间却增加了。常数a不仅仅控制了PageRank方法的收敛,还影响了计算得到的PageRank向量的敏感性。

    敏感性分析:

    可以形象地用这里写图片描述来表示πT中的元素如何随α变化的情况的一个近似,虽并未精确,但对其分析可以揭示出若干重要信息。
    这里写图片描述
    这里先给出三个定理:
    1.设PageRank向量由下式给出
    这里写图片描述
    式中,Di(a)为I-G(a)中的第i个n-1阶主子式。由于每个主子式Di(a)>0都是I-G(a)中元素值的乘积之和,因此这里写图片描述中的每个元素在(0,1)区间都是a的一个可微函数。证明可微
    下面定理给出导函数向量中单个函数取值的(1 - 范数)一个上界,以及这些元素之和的一个上界。

    2.若这里写图片描述为PageRank向量,则对每个j=1,2,···,n,有
    这里写图片描述

    这里写图片描述

    由定理2可知,对于较小的a值,确保了PageRank不会过于敏感,但随着a→0,值将趋向于无穷大,因此这个上界将变得越来越没有价值。但是,较大的a值对万维网真实链接结构赋予了更大的权重,而较小的a值则增加了人为制造的概率向量vT的影响。因此,较大的a值比较符合我们的想法,下面定理3进一步确定PageRank对较大的a值的敏感性。

    3.若πT(a)是谷歌矩阵这里写图片描述
    所对应的PageRank向量,则
    这里写图片描述

    特别的,该导数的极限值如下
    这里写图片描述

    其中,这里写图片描述表示矩阵的群逆。

    以下推导和结论照抄原文:
    所有随机矩阵的主特征值λ1=1均为半简的,因此当S通过相似变换被简化为若当形,所得结果为
    这里写图片描述

    ······
    ······
    由万维网链接结构所定义的链几乎是近耦合的,所以可以预计矩阵S具有非常接近于λ1=1的次主特征值。所以a接近于1PageRank对a的变动将更加敏感。

    基于以上的公式,作为参数a的函数,PageRank向量πT(α)对于a值得微小变化的敏感性如下:

    • 对于小的a值,PageRank对a的微小变化不敏感
    • 当a的值变大时,PageRank对a的微小扰动变得越来越敏感
    • 对于接近于1的a值,PageRank对a值的微小变化改变非常敏感,敏感度由S的近非耦合的程度所决定。

    意大利的研究者通过考察更高阶的导数而非本节所给出的简单的一阶导数,对PageRank关于a的敏感性的研究工作进行了拓展。

    二、超链接矩阵H

    PageRank模型中另一个可调整的部分就是H矩阵本身。回顾H与S的关系如下:

    这里写图片描述

    开始建议用平均加权的方式来产生H矩阵的元素,即一个页面的所有的岀链都以随机上网者的链接概率的形式被赋予了相等的权重。然而这样一视同仁却不一定是进行网页排名的最佳途径,上网者可能会根据许多有价值的内容或有关的描述性锚文本来选择一个岀链并链接到新页面。于是决定利用智能上网者替代随机上网者

    譬如,相比于简短的广告页面而言,内容充实的页面应当被赋予更高的概率权值。有一个实用的方法是研究上网者的真实的喜好,例如研究他的访问日志,并发现停留在P1上的上网者他们链接到P2的可能性是链接到P3的可能性的两倍。
    这里写图片描述
    当对页面P1应用智能上网者时则变为:
    这里写图片描述
    注意每一行的元素之和为0,如果这一点不成立,需要归一化处理。

    敏感性分析:

    这里写图片描述 对于H的变化有多敏感:
    这里写图片描述对于H中的扰动敏感这里写图片描述
    对于敏感性的研究,先求导:
    这里写图片描述

    a的影响是一目了然的。当a→1时,这里写图片描述中的元素元素趋向于无穷大,PageRank向量对于网络图结构中的微小变化更为敏感。但由上式还能看到另一个相当符合常识的结果:
    相比于改变一个不重要的页面中的链接而言,增加一条链接,或者增加某个重要页面(即πi具有大的值)中链接的权重,将对PageRank向量的敏感性有着更大的影响。

    三、跳转矩阵E

    谷歌两位创始人对E提出的最早修改,将evT替代1/neeTevT是一个概率向量,或称为个性化向量或跳转向量,是元素都为正的的概率矩阵,因此每个结点仍然直接与其他所有结点相连,即G为素矩阵,意味着该马尔科夫链存在一个唯一的稳态向量,它就是PageRank向量。

    使用vT替代1/neT意味着跳转概率不再是均匀分布的,而是按照vT给出的概率进行跳转,幂法变为了:
    这里写图片描述

    这里写图片描述

    个性化向量使每个上网者拥有自己独特的个性化向量vT,但是,它使得与查询无关、与用户也无关的PageRank变得依赖于用户,而且计算负担也更重了,要知道谷歌要花费数日才能计算出一个vT向量对应的一个πT

    然而,许多人都将个性化引擎视为搜索的未来,从而采取了准个性化的PageRank排名系统,这是针对不同用户群来给出排名的方式。

    此类系统之一便是塔赫 · 哈维利瓦拉(Taher Havelivala)所创造的产品。简而言之,就是用16个偏置的PageRank向量的凸组合来形成他自己的对主题敏感、与查询相关的PageRank向量,即
    这里写图片描述

    式中,B的求和为1,每一个为对应一个主题相关的概率权重。有人也认为,这个个性化向量vT却似乎具有更大的潜在作用,有人推测,谷歌可以利用该个性化向量来控制那些所谓的链接农场的垃圾信息制造行为。

    敏感性分析:

    计算对vT的导数:
    这里写图片描述

    式中,D是悬挂结点集合。从这个式子可以知道两个方面。
    1.依赖于a,当a→1时,(IαS)1中的元素趋向于无穷大,因此也更加证明了当a→1时PageRank向量更加敏感。
    2.如果悬挂结点总体而言包括了PageRank中的一个较大部分(这里写图片描述较大)的话,则PageRank向量对于个性化向量vT中的变化更为敏感。这一点和常识相吻合。如果悬挂结点集总的来说较为重要,那么随机上网者将更为频繁地对其进行重复访问,从而也更加频繁地依照vT中给出的跳转概率改变位置。因此,随机上网者的行动以及由此而得的PageRank值得分布对于跳转向量vT中的变化具有敏感性。

    四、其它敏感性分析:

    例如对于PageRank向量更新前后之差的变化进行研究等。详细且看书中页面64-65

    展开全文
  • 为研究交通微观仿真模型中各参数的变动对模拟结果的影响程度,基于敏感度理论,通过对敏感度系数定义,使微观交通仿真模型参数的敏感性具有可比性,并结合各参数敏感度测试散点图对单一交叉口各方向平均行程时间进行...
  • 一种基于概率模型的Madaline网络敏感性研究,王炳辉,,本文介绍了Mdaline网络敏感性的研究成果,主要是对于输入扰动的敏感性计算算法。研究采用自底向上的方法,先通过建立一个一般化的��
  • 层次分析模型在区域滑坡敏感性制图中应用,胡延宇,梁收运,通过详细野外调查和室内研究,获得了研究区域内滑坡与各要素基本资料。在对滑坡与各要素相关性及其相关性程度认识基础上,选择
  • 对于敏感性分析,我们使用拉丁超立方体采样(LHS)方法生成采样点,并使用部分秩相关系数(PRCC)方法,使用这些采样点来找出哪些参数对于模型很重要。 根据我们发现,我们建议一些治疗策略。 我们研究了肿瘤体积...
  • 基于潜狄利克雷分配模型的遥感影像聚类算法超参数敏感性分析,齐银凤,唐宏,本文研究了基于潜狄利克雷分配(Latent Dirichlet Allocation,LDA)的遥感影像聚类算法中模型超参数的敏感性。首先,介绍基于LDA的遥感...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,059
精华内容 1,223
关键字:

模型的敏感性