精华内容
下载资源
问答
  • 数仓模型优化-如何判断一个数据模型的好坏概述具体衡量标准1、完善度2、复用度3、规范度4、扩展性5、稳定性6、低成本7、准确性&一致性总结 概述 具体衡量标准 1、完善度 这个主要是考察DWS层,汇总数据能直接...

    概述

    在这里插入图片描述

    具体衡量标准

    1、完善度

    这个主要是考察DWS层,汇总数据能直接满足多少查询需求,即应用层访问汇总层数据的查询比例
    跨层引用率:ODS 层直接被 DWS/ADS/DM 层引用的表,占所有 ODS 层表比例
    完善度越高,响应业务方的需求速度越快

    比较好的模型,使用方是可以直接从该模型获取所有想要的数据的,如果dws,ads,dm层直接引用ods层的表比例太大,即跨层引用率太高,则该模型不是最优,可以继续优化

    2、复用度

    模型引用系数:模型被读取并产出下游模型的平均数量

    3、规范度

    主题域归属
    分层信息
    脚本及任务命名规范
    表命名符合规范(清晰、一致,见名知意)
    字段命名是依赖于词根

    4、扩展性

    新增加的模型是否和老的模型出现冲突

    5、稳定性

    能否保证日常的sla(时效保障)

    6、低成本

    计算时间成本
    计算资源成本
    存储成本

    7、准确性&一致性

    输出的指标数据质量能够保证

    总结

    完善度,复用度,规范度基本上是需要了解业务,然后根据元数据信息去做统计分析的
    稳定性,低成本是需要对任务进行优化,比如sql调优等
    准确性和一致性是需要一套质量管理系统及指标一致性管理方案的,包括数据源,口径和指标管理平台等。

    展开全文
  • 包括所有可以出现的表、意义和模型好坏的判断标准。 回归模型的参数设置 1,在回归模型前设置类型,角色分配:1个目标,多个输入,无关的数据角色选择“无”; 2,在【字段】中选择使用预定角色; 3,在【模型】中按...

    SPSS Modeler的回归模块
    包括所有可以出现的表、意义和模型好坏的判断标准。

    回归模型的参数设置

    1,在回归模型前设置类型,角色分配:1个目标,多个输入,无关的数据角色选择“无”;
    2,在【字段】中选择使用预定角色;
    3,在【模型】中按需求选择建模方法;可参考SPSS回归节点四种建模方法的原理
    注:当模型不再将新字段纳入模型,也不再将已有字段移出模型时,完成回归模型的建立。建模时,纳入F概率<移除F概率,纳入F值>移除F值。
    在这里插入图片描述
    4,在【专家】中,一般不调整异常值容差,为解释完整,在【输出…】中勾选全部选项,实际项目中可以按需勾选
    回归【专家】【输出...】选项
    其他模块中的内容易懂,本文主要解释【高级】中的输出含义。
    输出目录概览如下:
    输出目录

    Descriptive Statistics 描述性统计

    对所有输入和目标等字段的描述性统计,包括Mean(均值),Std.Deviation(标准差),N(建模使用到的记录数)。

    Correlations 相关性

    1【 Pearson Correlation 】皮尔逊相关
    表示变量之间的两两相关性。在输出——Statistics统计量节点中也可以输出Pearson相关矩阵。
    2【 Sig.(1-tailed) 】单脱尾显著性
    显著性往往与0.05作比较
    因为 α = 1-置信水平,而置信水平往往取>0.9或0.95
    3【 N 】
    数据数量。

    Variables Entered/Removed 变量的移入/移出

    实质上为建模的过程。根据模型设置中建模方法(进入法、步进法、后退法、前进法)的选择不同,变量的移入移出(是否参与构建回归模型)过程也不同。其他输出结果也会有差异,但模型总体差距不大。

    Model Summary 模型总览

    【R²】 R Square值越接近1,模型拟合效果越好。
    【A~R】Adjusted R Square修正的R²值,考虑了对模型复杂度的 ”惩罚“ 。每有一个新的变量加入构建模型,R²会上升,但模型复杂度也同时变高,拟合度评分上升,但复杂度评分下降,因此A~R²可以看成同时考虑了拟合度和复杂度的模型质量评分。
    【Std. Error of the Estimate】预估的标准误。
    【Change Statistics】
    【Selection Criteria】选择标准。信息论中的信息准则。其中AIC中有K、L两个变量,k越小,AIC越小,模型简洁度越好;L越大,AIC越小,模型精确度越好。因此AIC值越小越好。类似的其他值也有相应的公式计算方法,可自行搜索了解。
    【Durbin-Waston】DW值通常在[0,4]范围内,若在2左右,表示输入变量之间的相关性较弱,模型效果较好。

    ANOVA 方差分析

    方差和Sum of Squares,自由度df,均方差Mean Squares,F值和显著性Sig.
    自由度df:可以任意取值的变量个数。n各估计参数,自由度为n-1。
    《自由度-F值表》中有df与其对应F值的标准,若F值<标准F值,则差异不明显,若F>标准F值,则差异度很大。具体可查找F检验和T检验的资料。

    Coefficients 回归系数

    【Unstandardized Coefficients】 非标化回归系数
    【Standardized Coefficients】 标化回归系数,做了标准化后的回归系数。
    【Collinearity Statistics】共线性统计。
    Tolerance容忍度 = (1-R²) = 1/VIF。
    VIF值即方差膨胀系数,VIF<10是可接受的,说明变量间的独立性较高,没有共线性问题存在。
    【95.0% Confidence Interval for B】置信度95%的置信区间。

    Coefficient Correlations 系数相关性

    【Correlations】相关性。除对角线外的值应小于0.7,否则模型是需要调整的。
    【Covariances】协方差

    Collinearity Diagnostics 共线性描述

    【Condition Index】条件数<10,不存在多重共线性

    Residuals Statistics 残差统计

    最小值、最大值、均值、标准差、数据量。在这里插入图片描述

    展开全文
  • LDA主题模型好坏的评估,判断改进的参数或者算法的建模能力。 Blei先生在论文《Latent Dirichlet Allocation》实验中用的是Perplexity值作为评判标准。 一、Perplexity定义 ...perplexity是一种信息理论的测量方法,b...

    http://blog.csdn.net/pipisorry/article/details/42460023

    基础知识:熵

    [熵与互信息]

    皮皮blog



    Perplexity定义

    perplexity是一种信息理论的测量方法,b的perplexity值定义为基于b的熵的能量(b可以是一个概率分布,或者概率模型),通常用于概率模型的比较

    wiki上列举了三种perplexity的计算:

    1 概率分布的perplexity

    公式:  20130718161536515

    其中H(p)就是该概率分布的熵。当概率P的K平均分布的时候,带入上式可以得到P的perplexity值=K。

    2 概率模型的perplexity

    公式: 20130718161551531

    公式中的Xi为测试局,可以是句子或者文本,N是测试集的大小(用来归一化),对于未知分布q,perplexity的值越小,说明模型越好。

    A model of an unknown probability distribution p, may be proposed based on a training sample that was drawn fromp. Given a proposed probability modelq, one may evaluateq by asking how well it predicts a separate test samplex1,x2, ...,xN also drawn fromp. The perplexity of the modelq is defined as

    b^{- \frac{1}{N} \sum_{i=1}^N \log_b q(x_i)}

    where b is customarily 2. Better modelsq of the unknown distributionp will tend to assign higher probabilitiesq(xi) to the test events. Thus, they have lower perplexity: they are less surprised by the test sample.

    The exponent above may be regarded as the average number of bits needed to represent a test eventxi if one uses an optimal code based onq. Low-perplexity models do a better job of compressing the test sample, requiring few bits per test element on average becauseq(xi) tends to be high.

    指数部分也可以用交叉熵来计算。
    H(\tilde{p},q) = -\sum_x \tilde{p}(x) \log_2 q(x)
    where \tilde{p} denotes the empirical distribution of the test sample (i.e.,\tilde{p}(x) = n/N ifx appeared n times in the test sample of size N)

    3单词的perplexity

    perplexity经常用于语言模型的评估,物理意义是单词的编码大小。例如,如果在某个测试语句上,语言模型的perplexity值为2^190,说明该句子的编码需要190bits

    [http://en.wikipedia.org/wiki/Perplexity]

    皮皮blog



    评估LDA主题模型-perflexity

    LDA主题模型好坏的评估,判断改进的参数或者算法的建模能力。

    perplexity is only a crude measure, it's helpful (when using LDA) to get 'close' to the appropriate number of topics in a corpus. 

    Blei先生在论文《Latent Dirichlet Allocation》实验中用的是Perplexity值作为评判标准,并在论文里只列出了perplexity的计算公式。


    Note:M代表测试语料集的文本数量,Nd代表第d篇文本的大小(即单词的个数),P(Wd)代表文本的概率

    文本的概率的计算:


    p(z)表示的是文本d在该主题z上的分布,应该是p(z|d)

    Note

    1. Blei是从每篇文本的角度来计算perplexity的,而上面是从单词的角度计算perplexity。

    2. 测试文本集中有M篇文本,对词袋模型里的任意一个单词w,P(w)=∑z p(z|d)*p(w|z),即该词在所有主题分布值和该词所在文本的主题分布乘积。

    3. 模型的perplexity就是exp^{ - (∑log(p(w))) / (N) },∑log(p(w))是对所有单词取log(直接相乘一般都转化成指数和对数的计算形式),N的测试集的单词数量(不排重)

    4. P(w)=∑z p(z|d)*p(w|z)这个w是测试集上的词汇

    [http://blog.csdn.net/pipisorry/article/details/42460023]

    [http://faculty.cs.byu.edu/~ringger/CS601R/papers/Heinrich-GibbsLDA.pdf - 29页]


    Estimate the perplexity within gensim

    The `LdaModel.bound()` method computes a lower bound on perplexity, based on a supplied corpus (~of held-out documents).
    This is the method used in Hoffman&Blei&Bach in their "Online Learning for LDA" NIPS article.

    [https://groups.google.com/forum/#!topic/gensim/LM619SB57zM]

    you can also use model.log_perplexity(heldout), which is a convenience wrapper.

    [Questions find in : the mailing list of gensim]

    皮皮blog


    评价一个语言模型Evaluating Language

    假设我们有一些测试数据,test data.测试数据中有m个句子;s1,s2,s3…,sm

    我们可以查看在某个模型下面的概率:image

    我们也知道,如果计算相乘是非常麻烦的,可以在此基础上,以另一种形式来计算模型的好坏程度。

    在相乘的基础上,运用Log,来把乘法转换成加法来计算。

    image

     

    补充一下,在这里的p(Si)其实就等于我们前面所介绍的q(the|*,*)*q(dog|*,the)*q(…)…

    有了上面的式子,评价一个模型是否好坏的原理在于:

    a good model should assign as high probability as possible to these test data sentences.

    image,this value as being a measure of how well the alleviate to make sth less painful or difficult to deal with language model predict these test data sentences.

    The higher the better.

    上面的意思也就是说,如果image的值越大,那么这个模型就越好。

    • 实际上,普遍的评价的指标是perplexity

    image

    其中,M的值是测试数据test data中的所有的数量。

    那么从公式当中查看,可以知道。perplexity的值越小越好。

    为了更好的理解perplexity,看下面这个例子:

    • 我们现在有一个单词集V,N=|V|+1

    image

    有了上面的条件,可以很容易的计算出:

    image

    Perplexity是测试branching factor的数值。

    branching factor又是什么呢?有的翻译为分叉率。如果branching factor高,计算起来代价会越大。也可以理解成,分叉率越高,可能性就越多,需要计算的量就越大。

    上面的例子q=1/N只是一个举例,再看看下面这些真实的数据:

    • Goodman的结果,其中|V|=50000,在trigram model的image中,Perplexity=74
    • 在bigram model中,image,Perplexity=137
    • 在unigram model中,image,perplexity=955

    在这里也看到了,几个模型的perplexity的值是不同的,这也就表明了三元模型一般是性能良好的。

    [评价一个语言模型Evaluating Language Models:Perplexity]

    皮皮blog



    Topic Coherence

    一种可能更好的主题模型评价标准

    [Optimizing semantic coherence in topic models.]

    from:http://blog.csdn.net/pipisorry/article/details/42460023

    ref:Topic models evaluation in Gensim

    http://stackoverflow.com/questions/19615951/topic-models-evaluation-in-gensim

    http://www.52ml.net/14623.html

    Ngram model and perplexity in NLTK

    http://www.researchgate.net/publication/221484800_Improving_language_model_perplexity_and_recognition_accuracy_for_medical_dictations_via_within-domain_interpolation_with_literal_and_semi-literal_corpora

    Investigating the relationship between language model perplexity and IR precision-recall measures.

    LDA/NMF/LSA多模型/多主题一致性评价方法《Exploring topic coherence over many models and many topics》K Stevens, P Kegelmeyer, D Andrzejewski... [University of California Los Angeles] (2012)  GITHUB

    论文:(概率)生成模型评价方法研究《A note on the evaluation of generative models》Lucas Theis, Aäron van den Oord, Matthias Bethge (2015) 

    Notes on A note on the evaluation of generative models by Hugo Larochelle 


    展开全文
  • 个人原创,一字一字敲的。判断一个分类模型好坏的标准至关重要,问题是采用何种判断方法。本文浅谈一下模型评估方法的重要性,希望对初学者有一定帮助。准确率 表面上看这是一个简单的问题,如果分类...

    个人原创,一字一字敲的。

    判断一个分类模型好坏的标准至关重要,问题是采用何种判断方法。本文浅谈一下模型评估方法的重要性,希望对初学者有一定帮助。

    准确率

    表面上看这是一个简单的问题,如果分类的准确率越高,就断言分类模型越好。

    据此评价方法,对于二分类问题,评价分类算法准确率的计算公式为:

    其中,P 全称 Positive; N 全称 Negative; T 全称 True, 表示预测正确;F 全称 False, 表示预测错误。

    如果正负样本个数较为均衡,使用以上评价公式是没有问题的。

    实际中,我们要分类的问题大都满足正负样本个数均衡吗?

    如果一下能举出很多反例,大概率就可以说正负样本不均衡的情况还是很多。银行卡信贷欺诈判断、交通违规判断、考试作弊判断、垃圾邮件检测、涉黄电影判断、恶性肿瘤检测...

    并且下意识告诉我们,这些分类任务的数据集中正负样本个数往往是不均衡的,欺诈的交易总归占据少数,交通违规、考试作弊大概率也如此...

    如果正负样本个数比例真是这样不均衡,使用以上公式评价问题就出现了。比如 100 个肿瘤检测报告中,只有 1 个是正类别(确定为肿瘤),对于这类数据集,我们只要写一行代码,预测所有都为负类别(即确定不是肿瘤),则:

    你看,我们什么都没做,仅靠投机取巧,模型预测的准确率就达到 99%,这太匪夷所思!

    精确率+召回率

    显然,仅仅使用准确率评价模型好坏,失败了。原因在于正负样本个数的不均衡,导致评价出现问题。

    所以,需要设计出更加科学健全的评价指标。于是就有了 精确率+召回率的评价体系。

    其中,精确率 的计算公式为:

    公式意义:被预测为正类别的样本中,确实为正类别的比率。

    召回率 的计算公式为:

    公式意义:在所有正类别样本中,能够正确的识别为正类别的比率。

    按照此评价体系,如果还是纯碎靠猜测,即预测 100 个肿瘤全为负类别,则:

    这种极端情况,我们没有预测出正样本,所以精确率公式失去意义。下面考察召回率:

    等于 0,所以判定纯碎靠猜是不可取的,所以精确率+召回率的评价体系更优于仅凭准确率的方法。


    希望此篇文章能帮助大家通俗易懂的理解三个概念:准确率精确率召回率,以及各自存在的价值。

    如果对你有帮助,欢迎点在看。

    原创不易,点个在看

    展开全文
  • 我们曾经介绍过vintage分析(参见:《vintage分析,从酿酒到银行信用评分领域》),该方法主要用来判断客户展现好坏本性时间因素,但是在判断客户的好坏程度方面,则需要引入另一种方法:滚动率分...
  • 前言 语言模型是什么呢? 标准定义:对于语言序列w1,w2,...,wnw_1,w_2,...,w_nw1​,w2​,...,wn​,...那么怎样评估语言模型好坏呢?这里介绍一个评估指标:perplexity(困惑度) 由于网上有很多对perplexity解释,这里
  • Excel中多个模型的ROC曲线同时绘制

    千次阅读 2019-04-26 19:06:57
    1.ROC(receiver operating characteristic curve )曲线,中文名是接受者操作特性曲线,ROC是指在特定刺激条件下,以被试在不同判断标准下所得虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标,画得各点...
  • 这意味着模型的好坏是相对,什么样的模型是好,不仅取决于算法和数据,还取决于任务需求。 1. 准确率(Accuracy)、查准率 / 精确率(Precision)、查全率 / 召回率(Recall) 对于二分类问题: 查准率表现为...
  • 到底有没有可以评价一个模型好坏的标准呢?答案肯定是有的,而且还不止一个呢! 先说一个,我最开始做实验的时候用的,肉眼观察法。即通过经验来判断选择几个主题(靠猜),显然这是一个不错的方法。我当时和老大说...
  • 物体检测模型评价

    2020-01-31 13:37:05
    物体检测模型的输出是非结构化,事先并无法得知输出物体数量、位置、大小等,因此物体检测评价算法稍微复杂,对具体某个物体来讲,我们可以从预测框与真实框贴合程度来判断检测质量,通常使用 IOU ...
  • LDA评价标准

    千次阅读 2017-10-19 11:21:27
    对于评价聚类算法的好坏的评价指标: 第一是利用有分类标签的测试数据集,然后判断聚类的结果与真实的结果之间的差距。 第二是利用无分类标签的测试数据集,用训练出来的模型来跑测试数据集,然后计算在测试数据集...
  • 在上一篇《如何通过直方图判断照片曝光》中,我试图以用户对照片评分作为评判标准,找出照片直方图与其曝光好坏之间关系,然而结果并不理想。一方面,曝光水平与最终评分(点赞用户数量)之间未必相关;另一...
  • 在LDA主题模型之后,需要对模型的好坏进行评估,以此依据,判断改进参数或者算法建模能力。 Blei先生在论文《Latent Dirichlet Allocation》实验中用是Perplexity值作为评判标准。 一、Perplexity定义 源于...
  • LDA主题模型评估方法--Perplexity

    千次阅读 2017-05-10 22:30:35
    在LDA主题模型之后,需要对模型的好坏进行评估,以此依据,判断改进参数或者算法建模能力。 Blei先生在论文《Latent Dirichlet Allocation》实验中用是Perplexity值作为评判标准。 一、Perplexity定义 ...
  • 我们用什么评价标准判断这个描述的好坏呢?这篇博客将一起探讨这个问题。 在统计学中,根据从总体中抽取随机样本来估计模型未知参数过程被称为参数估计(parameter estimation)。 常用参数估计方法有:最小...
  • 精雕细琢,设计良好类与类关系 【设计原则】 无论项目开发流程用哪...通过分析来判断设计类是否符合设计原则这5个标准,进而调整类设计,达到设计良好目的。 2.为什么要用设计原则来衡量类设计的好坏?...
  • 在机器学习中,对一个模型的学习能力好坏的评估,往往人为判断不容易直接得到结果,这时候就可以根据一些数据指标进行分析评估。对模型(分类器,学习器)的泛化能力进行评估,有衡量模型泛化能力的评价标准,被称为...
  • 详解sklearn中r2_score

    千次阅读 2020-11-08 23:05:32
    1.为什么RMSE不便于做过拟合评判标准? 在机器学习中,在讨论模型的性能时,我们常常会...自然,我们可以利用均方根误差(Root Mean Squared Error,简称RMSE)来衡量模型的好坏,但用它来衡量模型对数据拟合程度
  • 但在分类问题中,我们需要判断模型是否被正确分类了,于是有如下评价标准: True表示预测正确,False表示预测错误,将负例错误预测称为1型错误,将正例错误预测成负例被称为2型错误。 准确率(Accuracy)=预测...
  • 你去水果摊上买水果,怎么看水果好坏? 评价标准是:新鲜程度 你建立了机器学习模型,又怎么判断这个模型好坏? 接下来我们要讲概念机器学习模型(机器学习方法)评价标准,会涉及到一些概念。 ...
  • 除此之外,我们也可以引申出来一个DeFi项目判断的标准,如何判断它的好坏?那就是去看他是否通过代码,通过模式的设计,创造出了更好的流动性模型。解决了用户痛点问题,拥有真实的落地应用场景,如
  • 在实习期间,看到同事在做文字识别的相关项目,用Levenshtein距离作为评价模型好坏的标准之一。由于是行外人,当时对这个算法并没有任何了解,只听他介绍是用来判断两个字符是否相似的一种指标吧,直到后来自己也做...

空空如也

空空如也

1 2 3
收藏数 48
精华内容 19
关键字:

判断模型好坏的标准