精华内容
下载资源
问答
  • 对数线性分布
    2021-03-06 03:06:33

    首先,loc不是简单的线性移位分布,事实上loc有自己的统计意义,它意味着样本减去loc后会得到一个标准化的对数正态分布,其下限为零,这一点相当重要。

    因此,当您指定“loc”或“floc”时,实际上您施加了一个非常强的催眠,即您假设这些样本有一个下限,而下限“恰好”是“loc”值。因此,scipy使用了不同的算法进行拟合,即:

    如果您提供了loc信息,那么scipy将采用最大似然法来计算拟合参数,如果没有,它将使用数值求解器。

    此外,您还可以阅读代码:

    在scipy package stats/u continuous distns.py中

    电话:3889。具体如下:def fit(self, data, *args, **kwds):

    floc = kwds.get('floc', None)

    if floc is None:

    # loc is not fixed. Use the default fit method.

    return super(lognorm_gen, self).fit(data, *args, **kwds)

    f0 = (kwds.get('f0', None) or kwds.get('fs', None) or

    kwds.get('fix_s', None))

    fscale = kwds.get('fscale', None)

    if len(args) > 1:

    raise TypeError("Too many input arguments.")

    for name in ['f0', 'fs', 'fix_s', 'floc', 'fscale', 'loc', 'scale',

    'optimizer']:

    kwds.pop(name, None)

    if kwds:

    raise TypeError("Unknown arguments: %s." % kwds)

    # Special case: loc is fixed. Use the maximum likelihood formulas

    # instead of the numerical solver.

    此外,来自R社区的人可能会想,为什么python的输出与R不同。实际上,我不同意使用R作为“引用”,它只是一个软件,不同的软件有不同的算法风格。

    例如,R的输出如下所示并不是错误,Python或其他类似Fortran的软件使用完全不同的算法:round(3.5)

    [1] 4

    round(2.5)

    [1] 2

    更多相关内容
  • 中科大对数线性模型读书笔记,数据预处理的使用场景。
  • 如何理解和使用对数线性模型?

    千次阅读 2020-12-24 14:58:37
    对数线性模型看到上面的交叉单元格,以及单元格内的频数数据,你是否很快就会联想到可以使用卡方检验来分析分类变量A和分类变量B的相关关系?上面这个表只有一个行变量和一个列变量,因此使用卡方检验非常方便快捷,...

    对数线性模型

    看到上面的交叉单元格,以及单元格内的频数数据,你是否很快就会联想到可以使用卡方检验来分析分类变量A和分类变量B的相关关系?上面这个表只有一个行变量和一个列变量,因此使用卡方检验非常方便快捷,但是当涉及的分类变量很多,例如研究4个以上分类变量之间的相关关系时,卡方检验就不够用了,因为它不可以同时对多个分类变量之间的相关关系给出一个综合评价,也不可以在控制其它变量作用的同时对变量的效应做出估计,而对数线性模型可以解决卡方检验不能解决的这些问题,它可以一次性给出多个分类变量之间的两两相关关系。

    前面提到对数线性模型与混合线性模型有相同的地方,都是围绕分类变量展开的,因此首先回顾混合线性模型,可以参考下面的表格,混合线性模型表格中的数据不是频数数据,而是连续型数据,可以理解成某项血液指标:

    在混合线性模型中,将每个单元格内血液指标y的变异看作是病症类型(A)变量,治疗效果(B)变量、病症类型(A)和治疗效果(B)交互作用、随机误差共同影响的总和。如果将每个单元格中的数据换成频数,例如,总共调查了180名患者,这些患者的人数(频数)分布情况如下:

    如果要研究病症类型与治疗效果是否相关,也就是研究病症类型是否影响到治疗效率,如果两者无关,可以发现一般类型和特殊类型的治疗效果人数比例是基本相同的,反映到对数线性模型中,就是研究交互作用项是否等于零。从对数线性模型可以看出,对数线性模型除了能够解决分类变量(因素)之间是否相关的问题,还能够分析分类变量对频数的独立影响,也就是分类变量对频数的主效应。

    对数线性模型VS方差分析模型

    前面介绍对数线性模型的分析逻辑是以方差分析模型(一般线性模型)为基础,由此可见它们的作用是类似的,都能够分析每个变量的主效应及变量之间的交互效应。对数线性模型与方差分析模型的差异为:方差分析模型的因变量是连续性变量,对数据的分布要求为正态性和方差齐性;对数线性模型主要研究多个分类变量之间的独立性和相关性,对数线性模型一般不分因变量和自变量,只分析各分类变量对交叉单元格内频数的影响,通常频数服从多项式分布。

    对数线性模型VS逻辑回归模型

    通过前面的介绍,大家可以发现很多对数线性模型能够分析的问题其实用逻辑回归模型也能够进行分析。对数线性模型主要研究多个分类变量之间的独立性与相关性,而逻辑回归模型的因变量也是分类变量,如果自变量也是分类变量,那么就和对数线性模型的效果相同了。

    差别在于,一般对数线性模型通常将频数数据做自然对数变换(ln),而逻辑回归对频数的处理是做常用对数变换(lg);此外,对数线性模型不用区分因变量和自变量,而逻辑回归则需要明确因变量和自变量。因此对数线性模型与逻辑回归两种方法之间存在着非常密切的联系,两者的分析结果是等价的。对数线性模型的应用不如逻辑回归普遍,主要原因是如果考虑的分类变量太多,对数线性模型过于复杂。

    SPSS的对数线性模块

    SPSS的对数线性菜单总共提供了三个子菜单:常规、分对数和选择模型;这三个子菜单的分析过程都应用对数线性模型的基本原理,但在拟和方法和结果输出上有不同。常规菜单在分析中只考虑变量之间是否相关,不考虑它们之间的因果关系,不过分析者可以在最后的结果解释中加入经验解释。

    分对数菜单;有些情况,分析者已经明白变量之间的因果关系,此时继续用常规模型就无法利用因果信息,这样就会增添很多结果解释的工作量。这种情况适合使用分对数菜单。

    选择模型菜单;在建立模型之前,分析者往往会收集很多变量信息,但是那些变量之间相关,那些变量不相关,那些变量应该纳入模型,那些变量应该剔除,除了根据经验进行选择以外,很难取舍。选择模型菜单能够对变量进行筛选,帮助分析者筛选出有用的变量,这样就能使原本复杂的模型简化,排除一些变量的影响。

    总结一下

    以上这些内容的介绍,我们通过方差分析模型引出对数线性模型。大家可以根据这个规律理解清楚对数线性模型的分析逻辑。在SPSS中,根据数据情况的不同,应该选择合适的菜单进行分析,接下来,我们会分别制作文章,详解介绍。

    展开全文
  • 机器学习篇——对数线性模型

    千次阅读 2018-04-14 15:36:29
    条件概率分布对数线性模型、概率模型)、判别模型 逻辑回归: 概率分布可由广义线性模型推导得到 多分类时,分子部分为:第k类exp(-wk*x+b),第一类为1 分母部分为所有类分子之和,即标准化因子 最大熵模型...

    建议首先看cs229讲的广义线性模型、exponential family(指数分布族)
    对数线性模型包括逻辑回归、最大熵模型和条件随机场等
    1、模型
    条件概率分布(对数线性模型、概率模型)、判别模型
    对数线性模型公式
    逻辑回归:
    概率分布可由广义线性模型推导得到
    多分类时,分子部分为:第k类exp(-wk*x+b),第一类为1
    分母部分为所有类分子之和,即标准化因子
    最大熵模型:
    概率分布由最大熵原理进行建模
    分子部分为:exp(特征函数的加权和)
    分母部分为对分子的标准化因子
    条件随机场:
    概率分布由线性链(简单情况)条件随机场确定
    分子为:这里写图片描述
    分母为:这里写图片描述
    2、策略
    最大似然估计
    注:凡是已知条件概率分布(其实是似然)的模型,一般策略都是最大似然估计,即最小化对数损失函数
    最大似然估计是一种参数估计方法,其他还有最大后验概率(考虑先验的最大似然)、贝叶斯估计(最大后验的基础上进一步增强,分母看做归一化因子,即对分子的积分)最小二乘估计(最小平方估计,最小化误差的平方)等,会在后面总结一节
    3、算法
    对数线性模型参数估计用到的算法即是最大似然估计用的算法,也就是梯度下降法等
    注:条件随机场其他两个问题中,概率用前向-后向算法,预测用维特比算法(同隐马尔科夫模型)
    4、补充
    最大熵模型推导过程:
    一是最大化条件熵
    条件熵等于联合熵减去熵
    二是由特征函数确定约束条件
    特征函数关于(联合概率的经验分布)的期望值等于特征函数关于条件分布(模型)与边缘概率的期望值
    三是建立原始约束最优化问题
    即max最大熵模型
    s.t 约束条件
    四是建立最小最大化原问题
    引入拉格朗日乘子
    五是转化为最大最小化问题
    引入kkt条件
    六是转化为极大似然估计

    展开全文
  • 基于发声截止频率的对数分布线性回归用于鲁棒语音识别
  • 对数线性模型(Logistic回归算法)

    万次阅读 2017-09-07 19:42:37
    1.Logistic分布: logistic分布定义:设X是连续随机变量,X服从logistic分布,即为X具有下列分布函数和密度函数:   其中,mu为位置参数,r>0为形状参数; logistic分布分布函数F(x)的图形与密度函数f(x)的图形...

    1.Logistic分布:

    logistic分布定义:设X是连续随机变量,X服从logistic分布,即为X具有下列分布函数和密度函数:

       

    其中,mu为位置参数,r>0为形状参数;

    logistic分布的分布函数F(x)的图形与密度函数f(x)的图形如下所示:

     

    分布函数 密度函数

    分布函数的图形是一条S形曲线,该曲线是以(mu,1/2)为中心对称,在曲线中心附近增长速度较快,而在两端增长速度较慢,形状参数r的值越小,曲线在中心附近增长越快;

    2.二项 Logistic 回归模型

    二项Logistic回归模型由条件概率分布P(Y|X)表示,X为随机变量,取值为实数,Y同为随机变量,但取值为1或0;

    二项 Logistic回归模型的条件概率分布:

    其中,w称为权值向量,b为偏置,x为输入,Y为输出,也就是说通过统计x的概率值,在那一类中的概率值较大,就将x分到那一类中,

    3.模型参数估计

    给定训练数据集T={(x1,y1),(x2,y2),....(xN,yN)}, xi为实数,yi为0,1;

    则通过极大似然估计法求得模型参数;

    设P(Y=1|x)=p(x),,P(Y=0|x)=1-p(x)

    似然函数表示为:

    对数似然函数表示为:

    然后对L(w)求极大值,得到w的估计值;

    将对数似然函数作为目标函数,对其进行最优化问题;优化方法通常采用梯度下降法及拟牛顿法

    对数损失函数的标准形式为:L(Y,P(Y|X)) = -logP(Y|X)意思就是什么样的参数才能使观测到目前这组数据的概率最大。

    因为log函数是单调递增函数,所以log(P(Y|X)能够得到最大值,但L(Y,P(Y|X))=-logP(Y|X),所以最大化P(Y|X)就等同于最小化L

    逻辑回归的P(Y=y|x)表达式为:

    令w*x+b=f(x),则逻辑回归P(Y=y|x)的表达式为:

    将公式带入到L(Y,P(Y|X)中,通过推导得到logistic的损失函数表达式,

    最后推导出logistic回归的目标公式:

    梯度下降法:

    梯度 下降是通过J(w)对参数w进行一阶求导来找到下降方向,并且以迭代的方式更新参数,更新方式为 K为迭代次数;

    每次更新参数后,通过比较||J(k+1)-J(k)||与某个阈值e大小项比较,比e小就停止;

    牛顿法:

    在现有极小点估计值的附近对f(x)做二阶泰勒展开,进而找到极小点的下一个估计值

    为当前极小值的估计值,那么

    对其进行求导,令导数 求w的估计值,并与阈值e相比较;


    展开全文
  • 从线性到非线性模型-对数线性模型

    千次阅读 2018-08-25 17:41:30
    线性到非线性模型 1、线性回归,岭回归,Lasso回归,局部加权线性回归 2、logistic回归,softmax回归,最大熵模型 3、广义线性模型 4、Fisher线性判别和线性感知机 5、三层...
  • 为了研究功能函数为特殊多项式,且随机变量均服从对数正态分布的情况下,可靠指标可避免迭代运算的直接计算方法.本文提出采用对数变换的方法将功能函数线性化,从而转化为求线性功能函数的可靠指标.通过三个算例将本文...
  • 公式推导对数几率回归用于处理二分类问题,其数学基础为对数几率函数,是一种 Sigmoid 函数\[y = \frac{1}{1+e^{-z}} \tag 1\]其函数图像如下取 $z = \boldsymbol{w}^T\boldsymbol{x}+b$,并对式 $(1)$ 进行一定变换...
  • 为了研究煤矿井下疏放水钻孔水量的分布规律,利用直方图、Q-Q图和非参数检验法对典型工作面疏放水钻孔水量进行了对数正态分布模型的检验,并进行了非线性回归模型的拟合,结合工作面水文地质条件,对模型中的参数...
  • 常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归理论和应用的学习总结、以及广义线性模型导出逻辑回归的过程,下一...
  • 线性回归 高斯曲线 对数正态分布

    千次阅读 2013-12-28 23:14:44
    线性回归  回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则...
  • 本文研究了垄断卖方应如何为买方具有对数正态分布的支付意愿(WTP)的三级价格歧视应用程序确定最优的定价变量集(定价指标)。 在非常类似于线性回归和概率回归的设置中,本文表明,当垄断卖方被限制使用一种度量...
  • Glauber的相干态理论的基础上,合理假设这组解在非线性介质中呈泊松分布,进而得到了在对数饱和非线性介质中存在高斯孤子的结论,并获得高斯孤子解、非线性系数与泊松参量三者之间的关系。该关系说明,若在介质中存在...
  • BG:在box-cox变换中,当λ = 0时即为对数变换。当所分析变量的标准差相对于均值而言比较大时,这种变换特别有用。对数据作对数变换常常起到降低数据波动性和减少不对称性的作用。。这一变换也能有效消除异方差性...
  • 跟着博主的脚步,每天进步一点点本文介绍对数线性分类模型,在线性模型的基础上通过复合函数(sigmoid,softmax,entropy )将其映射到概率...
  • 例如,如果您的残差不是正态分布的,那么采用偏斜变量的对数可以通过更改比例并使变量更“呈正态”分布来改善拟合。例如,收入被截断为零,并且经常表现出正偏斜。如果变量具有负偏斜,则可以先取变量,然后再取对数...
  • 用R语言进行数据分析:常规和广义线性模型线性模型对于常规的多重模型(multiple model)拟合,最基本的函数是lm()。 下面是调用它的方式的一种改进版:>fitted.model例如> fm2 将会拟合 y 对 x1 和 x2 的多重...
  • 对数线性模型log linear model 对数线性模型有:最大熵模型和逻辑斯谛回归。 特征和指示特征 对数线性模型的一般形式 [概率图模型原理与技术] 某小皮 对数线性模型的不同形式 因子图 将因子...
  • 线性回归是一种研究影响关系的方法,在实际研究里非常常见。本文就来梳理下线性回归分析的分析流程,闲话少说,我们开始吧!线性回归回归分析实质上就是研究一个或多个自变量X对一个因变量Y(定量数据)的影响关系情况...
  • 并不是大的量和小的量放在一起大的就要对数,那我必然要问你,为什么不选择开N次方呢?或者把小的求阶乘(当然这种操作可能也不太“自然”)?事实上选择如何处理特征是要有一定的“具象”理由的,常见的两个原因有:...
  • 利用Matlab提取图片中曲线数据前一段时间看到一篇文章“利用... 同时作者也没有考虑对数坐标的情况,且程序GUI界面不太人性化,操作有点不习惯。因此借着作者良好意愿,对其程序进行了改进~2011-6-9shanyunh@http...
  • 对数正态泊松回归模型 运行Hess等人的对数正态泊松回归模型的代码。 2019,“癌症中的乘客热点突变”() 此仓库中有什么? 该存储库包含用于运行贝叶斯对数正态泊松(LNP)回归的MATLAB函数。 我们包括代码,既可以...
  • 对数几率回归 又常常称为逻辑回归,逻辑斯谛回归 如果是分类任务,如何使用线性回归模型呢?答案在广义线性模型的公式中,只需要找到一个单调可微函数将分类任务的真实标记y 与线性回归模型的预测值联系起来。 考虑...
  • 使用C++、opencv实现对图像的对数变换及非线性变换,实现图像增强 相关API: void normalize(InputArray src, OutputArray dst, double alpha=1, double beta=0, int norm_type=NORM_L2, int dtype=-1, Input...
  • Haenszel 检验5.5 关联规则5.5.1 基本概念5.5.2 Apriori 算法5.6 Ridit 检验法5.7 对数线性模型5.7.1 基本概念5.7.2 设计矩阵5.7.3 估计和检验5.7.4 高维对数线性模型和独立性 这一个系列的笔记和整理希望可以帮助到...
  • 常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归的学习总结,以及广义线性模型导出逻辑回归的过程。下一篇将是对...
  • 通常,GLM的连接函数可能比分布更重要。为了说明,考虑以下数据集,其中包含5个观察值x = c(1,2,3,4,5)y = c(1,2,4,2,6)base = data.frame(x,y)然后考虑具有不同分布的几个模型,以及一个链接regNId =glm(y~x,family...
  • 当然,在考虑到一些协变量的情况下,应该考虑使用适当的族对成本的分布进行建模。以下是我们将使用的数据集, > sinistre=read.table("http://freakonometrics.free.fr/sinistreACT2040.txt", + header=TRUE,.....
  • 考虑二分类任务,其输出标记,而线性回归模型产生的预测值是连续分布的实数,需要一个阶跃函数将连续值映射为离散二值。用一个对数几率函数近似阶跃函数,得到。从而y和1-y可以分别视为类后验概率和,简记为和。  ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 38,797
精华内容 15,518
关键字:

对数线性分布