精华内容
下载资源
问答
  • 对特征值取对数
    千次阅读
    2020-04-04 22:15:40

    平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:
    1、缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。

    2、取对数后,可以将乘法计算转换称加法计算。

    3、某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897,
    log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。
    4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度
    5. 所得到的数据易消除异方差问题。稳定方差

    更多相关内容
  • 数据取对数的意义

    万次阅读 2021-04-07 12:44:14
    例如,每个数据项的都很大,许多这样的进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。 2. 取对数后,可以将...

                                        数据取对数的意义

    平时在一些数据处理中,经常会把原始数据取对数后进一步处理。
    之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:

    1. 缩小数据的绝对数值,方便计算。

    例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。

    2. 取对数后,可以将乘法计算转换称加法计算。

    3. 某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。

    例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。

    从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。

    也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。

    4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度。

    例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。

    5. 且所得到的数据易消除异方差问题。

    6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。

    当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。

    关于损失函数取对数:

    Submissions are evaluated on Root-Mean-Squared-Error (RMSE) between the logarithm of the predicted value and the logarithm of the observed sales price. (Taking logs means that errors in predicting expensive houses and cheap houses will affect the result equally.)
     

    【参考】:

    https://www.cnblogs.com/zztt/p/3409675.html

    https://zhuanlan.zhihu.com/p/95920193

     

    展开全文
  • 事实上选择如何处理特征是要有一定的“具象”理由的,常见的两个原因有:一:在变量和预测做线性相关性分析以后发现不是线性关系。你可以简单的理解为,随便挑一个特征x_0,把y=f(x_0)画出图来一看,线是弯的,...

    并不是大的量和小的量放在一起大的就要对数,那我必然要问你,为什么不选择开N次方呢?或者把小的求阶乘(当然这种操作可能也不太“自然”)?

    事实上选择如何处理特征是要有一定的“具象”理由的,常见的两个原因有:

    一:在对变量和预测值做线性相关性分析以后发现不是线性关系。你可以简单的理解为,随便挑一个特征x_0,把y=f(x_0)画出图来一看,线是弯的,本来就不是直的。然后我们就可以根据数据来猜测甚至干脆试试到底是幂关系还是指数关系或是其他。尝试过以后再做线性相关性分析,看看是不是这么处理就线性了。

    二:“量纲”统一,曾经我在做一个新词发现的操作时需要用到的两个指标分别是词频f和左/右邻字的分布熵e,如果从数学的角度上看我们显然不能把f+e当做一个指标,因为词频相当于是一种分布的概率值,而熵是概率的对数的期望。所以如果我们联想类比物理中“量纲”的概念,我们就可以很快想到,用log f+e可能会是一个可行的指标,至少他们的缩放是同级别的,都是概率的对数级别的。

    最后,就是真的要理解业务。这个很重要。如果在工作中,就去和销售或客户代表聊聊,也许专业人士的经验会告诉你,在他们的领域中,早就有前人发现这些变量间大概的关系了。比如可能是个微分方程,其实很多现实规律都来源于一些差分方程,而差分方程常常能解出一堆带e的n次方的东西。

    展开全文
  • ML之FE:特征工程处理中常用的数据变换(log取对数变换等)之详细攻略 目录 特征工程处理中常用的数据变换(log取对数变换等)之详细攻略 log取对数变换 特征工程处理中常用的数据变换(log取对数变换等)...

    ML之FE:特征工程处理中常用的数据变换(log取对数变换等)之详细攻略

     

     

     

    目录

    特征工程处理中常用的数据变换(log取对数变换等)之详细攻略

    log取对数变换


     

     

     

    特征工程处理中常用的数据变换(log取对数变换等)之详细攻略

    log取对数变换

    意义:取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度。让方差恒定,即让波动相对稳定,消除异方差问题

    import numpy as np
    import pandas as pd
    
    
    array_data=np.array([[1,  2,  3,  4,  5],
                        [0.1,0.2,0.3,0.4,0.5])
    print(array_data.shape)
    
    
    array_data2log = -np.log(array_data)  # 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度。让方差恒定,即让波动相对稳定。消除异方差问题
    print(array_data2log)
    dis = np.sqrt(array_data2log)
    print(dis)

     

    更新……

     

     

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  • 说句题外话,很多高中数学乃至数学整体的误解来源于此。上次的文章介绍了指数运算、指数函数和幂函数,而这次介绍的对数函数可以视为是指数函数的逆运算。对数的定义是 其中称 为底数,称 为真数。有些读者可以...
  • np.log1p()取对数符合正态分布

    千次阅读 2021-03-13 00:05:21
    一、SEM基础 SEM是Search Engine Marketing 的简称。也就是搜索引擎营销 搜索引擎竞价推广是从搜索引擎衍生出的一项广告。 竞价推广定义: ...企业主根据自身产品需求...投放目标的分析确定,是一切营销活动的...
  • 为什么特征数据要做对数变换?

    千次阅读 2019-05-10 12:42:30
    例如,每个数据项的都很大,许多这样的进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。 取对数后,可以...
  • logm--求矩阵的对数

    千次阅读 2015-12-24 11:18:09
    如果矩阵A是奇异的或者有特征值在负实数轴,那么A的主要对数是未定义的,函数将计算非主要对数并打印警告信息。logm函数是expm函数的逆运算。 2.[L,exitflag]=logm(A) exitflag是一个标量值,用于描述函数...
  • 特征偏度和异常处理

    千次阅读 2021-08-09 18:43:36
    因此,在数据预处理阶段会查看目标变量以及各个特征是否服从或接近正态分布,如果偏离就通过一定变换将该数据的分布正态化。 一般来说,数据的直方图如果单峰并近似正态但看上去又有些扭曲,可以考虑正态化。
  • 特征工程的基础介绍和常用方法总结,包括对数转换、特征标准化、离散化、Label Encoder、OneHot Encoder 以及 Dummy Variables。
  • 时域特征值的代码实现可以参考:时域特征值提取的MATLAB代码实现(均方根、峰值因子、脉冲因子、裕度因子、峭度因子、波形因子和偏度等) 文章如要转载请私信与我联系,并注明来源知乎专栏与信号处理有关的那些东东...
  • r中如何求变量的对数转换In Simple terms, log transform squashes or compresses range of large numbers and expands the range of small numbers. So if x is larger, then slower the log(x) increments. 用简单...
  • 回归模型中对数变换的含义

    千次阅读 2020-06-23 18:32:44
    1.1 因变量采用对数变换 ln(y^)=β0+β1×xln(\hat y)=\beta_0 +\beta_1 \times xln(y^​)=β0​+β1​×x x→x+1;y^1→y^2x \to x+1; \hat y_1 \to \hat y_2x→x+1;y^​1​→y^​2​ {y^1=eβ0+β1×xy^2=eβ0+β1...
  • 概率密度函数在概率论与统计学中,对数正态分布是对数为正态分布的任意随机变量的概率分布。如果 XX 是正态分布的随机变量,则 exp(X)exp(X) 为对数正态分布;同样,如果Y Y 是对数正态分布,则 ln(Y)ln(Y) 为正态...
  • 取样条件和取样时间煤层甲烷碳同位素有较大影响,在某一个时间点所气样的同位素不一定代表该井原地气体的同位素.在采样进行同位素测定时,煤样全部解吸气体的碳同位素的平均才能代表该井煤层气的原地气...
  • EXCEL自动计算液塑限并绘制图表至双对数坐标系精品论文 参考文献EXCEL自动计算液塑限并绘制图表至双对数坐标系湖南理工职业技术学院 湖南湘潭 411000 摘要:用解析法计算液塑限试验数据,并将其编制成EXCEL表格并...
  • 语音识别-mfcc特征

    千次阅读 2019-06-11 10:45:17
    语音识别-mfcc特征mfcc(梅尔频率倒谱系数)mfcc提取步骤预加重分帧加窗快速傅里叶变换梅尔滤波器组滤波并取对数离散余弦变换(DCT) mfcc(梅尔频率倒谱系数) 简单的说就是用来描述人的声道的特征,也就是人的声音...
  • 首先我们同一组数据(实为一个数据的功率谱),然后分别画出其在线性坐标和双对数坐标下(loglog)下的曲线: 一般我们为了更好观察数据特征,特意把数据画在双对数坐标下,然后分析数据的时候我们经常形象的说...
  • 这篇文章整理两个图像处理中非常重要的算法,一个是Harris角点检测算法,另一个是SIFT特征匹配算法,这两个算法本质上还是去找图像里面的关键特征点,帮助我们后续更好的理解图像以及做各种各样的分析。 由于这两个...
  • 来计算的,实际上,取对数计算的时候只是影响的的大小,但是并不影响相对大小,也可以选用其他的底数,但是本质上是一样的,而且不同底数之间也可以通过换底公式计算。 H A ( X ) = − ( 7 9 × l o g 2 7 9 + 2...
  • 这里是使用“特征提取+BP神经网络,实现图像的分类”,需要知道的是:1.二维图像做完标签,制作数据集后,可以用CNN(一般输入是而惟独图片)来图像做分类的。当前,在这之前要经过模型的训练过程。2.也可以...
  • 机器学习 对数几率回归模型(Python实现)

    万次阅读 多人点赞 2019-05-23 20:23:41
    本文介绍对数几率回归模型,是一个典型的二分类任务学习模型 书接上回,我们可以一个数据集得到它的回归方程 我们是这样去解读回归方程的:在相关属性下样例的某一特征的度量 我们根据回归方程得到的特征度量...
  • 换句话说,我们用对数函数,前面的似然函数进行转换之后,是不会影响原来似然函数的变化趋势的,即对数似然函数的最大点就是似然函数的最大点,这个结论太重要啦! 对数似然函数的的主要作用,就是用来定义...
  • 数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续分组为较少数量的“分箱”的方法。 例如,例如我们有一组关于人年龄的数据,如下图所示: 初始数据 ...
  • 1 对数几率回归原理分析 1.1 引入 1.2 损失函数 1.3 求最优解 2 对数几率回归实践 Logistic回归的一般过程 Logistic回归的优缺点 Logistic回归算法描述(改进的随机梯度下降) 《机器学习实战》第五章代码...
  • 数值数据的特征预处理

    千次阅读 2019-10-03 21:35:57
    当从数据挖掘过程中收集数据时,会丢失一些数据(我们将其称为丢失)。此外,它很容易受到噪音的影响。这都导致低质量数据的结果,正如你可能已经听说过的,模型的好坏决于它所训练的数据。 这就是特征预处理的...
  • 对数几率回归,也称为逻辑回归,虽然名为“回归”,但实际上是分类学习方法。 优点 不仅可以预测类别,还可以得到近似概率,许多需要利用概率辅助决策的任务很有用。 直接分类可能性建模,无需考虑数据...
  • 从线性到非线性模型-对数线性模型

    千次阅读 2018-08-25 17:41:30
    由于最大似然估计导出的结果是概率连乘,而概率(sigmoid函数)恒小于1,为了防止计算下溢,取对数将连乘转换成连加的形式,而且目标函数和对数函数具备单调性,取对数不会影响目标函数的优化。 ​ 2)从对数...
  • 离散对数问题,英文是Discrete logarithm Problem,有时候简写为Discrete log,该问题是十几个开放数学问题(Open Problems in Mathematics, [0.a], [0.b])中的一个。为什么要从离散对数问题说起?因为后面的内容中会...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 36,200
精华内容 14,480
热门标签
关键字:

对特征值取对数