精华内容
下载资源
问答
  • 处理数据时,对数据对数的意义

    万次阅读 2018-09-14 10:01:00
    例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。   ...

    平时在一些数据处理中,经常会把原始数据取对数后进一步处理。

    之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:

    1. 缩小数据的绝对数值,方便计算。

    例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。

     

    2. 取对数后,可以将乘法计算转换称加法计算。

     

    3. 某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。

    从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。

    也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。

     

    4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。

    5. 且所得到的数据易消除异方差问题。

    6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。

     

    当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。

    转载:https://www.cnblogs.com/zztt/p/3409675.html

    展开全文
  • 例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。 2、取对数后,可以...

    平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:
    1、缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。

    2、取对数后,可以将乘法计算转换称加法计算。

    3、某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897,
    log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。
    4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度
    5. 所得到的数据易消除异方差问题。稳定方差

    展开全文
  • 数据处理使用对数的原因

    千次阅读 2019-05-11 12:22:56
    1.对数函数图像 ...例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了。 (2)取对数后,可以将乘法计算转换称加法计算。 某些...

    1.对数函数图像

    2.

    平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:

    (1)缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了。

    (2)取对数后,可以将乘法计算转换称加法计算。

    某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。

    (3)从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。

    也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。
    (4) 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。

    (5)所得到的数据易消除异方差问题。

    在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a1/X, b=(DY/DX)(X/Y)=(DYX)/(DXY)=(DY/Y)/(DX/X) 这正好是弹性的定义。

    当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。

    展开全文
  • 例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。2. 取对数后,可以...
    平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:
    1. 缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。

    2. 取对数后,可以将乘法计算转换称加法计算。

    3. 某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。

    从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。

    也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。
    4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。


    5. 所得到的数据易消除异方差问题。

    6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义

    当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。


    log是非常重要地 特别是在计量之中 经常会用到,细说如下:
    y=x 是说 x增长1单位 Y也增长一个单位
    y=logx 是说 x 增长一个单位 y增长百分之多少 





    转载于:https://www.cnblogs.com/xuancaoyy/p/5535927.html

    展开全文
  • 数据对数的意义

    千次阅读 2019-01-26 11:55:37
    数据对数的意义 ...平时在一些数据处理中,经常会把原始数据对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取...例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据...
  • 例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。 2. 取对数...
  • 数据对数运算的意义

    千次阅读 2015-07-08 00:43:05
    平时在一些数据处理中,经常...例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数
  • From the website: 数据对数的意义 - Tong Zeng - 博客园 平时在一些数据处理中,经常会把原始... 例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小...
  • 告诉你为什么数据要取对数

    万次阅读 2018-05-28 11:28:40
    例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。2. 取对数后,可以...
  • PHP中对数进行分页处理的原理及分页实例  最近用到了用数组数据分页,所以就整理了一下,希望能大家有用! class PaginationArray{    public $pageArray=array(); //数组  public $...
  • 有相同属性的对象放在同一个数组:_nomarSinger (list) { //传入一个list数组,对数组中的数据进行封装 let map = { hot: { //热门 title: HOT_NAME, items: [] } }; console.log(list); ...
  • 为什么特征数据要做对数变换?

    千次阅读 2019-05-10 12:42:30
    例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。 取对数后,可以...
  • 应用层联接在我们的应用程序中实现联接可以(部分)模拟关系数据库执行第一个查询得到的结果将填充到 terms 过滤器中 优点:可以对数据进行标准化处理。 缺点:在搜索时联接文档,需要额外的查询。该方法适用于第一...
  • //函数fun的功能是:计算形参x所指数组中平均值(规定所有数均为正数),将所指数组中大于平均...//重难点:对数组的处理。 1 #include <stdlib.h> 2 #include <stdio.h> 3 #define N 10 4 d...
  • 在之前的博客“js-数组遍历方法...有一种常见情景,一组数据进行条件判断或处理,以实现这些功能:找出A、满足B的元素进行XX处理、判断这一组是否都满足C条件……这些功能都能用循环语句加判断/处理语句实现。但是
  • 基本性质: ...平时在一些数据处理中,经常会把原始...例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模...
  • 对数进行重新排序

    千次阅读 2017-08-15 01:26:34
    更多的我们需要对数据进行遍历处理等,这时候我们从数据库中获取数据时的排序可能就被打乱了, 需要对数组重新排序,下面就写写汇总到的对一维和二维数组进行重新排序的方法:一维数组:使用php自带的排序函数进行...
  • 在做电化学实验的时候,我们会获得很多的极化曲线的数据(LSV测试),然后需要将这些LSV曲线的数据进行平均值处理,然后电流的绝对值取以10为底的对数,然后使用origin作图。 在没有学习python用于办公自动化之前...
  • 数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据...常用的数据插补方法如下表:插补方法有:1、拉格朗日插值法 2、牛顿插值法例子:用拉格朗日插值法缺失值进行插补4.1.2 异常值处理4.2 数据集成4...
  • 在同一个坐标系中,由于高中低的数量级差异悬殊,会导致小数据柱形图趋近于0,直接取对数又会导致对比不明显。例如要比较的数据如下: [JavaScript] 纯文本查看 复制代码 ? 01 02 03 04 05 06 07 ...
  • 数据处理

    2017-09-19 17:17:00
    数据处理 对数变换 正态变换 Box-Cox的R函数 Box-Cox变换的数学解释 ...对数变换 ...比如在使用线性回归的时候,由于残差 epsilon 不符合正态分布而不满足建模的条件,这时候要响应变量Y进行变换,...
  • 目录综述实例分析 综述 目的:将数组映射为相应的RTL接口(注意:这里的数组都是作为顶层...可以通过directive设置到底是使用单端口还是双端口,也可以设置通过FIFO的形式来读写数据,而且可以数组进行分割,并储
  • 机器学习中变量数据进行Log变化

    千次阅读 2019-12-26 09:38:14
    机器学习算法中,一些算法要求数据符合正态分布,但是对于...一个现在比较常见的方式是将数据进行Log变,即取对数,这样可以使得数据在一定程度上符合正态分布的特征。 效果如下图所示: (转换前) (转换后) ...
  • 投资:数据处理

    2019-10-16 20:18:12
    例如,每个数据项的值都很大,许多这样的值进行计算可能超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。 取对数后,可以...
  • yii---对数进行分页

    2018-12-14 12:06:00
    很多时候,我们会多个数据进行分页处理,例如我最近开发的一个功能,系统消息,系统消息的来源是多个表,而且多个表之间的数据没有任何关联,这个时候,需要多个表进行查询,查询返回的数据进行分页,而且采用的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 419
精华内容 167
关键字:

对数据进行对数处理