精华内容
下载资源
问答
  • 分类变量标准化
    万次阅读 多人点赞
    2018-08-17 16:21:28

    转载自:https://blog.csdn.net/bbbeoy/article/details/70185798

    评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。所谓多指标综合评价方法,就是把描述评价对象不同方面的多个指标的信息综合起来,并得到一个综合指标,由此对评价对象做一个整体上的评判,并进行横向或纵向比较。

    而在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。

    目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据标准化方法的选择上,还没有通用的法则可以遵循。

    常见的方法有:min-max标准化(Min-max normalization),log函数转换,atan函数转换,z-score标准化(zero-mena normalization,此方法最为常用),模糊量化法。本文只介绍min-max法(规范化方法),z-score法(正规化方法),比例法(名字叫啥不太清楚,归一化方法)。

     

    数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化(Min-maxnormalization)也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。log函数转换通过以10为底的log函数转换的方法同样可以实现归一下,具体方法如下:看了下网上很多介绍都是x*=log10(x),其实是有问题的,这个结果并非一定落到[0,1]区间上,应该还要除以log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。atan函数转换用反正切函数也可以实现数据的归一化:使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法:z-score 标准化(zero-meannormalization)也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

     


    1 什么是数据标准化(Normalization)

    将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

    2 有哪些常用方法呢?

    方法一:规范化方法

    pic1

    •  也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。

     

    方法二:正规化方法pic2

    • 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。
    • z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
    • spss默认的标准化方法就是z-score标准化。
    • 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。

    步骤如下:
    1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
    2.进行标准化处理:
    zij=(xij-xi)/si
    其中:zij为标准化后的变量值;xij为实际变量值。
    3.将逆指标前的正负号对调。
    标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。


    方法三:归一化方法

    pic3

    http://yuenshome.sinaapp.com/2014/08/三种常用数据标准化方法/

    更多相关内容
  • 具有各种单位和/或分类数据的数据的线性回归。 如果您的数据具有不同的单位和/或分类变量,则使用 zscore() 标准化数据矩阵和响应。 使用标准化数据求解,然后使用此函数将解映射回非标准化
  • 为了克服这个问题,我们开发了一个方差敏感模型,我们称之为标准化变量距离 (SVD),考虑到标准偏差和 z 分数(标准化变量)因素。 您可以从以下链接访问 Wine 和 WBCD 数据集: ...
  • 15种分类变量编码方法

    千次阅读 2021-02-16 11:04:34
    机器学习问题建模中,15种分类变量编码方法。

    原文:HTML
    原题:All about Categorical Variable Encoding:Convert a categorical variable to number for Machine Learning Model Building
    作者:Baijayanta Roy
    翻译校对:datamonday



    在这里插入图片描述
    大多数机器学习算法都无法处理分类变量,需要将它们转换为数值。许多算法的性能会根据分类变量的编码方式而有所不同
    在这里插入图片描述
    以下是标量(Nominal variable)的一些示例:

    • Red, Yellow, Pink, Blue
    • Singapore, Japan, USA, India, Korea
    • Cow, Dog, Cat, Snake

    序数变量(Ordinal variables)的示例:

    • High, Medium, Low
    • “Strongly agree,” Agree, Neutral, Disagree, and “Strongly Disagree.”
    • Excellent, Okay, Bad

    可以通过多种方式将这些分类变量编码为数值,这篇文章将介绍从基本到高级的大多数内容,包含以下编码方法:

    1. One Hot Encoding
    2. Label Encoding
    3. Ordinal Encoding
    4. Helmert Encoding
    5. Binary Encoding
    6. Frequency Encoding
    7. Mean Encoding
    8. Weight of Evidence Encoding
    9. Probability Ratio Encoding
    10. Hashing Encoding
    11. Backward Difference Encoding
    12. Leave One Out Encoding
    13. James-Stein Encoding
    14. M-estimator Encoding
    15. Thermometer Encoder (To be updated)

    为了说明起见,我将使用此数据表格(DataFrame),其包含两个独立变量或特征(温度和颜色)和一个标签(目标)。 它还具有Rec-No,它是记录的序列号,共有10条记录。Python代码如下所示。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    我们将使用Pandas和Scikit-learn和category_encoders(Scikit-learn贡献库)来显示Python中的不同编码方法。


    One Hot Encoding

    在这种方法中,将每个类别映射到一个包含1和0的矢量,表示该特征的存在与否。 向量的数量取决于特征类别的数量。如果该特征类别的数量非常多,则此方法会产生很多列,从而大大降低学习速度。 Pandas的 get_dummies 函数可以将分类变量编码为哑变量:

    在这里插入图片描述
    Scikit-learn中的 OneHotEncoder 类也可以实现,但它不会创建其他特征列。
    在这里插入图片描述
    独热编码(One Hot Encoding)非常流行。可以用N-1(N=类别数)来表示所有类别,因为这足以对没有包含的类别进行编码。通常,对于回归,使用N-1(放弃独热编码新特征的第一列或最后一列),但对于分类,建议使用所有N列,因为大多数基于树的算法都是基于所有可用变量建立一棵树。在线性回归中应该使用具有N-1个二元变量的一热编码,以确保正确的自由度数(N-1)。线性回归在训练的过程中,可以获得所有的特征,因此会完全检查整个虚变量集。这意味着N-1个二元变量给线性回归提供了原始分类变量的完整信息(完全代表)。这种方法可以用于任何在训练过程中同时考察所有特征的机器学习算法。例如,支持向量机和神经网络以及和聚类算法。

    在基于树的方法中,如果删除,将永远不会考虑该附加标签。 因此,如果在基于树的学习算法中使用分类变量,则比较好的做法是将其编码为N个二进制变量,并且不要丢弃。


    Label Encoding

    在这种编码中,为每个类别分配了一个从1到N的值(N为特征的类别数)。这种方法的一个主要问题是这些类别之间没有关系或顺序,但是算法可能会将它们视为但是算法可能会将它们视为某种顺序,或者存在某种关系。 在下面的示例中,它看起来像(Cold <Hot <Very Hot <Warm … 0 <1 <2 ❤️)。
    在这里插入图片描述
    Pandas的 factorize 也执行相同的功能。

    在这里插入图片描述


    Ordinal Encoding

    我们执行序数编码以确保变量的编码保留变量的序数性质。 正如我在本文开头提到的那样,这仅对序数变量合理。 这种编码看起来几乎与标签编码类似,但略有不同,因为标签编码不会考虑变量是否为序数,并且会分配整数序列

    • as per the order of data (Pandas assigned Hot (0), Cold (1), “Very Hot” (2) and Warm (3)) or
    • as per alphabetical sorted order (scikit-learn assigned Cold(0), Hot(1), “Very Hot” (2) and Warm (3)).

    如果我们以温度标尺为顺序,则顺序值应从“冷”到“非常热”。 顺序编码会将值指定为 ( Cold(1) <Warm(2)<Hot(3)<Very Hot(4))。 通常,我们从1开始进行序数编码。

    使用Pandas引用此代码,首先,需要通过字典分配变量的原始顺序。 然后按照字典映射变量的每一行。
    在这里插入图片描述
    尽管非常简单,但仍需要进行编码以告知序数值,以及按顺序从文本到整数的实际映射是什么。


    Helmert Encoding

    在此编码中,将某个级别的因变量的平均值与所有先前级别的因变量的平均值进行比较。

    category_encoders中的版本有时称为反向Helmert编码。 将某个级别的因变量平均值与之前所有级别的因变量平均值进行比较。因此,名称“reverse”用于区别于 forward Helmert编码。

    在这里插入图片描述


    Binary Encoding

    二进制编码将类别转换为二进制数字。 每个二进制数字创建一个特征列。 如果存在n个唯一类别,则二进制编码将导致仅有log(base 2)ⁿ 个特征。 在此示例中,有四个特征; 因此,二进制编码特征的总数将是三个特征。 与“独热编码”相比,这将需要较少的特征列(对于100个类别,“独热编码”将具有100个特征,而对于“二进制”编码,我们将仅需要七个特征)

    对于二进制编码,必须遵循以下步骤:

    • 首先,将类别转换为从1开始的数字顺序(顺序是在类别出现在数据集中时创建的,并不表示任何序数性质)
    • 然后,将这些整数转换为二进制代码,例如3变为011,4变为100。
    • 然后,二进制数的数字形成单独的列。

    请参考下图:
    在这里插入图片描述
    使用category_encoders包中的 BinaryEncoder 函数可以实现二进制编码。
    在这里插入图片描述


    Frequency Encoding

    这是一种利用类别的频率作为标签的方法在频率与目标变量有些相关的情况下,它可以帮助模型根据数据的性质以正比例和反比例理解和分配权重。 三个步骤:

    • 选择要转换的分类变量
    • 按类别变量分组并获得每个类别的计数
    • 将其与训练数据集重新结合

    在这里插入图片描述


    Mean Encoding

    平均编码或目标编码是Kagglers遵循的一种病毒(viral)编码方法。这有很多变化,我将介绍基本版本和平滑版本。平均编码与标签编码类似,只是这里的标签与目标直接相关。例如,在平均目标编码中,对于特征标签中的每一个类别,都是用目标变量在训练数据上的平均值来决定的。这种编码方法将相似类别之间的关系凸显出来,但联系被限定在类别和目标本身之内。平均目标编码的优点是不影响数据量,有助于加快学习速度。通常,Mean编码存在过拟合,因此,在大多数场合,使用交叉验证或其他方法进行正则化是必须的。平均数编码的方法如下:

      1. 选择要转换的分类变量。
      1. 按类别变量分组,并获得“目标”变量上的汇总和。 (“温度”中每个类别的总数为1)
      1. 按类别变量分组,并获得“目标”变量的总计数。
      1. 划分第2步/第3步的结果,然后将其与训练集合并。

    在这里插入图片描述
    代码实现:
    在这里插入图片描述
    均值编码可以在标签中体现目标,而标签编码与目标不相关。在具有大量特征的情况下,均值编码可能被证明是更简单的选择。均值编码倾向于对类别进行分组,而在标签编码的情况下,分组是随机的。

    实际上,此目标编码有多种变体,例如平滑。 平滑可以实现如下:

    在这里插入图片描述


    Weight of Evidence Encoding

    证据权重(WoE)是衡量分组技术区分好坏的“强度”的一种度量。 开发此方法主要是为了建立一种预测模型,以评估信贷和金融行业中的贷款违约风险。 证据权重(WOE)用于衡量证据支持或破坏假设的程度

    其计算方法如下:
    在这里插入图片描述
    如果P(Goods) / P(Bads) = 1,则WoE将为0。也就是说,该组的结果是随机的。 如果P(Bads) > P(Goods) ,则优势比将小于1,WoE将小于0; 另一方面,如果一组中的P(Goods) > P(Bads),则WoE> 0。

    WoE非常适合Logistic回归,因为Logit变换只是几率的对数,即 ln(P(Goods)/P(Bads))。 因此,通过在Logistic回归中使用WoE编码的预测变量,可以将所有预测变量准备和编码为相同的比例。线性逻辑回归方程中的参数可以直接比较。

    WoE转换具有(至少)三个优点:

    • 1)它可以转换自变量,以便与因变量建立单调关系。它所做的还不止于此:要确保单调关系,将其“重新编码”为任何有序的度量(例如1,2,3,4…)就足够了,但是WoE转换按“逻辑”规模对类别进行排序, Logistic回归很自然;
    • 2)对于具有太多(稀疏填充)离散值的变量,可以将它们分为几类(密集填充),并且WoE可以用于表示整个类别的信息;
    • 3)由于WoE是标准值,因此可以在类别和变量之间比较每个类别对因变量的(单变量)影响(例如,可以将已婚人员的WoE与体力劳​​动者的WoE进行比较)。

    它还(至少)具有三个缺点:

    • 1)由于归类为几个类别而导致的信息丢失;
    • 2)这是一个“单变量”量度,因此未考虑自变量之间的相关性
    • 3)根据类别的创建方式,很容易操纵(过拟合)变量的影响。

    下面代码片段说明了如何构建代码来计算WoE。
    在这里插入图片描述

    一旦为每个组计算WoE,我们就可以将其映射回Data-frame。
    在这里插入图片描述


    Probability Ratio Encoding

    概率比编码与证据权重(WoE)类似,唯一的区别是仅使用了好坏概率之比。 对于每个标签,我们计算target = 1的平均值,即平均值为 1 ( P(1) ),以及target = 0 ( P(0) )的概率。 然后,我们计算比率P(1)/P(0)并用该比率替换标签。我们需要为P(0)添加一个最小值,以避免任何除以零的情况,其中对于任何特定类别,没有target = 0。

    在这里插入图片描述
    在这里插入图片描述


    Hashing

    散列将分类变量转换为整数的高维空间,其中分类变量的两个向量之间的距离大致保持了变换后的数字维空间。 使用散列时,维度数量将远远少于像“独热编码”这样的编码方式的维度数量当分类的基数非常高时,此方法很有用


    Backward Difference Encoding

    在后向差分编码中,将一个级别的因变量的平均值与先前级别的因变量的平均值进行比较。 这种类型的编码对于标称或有序变量可能有用。

    该技术属于用于分类特征的对比度编码系统。 K个类别或级别的特征通常以K-1个虚拟变量序列的形式进入回归。


    Leave One Out Encoding

    这与目标编码非常相似,但是在计算某个级别的平均目标以减少离群值的影响时会排除当前行的目标。


    James-Stein Encoding

    对于特征值,James-Stein估计量返回的加权平均值为:

    1. 观察到的特征值的平均目标值。
    2. 平均目标值(与特征值无关)。
      James-Stein编码器将平均值缩小为总体平均值。 它是基于目标的编码器。 但是,James-Stein估计量有一个实际限制-仅针对正态分布进行了定义。

    M-estimator Encoding

    M-Estimate编码器是目标编码器的简化版本。 它只有一个超参数-m,代表正则化的功效。 m值越高,收缩越强。 m的推荐值在1到100的范围内。


    FAQ

    【常见问题解答01:我应该使用哪种方法?】

    答:没有适用于每个问题或数据集的单一方法。 你可能需要尝试一些才能看到效果更好的结果。 一般准则是参考文章末尾显示的备忘单。

    【常见问题解答02:如何针对情况(例如目标编码)创建分类编码,因为在测试数据中不会有任何目标值?】

    答:我们需要使用训练时创建的映射值。 此过程与缩放或规范化中的概念相同,在缩放或规范化中,我们使用训练数据来缩放或规范化测试数据。 W映射并在测试时间预处理中使用相同的映射。 我们甚至可以为每个类别和映射值创建一个词典,然后在测试时使用该词典。 在这里,我使用均值编码来解释这一点。

    Training Time
    在这里插入图片描述
    Testing Time
    在这里插入图片描述


    Conclusion

    对于所有机器学习模型,必须理解所有这些编码在所有情况下或对于每个数据集都无法正常工作。 数据科学家仍然需要进行实验,并找出最适合其特定情况的方法。 如果测试数据具有不同的类别,则其中某些方法将无法使用,因为功能将不相似。 研究社区的基准出版物很少,但不是结论性的,效果最好。 我的建议是尝试使用较小的数据集尝试每种方法,然后决定将重点放在调整编码过程上。 可以使用下面的备忘单作为指导工具。
    在这里插入图片描述

    展开全文
  • clementine多变量标准化操作方法

    千次阅读 2013-04-09 17:11:28
     3、对多个字段进行标准化操作,先选择模式为多个,然后选择你要标准化的字段,然后写入如下代码,就可以进行标准化操作了,@FIELD代表了各个字段的值 @GLOBAL_MEAN(@FIELD)代表各个字段的平均值,@GLOBAL_SDEV(@...


    1、对于clementine中的节点功能,自己仅仅只用了"初级功能"。所谓初级功能,就是知道这个节点有什么作用?比如导出节点,可以导出一个新的字段。如果数据宽表中有3个月总的收入,那么可以导出3个月的均值=3个月总的费用/3。填充节点,可以填充宽表中的为空、为null值为0等等。这些数据处理方面的能力仅仅停留在很浅显的层面,往往在实际工作中遇到的问题,这些初级数据处理能力会导致无法解决问题,或者处理问题很繁杂。

       2、由于工作中数据处理的需要,需要对于很多字段进行数据标准化操作。刚开始很头疼,需要一个字段一个字段进行处理,浪费时间而且往往容易出错。然后自己开始抱怨clementine数据处理能力太差了。但随着对于clementine中的函数方面的功能的进一步了解,这才发现其实clementine的数据处理能力还是不错的。只是有些功能自己不会而已。

      3、对多个字段进行标准化操作,先选择模式为多个,然后选择你要标准化的字段,然后写入如下代码,就可以进行标准化操作了,@FIELD代表了各个字段的值 @GLOBAL_MEAN(@FIELD)代表各个字段的平均值,@GLOBAL_SDEV(@FIELD)代表各个字段的标准差,从而衍生出各个字段的标准差。标准化的字段名称为各字段名称后面加上_导出1。记得用设置全局量节点生成各个字段全局平均值和全局标准差,不然会报错。

      

    clementine多变量标准化操作方法


                                       图1:各字段进行标准化

     

    clementine多变量标准化操作方法

                                     图2:各字段衍生出全局平均值、标准差 



    原文:http://blog.sina.com.cn/s/blog_6838e0b401012juy.html

    ***************************************************************************************************************

    ,set globals节点在output文件夹。

    展开全文
  • 1、什么是分类变量? 通常来说,分类变量是用来表示某一属性的类别或标识的。例如:一年中的四季,月份,OS,brand,行业(银行、保险、券商、科技......),地区等等;大型分类变量例如:IP地址,用户ID,语料库的...

    1、什么是分类变量?

    通常来说,分类变量是用来表示某一属性的类别或标识的。例如:一年中的四季,月份,OS,brand,行业(银行、保险、券商、科技......),地区等等;大型分类变量例如:IP地址,用户ID,语料库的词汇表等等

    一般的,分类变量有个显而易见的特点:数量有限且无序,不具有数值型数据大小的含义。因此在很多涉及到数值度量的模型中,如:LR,SVM等,我们不能像处理数值型变量那样来处理分类变量。

    一般来说,类别数量小的分类变量的常见处理方式有:one-hot编码,虚拟编码和效果编码。

    示例数据:

     

    1.1 one-hot编码

    示例数据中,“brand”特征有apple,huawei, xiaomi 三种值,可以简单地为其标注为0,1,2.但是这样做的结果是使类别彼此之间有了顺序和大小关系。更好地方法是,使用一组比特位,每个比特位表示一种可能的类别,因此k个类别的分类变量就可以编码为长度为k的特征向量。one-hot encoding可以用scikit-learn中的sklearn.proprocessing.LabelBinarizer来实现,也可以用pandas.get_dummies实现。

    # pandas.get_dummies实现
    pd.get_dummies(df,columns=['brand'])
    
    # 利用sklearn中的LabelBinarizer实现onehot效果
    # encoder= LabelBinarizer()
    # brand_1hot=encoder.fit_transform(df['brand'])
    # feature=pd.concat([df,pd.DataFrame(brand_1hot,columns=['brand_apple','brand_huawei','brand_xiaomi'])],axis=1)

     

    1.1.2 LabelEncoder

    把这些文本标签转换为数字:

    encoder_Label=LabelEncoder()
    brand_label_encoded=encoder_Label.fit_transform(df['brand'])
    brand_label_encoded

     标注为0,1,2, 这样做的结果是使类别彼此之间有了顺序和大小关系。这样的做法只在有些有包含关系或等级关系的类别中比较合适。

    1.2虚拟编码(dummy encoding)

    在one-hot编码的方式亦可以利用其中一列作为参照系。

    一般分类变量有k个类别,就用了长度为k的特征向量来表示。而在虚拟编码中,只使用长度为(k-1)的特征向量来表示,被去掉的特征被一个全零向量所替代,它被称为参照类。

    如下:

     1.3Effect编码

    分类变量编码的另一种变体称为Effect编码。 Effect编码与虚拟编码非常相似,区别在于参考类别现在由所有-1的向量表示。

    # 先进行虚拟编码
    dummy_df = pd.get_dummies(df, columns=["brand"], drop_first=True)
    
    effect_df=dummy_df.copy()
    effect_df[['brand_huawei','brand_xiaomi']]=effect_df[['brand_huawei','brand_xiaomi']].astype('int8')
    # 虚拟编码转为效果编码的函数
    effect_df.loc[(dummyDF['brand_huawei']==0)&(dummyDF['brand_xiaomi']==0),['brand_huawei','brand_xiaomi']]=-1
    
    effect_df

    类别变量的优点和缺点

    独热编码是多余的,它允许多个有效模型一样的问题。 非唯一性有时候对解释有问题。该优点是每个特征都明显对应于一个类别。 此外,失踪数据可以编码为全零矢量,输出应该是整体目标变量的平均值。

    虚拟编码和效果编码不是多余的。 他们产生独特和可解释的模型。 虚拟编码的缺点是它不能轻易处理缺少数据,因为全零矢量已经映射到参考类别。它还编码每个类别相对于参考类别的影响,其中看起来很奇怪。 效果编码通过使用不同的代码来避免此问题参考类别。 但是,所有-1的矢量都是一个密集的矢量,对于存储和计算来说都很昂贵。

    因此,Pandas和Scikit Learn等流行的ML软件包选择了虚拟编码或独热编码,而不是效应编码。当类别数量变得非常多时,所有三种编码技术都会失效大。 需要不同的策略来处理非常大的分类变量。

    2.分箱计数的方法来处理大型分类变量

    独热编码、虚拟编码和效果编码,这三种编码在面对类别数量特别大的情况下就会生成一个大型的、稀疏的、二值的特征向量空间,这对于模型训练而言是不合理的。因此我们通常会选择分箱计数的方法来处理大型分类变量。

    简单来说,分箱计数就是要找到一个与类别本身以及目标变量相关统计量替代该类别特征,使特征转换为一个小巧的、密集的、实数型的特征向量

    如何找到这么一个相关统计量来替代类别本身?

    (1)分类变量的条件概率作为相关统计量,也即每个类别的响应率:

    响应率公式:

    preview

    (2)优势比:

    实例如下:

     点击(次)没有点击(次)总计
    小明5012001250
    非小明9950188800198750
    总计10000190000200000

    所以,优势比的值为:

    rate = \frac{(50/125)/(120/125))}{(9950/198750)/(188800/198750)}=0.7906

    在这个例子中,优势比就是“小明点击广告的概率在多大程度上高于她不点击广告的概率”和“其他人点击广告的概率在多大程度上高于他们不点击广告的概率”这两个问题的比值。

    (3)将优势比考虑的简单点,即只考虑原公式的分子部分,也适用于具有多个值的大型分类变量。

     

    (4)在实际使用过程中,类似优势比的概率比值很容易特别小或者特别大(例如有人会从不点击广告,有人却非常频繁地点击广告)。这时就需要考虑使用对数变换,生成对数优势比

    preview

     

     

     

    参考:

    1. https://zhuanlan.zhihu.com/p/130766002  了解特征工程——小型分类变量的常见处理

    2.https://www.cnblogs.com/rossiXYZ/p/13233067.html 特征工程之特征哈希/标准化缩放

     

     

     

     

     

    展开全文
  • 两个分类变量间的关系,无法直接使用常见的皮尔逊相关系数来表述,多采用频数统计、交叉表卡方检验等过程进行处理,当分类变量的取值较多时,列联表频数的形式就变得更为复杂,很难从中归纳出变量间的关系。...
  • 在1-如果标准量表的结果不令人满意,我是否应该标准化?2-K-Prototype集群的最佳方式是什么?3-聚类方法是否应该依赖于数据分布?在我用熊猫我用的是:#K-mean Cluster#search Kfrom scipy.spatia...
  • 如何用SPSS对数据进行标准化处理

    千次阅读 2020-12-22 10:36:08
    展开全部如何用SPSS对数据进行标准化处理?SPSS统计分析软件是常用的数据分析工具,这里是一e69da5e6ba9062616964757a686964616f31333361326366篇 SPSS案例分析。-------------------------------------------------...
  • 在统计分析、数据挖掘过程中,经常性的接触到数据的标准化处理、数据中心化处理,还有数据归一化处理,那么它们各自是什么意思?如何通过SPSS软件实现呢? 标准化 大型数据分析项目中,数据来源不同,量纲及量纲...
  • 关于回归分析中的数据标准化以及标准化和非标准化回归系数的问题。
  • 标准化和归一化 超全详解

    万次阅读 多人点赞 2020-09-03 21:48:21
    一、标准化 / 归一化定义 归一化和标准化经常被搞混,程度还比较严重,非常干扰大家的理解。为了方便后续的讨论,必须先明确二者的定义。 首先定义常见的结构化数据表格,第一行的表头是表示各种特征,而后每一列...
  • 特征工程的基础介绍和常用方法总结,包括对数转换、特征标准化、离散化、Label Encoder、OneHot Encoder 以及 Dummy Variables。
  • 机器学习模型什么时候需要做数据标准化

    千次阅读 多人点赞 2020-09-01 17:30:00
    机器学习Author:louwillMachine LearningLab 一直都有朋友在做机器学习模型时有疑问:我的数据要不要做标准化处理? 这个问题笔者也...
  • 归一:把每个特征向量(特别是奇异样本数据)的值都缩放到...概率模型(树形模型)不需要归一,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、RF。而像Adaboost、SVM、LR、Knn、.
  • 数据标准化/归一化normalization

    万次阅读 2018-10-05 08:22:40
    这里主要讲连续型特征归一的常用方法。 连续型特征还有一种处理方式是,先分桶/分箱(如等频/等距的分)[待写]进行离散后再使用离散数据的处理方法。 离散数据处理参考[数据预处理:独热编码(One-Hot ...
  • 标准化与归一化1、标准化(Standardization)和归一化(Normalization)概念1.1、定义1.2、联系和差异一、联系二、差异1.3、标准化和归一化的多种方式2、标准化、归一化的原因、用途3、什么时候Standardization,什么...
  • 机器学习模型都需要标准化、归一化吗?什么时候不需要标准化、归一化?
  • 第1章 多维数据输入时遇到的困境(为什么要标准化、规范化数据集) 1.1 多维输入的困境 在现实生活中,一个目标变量(Yi)可以认为是由多维特征变量(x)影响和控制的。如上图左图中的X1_i,X2_i,X3_i ,其中i = ...
  • 机器学习中的分类模型,有一些是...而通常scikit-learn中自带的标准化包是StandardScaler,其是针对每个特征的标准化处理,将每维特征数据转化为均指为0,标准差为sigma的数据。但是即使是对特征进行标准化,仍会有...
  • 为什么决策树相关的算法不需要标准化?那么那些模型需要标准化那? 基于树的算法,如决策树(Decision Tree)、随机森林(Random Forest)和GBDT,xgboost等,对变量的大小不敏感。因此,在拟合这类模型之前,不...
  • 对于量化研究而言,拿到一份基础数据,首先需要对数据做预处理,以便于更好的探究数据规律,基于不同目标有不同处理环节,其中去极值、标准化、中性化这三点经常被放在一起讨论。整理网络资料,理解如下。 去极值 ...
  • 中心化和标准化

    万次阅读 2017-10-31 09:35:03
    一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的? 1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction...
  • 数据标准化和离散化

    千次阅读 2019-09-18 13:47:52
    数据的标准化 标准化数据的目的:将数据转化为同一量级,避免量级对结果产生不利的影响 数据转化的三种方式:离差标准化,标准差标准化,小数定标标准化 离差标准化 Ø 数据的整体分布情况并不会随离差标准化而...
  • 在系统学习指数编制方法之前,先介绍一下几个指数编制过程中会经常使用的数据处理方法,如:数据标准化方法、权重设置方法、异常值处理方法。因为在后面指数编制过程中会经常用到这些方法。接下来我还是按照分类,...
  • 一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的? 1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction...
  • 数据的归一化与标准化

    千次阅读 2018-02-15 02:35:34
    机器学习中常见数据的归一化(normalization)和标准化(standardization),其实这二者的作用和处理方法都很相似,本文作简单介绍。 两者的基本作用是消除不同变量之间量纲的影响,方便数据处理。在机器学习中的...
  • 数据归一化和标准化的区别

    千次阅读 2018-11-26 15:54:53
    声明:内容来源于... ... 这里主要讲连续型特征归一的常用方法。离散参考[数据预处理:独热编码(One-Hot Encoding)]。 基础知识参考: [均值、方差与协方差矩阵...
  • 数据标准化.归一化处理

    千次阅读 2021-01-11 19:40:16
    数据的标准化在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。。处理主要包括数据两个方面。处理主要解决数据问题,对不同性质指标直接加总不能正确反映不同作用力的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 165,517
精华内容 66,206
关键字:

分类变量标准化