精华内容
下载资源
问答
  • # 导入归一化方法 from sklearn.preprocessing import MinMaxScaler ...2 正态标准化 使用环境:线性回归需要数据呈现正态分布趋势、其他的聚类等及机器学习的场景 from sklearn.preprocessing i
    # 导入归一化方法
    from sklearn.preprocessing import MinMaxScaler
    mms = MinMaxScaler()
    
    # 调用方法对数据进行归一化处理
    
    data['X_train'] = mms.fit_transform(data['X_train'])
    
    X_train :需要做归一化处理的数据列、或者数据框
    
    2  正态标准化
    
    使用环境:线性回归需要数据呈现正态分布趋势、其他的聚类等及机器学习的场景
    
    from sklearn.preprocessing import StandardScaler
    
    stdsc=StandardScaler()
    
    iris_data=stdsc.fit_transform(iris_data)
    iris_data:需要做正态标准化处理的数据列、或者数据框
    
    ————————————————
    版权声明:本文为CSDN博主「UP Lee」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    
    > 原文链接:https://blog.csdn.net/qq_36327687/article/details/84657570
    
    
    展开全文
  • 正态分布标准化公式

    千次阅读 2020-05-11 16:19:37
  • 正态分布及标准化

    万次阅读 2018-01-12 11:05:00
    正态分布】(Normal distribution...当μ = 0,σ = 1时的正态分布是标准正态分布。 正态分布有两个参数,即期望(均数)μ 和 标准差σ,σ2为方差。 μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规...

    正态分布】(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)

    正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线

    当μ = 0,σ = 1时的正态分布是标准正态分布

    正态分布有两个参数,即期望(均数)μ 和 标准差σ,σ2为方差。

    μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数中位数、众数相同,均等于μ。

    σ(标准差)描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

    一个标准差 68%, 两个标准差 95%, 三个标准差 99%。

     

    高斯分布怎么来的,很简单。只要所观察的系统里,各种对象之间关联很弱(相互独立?),那么他们的总和平均表现,根据中心极限定律,就是高斯或者近高斯的。

    高斯分布的信息熵最大。即,高斯分布是最混乱系统。

    自然界最多的不是正态(高斯)分布,而是长尾(幂律等)分布。

     

    中心极限定理】——如果一个指标受到若干独立的因素的共同影响,且每个因素不能产生支配性的影响(Lindeberg 条件),那么这个指标就服从中心极限定理,收敛到正态分布,这就是林德伯格-费勒中心极限定理的意思。

     

    很多个因素独立同分布并且可以叠加,那么叠加结果就会接近正态分布。我看的参考书上把这个叫做中心极限定理。

     

    我们人造的东西,很多都是模块化的,比如汽车轮船飞机,桌子椅子板凳,等等。我们人类造东西,都是“搭”出来的,一个模块和另一个模块之间关联很弱,坏了一个模块换掉就好。所以人造系统,其表现,包括性能啊,噪声啊,稳定度啊,都基于高斯分布。

     

    误差分布导出的极大似然估计 = 算术平均值

    正态标准化

    假设我们有一个X向量,x(i,j),i = 1,..,m;j = 1,..,n。z_score规范化如下:

    x(i,j)' = [x(i,j) - E(j)] / S[j],即x(i,j) 减去第j列的均值再除以第j列的标准差

    这样处理之后,原数据就变成了均值为0,方差为1,记作:

    X' = [X - E(X)] / S(X),其中,E(X) = 0, S(X) = 1。

    展开全文
  • 而现实中的数据不一定服从正态或者是标准正态,因此需要对数据进行正态化,才可以使用已有的一些模型。有时候,模型的表现不好,可能跟数据的预处理有很大的关系。 三、两个指标判断是否是正态 数据一般有两个指标,...

    一、正态数据

    正态数据的分布是一个钟型分布,数据点的分布是中间高两边低的,例如一个学校里学生的身高。特别高和特别低的都少,高度居中的人较多。如下图(其中x轴为数据的取值,y轴为对应取值的频率)
    在这里插入图片描述

    二、数据需要正态化的原因

    很多统计学的理论,如线性回归、假设检验和参数估计等,很多地方需要数据的分布为正态。而现实中的数据不一定服从正态或者是标准正态,因此需要对数据进行正态化,才可以使用已有的一些模型。有时候,模型的表现不好,可能跟数据的预处理有很大的关系。

    三、两个指标判断是否是正态

    数据一般有两个指标,样本均值和方差,一个是衡量数据分布的中心位置,另一个是衡量数据分布的离散程度。而正态分布也有l两个指标,偏度和峰度,其中偏度和数据分布的对称性有关,峰度与数据分的高矮胖瘦有关。

    1. 偏度
      数据的偏度是衡量数据的分布是否是左右对称的。其中标准正态分布的偏度为零,非标准的数据分布分别称为“左偏”(偏度小于零,有极端小值)和“右偏”(偏度大于零,有极端大值)。

    2. 峰度
      数据的峰度是衡量数据分布是否是高瘦的,还是胖乎乎的。其中标准正态分布的峰度为3,非标准的数据分布分别称为“尖峰”(峰度大于3,数据点较集中于中心位置)和“厚尾”(分度小于3,数据点较分散)。

    四、如何对数据正态化

    数据不是标准正态分布,正是因为数据的偏度和峰度与标准正态分布的不同。因此,解决数据正态化的关键,即判定数据的偏度和峰度问题,用对应的方法进行正态化。
    在这里插入图片描述

    1. 偏态数据正态化(偏度)

    偏态数据的正态化处理方式一般有指数变换、对数变换、Box-cox变换等,需要根据数据的不同情况进行选择。

    左偏态

    左偏数据:又称为负偏态,数据的分布存在极端小值,数值较大的数据点比较集中。因此需要一种方法,缩小数值较小的点之间的距离,将数值较大的数据点的距离增大。(或者是相对地缩小和放大)
    在这里插入图片描述
    因此,这个时候可以指数变换,或者是其他的凹函数,因为指数变换在数据点的值较大的时候,变化率更大(导数),能把数值较大的数据点的距离增大。指数变换公式:xnew=exoldx_{new} = e^{x_{old}},图像如下
    在这里插入图片描述

    例如:若数据点取值为1,2,9,10,虽然数据的原始距离相等,即21=1092-1 = 10-9,但是变换后距离,数据取值较大的距离增加的更大,即e2e1<e10e9=13923e^2-e^1 < e^{10}-e^{9}=13923.

    右偏态

    右偏数据又称为正偏态,情况和左偏的恰好相反,有较大的数据点,处理方法也是恰好相反。
    在这里插入图片描述
    因此可以考虑对数变换,或者是其他的凸函数,因为对数变换在数据点的值较大的时候,变化率更小(导数),能把数值较大的数据点的距离相对减小。对数变换的公式为:xnew=ln(xold)x_{new}=ln(x_{old}),图像如下
    在这里插入图片描述
    例如,若数据点取值为1,2,9,10,虽然数据的原始距离相等,即21=1092-1 = 10-9,但是变换后距离,数据取值较大的距离增加的更小,即0.693=ln2ln1>ln10ln9=0.1050.693=ln2-ln1 > ln{10}-ln{9}=0.105.

    偏态不分左右偏

    使用Box-cox变换,它既可以处理左偏的情况,又可以处理右偏的情况。很多软件中可以调包,这里仅提供这个思路。百度百科
    y(λ)={yλ1λ,λ0lny,λ=0y(\lambda)=\left\{\begin{array}{ll} \frac{y^{\lambda}-1}{\lambda}, & \lambda \neq 0 \\ \ln y, & \lambda=0 \end{array}\right.

    2. 正态数据标准化(峰度)(无论什么数据标准化后就服从正态了吗?)

    经常会听到数据标准化这个概念,说是经过标准化后,数据就服从正态分布了,其实这种说法是不严谨的。因为数据非
    首先需要强调的是,数据标准化只能将一个正态分布变成标准正态分布,并不能将偏态数据变成正态分布,所以,数据标准化处理的是正态分布数据峰度不等于3(标准正态分布)和正态数据的均值不为0的情况。
    在这里插入图片描述
    数据标准化的意义主要是,在回归问题中,可以使得各变量更具有可比性,同时分析结果更容易满足回归分析的残差假定。

    总结

    1. 数据不是标准正态分布的主要原因,来源于数据的偏度和峰度。
    2. 处理偏度的通常方式有指数变换、对数变换和box-cox变换。
    3. 处理峰度的通常方式是数据的标准化。
    4. 另外数据的标准化,不能将偏态数据变成正态分布。
    展开全文
  • 数据标准化:是指将数据按比例缩放,使之落入到特定区间 1 进行0-1 表转化计算公式 使用环境: 在聚类分析,主成分分析的时候,因为量纲不一所以需要 #导入归一化方法 from sklearn.preprocessing import ...
  • 数据标准化:是指将数据按比例缩放,使之落入到特定区间   1 进行0-1 表转化计算公式 使用环境: 在聚类分析,主成分分析的时候,因为量纲不一所以需要 # 导入归一化方法 from sklearn.preprocessing import ...
  • 归一化-标准化:normalize()函数/Normalizer()类 区间缩放-调整尺度: minmax_scale函数/MinMaxScaler()类 正态化:scale()函数/StandardScaler()类 归一化/标准化处理 将每一行数据的向量模长(欧氏距离)处理...
  • 1.标准正态分布概念详细的概念可以www.baidu.com,或者看以前写的文章。标准正态分布又称为u分布,是以0为均数、以1为标准...SVM(Support Vector Machine,支持向量机)在没有标准化调整过的数据中表现很差,因为可...
  • 正态分布的标准化的应用: 问题: 假定某种股票的收益率呈正态分布,均值为5%,标准差为0.02,试将收益率标准化,并运用标准正态分布求出该支股票收益率在2%-6%之间的概率。  解答:   μ: 0.05   ...
  • 1.1 定义 ...由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ总体方差的估计值,为了与u变换(正态化变换)区别,称为t变换,统计量t 值的分布称为t分布。【u分布也叫标准正态...
  • Z-score 是非标准正态分布标准化后的 x即。 表头的横向表示小数点后第二位,表头的纵向则为整数部分以及小数点后第一位;两者联合作为完整的 x坐标轴的横轴。 表中的值为图中红色区域的面积,也即 cdf,...
  • 我们通常所说的标准正态分布是的正态分布: 概率密度函数     代码实现: # Python实现正态分布 # 绘制正态分布概率密度函数 u = 0 # 均值μ u01 = -2 sig = math.sqrt(0.2) # 标准差δ sig01 = mat
  • Z-score 是非标准正态分布标准化后的 x即 z=x−μσz=x−μσ 表头的横向表示小数点后第二位,表头的纵向则为整数部分以及小数点后第一位;两者联合作为完整的 x,坐标轴的横轴 表中的值为图中红色区域的面积,也即 ...
  • 经常需要将数据标准化调整(scaling)为标准正态分布(standard normal)。标准正态分布算得上是统计学中最重要的分布了。如果你学过统计,Z值表(z-scores)应该不陌生。实际上,Z值表的作用就是把服从某种分布的...
  • Z-score 是非标准正态分布标准化后的 x即z = x − μ σ z = \frac{x-\mu}{\sigma}z=σx−μ​ 表头的横向表示小数点后第二位,表头的纵向则为整数部分以及小数点后第一位;两者联合作为完整的 x,坐标轴的...
  • 正态分布(Normal distribution)又成为高斯分布(Gaussian distribution)若随机变量X服从一个数学期望为、标准方差为的高斯分布,记为: 则其概率密度函数为: 正态分布的期望值决定了其位置,其标准差决定了...
  • 推导出在正态分布广义随机Petri网中化简串行模型的等价理论公式,即合成执行时间为各个变迁的执行时间之和,仍服从正态分布,并且合成均值等于所有变迁执行时间的均值之和,合成标准偏差等于所有变迁执行时间标准...
  • 一般正态分布只要标准化就可以用@psn函数了 !把正态函数积分化成分布函数差的形式 x1=(9.9469-u)/deta; x2=(10.3469-u)/deta; x3=(9.3469-u)/deta; x4=(9.7469-u)/deta; x5=(9.3469-u)/deta; x6=(10.3469-u)/deta;...
  • 随机初始,生成标准正态分布N(0,1)N(0,1)N(0,1)的张量Tensor torch.nn.init.normal(tensor, mean=0, std=1) 参数: tensor – n维的torch.Tensor mean – 正态分布的均值 std – 正态分布的标准差 填充输入的张量...
  • 正态分布(高斯分布)

    2019-08-22 16:29:12
    1,正态分布定义 2,正态分布标准化 3,正态分布分布函数 4,3δ法则 5, 上α分位点
  • 在统计学 学习笔记 (五)—— ...为了便于分析应用,需要对正态分布进行标准化。 从前面说的正态分布曲线中,我们可以得到横轴上任意一个x值的表示方法: x=μ+ uσ 将上式进行转换,就可以得到以u值为横轴,以0
  • 如果均值=0,方差=1,则属于标准正态分布 均值:mean,average,x_bar=sum(xi,i=1…n)/n,一组数据它的中心趋势的衡量 标准差:standard deviation,sigma=sqrt(sum((xi-x_bar)^2,(i=1…n))/(n-1)) 方差:标准差^2=...
  • 正态分布(Normal Distribution) 1、正态分布是一种连续分布,其函数可以在实线上...3、Z-score 是非标准正态分布标准化后的x 即 z = (x−μ) / σ #显示标准正态分布曲线图 1 import numpy as np 2 im...
  • 看似很简单的一张Excel图表,实际上也花了10多分钟。这对于已经习惯了Spotfire这种数据可视软件的我而言是不能...问题:假定某种股票的收益率呈标准正态分布,确定0.5的随机变量值对应的标准正态分布函数值(累积...
  • 正态分布的前世今生

    2015-01-09 10:15:00
    正态分布 神说,要有正态分布,就有了正态分布。 神看正态分布是好的,就让随机误差服从了正态分布。 创世纪—数理统计 ...1. 正态分布,熟悉的陌生人 ...学过基础统计学的同学大都对正态分布...其标准化后的概率...
  • 标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布;区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如[0,1]等。 一、标准化 标准化的前提是特征值服从正态分布,标准化后...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 773
精华内容 309
关键字:

正态标准化