精华内容
下载资源
问答
  • Z-score模型
    千次阅读
    2021-04-18 16:19:47

    Z-score模型

    Z-score是一维或低维特征空间中的参数异常检测方法。该技术假定数据是高斯分布,异常值是分布尾部的数据点,因此远离数据的平均值。距离的远近取决于使用公式计算的归一化数据点z i的设定阈值Zthr:

    其中xi是一个数据点,μ是所有点xi的平均值,δ是所有点xi的标准偏差。
    然后经过标准化处理后,异常值也进行标准化处理,其绝对值大于Zthr:

    Zthr值一般设置为2.5、3.0和3.5。该技术是使用KNIME工作流中的行过滤器节点实现的。

    更多相关内容
  • 以香梨股份有限公司为例,通过Z-Score模型构建了财务预警模型,同时,建立了F分数模型作为修正。提出了更多可以借鉴的定量财务预警模型,引入非财务指标,作为财务预警模型的发展趋势,使财务预警模型更加完善。
  • 本研究旨在将 Altman、Springate、Zmijewski 和 Grover 模型之间的最佳破产预测模型与 2014-2019 年期间在印度尼西亚证券交易所上市的电信子行业的公司进行比较。 采用有目的抽样法,抽取符合以下条件的公司样本: ...
  • 果蝇优化算法优化Z-SCORE模型参数

    千次阅读 2017-03-31 15:14:19
    Z-SCORE模型 (企业风险预测)定义 Z = 1.2* X1 + 1.4 X2 + 3.3 *X3 + 0.6 X4 + 1.0* X5 其中 ZZ-SCORE,而 X1 至 X5 为 X1:营运资金除以总资产; X2:保留盈余除以总资产; X3:息前税前净利除以总资产; ...

    Z-SCORE模型 (企业风险预测)

    定义

    Z = 1.2* X1 + 1.4 X2 + 3.3 *X3 + 0.6 X4 + 1.0* X5

    其中 Z 为 Z-SCORE,而 X1 至 X5 为
    X1:营运资金除以总资产;
    X2:保留盈余除以总资产;
    X3:息前税前净利除以总资产;
    X4:股东权益市值除以总负债的账面价值;
    X5:销售金额除以总资产。

    一般而言,一家财务健全的上市公司,其 Z 分数应该高于或等于 2.675;而财务状况不佳(财务危机)的公
    司,其 Z 分数则低于或等于 2.675


    示例

    财务危机预警20家企业样本数据

    x1-x5对应企业各项指标,Y为1代表正常公司,为0是代表危机公司。

    将 20 家企业的样本数据代入如下 ZSCORE 模型中:

    Z = 1.2* X1 + 1.4 X2 + 3.3 *X3 + 0.6 *X4 + 1.0 X5

    结果如下,20家企业中有6家预测结果和实际不相符。

    这里写图片描述

    由此可知,Z-SCORE 模型侦测财务危机预警的能力尚有改善空间,可能是时空背景的不同,导致该模型的推广能力逐渐减弱,若能将 Z-SCORE 模型中各自变量前的系数加以优化(优化),应该能提升其预测能力。


    果蝇优化算法

    这里写图片描述

    原理

    首先初始5群果蝇群体, 分别指派给p1, p2, p3, p4和p5等参数。 每群有 10 只果蝇,随机初始化果蝇群体位置区间为[0,1],迭代的果蝇搜寻食物的随机飞行方向与距离区间为[-1,1]。 经由 100 次迭代搜寻最
    佳的 p1, p2, p3, p4 和 p5 后, Z-SCORE 预测结果逐渐趋近于目标值 Y。

    【注】
    如何实现Z-SCORE 预测结果逐渐趋近于目标值 Y ?
    答:均方根误差(RMSE,root-mean-square error),用来衡量观测值同真值之间的偏差。首先随机产生p1,p2..p5,代入Z-SCORE模型中得到观测值,从而求出RMSE,然后经n次迭代后,求出最小RMSE时p1,p2,..p5值,即为最佳模型参数。

    代码(matlab) TXY.txt

    clc
    clear
    
    %加载z-score训练数据
    load G:\matlab-code\TXY.txt;
    [row,col] = size(TXY);
    
    set = row / 5;
    row1 = row - set;
    tr = TXY(1:row1,1:col-1);
    t1 = TXY(1:row1,col);
    %tr和t1来得到最优z-score系数
    
    te = TXY(row1+1:row,1:col-1);
    t2 = TXY(1:row1,col);
    %te和t2来检查优化效果
    
    %一行5列的随机数矩阵,表示5个果蝇群体的初始位置
    x_axis = rands(1,5);
    y_axis = rands(1,5);
    
    size_pop = 20;
    max_gen = 100; %迭代次数
    
    for p = 1 : size_pop
    
        % x[p,:],横坐标位置矩阵的第p行,
        % 初始5个果蝇种群中个体飞行方向和距离
        x(p,:) = x_axis + 2*rand() - 1;
        y(p,:) = y_axis + 2*rand() - 1;
    
        %在原始果蝇种群位置上,每5个果蝇飞行一次计算一次均方根误差
        g = 0;  
    
        % 求出5个果蝇群体中第p个果蝇个体到原点的距离
        d(p,1) = ( x(p,1)^2 + y(p,1)^2 )^0.5;
        d(p,2) = ( x(p,2)^2 + y(p,2)^2 )^0.5;
        d(p,3) = ( x(p,3)^2 + y(p,3)^2 )^0.5;
        d(p,4) = ( x(p,4)^2 + y(p,4)^2 )^0.5;
        d(p,5) = ( x(p,5)^2 + y(p,5)^2 )^0.5;
    
        %味道浓度判定值
        s(p,1) = 1/d(p,1);
        s(p,2) = 1/d(p,2);
        s(p,3) = 1/d(p,3);
        s(p,4) = 1/d(p,4);
        s(p,5) = 1/d(p,5);
    
        %利用味道浓度判定函数求出味道浓度,这里判定函数直接相等了。
        a1 = s(p,1);
        a2 = s(p,2);
        a3 = s(p,3);        
        a4 = s(p,4);
        a5 = s(p,5);
    
        %求RMSE
        % 1.根据Z-SCORE模型和随机a1,a2..a5求出观测值。【注】a1,a2..a5是味道浓度,是一个数 tr(:,k)取tr矩阵第k列。  yc是一个row1行1列的矩阵
        % 2.利用观测值和真值计算均方根误差
        yc = a1 * tr(:,1) + a2 * tr(:,2) + a3 * tr(:,3) + a4 * tr(:,4) + ...
            a5 * tr(:,5);
        yy = yc - t1;               %z-score输出和目标值相减并计算RMSE,
        for ii = 1 : row1
            g = g + yy(ii)^2;
        end
        smell(p) = g^0.5/row1;      %味道浓度用于记录RMSE,之后果蝇群体便根据该浓度决定下一次飞行
    
        %一次循环表示5个果蝇群体中5只果蝇的共同拟合效果
    end
    
    %5次果蝇飞行的拟合效果,选择其中拟合效果最好的一次,即最小均方根误差,表示观测值和实际值最接近
    [bestSmell,bestIndex] = min(smell);
    
    %群体移动到最佳味道浓度,x[],y[]一行分别表示5个种群的位置
    x_axis = x(bestIndex,:);
    y_axis = y(bestIndex,:);
    smellBest = bestSmell;
    
    %最佳系数a1,a2...a5其实就是s[bestIndex,:]
    
    %果蝇迭代寻优
    for gen = 1 : max_gen
        for p = 1 : size_pop
    
            x(p,:) = x_axis + 2*rand() - 1;
            y(p,:) = y_axis + 2*rand() - 1;
            g = 0;
    
            d(p,1) = ( x(p,1)^2 + y(p,1)^2 )^0.5;
            d(p,2) = ( x(p,2)^2 + y(p,2)^2 )^0.5;
            d(p,3) = ( x(p,3)^2 + y(p,3)^2 )^0.5;
            d(p,4) = ( x(p,4)^2 + y(p,4)^2 )^0.5;
            d(p,5) = ( x(p,5)^2 + y(p,5)^2 )^0.5;
    
            s(p,1) = 1/d(p,1);
            s(p,2) = 1/d(p,2);
            s(p,3) = 1/d(p,3);
            s(p,4) = 1/d(p,4);
            s(p,5) = 1/d(p,5);
    
            a1 = s(p,1);
            a2 = s(p,2);
            a3 = s(p,3);
            a4 = s(p,4);
            a5 = s(p,5);
    
            yc = a1 * tr(:,1) + a2 * tr(:,2) + a3 * tr(:,3) + a4 * tr(:,4) + ...
                a5 * tr(:,5);
            yy = yc - t1;    
            for ii = 1 : row1
                g = g + yy(ii)^2;
            end
            smell(p) = g^0.5/row1;     
        end
    
        [bestSmell,bestIndex] = min(smell);
    
        if bestSmell < smellBest
            x_axis = x(bestIndex,:);
            y_axis = y(bestIndex,:);
            bestS = s(bestIndex,:);     %bestS所记录的便是最佳Z-SCORE参数p1,p2,..p5
            smellBest = bestSmell;
        end
    
        yy_(gen) = smellBest;
        xBest(gen,:) = x_axis;
        yBest(gen,:) = y_axis;
    end
    
    %均方根误差(RMSE)的收敛趋势,从理论上可推应趋向于0
    figure(1);
    plot(yy_);
    title('Optimization process','fontsize',12);
    xlabel('Iteration Number','fontsize',12);
    ylabel('RMSE','fontsize',12);
    
    %代表Z-SCORE模型参数的5个果蝇种群的飞行路径
    figure(2);
    plot(xBest,yBest,'b');
    title('fruit fly flying route','fontsize',14);
    xlabel('x-axis','fontsize',12);
    ylabel('y-axis','fontsize',12);
    smellBest;
    bestS;

    运行结果

    smellBest =

    0.1176
    

    bestS =

    0.2283    0.2584    0.3358    0.2900    0.2192
    

    这里写图片描述
    这里写图片描述

    检查优化后的参数p1,p2..p5预测效果

    可以看出,果蝇算法(FOA)优化后,整体正确率由Z-SCORE模型的65%(13/20)提高到了75%(15/20)。但在预测新个体(17-20)时,正确率并不能明显提高,猜测是需要达到一定的规模才可体现FOA优化效果。

    这里写图片描述

    附一点疑惑:为什么根据优化后p1,p2,..p5计算FOA-Z-SCORE时,若值小于0.5判定危机公司(0),大于0.5判定正常公司(1)?

    参考文献:
    [1] 果蝇优化算法.潘文超

    展开全文
  • 新能源上市公司财务危机预警研究——基于修正的Z-Score模型.pdf
  • 传统Z-Score模型与人工智能视角下的财务风险预警比较.pdf
  • z-score作为一种标准化方法,已经在各种数据处理中被使用,比如最为常见的机器学习,多种组学数据的标准化。 但是,z-score标准化有其自身的限制,这些限制来自于: 异常值的存在 正太分布(方差齐性)的假说 当...

    一、常规标准化

    z-score作为一种标准化方法,已经在各种数据处理中被使用,比如最为常见的机器学习,多种组学数据的标准化。

    但是,z-score标准化有其自身的限制,这些限制来自于:

    • 异常值的存在
    • 正太分布(方差齐性)的假说

    当我们在处理各种组学数据时,常常由于观察值不多导致数据在进行正态性检验的时候,发现并不服从正太假说;有时候,还会受到异常值的影响。

    我们先介绍常规的z-score标准化方法:
    z i = x i − μ δ z_i = \frac{x_i-\mu}{\delta} zi=δxiμ
    其中, μ \mu μ是均值; x i x_i xi表示样本观察值; δ \delta δ表示所有样本观察值的标准差; z i z_i zi表示该样本点距离样本均值有多少个标准差,用来表示各原始数据在数据组中的相对位置。

    一个常规的应用:

    如果样本服从正态分布,当 ∣ z i ∣ > 2 |z_i|>2 zi>2时,该样本点即为异常点。它标示的是距离均值2个标准差范围的数据量有95%(正态分布的性质),有2.5%的数据会被标记为异常。
    zscore

    二、修正后的z-score

    由于均值和标准差对于异常值都比较敏感,导致常规的z-score方法出现偏差。因此,对其进行了修正:
    Z i = x i − m e d i a n ( x i ) M A D Z_i=\frac{x_i-median(x_i)}{MAD} Zi=MADximedian(xi)
    其中, x i x_i xi是样本观察值, m e d i a n ( x i ) median(x_i) median(xi)是所有样本观察值的中位数,MAD(Median Absolute deviation)是中位数绝对偏差,定义如下:
    M A D = m e d i a n ∣ x i − m e d i a n ( x i ) ∣ MAD=median|x_i-median(x_i)| MAD=medianximedian(xi)

    标准差的定义是与均值距离的平方和,对异常值更敏感,比如一个较大的样本值在样本内,则会直接影响到样本的标准差,而MAD不会,它具有更好的鲁棒性

    MAD与标准差的关系

    MAD的用法类似于样本标准差,为了使用MAD作为一致估计量来估计标准差,我们可以有:
    δ = k ∗ M A D \delta=k*MAD δ=kMAD
    其中, k k k只是一个常量因子,与样本分布有关,如果样本服从正态分布, k = 1.4826 k=1.4826 k=1.4826.

    三、实践

    例子:这里有一个数据集,包含2012年康涅狄格州学区SAT的学生参与率,我们的任务是找到低参与率的学校,可以看做一个异常检测任务。由于我们要找低参与率的学校,所以阈值是一个负数,这里我们设为-2。
    ps: 对于较大的数据集,较大的绝对值z zz(通常为z = 3 z=3z=3)通常用作阈值。因为我们的数据集很小,z zz的大值可能导致没有数据被标记为异常。另外,我们在选择z$时比较保守,因为我们想帮助尽可能多的学校。

    # 常规z-score
    import scipy.stats as ss
    import numpy as np
    import matplotlib
    import matplotlib.pyplot as plt
    import pandas as pd
    import random
    #用于展示检测结果
    def plot_anomaly(score_data, threshold):
        # Mask to plot values above and below threshold in different colors
        score_data = score_data.copy().sort_values(ascending=False).values
        ranks = np.linspace(1, len(score_data), len(score_data))
        mask_outlier = (score_data < threshold)
        plt.figure(dpi=150)
        plt.plot(ranks[~mask_outlier], score_data[~mask_outlier],'o', color='b',label='OK schools')
        plt.plot(ranks[mask_outlier], score_data[mask_outlier],'o', color='r', label='anomalies')
        plt.axhline(threshold,color='r',label='threshold', alpha=0.5)
        plt.legend(loc = 'lower left')
        plt.title('Z-score vs. school district', fontweight='bold')
        plt.xlabel('Ranked School district')
        plt.ylabel('Z-score')
        plt.show()
    data = pd.read_csv('SAT_CT_District_Participation_2012.csv') 
    zscore_rate = ss.zscore(ct_test['Participation Rate'], ddof=0)#ddof是标准差计算中的自由度修正,默认为0,即标准差分母是n,而不是n-1
    data=data.assign(zscore=zscore_rate)
    plot_anomaly(data['zscore'], -2)
    anomalies = data[(data['zscore'] < -2)]
    anomalies
    

    在这里插入图片描述
    在这里插入图片描述

    --------------------------------------------------------

    # 修正z-score
    def plot_anomaly(score_data, threshold):
        # Mask to plot values above and below threshold in different colors
        score_data = score_data.copy().sort_values(ascending=False).values
        ranks = np.linspace(1, len(score_data), len(score_data))
        mask_outlier = (score_data < threshold)
        plt.figure(dpi=150)
        plt.plot(ranks[~mask_outlier], score_data[~mask_outlier],'o', color='b',label='OK schools')
        plt.plot(ranks[mask_outlier], score_data[mask_outlier],'o', color='r', label='anomalies')
        plt.axhline(threshold,color='r',label='threshold', alpha=0.5)
        plt.legend(loc = 'lower left')
        plt.title('Z-score vs. school district', fontweight='bold')
        plt.xlabel('Ranked School district')
        plt.ylabel('Z-score')
        plt.show()
    #修正z-score方法
    def modify_zscore(data,k=1.4826):
        data_median=np.median(data)
        dev_from_med=np.array(data)-data_median
        MAD=np.median(np.abs(dev_from_med))
        mod_zscore=dev_from_med/(k*MAD)#使用的是标准差的一致性估计
        return mod_zscore,MAD
        
    data = pd.read_csv('SAT_CT_District_Participation_2012.csv') 
    mod_zscore,MAD=modified_zscore(data['Participation Rate'])
    data = data.assign(mod_zscore=mod_zscore)
    plot_anomaly(data['mod_zscore'],-2)
    anomalies = data[(data['zscore'] < -2)]
    anomalies
    

    在这里插入图片描述
    在这里插入图片描述

    效果比较:

    我们可以发现,z-score方法识别出的异常点一共4项,而修正后的z-score方法识别结果除此之外,还识别出第55项0.47为低参与率。另外,通过计算,可以发现k ∗ M A D k*MADk∗MAD比样本标准差更小,也体现MAD统计量受异常点影响较小,具有更好的鲁棒性。

    展开全文
  • Z-score与修正的Z-score评分识别异常

    千次阅读 2020-11-12 18:48:45
    z-score 对于一维数据,最常用评价异常的方法就是z-score方法,它的定义如下: zi=xi−uδ z_i=\frac{x_i-u}{\delta} zi​=δxi​−u​ 其中,xix_ixi​是样本值,uuu是均值,δ\deltaδ是样本标准差。因此ziz_izi​...

    z-score

    对于一维数据,最常用评价异常的方法就是z-score方法,它的定义如下:
    z i = x i − u δ z_i=\frac{x_i-u}{\delta} zi=δxiu
    其中, x i x_i xi是样本值, u u u是均值, δ \delta δ是样本标准差。因此 z i z_i zi就是衡量该样本点距离样本均值有多少个标准差,用来表示各原始数据在数据组中的相对位置。
    另外,若样本服从正态分布,它可以表示该数据以下或以上数据的比例,即具有了概率的意义;

    比如样本服从正态分布,如果设置z-score的阈值为-2(低于的为异常,如果为正,高于的为异常),那么距离均值2个标准差范围的数据量有95%(正态分布的性质),则有2.5%的数据会被标记为异常)

    修正的z-score

    Motivation:因为均值与标准差对于异常值都很敏感,有时候得到的z-score不是可靠的。
    修正的z-score的定义如下:
    z i = x i − X ~ M A D z_i=\frac{x_i-\widetilde{X}}{MAD} zi=MADxiX
    其中, x i x_i xi是样本值, X ~ \widetilde{X} X 是整个样本的中位数,MAD(Median Absolute deviation)是中位数绝对偏差,定义如下:
    M A D = m e d i a n ∣ x i − X ~ ∣ MAD=median{|x_i-\widetilde{X}|} MAD=medianxiX
    标准差的定义是与均值距离的平方和,对异常值更敏感,比如一个较大的样本值在样本内,则会直接影响到样本的标准差,而MAD不会,它具有更好的鲁棒性。
    MAD的用法类似于样本标准差,为了使用MAD作为一致估计量来估计标准差,我们可以有(具体推导见MAD):
    δ ^ = k ∗ M A D \hat{\delta}=k*MAD δ^=kMAD
    其中, k k k只是一个常量因子,与样本分布有关,如果样本服从正态分布, k k k=1.4826.

    代码实现

    例子:这里有一个数据集,包含2012年康涅狄格州学区SAT的学生参与率,我们的任务是找到低参与率的学校,可以看做一个异常检测任务。由于我们要找低参与率的学校,所以阈值是一个负数,这里我们设为-2。
    ps: 对于较大的数据集,较大的绝对值 z z z(通常为 z = 3 z=3 z=3)通常用作阈值。因为我们的数据集很小, z z z的大值可能导致没有数据被标记为异常。另外,我们在选择z$时比较保守,因为我们想帮助尽可能多的学校。

    z-score

    import scipy.stats as ss
    import numpy as np
    import matplotlib
    import matplotlib.pyplot as plt
    import pandas as pd
    import random
    #用于展示检测结果
    def plot_anomaly(score_data, threshold):
        # Mask to plot values above and below threshold in different colors
        score_data = score_data.copy().sort_values(ascending=False).values
        ranks = np.linspace(1, len(score_data), len(score_data))
        mask_outlier = (score_data < threshold)
        plt.figure(dpi=150)
        plt.plot(ranks[~mask_outlier], score_data[~mask_outlier],'o', color='b',label='OK schools')
        plt.plot(ranks[mask_outlier], score_data[mask_outlier],'o', color='r', label='anomalies')
        plt.axhline(threshold,color='r',label='threshold', alpha=0.5)
        plt.legend(loc = 'lower left')
        plt.title('Z-score vs. school district', fontweight='bold')
        plt.xlabel('Ranked School district')
        plt.ylabel('Z-score')
        plt.show()
    data = pd.read_csv('SAT_CT_District_Participation_2012.csv') 
    zscore_rate = ss.zscore(ct_test['Participation Rate'], ddof=0)#ddof是标准差计算中的自由度修正,默认为0,即标准差分母是n,而不是n-1
    data=data.assign(zscore=zscore_rate)
    plot_anomaly(data['zscore'], -2)
    anomalies = data[(data['zscore'] < -2)]
    anomalies
    

    效果:
    在这里插入图片描述
    异常值

    修正的z-score

    def plot_anomaly(score_data, threshold):
        # Mask to plot values above and below threshold in different colors
        score_data = score_data.copy().sort_values(ascending=False).values
        ranks = np.linspace(1, len(score_data), len(score_data))
        mask_outlier = (score_data < threshold)
        plt.figure(dpi=150)
        plt.plot(ranks[~mask_outlier], score_data[~mask_outlier],'o', color='b',label='OK schools')
        plt.plot(ranks[mask_outlier], score_data[mask_outlier],'o', color='r', label='anomalies')
        plt.axhline(threshold,color='r',label='threshold', alpha=0.5)
        plt.legend(loc = 'lower left')
        plt.title('Z-score vs. school district', fontweight='bold')
        plt.xlabel('Ranked School district')
        plt.ylabel('Z-score')
        plt.show()
    #修正z-score方法
    def modify_zscore(data,k=1.4826):
        data_median=np.median(data)
        dev_from_med=np.array(data)-data_median
        MAD=np.median(np.abs(dev_from_med))
        mod_zscore=dev_from_med/(k*MAD)#使用的是标准差的一致性估计
        return mod_zscore,MAD
        
    data = pd.read_csv('SAT_CT_District_Participation_2012.csv') 
    mod_zscore,MAD=modified_zscore(data['Participation Rate'])
    data = data.assign(mod_zscore=mod_zscore)
    plot_anomaly(data['mod_zscore'],-2)
    anomalies = data[(data['zscore'] < -2)]
    anomalies
    

    效果:
    在这里插入图片描述
    异常点

    效果比较:
    我们可以发现,z-score方法识别出的异常点一共4项,而修正后的z-score方法识别结果除此之外,还识别出第55项0.47为低参与率。另外,通过计算,可以发现 k ∗ M A D k*MAD kMAD比样本标准差更小,也体现MAD统计量受异常点影响较小,具有更好的鲁棒性。

    展开全文
  • 两种实现Z-Score的方法

    千次阅读 2021-06-11 11:15:46
    Z-Score是非常常用的规范化的方法,在模型训练的过程中,有两种方法可以实现不同目的的Z-Score: 同一批数据(例如单纯的对数据进行转换) from sklearn.preprocessing import scale import numpy as np x = np....
  • z-score

    万次阅读 2017-10-15 15:17:14
    最近处理数据时,经常用到Z-score处理方法,所以把自己了解到的知识汇集在此,对自己也是个提升,希望对别人也有所帮助。 (1)Z-score定义  由于Z-score的数据分布满足“正态分布”(N(0,1)),而“正态分布”...
  • 对于一个向量X,可以利用z-score方法将其标准化为X‘,向量X中的每一个值x转化为x’的计算公式如下:x’=(x-mean(X))./std(X) 所以,可以理解为z-score 标准化(正太标准化)是基于原始数据的均值(mean)和标准差...
  • Z-scoreZ值)的意义--转载

    千次阅读 2017-02-16 17:05:00
    http://blog.sina.com.cn/s/blog_72208a6a0101cdt1.html http://www.docin.com/p-350677620.html ...在进行空间数据分析的时候,很多结果都是基于 Z-score 和P-score 的。P值 我大概明白,指...
  • 归一化z-score标准化

    千次阅读 2021-02-05 02:28:55
    z-score标准化z-score标准化是将数据按比例缩放,使之落入一个特定区间。 要求:均值 μ = 0 ,σ = 1标准差公式:imagez-score标准化转换公式:image归一化归一化:把数变为(0,1)之间的小数归一化公式:image这里...
  • 三、通过Z-Score法判断异常值 df_zscore=df.copy() #复制一个用来存储Z-score得分的数据框 df_zscores=(df_zscore-df_zscore.mean())/df_zscore.std() #0-1标准化法 df_zscores.abs()>2.2 #标准化的绝对值大于2.2即...
  • 数据预处理z-score重要的原因

    千次阅读 2019-02-25 12:45:37
    原文链接: ... 由于图像数据的每一维一般...z-score处理,即每一维度减去自身均值,再除以自身标准差 ,这样能使数据点在每维上具有相似的宽度,可以起到一定的增 大数据 分布范围,进而使更多随机分界面有意义的作用。
  • z-score 标准化(zero-mean normalization):将数据按期属性(按列进行)减去其均值,并除以其标准差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1,其公式 ![]...
  • Z-Score含义

    千次阅读 2018-09-15 01:32:49
    Z-Score定义为: 其中X为观测值 u是总体均值 σ是总体均值 可以通过z查询概率
  • R + python︱数据规范化、归一化、Z-Score

    万次阅读 多人点赞 2016-04-23 21:35:32
    同时求X的Z-score还有另外一种表达方式,是使用apply: pd.DataFram(X).apply(preprocessing.scale,axis = 0) 使用sklearn.preprocessing.StandardScaler类,使用该类的好处在于可以保存训练集中的参数(均值、方差...
  • 最常用的归一化方法有两种,Min-Max归一化和Z-score归一化。 Min-Max归一化 原理网上很多,直接上程序: # Min-Max Normalization import numpy as np data = np.load('your_data.npy') shape ...
  • 数据标准化是一个常用的数据预处理操作,目的是处理不同... Z-Score(标准化) 适用大多数类型的数据,标准化之后的数据是以0为均值,方差为1的正态分布 是一种中心化方法,会改变原有数据得分布结构 ...
  • 标准化(standardization,z-score)与归一化(Normalizer)分别是什么?有什么区别? 首先因为翻译以及各种原因这两个东西很多情况下是一锅粥的状态;我们今天以sklearn中提供的API来做一个统一的说明: ...
  • 实证资产定价(Empirical asset pricing)已经发布于Github和Pypi. 包的具体用法(Documentation)博主将会陆续在CSDN中详细介绍,也可以通过Pypi直接查看。 Pypi: pip install --upgrade EAP Github: GitHub - ...
  • 【评价指标】详解F1-score与多分类F1

    千次阅读 2022-02-14 17:39:18
    直观理解为什么F1-score能评价模型优劣 在你训练的机器学习模型过程中,你往往希望能够兼顾精确率 和 召回率,并使用一个统一的单值评价指标来评价你的机器学习模型的训练效果。我们之所以使用调和平均而不是算术...
  • 机器学习中的评价指标:F1-score

    千次阅读 2020-02-11 21:51:34
    机器学习中的评价指标:F1-score 图:西雅图(Seattle) Guderian出品 回顾:F1-score的计算过程 混淆矩阵(Confusion Matrix) 混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示...
  • 【优化求解】果蝇优化算法matlab源码.md
  • Z_score模型对上市公司财务预警的适用性研究.doc

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 19,816
精华内容 7,926
关键字:

z-score模型

友情链接: temperature-test.rar