精华内容
下载资源
问答
  • 数据描述性分析

    2015-08-25 23:13:04
    数据描述性分析
  • 模块四 数据描述性分析 4.8.推广数据分组分析 一任务目标 基于原始数据完成推广数据分组分析完成后确认无误提交 二任务背景 企业在进行营销推广后对推广数据进行分析能够帮助其了解推广的整体效果衡量投入产出比指导...
  • 模块四 数据描述性分析 4.3.店铺销量趋势预测 一任务目标 完成对店铺销量趋势预测分析 二任务背景 对店铺商品销量趋势分析与预测其结果可以帮助运营人员优化选品及销售策略调整商品库存及采购数量某店铺是一家服饰...
  • SAS常用基础代码例子-数据描述性分析 1、 计算均值、方差、标准差、变异系数、偏度、峰值; 2、 计算中位数、上下四分位数、四分位极差、三均值; 3、 作出直方图,茎叶图; 4、 进行正态性W检验。 将数据导入SAS,...

    SAS常用基础代码例子-数据描述性分析

    1、 计算均值、方差、标准差、变异系数、偏度、峰值;
    2、 计算中位数、上下四分位数、四分位极差、三均值;
    3、 作出直方图,茎叶图;
    4、 进行正态性W检验。
    将数据导入SAS,用means 程序及univariate程序进行计算,程序如下:
    data height;
    input shengao @@;
    cards;
    126 149 143 141 127 123 137 132 135 134 146 142
    135 141 150 137 144 137 134 139 148 144 142 137
    147 138 140 132 149 131 139 142 138 145 147 137
    135 142 151 146 129 120 143 145 142 136 147 128
    142 132 138 139 147 128 139 146 139 131 138 149
    ;
    run;
    proc means data=height mean var std cv skewness kurtosis;
    var shengao;
    run;
    proc means data=height median q1 q3 qrange ;
    var shengao;
    run;
    proc gchart data=height;
    vbar shengao;
    run;
    proc univariate data=height plot;
    run;
    proc univariate data=height normal;
    var shengao;
    histogram shengao;
    probplot shengao;
    run;
    得到运算结果如下:
    在这里插入图片描述

    1、即该组数据的均值 =139.0,方差 =49.8983051,标准差为s=7.0638732,变异系数cv=5.081932,偏度为g1=-0.5100771,峰度为g2=-0.1261294。
    在这里插入图片描述

    2、中位数M=139,上、下四分位数分别为135.0,144.5,四分位极差R1=9.5,三均值为 。
    3、二数据的直方图与茎叶图如下所示:直方图将数据分为6组,由此图可以看出数据值为138,144左右的较多,通过茎叶图可以反映出数据的分布频率。
    在这里插入图片描述

    5、 假设检验问题为 :该组数据是正态分布 :该组数据不是正态分布的。
    在原假设 为真时, 的值接近于1, 的值过小则拒绝 。检验P值为 。
    在这里插入图片描述 对该数组进行正态性W检验得, , 值为 。取 ,因 ,故接受 ,认为样本数据来自正态分布总体。
    该数据的QQ图(如下)接近一条直线。
    在这里插入图片描述

    展开全文
  • 湖南工业大学计算机科学与技术 MATLAB : 数据描述性分析实验。**报价250**

    湖南工业大学计算机科学与技术 MATLAB : 数据描述性分析实验。报价250

    1、实验目的和任务

    目的:熟悉常用数据描述性分析方法方法、统计作图法及多维数据相关分析。
    任务:使用程序语言计算观测数据的均值、方差、标准差,变异系数,偏度,峰度;中位数,上下四分位数,四分位数极差;做直方图和经验分布函数图;Pearson相关系数和Spearman相关系数。

    2、实验内容

    2002年11月以及1至11月全国省、直辖市、自治区财政预算收入数据如表1所示,设X1为11月预算收入,X2为1至11月预算收入,分别对X1,X2的观测值计算:
    1)均值、方差、标准差,变异系数,偏度,峰度;
    2)中位数,上下四分位数,四分位数极差;
    3)做直方图,并讨论区间(容器)数量nbins对直方图的影响,nbins可取10,20,30,40。
    4)做出经验分布函数图,并讨论区间(容器)数量nbins对经验分布函数图的影响,nbins可取10,20,30,40。
    5)X1、X2观测值的Pearson相关系数和Spearman相关系数。

    3、实验过程及结果

    1) 实验内容1:均值、方差、标准差,变异系数,偏度,峰度

    (2) 计算过程;

    (3) 计算结果;

    实验内容3:

    做直方图,并讨论区间(容器)数量nbins对直方图的影响,nbins可取10,20,30,40


    4、4) 实验内容

    4:做出经验分布函数图,并讨论区间(容器)数量nbins对经验分布函数图的影响,nbins可取10,20,30,40


    5) 实验内容5


    加粗样式

    6) 程序代码

    clc;
    filename = 'experiment_data1.txt';
    n=31;
    [x]=textread(filename,'%s');
    x=reshape(x,[3 31]);
    x=x';
    xlswrite('filename.xls', x)
    name=x(:,1);
    x=str2double(x(:,2:3));
    
    x_=mean(x)%均值
    S=std(x)
    S2=S.*S
    g1=skewness(x) % 偏度:>0 称为右偏态,<0,称为左偏态
    g2=kurtosis(x) % 峰度:用作衡量偏离正态分布的尺度之一
    CV=S./x_*100  %变异系数
    
    M= median(x)  %中位数
    Q1 = prctile(x,25)
    Q3 = prctile(x,75)
    R1=Q3-Q1
    
    nbins=10;
    hold on
    subplot(2,2,1);
    [h1 xout1]=hist(x(:,1),nbins);%直方图
    bar(xout1,h1)
    title('直方图1')
    subplot(2,2,2);
    [h2 xout2]=hist(x(:,2),nbins);%直方图
    bar(xout2,h2)
    title('直方图2')
    
    for i = 1:nbins
        func(i) = sum(h1(:,1:i));%累加
    end
    hold on
    %cdfplot(x);
    subplot(2,2,3);
    plot(xout1, func/n, 'b-', 'LineWidth', 1);%绘制经验分布曲线
    title('经验分布函数1');
    for i = 1:nbins
        func(i) = sum(h2(:,1:i));%累加
    end
    hold on
    subplot(2,2,4);
    plot(xout2, func/n, 'b-', 'LineWidth', 1);%绘制经验分布曲线
    title('经验分布函数2');
    
    X1=x(:,1);
    X2=x(:,2);
    pearson_r = corr(X1,X2)%默认Pearson系数
    Spearman_r= corr(X1,X2, 'type' , 'Spearman')%Spearman系数
    
    

    experiment_data1.txt

    北京   35.22  499.80
    天津   10.41  161.37
    河北   17.22  273.29
    山西   10.70  134.79
    内蒙古 10.29   90.92
    辽宁   18.66  348.99
    吉林    4.41  106.89
    黑龙江  6.24  196.44
    上海   49.72  656.95
    江苏   47.70  580.70
    浙江   36.55  518.10
    安徽   14.85  179.41
    福建   19.46  250.16
    江西   10.93  122.06
    山东   40.26  552.74
    河南   19.82  268.20
    湖北   19.49  221.43
    湖南   16.01  197.68
    广东   99.32 1080.26
    广西   14.77  160.60
    海南    3.96   39.51
    重庆   10.49  111.76
    四川   21.71  250.09
    贵州   13.06   95.87
    云南   20.34  183.62
    西藏    0.77    6.08
    陜西   11.38  133.50
    甘肃    3.66   64.86
    青海    1.21   18.30
    宁夏    2.31   23.81
    新疆    3.24  103.81
    

    filename.xls

    展开全文
  • 2.1基本统计量与数据可视化 1.均值、中位数、分位数、三均值 均值、中位数:mean(A)、media(A) 分位数:prctile(A,P),P∈[0,100] prctile(A,[25,50,75]) %求A的下、中、上分位数 三均值: w=[0.25,0.5,0.75];...

    2.1基本统计量与数据可视化

    1.均值、中位数、分位数、三均值

    均值、中位数:mean(A)、media(A)

    分位数:prctile(A,P),P∈[0,100]

    prctile(A,[25,50,75]) %求A的下、中、上分位数

    三均值:

    w=[0.25,0.5,0.75];

    SM=w*prctile(A,[25,50,75])

    %例:计算安徽16省市森林资源统计量
    A=xlsread('senlin.xls','sheet1')
    M=mean(A); %均值, 
    MD=median(A); %中位数
    SM=[0.25,0.5,0.25]*prctile(A,[25,50,75]); %三均值
    [M;MD;SM]
    

    2.方差、标准误、变异系数

    方差:var(A,flag),flag默认0表示修正的方差,取1为未修正

    标准差:std(A,flag),同上

    变异系数:v=std(A)./abs(mean(A))

    k阶原点矩、中心距:

    ak=mean(A.^k)

    bk=mean((A-mean(A)).^k)

    %中心距系统命令bk=moment(A,k)

    3.极差、四分位极差(上、下分位数之差)

    R=rangr(A)

    R1=iqr(A)

    4.异常点判别(截断点)

    XJ=parctile(A,[25])-1.5*R1

    SJ=parctile(A,[75])+1.5*R1

    5.偏度、峰度

    偏度:sk=skewness(A,flag),默认1,取0为样本数据修正的偏度

    峰度:ku=kurtosis(A,flg)-3,同上

    2.1.2多维样本数据

    协方差:cov(A)

    相关系数:corr(A)

    标准化:zscore(A)

    2.1.3样本数据可视化

    1.条形图

    bar(x)%样本数据x的条形图,横坐标为1:length(x)

    bar(x,y)%先把x和y一一对应,然后将x从小到大排序画图

    2.直方图

    hist(x,n)%数据x的直方图,n为组数,确省时n=10

    [h,stats]=cdfplot(x)%x的经验分布函数图,stats给出数据最大最小值、中位数、均值、标准差

    直方图基础上附加正态密度曲线

    histfit(x)

    histfit(x,nbins)%nbins指定bar个数,缺省时为x中数据个数的平方根

    3.盒图,五个数值点组成:最小值、下四分位数、中位数、上四分位数、最大值。中间的盒子从Q1延申到Q3,盒子的直线标出中位数位置,盒子两端有直线往外延伸到最小数与最大数

    boxplot(x)%矩阵x的每一列的盒图和“须”图,

    4.阶梯图

    stairs(x)%x的阶梯图

    5.火柴棒图

    stem(x)%离散数据的火柴棒图

    %例:随机150个服从标准正态分布随机数,做出柱形图、直方图、阶梯图、火柴棒图
    x = random('normal',0,1,[1,150]);   %产生服从标准正态分布随机数150个
    subplot(2,3,1),bar(x),title('柱形图')
    subplot(2,3,2),hist(x),title('直方图')
    subplot(2,3,3),stairs(x),title('阶梯图')
    subplot(2,3,4),stem(x),title('火柴棒图')
    subplot(2,3,5),histfit(x),title('附正态密度曲线')
    subplot(2,3,6),boxplot(x),title('盒图')
    

    例:(X,Y)服从二维正态分布N(2,1;3,3;sqrt(3)/2),生成100对数据做出三点图画出二维正态分布的密度函数,绘制密度曲面图形
    mu = [2 3];                  %输入均值向量
    sa = [1 1.5; 1.5 3];          %输入协方差矩阵
    Nr = mvnrnd(mu,sa,100);       %随机生成n=100的样本数据
    scatter(Nr(:,1),Nr(:,2),'*'); %作样本数据平面散点图
    %绘制密度曲面
    figure(2)
    v=sqrt(3)/2;                 %输入相关系数
    x=-1:0.05:5;                 %横坐标的取值向量
    y=-2:0.05:8;                 %纵坐标的取值向量
    [X,Y]=meshgrid(x,y);         %生成网格点
    T=((X-mu(1)).^2/sa(1,1)-2*v/sqrt(sa(1,1)*sa(2,2))*(X-mu(1)).*(Y-mu(2))+(Y-mu(2)).^2/sa(2,2));
    Z=1/(2*pi)/sqrt(det(sa))*exp(-1/2/(1-3/4)*T);   %计算密度函数值
    mesh(X,Y,Z)                  %绘制密度曲面图形
    

     

    3.正态概率图和Q-Q图

    (1)正态概率图:normplot(x)%样本数据对应图中的+,若+大都集中在红色参考线上则说明服从正态分布

    若总体是非正态分布,可以类似绘制概率图(威布尔分布概率图)

    weibplot(x)%若样本数据点基本散布在一条直线上,则数据服从该分布

    (2)Q-Q图:

    PD=fitdist(x,distname)%distname为Beta、Binomial、Exponential、Normal、Weibull

    qqplot(x,PD)% PD省略时为标准正态分布

    %例:自由度为8的卡方分布数据300个,绘制其正态概率图与卡方分布的Q-Q图
    clear
    s=rng;rng(s);
    c1=chi2rnd(8,[300,1]); c2=sort(c1);      %模拟生成卡方分布样本
    plot(c2,chi2pdf(c2,8), '+-');             %绘制卡方分布的密度曲线
    title('卡方分布的密度曲线') ;legend('自由度n=8');
    grid on									%打开网格
    figure
    pd=makedist('Gamma','a',4,'b',0.5)   %创建参数a=4,b=0.5的伽马分布
    %pd=gamrnd(4,0.5,[300,1]);        
    subplot(1,2,1),normplot(c1);        %绘制样本的正态概率图
    subplot(1,2,2),qqplot(c1,pd);        %按指定分布绘制样本的Q-Q图
    grid on
    

    左图可看出是左偏,中图偏离参考线故不服从正态分布,右图贴合直线故服从伽马分布(自由度为8的卡方分布就是参数a=n/2,b=0.5的伽马分布)

    2.2数据分布及其检验

    1.经验分布函数

    [h,stats]=cdfplot(x)%x的经验分布函数图,h表示曲线的环柄,stats给出数据最大值、最小值、中位数、均值、标准差

    %例:生成服从标准正态分布的50个样本点,画出样本的经验分布函数图,并与理论分布函数比较
    clear
    X=normrnd (0,1,50,1);           %生成服从标准正态分布的50行1列样本点
    [h,stats]=cdfplot(X);           %样本的经验分布函数图
    hold on							%保持上图,后续图层叠加在上图
    plot(-3:0.01:3, normcdf(-3:0.01:3,0,1), 'r')   %理论分布函数图
    legend('样本经验分布函数Fn(x)', '理论分布函数Φ(x)','Location','NorthWest')
    

    2.总体分布正态性检验

    (1)JB检验:显著性水平alpha默认0.05

    %以下两种方法均可,输出的H=0无法拒绝X服从正态分布;H=1拒绝。P为接受假设的概率值,P<alpha,则拒绝正态分布原假设。JBSTAT为测试统计量,CV是拒绝临界值,JBSTAT>CV拒绝。

    H=jbtest(x,alpha)

    [H,PJBSTAT,CV]=jbtest(x,alpha)

    (2)KS检验:

    h=kstest(x)

    h= kstest(x,cdf)

    [h,p,ksstat,cv]=kstest(x,cdf,alpha)

    %h=0无法拒绝X服从正态分布

    (3)Lilliefors检验(改进的KS检验):

    H=lillietest(x,alpha)

    [H,P,LSTAT,CV]=lillietest(x,alpha)

    %判断方法同(1)

    %例:检验“中国银行”的股票的收盘价是否服从正态分布。
    clear
    a=xlsread('yhgspj.xls');  %读取收盘价数据
    h1=jbtest(a(:,1))    %JB检验
    h2=kstest(a(:,1))    %KS检验
    h3=lillietest(a(:,1))   %改进KS检验
    qqplot(a(:,1))
    

    h1=1,h2=1,h3=1,三种检验均拒绝正态分布原假设,Q-Q图显示偏离参考线,不服从正态分布

    2.2.2多维数据的正态分布检验

    %例:三组数据有4项指标,三组视为一个总体,是否服从四维正态分布
    clear
    A=xlsread('jibing.xls','sheet1')
    X=[A(:,1:4);A(:,5:8);A(:,9:12)];
    [N,p]=size(X);
    d=mahal(X,X);                % 计算马氏距离
    d1=sort(d);                    % 从小到大排序
    pt=[[1:N]-0.5]/N;               % 计算分位数
    x2=chi2inv(pt,p);               % 计算X2t
    plot(d1,x2','*',[0:12],[0:12],'-r')  % 作图
    

    数据点基本落在直线上,不能拒绝正态分布原假设

    3.多个总体协方差矩阵相等性检验

    (1)两总体

    %例:蠓虫分类
    clear
    apf=[1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96];
    af=[1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90;1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08];
    n1=6;n2=9;p=2;
    s1=cov(apf);s2=cov(af);
    s=((n1-1)*s1+(n2-1)*s2)/(n1+n2-2);             % 计算混合样本方差
    Q1=(n1-1)*(log(det(s))-log(det(s1))-p+trace(inv(s)*s1));
    Q2=(n2-1)*(log(det(s))-log(det(s2))-p+trace(inv(s)*s2));% 计算检验统计量观测值
    ch2inv(0.95,3)                                %计算X2(3)临界值
    

    Q1=2.5784<7.8145,Q2=0.7418<7.8145,无法拒绝两类总体协差阵相同的原假设

    (2)多总体

    %例:上上个例子三组数据的协方差矩阵是否相等?...
    clear,clc
    A=xlsread('jibing.xls','sheet1');      %输入样本数据
    G1=A(:,1:4);                           %提取总体1的样本
    G2=A(:,5:8);        
    G3=A(:,9:12);
    n=size(G1,1)+ size(G2,1)+ size(G2,1);  %计算总的样本容量
    [n1,p]= size(G1);
    k=3;
    f=p*(p+1)*(k-1)/2;                      %统计量自由度
    d=(2*p^2+3*p-1)*(k+1)/(6*(p+1)*(n-k));
    s1=cov(G1);                             %协方差矩阵
    s2=cov(G2);                             %协方差矩阵
    s3=cov(G3);                             %协方差矩阵
    s=(n1-1)*(s1+s2+s3)/(n-k);              %总体协方差估计
    M=(n-k)*log(det(s))-19*(log(det(s1))+log(det(s2))+log(det(s3))); 
    T=(1-d)*M
    P0=1-chi2cdf(T,f)                      % 卡方分布概率
    

    P=0.4374>0.1故无法拒绝三个总体协方差矩阵相等的原假设

    本文用到的三个excel文件如下

    链接:https://pan.baidu.com/s/1oKCsLTsU99CjQciIKmPRKw 
    提取码:nj03

    内容来源于吴礼斌和李柏年老师主编的《MATLAB数据分析方法》,包括但不限于课本内容,记载学习记录以及自身见解,侵权联系删除。

    展开全文
  • 1.1 数据描述的数据特征 1.1.1 均值,方差等数字特征  a, 几种样本的数字特征公式:均值,方差,标准差,变异系数()

    1.1  数据描述的数据特征

    1.1.1  均值,方差等数字特征

       a, 几种样本的数字特征公式:均值,方差,标准差,变异系数(数据的相对分散性),校正平方和,非校正平方和,原点矩,中心矩,偏度(刻画数据的对称性),峰度;

       b,样本数据对总体数据的估计;

    1.1.2 中位数,分位数,三均值与极差

       a, 中位数与分位数,几种常用的分位数(上下四分位数等)

       b, 四分位极差,三均值公式(上下四分位和中位数加权之后对中位数的估计,考虑了稳健性和样本数据的利用)

       c, 异常数据的去除和四分位极差在正态分布上的应用

       d, 均值考虑整体数据但缺乏稳健性,中位数则相反


    1.2 数据的分布

    1.2.1 直方图,经验分布函数与qq图

        a, 直方图的特征

        b, 概率密度函数与经验分布函数

        c, qq图判断数据是否符合正态分布以及显示出的峰度和偏度的特征

        d, 用sas形成直方图和经验分布函数对概率密度函数的拟合

    1.2.2  茎叶图,箱线图与五数总括

         a, 茎叶图的构造,数据深度与行深度,中行与容量,茎叶图的特点

         b, 箱线图的构造与五数总括的概念

    1.2.2 正态性检验与分布拟合检验

         a, 参数估计的基本方法

         b, 几种常见的参数估计

        ps: 需要复习一下概统的参数估计


    1.3 多元数据的数字特征与相关性

    1.3.1 二元变量的数字特征及相关系数

      a, 协方差矩阵,schwarz不等式,相关系数以及相关系数的作用

      b, 样本数据的轶与spearman相关系数

    1.3.2 多元数据的数字特征及相关矩阵

      a, 行是变量,列是不同试验次数的实验数据

      b, 各种描述数字特征的量

    1.3.3 总体的数字特征及相关矩阵




        

    展开全文
  • 描述性数据分析

    万次阅读 2018-07-22 16:33:38
    描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析数据的集中趋势分析数据离散程度分析数据的分布、以及一些基本的统计图形。 Excel里的分析工具库里的数据分...
  • 数据描述性分析

    2020-06-04 14:57:54
    描述统计内容包括:统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。 分析数据的主要特征:集中程度、分散程度、数据的分布是正态还是偏态等。多元数据还要分析各个变量...
  • 描述性分析方法 描述性分析目的是描述现实,发现问题 全链路描述性方法的步骤: 1. 确定描述对象 2. 明确业务目标,熟悉业务逻辑 3. 分割业务环节,确定关键节点 4. 利益关系人及关系人的关注点 5. 确定可以描述分析...
  • 进击的橘子猫正式改名上线啦! ... 也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关... 描述性分析(Descriptive analytics) 预测性分析(Predicti...
  • 数据分析_小费数据描述性分析

    千次阅读 2020-04-12 14:38:47
    本次项目的数据来源是python第三方库seaborn中自带的数据数据集中含有7个字段,包括有消费总金额(totall_bill)(不含小费),小费金额(tip),顾客性别(sex),消费的星期(day),消费的时间段(time),用餐人数(size),...
  • 一、数据分析的分类与作用 二、数据分析方法-描述性统计分析

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,876
精华内容 3,550
关键字:

数据描述性分析