精华内容
下载资源
问答
  • 在R中对李克特量表带数据进行可视化描述性统计分析 李克特量表是一种常用社会调查问卷模式。常规论文中对多级李克特量表数据大多计算均值来进行描述性统计分析,但均值较难表现样本整体分布状况,Rlikert ...

    在R中对李克特量表带数据进行可视化描述性统计分析

    李克特量表是一种常用的社会调查问卷模式。常规论文中对多级的李克特量表数据大多计算均值来进行描述性统计分析,但均值较难表现样本整体分布状况,R中likert package可以协助完成多种可视化图表的描述性统计分析,如下柱状图、热力图、密度图等。相对于传统表格,更清晰直观漂亮。而且likert package语法也很简单。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    #安装likert package
    if(!require(likert)){install.packages("likert")}
    library(likert)
    library(magrittr)
    #创建数据
    input <- ("
      A       B       C
      3       2       4
      5       4       4
      4       2       3
      4       2       4
      3       1       5
      4       2       3
      4       3       5
      4       2       2
      4       5       4
      5       3       3
    ")
    
    df_likert <- read.table(textConnection(input), header = TRUE)
    #分类定级
    df_likert$A <- factor(df_likert$A,
                             levels = c("1", "2", "3", "4", "5"),
                             ordered = TRUE)
    df_likert$B <- factor(df_likert$B,
                               levels = c("1", "2", "3", "4", "5"),
                               ordered = TRUE)
    
    df_likert$C <- factor(df_likert$C,
                                 levels = c("1", "2", "3", "4", "5"),
                                 ordered = TRUE)
    

    因为李克特量表的是定序、有级别差异的,所以一定要用factor给变量分级。

    1.柱状图

    likert(df_likert) %>%
      plot(type = "bar")
    

    如图
    在这里插入图片描述

    2.热力图

    likert(df_likert) %>%
      plot(
        type = "heat",
        low.color = "white",
        high.color = "blue",
        text.color = "black",
        text.size = 4,
        wrap = 50
      )
    

    如图
    在这里插入图片描述

    3.密度图

    likert(df_likert) %>%
      plot(type = "density",
           facet = TRUE,
           bw = 0.5)
    

    如图
    在这里插入图片描述

    参考资料
    [1]https://www.rdocumentation.org/packages/likert/versions/1.3.5
    [2]https://rcompanion.org/handbook/E_03.html

    展开全文
  • PythonEXCEL关键字相同记录进行统计,并前若干数据进行柱状展示 import csv import matplotlib.pyplot as plt import numpy as np import pandas import os source=“D:/乔雪梅/钢构用户行为分析” file_...

    Python对EXCEL中关键字相同的记录进行统计,并对前若干数据进行柱状图展示
    import csv
    import matplotlib.pyplot as plt
    import numpy as np
    import pandas
    import os
    source=“D:/乔雪梅/钢构用户行为分析”
    file_list=os.listdir(source) #读取某一路径下的所有文件

    #存储全量路径
    source_m=[ source+"/"+i for i in file_list]
    #正常显示读取的表格中的中文字体
    plt.rcParams[‘font.sans-serif’]=[‘SimHei’]
    plt.rcParams[‘axes.unicode_minus’] = False

    def sta(fp):
    #打开文件
    file =open(fp,‘r’)
    #读取文件中的所有行
    lines=file.readlines()
    file.close()

    row=[]#定义行数组
    column=[]#存储功能码
    col=[]#存储功能名
    for line in lines:
        row.append(line.split(','))
    for i in range(1,len(row)):
        m=row[i] 
        column.append(m[2])#获取功能码
        col.append(m[3])   #获取功能名
    
    #统计每个功能点击的次数,按功能码进行统计   
    click_numbers={}
    for it in column:        
        click_numbers[it] = 0
    for i in column:
        click_numbers[i]=click_numbers[i]+1
    
    
    fig = plt.figure()
    #截取部分功能(使用次数多的功能)显示
    function_name=[]
    click_times=[]
    for ms in click_numbers.keys():
        if len(click_numbers.keys())>11:      
            if click_numbers[ms]>5:
                if col[column.index(ms)]=='"查看型钢代号表"' or  col[column.index(ms)]=='"新建"'or col[column.index(ms)]=='" ..."' or col[column.index(ms)]=='"动态"':
                    #print(col[column.index(ms)])
                    function_name.append(col[column.index(ms)]+ms)
                else:
                    function_name.append(col[column.index(ms)])
                click_times.append(click_numbers[ms])
        else:
            if col[column.index(ms)]=='"新建"':
                function_name.append(col[column.index(ms)]+ms)
            else:
                function_name.append(col[column.index(ms)])
    
            click_times.append(click_numbers[ms])
    

    #删除特殊分组中的功能
    delete=[’“软件关闭”’,’“关闭工程”’,’“新建工程”’,’“软件启动”’,’“保存工程”’,’“打开工程”’,’“加密锁-启动”’]
    for d in delete:
    if d in function_name:
    indexs=function_name.index(d)
    function_name.remove(d)
    #print(“delete”,click_times[indexs],indexs)
    click_times.remove(click_times[indexs])

    plt.bar(function_name,click_times,0.1,color="green")
    plt.xlabel("功能", fontsize=20)
    plt.ylabel('点击次数', fontsize=20)
    plt.title(file_list[source_m.index(fp)])
    #前两个参数确定柱子的位置,1.02*p代表在柱子顶稍高一点,第三个参数设定显示数据,fontsize规定字号 
    
    #显示功能名
    for x, y in enumerate(click_times):
        plt.text(x, y*1.02 , '%s' % y, ha='center', va='bottom')   
    
    return function_name
    

    total=[]
    fp=source_m[6] #7个用户,每个用户单个调试 0-6
    sta(fp)
    plt.show()

    结果如下图:
    在这里插入图片描述

    展开全文
  • 描述性统计分析调查总体所有变量有关数据进行统计性描述,主要包括数据频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。 ①数据频数分析。在数据预处理部分,利用频数分析和交叉...

    一、描述性统计分析概念

    描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
    ①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。⑤绘制统计图。用图形的形式来表达数据,比用文字表达更清晰、更简明。

    二、数据分析常用的描述性统计分析的指标

    1、平均值

    e6cd26df3670f063431dbb1052f10844.png
    图片来源于百度百科

    注意:平均值对异常值不敏感。

    2、四分位数(Quartile):也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。

    最小估计值:Q1-k(Q3-Q1)

    最大估计值:Q3+k(Q3-Q1)

    k=1.5 中度异常

    k=3 极度异常

    指标应用:(1)不同类别数据比较;(2)识别异常值。

    可以结合箱线图,更清晰、直观展现数据分布情况。

    注意:四分位数可以整体描述数据分布状态,但不能体现数据波动性。

    3、方差、标准差、标准分

    (1)方差:在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。

    7546b35b7ead7cb880e2af8e21d83084.png
    图片来自百度百科

    为总体方差, 为变量, 为总体均值, 为总体例数。

    (2)标准差:标准差能反映一个数据集的离散程度。

    b30ed1f4aa829c1d27a7bd79318f1d07.png

    (3)标准分=距离平均值多事个标准差

    三、描述性统计分析指标的简单应用

    (一)数据集分析

    展开全文
  • 单因子分析主要针对某一个特征进行分析,分析方法往往采用统计指标(均值,位数,众数,偏度系数和峰度系数等)以及图形可视化分析;而多因子分析主要是针对两个或两个以上特征做联合分析,分析方法有检验分析...

    在建立机器学模型之前,我们常常会对我们所拥有的特征进行探索性因子分析,探索性因子分析可以分为单因子分析和多因子分析。单因子分析主要针对某一个特征进行分析,分析方法往往采用统计指标(均值,中位数,众数,偏度系数和峰度系数等)以及图形可视化分析;而多因子分析主要是针对两个或两个以上的特征做联合分析,分析方法有检验分析(如:T检验分析,方差分析,卡方检验分析)、相关性分析、主成分分析、因子分析等,本文主要是记录一些多因子分析方法.

    1、假设检验

    !在这里插入图片描述
    在这里插入图片描述

    ## 这是一个检验变量是否呈现正态分布的方法,基于偏度和峰度的检验方法。
    import pandas as pd
    import numpy as np
    from scipy import stats
    pts = 1000
    np.random.seed(28041990)
    a = np.random.normal(0, 1, size=pts) ##生成一个均值为0,标准差为1的1000个正太分布随机数
    b = np.random.normal(2, 1, size=pts) ##生成一个均值为2,标准差为1的1000个正太分布随机数 
    x = np.concatenate((a, b)) ##合并这两个数组
    k2, p = stats.normaltest(x) ##k2表示统计量的值,p为p值
    alpha = 1e-3 ##阀值
    print("p = {:g}".format(p))
    p = 3.27207e-11
    if p < alpha: # null hypothesis: x comes from a normal distribution
    	print("The null hypothesis can be rejected")
    else:
    	print("The null hypothesis cannot be rejected")
    
    
    

    1.1 t检验

    主要是用来检验两组分布是否具有一致性
    在这里插入图片描述

    import pandas as pd
    import numpy as np
    from scipy import stats as ss
    ss.ttest_ind(ss.norm.rvs(size=10), ss.norm.rvs(size=20))
    ##out:Ttest_indResult(statistic=1.9250976356002707, pvalue=0.06443061130874687)
    ss.ttest_ind(ss.norm.rvs(size=10), ss.norm.rvs(loc=1,scale=0.1,size=20))
    ## out:Ttest_indResult(statistic=-3.3034115592617534, pvalue=0.002617523871754732)
    

    1.2 卡方检验

    卡方检验,用称之为四格检验方法,主要是用来检验两个因素是否具有比较强的联系,如下:我们看一下性别与化妆与否是否具有关系,
    H0:性别与化妆与否之间没有关系
    H1:性别与化妆与否之间具有关系

    在这里插入图片描述
    在这里插入图片描述
    卡方直129.3是大于显著性水平为0.05的卡方值3.841,所以应该拒绝原假设,接受备择假设,即性别与男女化妆与否之间有比较强的关系。

    import pandas as pd
    import numpy as np
    from scipy import stats
    k2,p,_,_ss.chi2_contingency([[15, 95], [85, 5]], False
    out:k2=129.29292929292927,p=5.8513140262808924e-30
    

    1.3方差检验

    在这里插入图片描述
    SST:总平方和或总变差平方和
    SSM:组间平方和或平均平方平方和
    SSE :组内平方和或残差平方和
    在这里插入图片描述
    在这里插入图片描述
    F0:三种电池之间的平均寿命无差异
    F1:三种电池之间平均寿命没有差异

    在这里插入图片描述

    p值小于显著性水平,拒绝原假设,即认为三种电池的平均寿命具有差异性。

    from scipy import stats as ss
    ss.f_oneway([49, 50, 39,40,43], [28, 32, 30,26,34], [38,40,45,42,48])
    

    1.4 qq图

    在这里插入图片描述

    from statsmodels.graphics.api import qqplot
    from matplotlib import pyplot as plt
    qqplot(ss.norm.rvs(size=100))#QQ图
    plt.show()
    
    

    在这里插入图片描述
    理论分位数值与样本分布正太分位数值在对角线上

    2 相关系数

    2.1 Pearson相关系数

    在这里插入图片描述

    s = pd.Series([0.1, 0.2, 1.1, 2.4, 1.3, 0.3, 0.5])
    df = pd.DataFrame([[0.1, 0.2, 1.1, 2.4, 1.3, 0.3, 0.5], [0.5, 0.4, 1.2, 2.5, 1.1, 0.7, 0.1]])
    #相关分析
    print(s.corr(pd.Series([0.5, 0.4, 1.2, 2.5, 1.1, 0.7, 0.1])))
    print(df.corr())
    

    2.2 Spearman相关系数

    在这里插入图片描述

    import pandas as pd
    df = pd.DataFrame([[0.1, 0.2, 1.1, 2.4, 1.3, 0.3, 0.5], [0.5, 0.4, 1.2, 2.5, 1.1, 0.7, 0.1]])
    df.corr(method="spearman")
    

    在这里插入图片描述

    3 复合分析

    3.1 交叉分析

    (1)检验的方法,这里主要是利用HR_data.csv数据,观察部门之间员工离职率是否具有差异性。

    ##看部门两两之间离职率是否具有差异性,用t检验的方法。
    import pandas as pd
    import numpy as np
    import scipy.stats as ss
    import seaborn as sns
    sns.set_context(context="poster",font_scale=1.2)
    import matplotlib.pyplot as plt
    df=pd.read_csv("./data/HR_data.csv")
    

    在这里插入图片描述

    dp_indices=df.groupby(by="department").indices
    sales_values=df["left"].iloc[dp_indices["sales"]].values
    technical_values=df["left"].iloc[dp_indices["technical"]].values
    print(ss.ttest_ind(sales_values,technical_values))
    dp_keys=list(dp_indices.keys())
    dp_t_mat=np.zeros((len(dp_keys),len(dp_keys)))
    
    for i in range(len(dp_keys)):
       for j in range(len(dp_keys)):
             p_value=ss.ttest_ind(df["left"].iloc[dp_indices[dp_keys[i]]].values,\
                                         df["left"].iloc[dp_indices[dp_keys[j]]].values)[1]
             if p_value<0.05:
                 dp_t_mat[i][j]=-1 ## 拒绝原假设,认为两个部门离职率有差异性
             else:
                 dp_t_mat[i][j]=p_value  ##接受原假设
    sns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys)
    plt.show()
    

    在这里插入图片描述
    如上图中黑色方框表示两个部门的离职具有差异性。
    (2)透视表的方法

    piv_tb=pd.pivot_table(df, values="left", index=["department", "salary"], columns=["time_spend_company"],aggfunc=np.mean)
    #piv_tb=pd.pivot_table(df, values="left", index=["department", "salary"], columns=["time_spend_company"],aggfunc=np.sum)
    #piv_tb=pd.pivot_table(df, values="left", index=["department", "salary"], columns=["time_spend_company"],aggfunc=len)
    
    

    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述

    3.2 分组分析

    (1) 离散值

    sns.barplot(x="salary",y="left",hue="department",data=df)
    plt.show()   #按照部门分组(图例)hue参数, salary为x轴
    
    

    在这里插入图片描述(2) 连续值先分组,在做聚合

    根据
    拐点(二街查分)、
    聚类、
    基尼系数
    把连续值分类

    sl_s=df["satisfaction_level"]
    sns.barplot(range(len(sl_s)),sl_s.sort_values())
    

    在这里插入图片描述

    3.3 因子分析

    在这里插入图片描述
    (1)探索性因子分析
    通过协方差矩阵,分析多元变量的本质结构,并可以转化、降维操作,得到空间中影响目标属性的最主要因子,例如主成分分析方法。

    import pandas as pd
    import numpy as np
    import scipy.stats as ss
    import seaborn as sns
    sns.set_context(context="poster",font_scale=1.2)
    import matplotlib.pyplot as plt
    import math
    from sklearn.decomposition import PCA
    df=pd.read_csv("./data/HR.csv")
    #相关图
    sns.heatmap(df.corr())
    sns.heatmap(df.corr(), vmax=1, vmin=-1)
    plt.show()
    #PCA降维
    my_pca=PCA(n_components=7)
    lower_mat=my_pca.fit_transform(df.drop(labels=["salary","department","left"],axis=1).values)
    print(my_pca.explained_variance_ratio_)
    #sns.heatmap(pd.DataFrame(lower_mat).corr())
    #plt.show()
    

    在这里插入图片描述
    降维后的矩阵使得各个变量之间都是正交的,及相关系数为1.

    (2)验证性因子分析
    测试一个因子与相对应的测度项之间的关系是否符合研究者所设计的理论关系。

    展开全文
  • 图中最左是1到9的随机数,顺序是从上往下a然后b,规则是以A为例当随机数从第一个不是A中数起到为A中的数结束,进行个数统计,如图表中统计A为例连续14个不是A中的数,记为15,连续出现A中数时不记,以此类推进行统计...
  • 用R语言网络数据进行统计分析(四) 网络特征描述性统计 简介 在给定复杂系统研究,利益问题通常可以用作为相应网络图的结构或特征某些方面问题方式来重新表述。例如,各种类型基本...
  • 1、新建一个报表模板,样表设置如下:新建过程:在官网打开亿信ABI的试用版本,在数据分析中点击“报表分析”,从左侧的基础组件中拖入一个“分析区表格”,然后点击表格进行拾取主题表中的数据,并第一个数据指标...
  • 对数据进行统计分析时,我们会遇到将一些数据进行分类处理情况,但是又没有明确分类标准,这时候就需要用到SPSS聚类分析。 SPSS聚类分析分为两种:一种为R型聚类,是针对变量进行聚类分析;另一种为Q型聚类,...
  • 然后将这些用于比较发布这些帖子时间段内实际股价数据(使用API​​获取这些股价),然后结果进行统计分析。 用法 要自己使用它,只需下载文件并确保在您计算机上安装了适用于Python正确软件包。 确保您...
  • 数据集进行统计分析,通过图表来展示特征数据之间的关系,对数据进行挖掘以寻找有效的数据价值,并且结果需要以Excel文件的形式保存,以方便企业其他人员的查阅和使用。 3、方法步骤: 3.1 导入数据 3.2
  • 结果分析:用分组条形可以较好地直观显示该数据特征 由一可知,在该抽样数据中,学习时间少于5小时抽烟比例很大,而学习时间超过10小时,没有抽烟比抽烟多 由二可知,在该抽样数据中,没有抽烟学生...
  • 用户数据来源是,通过一个用户去发现其关注列表中的所有用户,并且加入统计用户被关注次数中并且由此循环迭代,最后得到用户被关注统计数据数据根据关注人数排序,输出折线,结果如下 图像纵坐标表示关注人数...
  • 一般在数据分析的过程,拿到数据不会去直接去建模,而是先做描述性分析对数据有一个大致把握,很多后续建模方向也是通过描述性分析来进一步决定。那么除了在Excel/R可以去做描述性分析。本文将细致讲解...
  • •生成高级信息,如汇总数据统计、能洞察多个独立事件“大”或净效应趋势 •基于输入数据的复杂分析,不断重算关键操作值 •收集原始数据与结果数据到历史数据库,以进行历史分析或遵循合规性 本文试图...
  • 时间序列数据进行平滑处理效果预览: Excel原数据部分预览: 1. 读取金融时间序列数据,绘制波形 x = xlsread('examp03_02.xls'); % 从文件examp03_02.xls读取数据 price = x(:,4)'; % 提取矩阵x第4列数据,...
  • 描述统计数据分析中常用方法,它是指通过数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述方法。描述统计通常包括集中趋势分析、离散趋势分析和相关分析...
  • 一、概述之前我们总结了Pandas的数据加载、清洗及规整,本文主要总结数据聚合与分组,其在我们的数据分析工作中的使用频率也比较高,Pandas为我们提供了gruopby功能,它使你能以一种自然的方式数据集进行切片、切...
  • 运营中的数据分析

    2020-09-25 17:25:40
    如果用一句话概括什么是数据分析,在我看来,就是:数据分析是用适当的统计分析方法,收集来的大量数据进行分析,提取有用信息和形成结论的过程。 一个完整的数据分析体系应该是如下所示: 完整的分析体系 ...
  •  “拟合度检验:拟合优度又称为可决系数。可以用来检验回归方程观察数据的拟合程度,用来度量方程总体回归效果优劣。”
  • 那业务人员能不能在不借助BI工程师情况下快速制作美观的统计图对数据进行分析,得到想要结果,缩短工时,减少成本呢?有些人可能会直接选择在excel上做统计图分析,但是excel上的统计图设置项调整...
  • 练习2教你创建表面之前如何对数据进行检查。数据检查目的是为了找出数据那些离群值并且发现数据存在趋势。 练习3你将创建第二个表面,这个表面更多地考虑了练习2数据分析发现空间关系,并且练习1...
  • 在进行数据分析时,一般要先对数据进行描述性统计分析,以发现其内在规律,再选择进一步分析的方法。描述性统计分析调查总体所有变量有关数据做统计性描述,主要包括数据频数分析、数据集中趋势分析、...
  • 空间数据分析作为大数据分析的重要组成,将数据智能处理,直观展示和相互作用分析有机地结合,使机器智能和人类智慧深度融合,优势互补,为疫情防控中的分析,指挥和决策提供有效依据和指南。 本项目希望能利用交互...
  • 然而,掌握第三方数据可能会非常具有挑战性,称其遵守严格的数据隐私规范方面,它是不可错过的。数据正在增长,可利用的机会也在增加。为了从第三方数据孤岛获得最大利益,企业领导人必须制定战略,解决围绕数据...
  • 对于统计的数据,最好首先看看数据是如何分布,并把分布图示化,可以帮助我们确定后续的分析策略。现在,以R著名的iris数据为例来计算其中一组数据的分布情况。 > data(iris) > names(iris) [1] "Sepal....
  • 数据仓库架构建立后,以数据仓库结构为目标日志源进行ETL, ETL过程基于Hadoop分布式计算框架,摒弃日志文件中的多余信息,将需要的数据抽取、计算,并装载入Hive数据仓库。 随后基于Hive数据仓库及其提供的数据查询...
  • csv加载.txt文件2.1 用read_csv加载.txt文件DataFrame.names1880只有births这一列是int型,所有在使用sum()函数他似乎是会默认使用births列进行分组(groupby):2.2 默认births列进行分组读取所有数据,...
  • 探索性分析生活,高空作业一般都会借助外物如吊车等工具帮住自己达到目标,而统计学也一样,在数据基本特征有所了解,需要对数据进行更为细致和深入描述性观察分析,这时候就需要绘制统计图来辅助分析,...
  • 数据分析的意义和方法

    万次阅读 2019-02-28 10:19:52
    数据分析是指用适当的统计分析方法收集来大量数据进行分析,提取有用信息和形成结论而数据加以详细研究和概况总结过程,是为了寻求问题答案而实施有计划、有步骤行为。 数据分析分类: 描述性统计...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,546
精华内容 618
关键字:

对统计图中的数据进行分析