精华内容
下载资源
问答
  • 提供有文化,有内涵,有价值的阅读见解。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合...数据仓库,使用离线采集,数据一般为结构化的,满足内生应用决策分析需求。数据来源大部分是业务...

    点击上方蓝字关注司令府邸

    司令府邸--以文字流水的方式,记录有态度的知识。提供有文化,有内涵,有价值的阅读见解。

    数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

    数据中台是一套完整的机制,能够让企业的数据持续不断的用起来,既是数据服务可视化和可持续化,数据资产化。

    65b4bd91430d64b8567d73e2f48eca0a.png

    数据仓库,使用离线采集,数据一般为结构化的,满足内生应用决策分析需求。数据来源大部分是业务内部系统。

    数据中台获取内外部全域数据,涵盖业务内部系统数据,多元化营销场景数据,埋点数据,日志数据等。

    数据仓库大多服务于中后台部门,提供报表查看,统计分析,和不完善的决策支持。

    数据中台能够统一数据源,统一数据ID,统一提供数据服务,将数据业务迁移,完成多元化数据营销。

    数据仓库提供面向报表的单一服务,或者是高级别的可视化。

    数据中台提供高效的BI报表分析,面向营销的智能服务,客户画像,AI决策分析和风险防控。

    数据仓库从单机的ETL发展到集群ETL,再发展到传统小型机+DB,然后是PC服务器+分布式DB拓展。

    数据中台则是由最初的数据仓库,发展为大数据基础平台,再到建立分布式计算和存储平台,提供数据化的服务。

    0934cc239005f4c03e98755422057e86.png

    展开全文
  • python数据统计分析

    2020-07-17 11:12:37
    目录 1. 常用函数 2. 小样本数据的正态性检验 3. 检验样本是否服务某一分布 ...14. 单变量统计分析 15. 多元线性回归 16. 逻辑回归 1. 常用函数 scipy包中的stats模块和statsmodels包是py...

    目录

    1. 常用函数库

    2. 小样本数据的正态性检验

    3. 检验样本是否服务某一分布

    4.方差齐性检验

    5. 图形描述相关性

    6. 正态资料的相关分析

    7. 非正态资料的相关分析

    8. 单样本T检验

    9. 两独立样本T检验

    10. 配对样本T检验

    11. 单因素方差分析

    12. 多因素方差分析

    13. 卡方检验

    14. 单变量统计分析

    15. 多元线性回归

    16. 逻辑回归


    1. 常用函数库


            scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了。这个模块被重写并成为了现在独立的statsmodels包。

    scipy的stats包含一些比较基本的工具,比如:t检验,正态性检验,卡方检验之类,statsmodels提供了更为系统的统计模型,包括线性模型,时序分析,还包含数据集,做图工具等等。

     这里的np是numpy包的缩写,np.random.normal()的意思是一个正态分布,normal这里是正态的意思。我在看孪生网络的时候看到这样的一个例子:numpy.random.normal(loc=0,scale=1e-2,size=shape) ,意义如下:
    参数loc(float):正态分布的均值,对应着这个分布的中心。loc=0说明这一个以Y轴为对称轴的正态分布,
    参数scale(float):正态分布的标准差,对应分布的宽度,scale越大,正态分布的曲线越矮胖,scale越小,曲线越高瘦。
    参数size(int 或者整数元组):输出的值赋在shape里,默认为None。
     

    2. 小样本数据的正态性检验

    (1) 用途

    夏皮罗维尔克检验法 (Shapiro-Wilk) 用于检验参数提供的一组小样本数据线是否符合正态分布,统计量越大则表示数据越符合正态分布,但是在非正态分布的小样本数据中也经常会出现较大的W值。需要查表来估计其概率。由于原假设是其符合正态分布,所以当P值小于指定显著水平时表示其不符合正态分布。

    正态性检验是数据分析的第一步,数据是否符合正态性决定了后续使用不同的分析和预测方法,当数据不符合正态性分布时,我们可以通过不同的转换方法把非正太态数据转换成正态分布后再使用相应的统计方法进行下一步操作。

    (2) 示例
     

    import numpy as np
    from scipy import stats
    
    np.random.seed(12345678)
    x = stats.norm.rvs(loc=5, scale=10, size=80)  # loc为均值,scale为方差
    print(stats.shapiro(x))
    # 运行结果:ShapiroResult(statistic=0.9654011726379395, pvalue=0.029035290703177452)

    (3) 结果分析

     返回结果 p-value=0.029035290703177452,比指定的显著水平(一般为5%)小,则拒绝假设:x不服从正态分布。

    3. 检验样本是否服务某一分布

    (1) 用途

    科尔莫戈罗夫检验(Kolmogorov-Smirnov test),检验样本数据是否服从某一分布,仅适用于连续分布的检验。下例中用它检验正态分布。

    (2) 示例

    import numpy as np
    from scipy import stats
    
    np.random.seed(12345678)
    x = stats.norm.rvs(loc=0, scale=1, size=300)
    print(stats.kstest(x, 'norm'))
    # 运行结果:KstestResult(statistic=0.0315638260778347, pvalue=0.9260909172362317)

    (3) 结果分析

    生成300个服从N(0,1)标准正态分布的随机数,在使用k-s检验该数据是否服从正态分布,提出假设:x从正态分布。最终返回的结果,p-value=0.9260909172362317,比指定的显著水平(一般为5%)大,则我们不能拒绝假设:x服从正态分布。这并不是说x服从正态分布一定是正确的,而是说没有充分的证据证明x不服从正态分布。因此我们的假设被接受,认为x服从正态分布。如果p-value小于我们指定的显著性水平,则我们可以肯定的拒绝提出的假设,认为x肯定不服从正态分布,这个拒绝是绝对正确的。

    4.方差齐性检验

    (1) 用途

    方差反映了一组数据与其平均值的偏离程度,方差齐性检验用以检验两组或多组数据与其均值偏离程度是否存在差异,也是很多检验和算法的先决条件。

    (2) 示例

    import numpy as np
    from scipy import stats
    
    np.random.seed(12345678)
    rvs1 = stats.norm.rvs(loc=5, scale=10, size=500)
    rvs2 = stats.norm.rvs(loc=25, scale=9, size=500)
    print(stats.levene(rvs1, rvs2))
    # 运行结果:LeveneResult(statistic=14.581864801597224, pvalue=0.00014247612550272225)


    (3) 结果分析

    返回结果 p-value=0.00014247612550272225, 比指定的显著水平(假设为5%)小,认为两组数据不具有方差齐性。

    5. 图形描述相关性

    (1) 用途

    最常用的两变量相关性分析,是用作图描述相关性,图的横轴是一个变量,纵轴是另一变量,画散点图,从图中可以直观地看到相关性的方向和强弱,线性正相关一般形成由左下到右上的图形;负相关则是从左上到右下的图形,还有一些非线性相关也能从图中观察到。

    (2) 示例

    import statsmodels.api as sm
    import matplotlib.pyplot as plt
    
    data = sm.datasets.ccard.load_pandas().data
    plt.scatter(data['INCOMESQ'], data['INCOME'])
    plt.show()


    (3) 结果分析

    从图中可以看到明显的正相关趋势。

    6. 正态资料的相关分析


    (1) 用途

    皮尔森相关系数(Pearson correlation coefficient)是反应俩变量之间线性相关程度的统计量,用它来分析正态分布的两个连续型变量之间的相关性。常用于分析自变量之间,以及自变量和因变量之间的相关性。

    (2) 示例

    from scipy import stats
    import numpy as np
    
    np.random.seed(12345678)
    a = np.random.normal(0, 1, 100)
    b = np.random.normal(2, 2, 100)
    print(stats.pearsonr(a, b))
    # 运行结果:(-0.034173596625908326, 0.73571128614545933)


    (3) 结果分析

    返回结果的第一个值为相关系数表示线性相关程度,其取值范围在[-1,1],绝对值越接近1,说明两个变量的相关性越强,绝对值越接近0说明两个变量的相关性越差。当两个变量完全不相关时相关系数为0。第二个值为p-value,统计学上,一般当p-value<0.05时,可以认为两变量存在相关性。

    7. 非正态资料的相关分析


    (1) 用途

    斯皮尔曼等级相关系数(Spearman’s correlation coefficient for ranked data ),它主要用于评价顺序变量间的线性相关关系,在计算过程中,只考虑变量值的顺序(rank, 秩或称等级),而不考虑变量值的大小。常用于计算类型变量的相关性。

    (2) 示例

    from scipy import stats
    import numpy as np
    
    print(stats.spearmanr([1, 2, 3, 4, 5], [5, 6, 7, 8, 7]))
    # 运行结果:SpearmanrResult(correlation=0.82078268166812329, pvalue=0.088587005313543812)


    (3) 结果分析

    返回结果的第一个值为相关系数表示线性相关程度,本例中correlation趋近于1表示正相关。第二个值为p-value,p-value越小,表示相关程度越显著。

    8. 单样本T检验


    (1) 用途

    单样本T检验,用于检验数据是否来自一致均值的总体,T检验主要是以均值为核心的检验。注意以下几种T检验都是双侧T检验。

    (2) 示例

    from scipy import stats
    import numpy as np
    
    np.random.seed(12345678)
    rvs = stats.norm.rvs(loc=5, scale=10, size=(100, 2))
    print(stats.ttest_1samp(rvs, [1, 5]))
    # 运行结果:Ttest_1sampResult(statistic=array([ 5.12435977,  1.07927393]), pvalue=array([  1.47820719e-06,   2.83088106e-01]))


    (3) 结果分析

    本例中生成了2列100行的数组,ttest_1samp的第二个参数是分别对两列估计的均值,p-value返回结果,第一列1.47820719e-06比指定的显著水平(一般为5%)小,认为差异显著,拒绝假设;第二列2.83088106e-01大于指定显著水平,不能拒绝假设:服从正态分布。

    9. 两独立样本T检验


    (1) 用途

    用于比较两组数据是否来自于同一正态分布的总体。注意:如果要比较的两组数据不满足方差齐性, 需要在ttest_ind()函数中添加参数equal_var = False。

    (2) 示例

    from scipy import stats
    import numpy as np
     
    np.random.seed(12345678)
    rvs1 = stats.norm.rvs(loc=5,scale=10,size=500)  
    rvs2 = stats.norm.rvs(loc=6,scale=10,size=500)
    print(stats.ttest_ind(rvs1,rvs2))
    # 运行结果:Ttest_indResult(statistic=-1.3022440006355476, pvalue=0.19313343989106416)


    (3) 结果分析

    返回结果的第一个值为统计量,第二个值为p-value,pvalue=0.19313343989106416,比指定的显著水平(一般为5%)大,不能拒绝假设,两组数据来自于同一总结,两组数据之间无差异。

    10. 配对样本T检验


    (1) 用途

    配对样本T检验可视为单样本T检验的扩展,检验的对象由一群来自正态分布独立样本更改为二群配对样本观测值之差。它常用于比较同一受试对象处理的前后差异,或者按照某一条件进行两两配对分别给与不同处理的受试对象之间是否存在差异。

    (2) 示例

    from scipy import stats
    import numpy as np
    
    np.random.seed(12345678)
    rvs1 = stats.norm.rvs(loc=5, scale=10, size=500)
    rvs2 = (stats.norm.rvs(loc=5, scale=10, size=500) + stats.norm.rvs(scale=0.2, size=500))
    print(stats.ttest_rel(rvs1, rvs2))
    # 运行结果:Ttest_relResult(statistic=0.24101764965300979, pvalue=0.80964043445811551)


    (3) 结果分析

    返回结果的第一个值为统计量,第二个值为p-value,pvalue=0.80964043445811551,比指定的显著水平(一般为5%)大,不能拒绝假设。

    11. 单因素方差分析


    (1) 用途

    方差分析(Analysis of Variance,简称ANOVA),又称F检验,用于两个及两个以上样本均数差别的显著性检验。方差分析主要是考虑各组之间的均数差别。

    单因素方差分析(One-wayAnova),是检验由单一因素影响的多组样本某因变量的均值是否有显著差异。

    当因变量Y是数值型,自变量X是分类值,通常的做法是按X的类别把实例成分几组,分析Y值在X的不同分组中是否存在差异。

    (2) 示例

    from scipy import stats
    
    a = [47, 56, 46, 56, 48, 48, 57, 56, 45, 57]  # 分组1
    b = [87, 85, 99, 85, 79, 81, 82, 78, 85, 91]  # 分组2
    c = [29, 31, 36, 27, 29, 30, 29, 36, 36, 33]  # 分组3
    print(stats.f_oneway(a, b, c))
    # 运行结果:F_onewayResult(statistic=287.74898314933193, pvalue=6.2231520821576832e-19)
    


    (3) 结果分析

    返回结果的第一个值为统计量,它由组间差异除以组间差异得到,上例中组间差异很大,第二个返回值p-value=6.2231520821576832e-19小于边界值(一般为0.05),拒绝原假设, 即认为以上三组数据存在统计学差异,并不能判断是哪两组之间存在差异 。只有两组数据时,效果同 stats.levene 一样。

    12. 多因素方差分析


    (1) 用途

    当有两个或者两个以上自变量对因变量产生影响时,可以用多因素方差分析的方法来进行分析。它不仅要考虑每个因素的主效应,还要考虑因素之间的交互效应。

    (2) 示例

    from statsmodels.formula.api import ols
    from statsmodels.stats.anova import anova_lm
    import pandas as pd
     
    X1 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]
    X2 = [1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2]
    Y  = [76,78,76,76,76,74,74,76,76,55,65,90,65,90,65,90,90,79,70,90, 88,76,76,76,56,76,76,98,88,78,65,67,67,87,78,56,54,56,54,56]
     
    data = {'T':X1, 'G':X2, 'L':Y}
    df = pd.DataFrame(data)
    formula = 'L~T+G+T:G' # 公式                                        
    model = ols(formula,df).fit()
    print(anova_lm(model))
    '''
    运行结果:
                df    sum_sq      mean_sq         F    PR(>F)
    T          1.0   265.225   265.225000  2.444407  0.126693
    G          1.0   207.025   207.025000  1.908016  0.175698
    T:G        1.0  1050.625  1050.625000  9.682932  0.003631
    Residual  36.0  3906.100   108.502778       NaN       NaN
    '''


    (3) 结果分析

    上述程序定义了公式,公式中,"~"用于隔离因变量和自变量,”+“用于分隔各个自变量, ":"表示两个自变量交互影响。从返回结果的P值可以看出,X1和X2的值组间差异不大,而组合后的T:G的组间有明显差异。

    13. 卡方检验


    (1) 用途

    上面介绍的T检验是参数检验,卡方检验是一种非参数检验方法。相对来说,非参数检验对数据分布的要求比较宽松,并且也不要求太大数据量。卡方检验是一种对计数资料的假设检验方法,主要是比较理论频数和实际频数的吻合程度。常用于特征选择,比如,检验男人和女人在是否患有高血压上有无区别,如果有区别,则说明性别与是否患有高血压有关,在后续分析时就需要把性别这个分类变量放入模型训练。

    基本数据有R行C列, 故通称RC列联表(contingency table), 简称RC表,它是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。

    (2) 示例

    import numpy as np
    import pandas as pd
    from scipy.stats import chi2_contingency
     
    np.random.seed(12345678)
    data = np.random.randint(2, size=(40, 3)) # 2个分类,50个实例,3个特征
    data = pd.DataFrame(data, columns=['A', 'B', 'C'])
    contingency = pd.crosstab(data['A'], data['B']) # 建立列联表
    print(chi2_contingency(contingency)) # 卡方检验
    '''
    运行结果:
    (0.36556036556036503, 0.54543425102570975, 1,
    array([[ 10.45,   8.55],
           [ 11.55,   9.45]]))'''


    (3) 结果分析

    卡方检验函数的参数是列联表中的频数,返回结果第一个值为统计量值,第二个结果为p-value值,p-value=0.54543425102570975,比指定的显著水平(一般5%)大,不能拒绝原假设,即相关性不显著。第三个结果是自由度,第四个结果的数组是列联表的期望值分布。

    14. 单变量统计分析


    (1) 用途

    单变量统计描述是数据分析中最简单的形式,其中被分析的数据只包含一个变量,不处理原因或关系。单变量分析的主要目的是通过对数据的统计描述了解当前数据的基本情况,并找出数据的分布模型。

    单变量数据统计描述从集中趋势上看,指标有:均值,中位数,分位数,众数;从离散程度上看,指标有:极差、四分位数、方差、标准差、协方差、变异系数,从分布上看,有偏度,峰度等。需要考虑的还有极大值,极小值(数值型变量)和频数,构成比(分类或等级变量)。

    此外,还可以用统计图直观展示数据分布特征,如:柱状图、正方图、箱式图、频率多边形和饼状图。

    15. 多元线性回归


    (1) 用途

    多元线性回归模型(multivariable linear regression model ),因变量Y(计量资料)往往受到多个变量X的影响,多元线性回归模型用于计算各个自变量对因变量的影响程度,可以认为是对多维空间中的点做线性拟合。

    (2) 示例

    import statsmodels.api as sm
    data = sm.datasets.ccard.load_pandas().data
    model = sm.OLS(endog = data['AVGEXP'], exog = data[['AGE','INCOME','INCOMESQ','OWNRENT']]).fit()
    print(model.summary())
    '''
    运行结果:
                                OLS Regression Results                            
    ==============================================================================
    Dep. Variable:                 AVGEXP   R-squared:                       0.543
    Model:                            OLS   Adj. R-squared:                  0.516
    Method:                 Least Squares   F-statistic:                     20.22
    Date:                Thu, 31 Jan 2019   Prob (F-statistic):           5.24e-11
    Time:                        15:11:29   Log-Likelihood:                -507.24
    No. Observations:                  72   AIC:                             1022.
    Df Residuals:                      68   BIC:                             1032.
    Df Model:                           4                                         
    Covariance Type:            nonrobust                                         
    ==============================================================================
                     coef    std err          t      P>|t|      [0.025      0.975]
    ------------------------------------------------------------------------------
    AGE           -6.8112      4.551     -1.497      0.139     -15.892       2.270
    INCOME       175.8245     63.743      2.758      0.007      48.628     303.021
    INCOMESQ      -9.7235      6.030     -1.613      0.111     -21.756       2.309
    OWNRENT       54.7496     80.044      0.684      0.496    -104.977     214.476
    ==============================================================================
    Omnibus:                       76.325   Durbin-Watson:                   1.692
    Prob(Omnibus):                  0.000   Jarque-Bera (JB):              649.447
    Skew:                           3.194   Prob(JB):                    9.42e-142
    Kurtosis:                      16.255   Cond. No.                         87.5
    ==============================================================================
    '''


    (3) 结果分析

    直接通过返回结果中各变量的P值与0.05比较,来判定对应的解释变量的显著性,P<0.05则认为自变量具有统计学意义,从上例中可以看到收入INCOME最有显著性。

    16. 逻辑回归


    (1) 用途

    当因变量Y为2分类变量(或多分类变量时)可以用相应的logistic回归分析各个自变量对因变量的影响程度。

    (2) 示例

    import statsmodels.api as sm
    data = sm.datasets.ccard.load_pandas().data
    data['OWNRENT'] = data['OWNRENT'].astype(int)
    model = sm.Logit(endog = data['OWNRENT'], exog = data[['AVGEXP','AGE','INCOME','INCOMESQ']]).fit()
    print(model.summary())
    '''
    运行结果:
    Optimization terminated successfully.
             Current function value: 0.504920
             Iterations 8
                               Logit Regression Results                           
    ==============================================================================
    Dep. Variable:                OWNRENT   No. Observations:                   72
    Model:                          Logit   Df Residuals:                       68
    Method:                           MLE   Df Model:                            3
    Date:                Fri, 01 Feb 2019   Pseudo R-squ.:                  0.2368
    Time:                        17:05:47   Log-Likelihood:                -36.354
    converged:                       True   LL-Null:                       -47.633
                                            LLR p-value:                 4.995e-05
    ==============================================================================
                     coef    std err          z      P>|z|      [0.025      0.975]
    ------------------------------------------------------------------------------
    AVGEXP         0.0002      0.001      0.228      0.820      -0.002       0.002
    AGE            0.0853      0.042      2.021      0.043       0.003       0.168
    INCOME        -2.5798      0.822     -3.137      0.002      -4.191      -0.968
    INCOMESQ       0.4243      0.126      3.381      0.001       0.178       0.670
    ==============================================================================
    '''


    (3) 结果分析

    直接通过返回结果中各变量的P值与0.05比较,来判定对应的解释变量的显著性,P<0.05则认为自变量具有统计学意义。

    展开全文
  • 主成分分析方法在水库水质综合评价中的应用,路巴依,白云鹏,主成分分析方法是一种将多维因子纳入同一系统进行定性、定量化研究,理论比较完善的多元统计分析方法。该方法应用于水环境质量评
  • CDA LEVEL I 业务数据分析师参考教材: [1] 贾俊平,何晓群,金勇进. 统计学(第7版)[M]. 中国人民大学出版社,2018.(必读) [2] 斯蒂芬森,晋劳,琼斯.... 多元统计分析(第4版)[M]. 中国人民大学出版社, 2

    CDA LEVEL I 业务数据分析师参考教材:
    [1] 贾俊平,何晓群,金勇进. 统计学(第7版)[M]. 中国人民大学出版社,2018.(必读)
    [2] 斯蒂芬森,晋劳,琼斯. SQL入门经典(第5版)[M]. 人民邮电出版社,2011.(必读)
    [3] 黄缙华. MySQL入门很简单[M]. 清华大学出版社,2011.(选读)
    [4] 经管之家,丁亚军. 统计分析:从小数据到大数据[M]. 电子工业出版社,2020. (必读)
    [5] 何晓群. 多元统计分析(第4版)[M]. 中国人民大学出版社, 2015.(选读)
    [6] 李子奈,潘文卿. 计量经济学(第四版)[M]. 高等教育出版社,2015.(选读)
    [7] 盛骤,试式千,潘承毅等. 概率论与数理统计(第四版)[M]. 高等教育出版社,2018.(选读)
    [8] 张颢. 概率论[M]. 高等教育出版社,2018.(选读)
    [9] 张文彤. SPSS统计分析基础教程[M]. 高等教育出版社,2017.(选读)
    [10] 王燕. 应用时间序列分析(第四版)[M]. 中国人民大学出版社, 2015.(选读)
    [11] 詹姆斯·D·汉密尔顿. 时间序列分析[M]. 中国人民大学出版社,2015.(选读)
    [12] Daniel T. Larose,Chantal D. Larose. 数据挖掘与预测分析(第2版)[M]. 清华大学出版社,2017. (选读)

    CDA LEVEL II建模分析师参考教材:
    [1] 经管之家. CDA数据分析师备考手册(电子版). 2019. (必读)
    [2] 经管之家. SPSS Modeler+Weka数据挖掘从入门到实战,电子工业出版社,2019. (选读)
    [3] Jiawei Han, Micheline Kamber, Jian Pei. 数据挖掘:概念与技术(原书第3版)[M]. 范明,孟小峰 译, 机械工业出版社,2012. (必读)
    [4] Pang-Ning Tan, Michael Steinbach, Vipin Kumar. 数据挖掘导论(原书第2版)[M]. 段磊,张天庆译, 机械工业出版社,2019. (必读)
    [5] 周志华. 机器学习[M]. 清华大学出版社,2016. (必读)
    [6] 赵卫东,董亮. 机器学习[M]. 人民邮电出版社,2018. (选读)
    [7] 数据挖掘网站:KDnuggets (https://www.kdnuggets.com/) (拓展学习)
    [8] 数据挖掘网站:Kaggle (https://www.kaggle.com/) (拓展学习)

    CDA LEVEL II大数据分析师参考教材:
    [1] Jake VanderPlas. Python数据科学手册[M]. 人民邮电出版社,2018.(必读)
    [2] Tom White. Hadoop权威指南(第三版)[M]. 清华大学出版社, 2015.(必读)
    [3] 王雨竹,高飞. MySQL入门经典[M]. 机械工业出版社,2013.(必读)
    [4] Pang-Ning Tan等. 数据挖掘导论[M]. 人民邮电出版社,2011.(必读)
    [5] 林子雨等. Spark编程基础[M]. 人民邮电出版社,2018.(必读)
    [6] Hold Karau等. Spark快速大数据分析[M]. 人民邮电出版社,2015. (必读)
    [7] Sandy Ryza等. Spark高级数据分析[M]. 人民邮电出版社,2015. (选读)

    CDA LEVEL III数据科学家参考教材:
    [1] Micha Gorelick, Ian Ozsvald. Python高性能编程[M]. 人民邮电出版社,2017.
    [2] Aloysius Lim, William Tjhi. R高性能编程[M]. 电子工业出版社,2015.
    [3] Paul Chiusano, Rúnar Bjarnason. Scala函数式编程[M]. 电子工业出版社,2016.
    [4] 周志华. 机器学习[M]. 清华大学出版社,2016.
    [5] Ian Goodfellow, Yoshua Bengio. 深度学习. 人民邮电出版社,2017.
    [6] 郑泽宇. TensorFlow实战Google深度学习框架(第2版)[M]. 电子工业出版社,2018
    [7] 南森·马茨(Nathan Marz),詹姆斯·沃伦(James Warren).大数据系统构建(可扩展实时数据系统构建原理与最佳实践)[M]. 机械工业出版社,2017.
    [8] 约阿夫·戈尔德贝格. 基于深度学习的自然语言处理[M]. 机械工业出版社,2018.
    [9] 迪潘扬·萨卡尔(Dipanjan Sarkar). Python文本分析[M]. 机械工业出版社,2018.
    Maksim Tsvetovat, Alexander Kouznetsov. 社会网络分析方法与实践[M]. 机械工业出版社,2013.
    [10] 桑尼尔•索雷斯. 大数据治理[M]. 清华大学出版社,2014.
    [11] 杰弗里•波梅兰茨. 元数据-用数据的数据管理你的世界[Metadata] [M].中信出版集团,2017.
    [12] 艾伯特-拉斯洛·巴拉巴西, 巴拉巴西, 马慧. 爆发:大数据时代预见未来的新思维[M]. 中国人民大学出版社, 2012.
    [13] 阿里巴巴数据技术及产品部. 大数据之路:阿里巴巴大数据实践 [M]. 电子工业出版社, 2017.7
    [14] 欧盟. 《通用数据保护条例》(General Data Protection Regulation,简称GDPR),2018.
    [15] Andrew Stellman, Jennifer Greene. 学习敏捷构建高效团队[M]. 人民邮电出版社,2017.
    [16] Scott Chacon, Ben Straub. Pro Git 第二版[M]. 人民邮电出版社,2017.
    [17] 电子版https://bingohuang.gitbooks.io/progit2/
    [18] 科丽·科歌昂,叙泽特·布莱克莫尔,詹姆士·伍德. 项目管理精华[M]. 中国青年出版社,2016.

    接下来给大家重磅推出考试学习资源:

    《数据分析专项练习题库》

    《CDA数据分析认证考试模拟题库》

    《企业数据分析面试题库》

    展开全文
  • 它可以帮助用户探索分析决策如何影响统计估计,推论不确定性和模型拟合。 观看此的可视化工具。 安装 您可以从Python软件包索引(PyPI)下载并安装此软件的最新版本: pip install --upgrade boba-visualizer 用法...
  • NMath Stats控件提供了统计计算和生物统计学领域的处理功能,包括描述统计、概率分布、组合功能、多重线型回归、假设检验、方差分析计算和多元统计。 具体功能: 提供...

    NMath Stats控件提供了统计计算和生物统计学领域的处理功能,包括描述统计、概率分布、组合功能、多重线型回归、假设检验、方差分析计算和多元统计。

    具体功能:

    • 提供了一个数据架构类来保证多种不同的数据类型(数值型、字符串型、时间数据型和通配符型),并提供了多种操作方法设置、插入、移除、排序和改变行和列
    • 提供了描述统计的功能,包括求平均值、求方差、求标准差、求百分率、求中值、求四分点值、求几何平均数、求调和平均值、求均方根值、求峰值、求偏斜度等
    • 提供了专门的处理功能,比如阶乘、对数阶乘、二项式系数、对数二项式、对数γ分布、不完全γ分布、β分布和不完全β分布
    • 提供了求解概率密度(PDF)功能、以及累积分布(CDF)功能、求逆累积分布(CDF)功能和针对多种概率分布生成随机变量矩,支持的概率分布有:正态分布(高斯分布)、泊松分布、χ2分布、γ分布、β分布、Multiple linear regression. Student's t分布、F分布、二项式分布和负二项式分布
    • 提供了基本的假设检验功能,比如z检验、t检验、F检验,并支持计算p值、临界值和置信区间
    • 提供了单因素变量和双因素变量的方差分析(ANOVA)和定量数据重复测量的方差分析(RANOVA)功能
    • 提供了多变量统计分析功能,包括主成分分析和聚类分析
    • 数据过滤,包括移动平均滤波器和Savitzky-Golay平滑滤波器
    • 偏最小二乘法(PLS),包括交叉验证和SIMPLS和NIPALS算法
    • 多元线性回归
    • 数据聚类使用非负矩阵分解(NMF)
    NMath Stats
    NMath Stats 

    来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29674755/viewspace-1175312/,如需转载,请注明出处,否则将追究法律责任。

    转载于:http://blog.itpub.net/29674755/viewspace-1175312/

    展开全文
  • 这其中包括:描述性统计、相关系数、概率分布、均值推断、线性、非线性回归、多元回归分析、时间序列等内容。 接下来的用Excel进行数据分析系列教程,都是基于Excel 2013,今天我们讲讲Excel2013的数据分析工具在...
  • 软件由采购管理,销售管理,库存管理,商品管理,会员管理,统计分析等几大模块组成;支持条码标签打印、多样性收款等功能;支持扫描枪、小票打印机、钱箱、条码打印机等硬件。 多元服装销售管理系统系统特点 1、...
  • 第一天上午:统计分析原理 1、 统计基础 2、 R语言基础知识 3、 R语言数据类型 4、 描述性统计 5、 随机变量与概率密度分布 6、 定性相关分析 7、 定量相关分析 8、 回归分析:多元线性回归 9、 回归分析:...
  • 机器学习与统计项目2020.ipynb 这包含线性回归分析: 一种。 简单线性回归b。 多项式线性回归C。 多元线性回归以及线性回归和逻辑回归的一些比较 python rest服务器,这称为rest_server.py Dockerfile。
  • 典型相关分析(Canonical Correlation Analysis)是研究两组变量之间相关关系的一种多元统计方法,它能够揭示出两组变量之间的内在联系。         在一元统计分析中,用相关系数来...
  • 装备采购联机分析处理系统作为决策支持系统的一部分,提供了一个多维的联机分析统计环境,具有分析预测形象、直观、效果好的优点。  1 数据仓库和联机分析处理技术  随着数据库技术的发展和应用,数据库存储的...
  • 希望读者熟悉大学水平的概率和统计多元变量演算以及一些数值方法,即回归分析。 所有文档均以Julia Markdown标记语言编写,并使用转换为HTML文件。 指数 什么是时间序列? 时间序列的例子 均值函数 自协方差 ...
  • 最近学校新开了一门课程《多元统计分析》,上课之前老师让安装四个,因为我python一直使用的IDE都是pycharm,所以我就打算在pycharm中安装第三方,希望能够帮到您。话不多说,这里我以其中一个举例,直接开始...
  • 此回购协议的创建和组织旨在作为迷你指南,供没有或只有很少计算机科学背景(尤其是生物信息学)背景的学生使用,以使他们有一个总体思路并理解统计学的基本概念,从而为朝多元统计和最终的机器学习算法。...
  • 对于这个项目,我使用了常规的python,地理映射以及统计或回归。 通用python 导入json 导入matplotlib.pyplot作为plt 将numpy导入为np 将熊猫作为pd导入 进口泡菜 汇入 地理地图 从branca.colormap导入...
  • 银行由于数据量大,数据来源多样化,在商业银行构建信息管理系统时,不可 避免地会遇上如何管理这些浩如烟海的数据以及如何...据中心”的基础上实现银行各种应用管理系统的二次开发、数据的统计分析及其 他高级应用。

空空如也

空空如也

1 2 3 4
收藏数 78
精华内容 31
关键字:

多元统计分析考试题库