精华内容
下载资源
问答
  • 统计学概念

    2017-02-24 17:13:53
    方差标准差变异系数度量标准差相对于均值的离中趋势标准分标准分提供了一种对不同数据集的数据进行比较的方法,这些数据来自于不同数据源的均值和方差都不一样,通过标准分,可以将这些数据视为来自同一个数据集或者...

    方差

    这里写图片描述

    标准差

    这里写图片描述

    变异系数

    度量标准差相对于均值的离中趋势

    标准分

    这里写图片描述

    标准分提供了一种对不同数据集的数据进行比较的方法,这些数据来自于不同数据源的均值和方差都不一样,通过标准分,可以将这些数据视为来自同一个数据集或者分布,从而可以进行比较。

    标准分的作用是将几个数据集转换为一个理论上的新分布,这个分布的均值是0,标准差是1

    距离均值若干个标准差

    有时会说距离均值若干个标准差来表示特定数值的相对位置。

    z分(标准分)将数据集转化为一个均值为0,标准差为1的通用分布。

    标准分=距离均值的标准差的个数。

    这里写图片描述

    有时将异常值定义为盘里均值三个标准差的数值(需要慎重)

    条件概率

    这里写图片描述

    全概率公式

    这里写图片描述

    贝叶斯定理

    这里写图片描述

    期望

    这里写图片描述

    数据集的方差和标准差是度量数据与均值的方法,而概率分布的方差和标准差是堵料一些特定数值的概率的分散情况的方法

    这里写图片描述

    这里写图片描述

    对于离散概率分布我们关心的是取得特定数值的概率,而连续型概率分布,是关心取得特定范围的概率 – 正态分布

    最小二乘法

    这里写图片描述

    相关

    两个变量存在相关关系并不意味着一个变量会影响着另一个变量也不意味着二者存在实际关系,仅仅意味着二者之间存在某种数学关系

    (在一元线性相关的前提下)用相关系数衡量直线与数据的拟合度,相关系数是介于-1和1之间的数,通常用r表示。如果r=-1,则数据为完全负线性相关,如果数据r=1,则完全正线性相关,如果r=0,则不存在相关性。

    如果r为负,则两个变量之间存在负线性相关,r越接近-1,相关性越强,数据点距离直线越近。

    如果r为正,则两个变量之间存在正线性相关,r越接近1,相关性越强。

    随着r向0靠近,线性相关性变弱,数据之间的关系可能是非线性的

    这里写图片描述

    这里写图片描述

    点估计量

    这里写图片描述

    展开全文
  • 机器学习深度研究:特征选择过滤法中几个重要的统计学概念————卡方检验、方差分析、相关系数、p值 问题引出 当我们拿到数据并对其进行了数据预处理,但还不能直接拿去训练模型,还需要选择有意义的特征(即特征...

    机器学习深度研究:特征选择过滤法中几个重要的统计学概念————卡方检验、方差分析、相关系数、p值

    问题引出

    当我们拿到数据并对其进行了数据预处理,但还不能直接拿去训练模型,还需要选择有意义的特征(即特征选择),这样做有四个好处:

    1、避免维度灾难

    2、降低学习难度

    3、减少过拟合

    4、增强对特征和特征值之间的理解

    常见的特征选择有三种方法:

    过滤法(Filter):先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。

    包装法(Wrapper):根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。

    嵌入法(Embedding):先使用机器学习模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。

    其中,过滤法是最简单,最易于运行和最易于理解的。

    过滤法核心思路就是考察自变量和目标变量之间的关联性、相关性,设定阈值,优先选择与目标相关性高的特征。

    主要方法:

    1、分类问题:卡方检验(chi2),F检验(f_classif), 互信息(mutual_info_classif)

    2、回归问题:相关系数(f_regression), 信息系数(mutual_info_regression)

    卡方检验、F检验、互信息、相关系数、信息系数

    这些都是统计学领域的概念,在sklearn特征选择中被使用,所以在解释这些概念时,我也重点参考了sklearn文档。

    卡方检验百科定义:

    卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

    卡方值 χ2\chi^{2} 计算公式

    不要望公式兴叹,其实只需掌握到第一个等号后就行了:A为实际值,T为理论值。

    F检验

    F检验和方差分析(ANOVA)是一回事,主要用于两个及两个以上样本均数差别的显著性检验。方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:
    (1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSbSS_b,组间自由度dfbdf_b

    (2) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSwSS_w,组内自由度dfwdf_w

    利用f值可以判断假设H0是否成立:ff值越大,大到一定程度时,就有理由拒绝零假设,认为不同总体下的均值存在显著差异。所以我们可以根据样本的某个特征xix_i的f值来判断特征xix_i对预测类别的帮助,ff值越大,预测能力也就越强,相关性就越大,从而基于此可以进行特征选择。

    互信息(mutual_info_classif/regression)

    互信息是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。

    两个离散随机变量 X 和 Y 的互信息可以定义为:

    相关系数(f_regression)

    相关系数是一种最简单的,能帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性,结果的取值区间为[-1,1],-1表示完全的负相关,+1表示完全的正相关,0表示没有线性相关。
    ri=(XiXˉi)T(yyˉ)std(Xi)std(y)r_i = \frac{(X_i - \bar X_i)^{T}(y - \bar y)}{std(X_i)std(y)}

    f=ri21ri2(n2)f = \frac{r_i^2}{1-r_i^2} * (n-2)

    式中XiX_i是代表所有样本的在i号特征上的取值的nn维列向量,分子上其实两个nn维列向量的内积,所以rir_i是一个数值,其实就是样本相关系数。

    ff 值越大,第i个特征和因变量y之间的相关性就越大,据此我们做特征选择。

    P值 (P-value)

    P值,也就是常见到的 P-value。P 值是一种概率,指的是在 H0 假设为真的前提下,样本结果出现的概率。如果 P-value 很小,则说明在原假设为真的前提下,样本结果出现的概率很小,甚至很极端,这就反过来说明了原假设很大概率是错误的。通常,会设置一个显著性水平(significance level)α\alpha 与 P-value 进行比较,如果 P-value < α\alpha ,则说明在显著性水平α\alpha 下拒绝原假设,α\alpha 通常情况下设置为0.05。

    sklearn特征选择——过滤法

    sklearn过滤法特征选择方法

    SelectBest 只保留 k 个最高分的特征;
    SelectPercentile 只保留用户指定百分比的最高得分的特征;
    使用常见的单变量统计检验:假正率SelectFpr,错误发现率selectFdr,或者总体错误率SelectFwe;
    GenericUnivariateSelect 通过结构化策略进行特征选择,通过超参数搜索估计器进行特征选择。

    SelectKBest按照scores保留K个特征;

    SelectPercentile按照scores保留指定百分比的特征;

    SelectFpr、SelectFdr和SelectFwe对每个特征使用通用的单变量统计检验;

    GenericUnivariateSelect允许使用可配置策略如超参数搜索估计器选择最佳的单变量选择策略。
    特征选择指标

    使用sklearn中SelectKBest函数进行特征选择,参数中的score_func选择:
    分类:chi2----卡方检验

    f_classif----方差分析,计算方差分析(ANOVA)的F值 (组间均方 / 组内均方)

    mutual_info_classif----互信息,互信息方法可以捕捉任何一种统计依赖,但是作为非参数方法,需要更多的样本进行准确的估计

    回归:f_regression----相关系数,计算每个变量与目标变量的相关系数,然后计算出F值和P值

    mutual_info_regression----互信息,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。

    sklearn过滤法特征选择-示例

    在sklearn中,可以使用chi2这个类来做卡方检验得到所有特征的卡方值与显著性水平P临界值,我们可以给定卡方值阈值, 选择卡方值较大的部分特征。代码如下:

    1. 首先import包和实验数据:
    from sklearn.feature_selection import SelectKBest
    from sklearn.feature_selection import chi2
    from sklearn.datasets import load_iris
    #导入IRIS数据集
    iris = load_iris()
    
    1. 使用卡方检验来选择特征
    model1 = SelectKBest(chi2, k=2)#选择k个最佳特征
    model1.fit_transform(iris.data, iris.target)#iris.data是特征数据,iris.target是标签数据,该函数可以选择出k个特征
    

    结果输出为:

    array([[ 1.4,  0.2],
           [ 1.4,  0.2],
           [ 1.3,  0.2],
           [ 1.5,  0.2],
           [ 1.4,  0.2],
           [ 1.7,  0.4],
           [ 1.4,  0.3],
    

    可以看出后使用卡方检验,选择出了后两个特征。如果我们还想查看卡方检验的p值和得分,可以使用第3步。

    1. 查看p-values和scores
    model1.scores_  #得分
    

    得分输出为:

    array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])
    

    可以看出后两个特征得分最高,与我们第二步的结果一致;

    model1.pvalues_  #p-values
    

    p值输出为:

    array([ 4.47651499e-03, 1.65754167e-01, 5.94344354e-26, 2.50017968e-15])
    

    可以看出后两个特征的p值最小,置信度也最高,与前面的结果一致。

    展开全文
  • 做好A/B测试,需要了解的6个统计学概念 A/B测试是一项用来验证产品新功能效果的科学在线测试方法,它能够通过对实际实验数据进行统计分析从而帮助用户做出对产品的不同功能版本进行取舍的决策。为了使A/B测试得到的...

    做好A/B测试,需要了解的6个统计学概念

    A/B测试是一项用来验证产品新功能效果的科学在线测试方法,它能够通过对实际实验数据进行统计分析从而帮助用户做出对产品的不同功能版本进行取舍的决策。为了使A/B测试得到的结论更严谨更科学,我们在AB测试中借助了强大的统计学做理论支持。

    我们整理了以下几个基本概念,帮助大家更好地理解A/B测试中的统计学知识:

    均值

    平均数是反映数据集中趋势的一项指标,一般通过将一组数据集中所有数据之和除以这组数据集的数据个数得到。在A/B测试中,我们无法知道所有用户的行为(如点击率)的真正均值,而只能使用每个抽样样本集的均值。

    方差

    方差是衡量随机变量或一组数据的离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。当方差越高时,我们预测的平均数偏离真正平均数的可能性就越大,我们采样得到的均值从而可能就越不准确。

    抽样

    由于我们不可能知道所研究事物总体分布的均值,所以我们不得不在总体分布中进行抽样,从而基于抽样数据进行统计分析。一般来说,我们抽样的样本数越多,方差也会逐渐变小,从而使抽样样本的均值和真正均值的误差降低。

    正态分布

    又称“高斯分布”,是一个在数学、物理、工程与社会学等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态分布的概率密度函数曲线呈钟形(两头低,中间高,左右对称),因此又叫钟形曲线。

    在进行A/B测试时,有些测试者会直接简单地通过对不同实验版本的指标均值进行比较,从而做出版本之间优劣差异的结果判断。这实际使用了点估计的方法。但是我们需要意识到:

    由于样本毕竟有误差,因此点估计的误差也往往比较大。一种更严谨和精确的方法是假设检验的方法,因此专业的A/B测试基本都会选择假设检验来对实验进行判断。
    

    假设检验

    又叫显著性检验,是统计学中用来判断从样本得出的结论能否推论到总体的一种方法。一般实验者会提出提出两个假设:一个是“原假设”,另一个是“备择假设”(备选假设)。

    其中,“原假设”代表两个样本没有本质区别,而“备择假设”代表两个样本有本质区别。这两个假设互相对立,并且只有一个真正成立。而通过假设检验的分析,我们就能判断出哪个假设有更大的概率成立。在假设检验中,实验者可能犯两类错误:一类错误是指当原假设为真时拒绝了原假设,其概率标记为α(alpha);二类错误是指当原假设为假时没有拒绝原假设,其概率标记为β(Beta)。

    通常来说,犯一类错误的影响会比犯二类错误的大。

    置信区间

    对于假设检验的结果表达来说,置信区间是一个非常重要的概念。置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。

    置信区间展现的是目标参数的真实值在一定置信水平下落在测量结果附近的范围大小。在A/B测试中,由于我们无法知道真实分布的均值,因此只能通过采样样本进行统计推理,而置信区间便是用来减轻采样误差的风险。置信区间的范围越小,我们的结果往往越精确。

    公式如下:
    在这里插入图片描述

    其中α为显著性水平(如0.05或0.1等),而 (1-α)指置信水平。在假设检验分析中,我们可以通过Z分布来计算出累计概率,即得出p-value,然后通过α与p-value的比较,我们可以进一步做出A/B两个版本是否有较大概率存在明显差异的结论。

    以上,6个概念,你都了解了吗?


    Testin A/B测试服务宣布永久免费,加入我们,一起开启科学增长之路吧:立马免费开始!

    展开全文
  • 概念简介: 点估计和区间估计是通过样本统计量估计总体参数的两种方法。点估计是在抽样推断中不考虑抽样误差,直接以抽样指标代替全体指标的一种推断方法。因为个别样本的抽样指标不等于全体指标,所以,用抽样...

    概念简介:

            点估计和区间估计是通过样本统计量估计总体参数的两种方法。点估计是在抽样推断中不考虑抽样误差,直接以抽样指标代替全体指标的一种推断方法。因为个别样本的抽样指标不等于全体指标,所以,用抽样指标直接代替全体指标,不可避免的会有误差。区间估计是抽样推断中根据抽样指标和抽样误差去估计全体指标的可能范围的一种推断方法。在从抽样指标推断全体指标时,用一定概率保证误差不超出某一给定范围。

    点估计:

            点估计是使用抽样数据得到总体有样本参数。比如,针对某市房租平均价格的统计,全部统计成本会比较大,因此我们随机选择某一部分的在租房屋进行统计,计算均值用来表示某市房租价格的整体均值。但是点估计和抽样的样本量强相关,样本量占总体越少越可能会出现误差。比如,随机抽样中存在较多的极值,导致我们点估计的结果偏高。或者样本不够随机,选择市中心的房租对某市的房租估计显然也是不准确的。

    区间估计:

            区间估计估计不同于点估计,能够提供待估计参数的置信区间和置信度(即保证XX%的可能性该参数的值位于*~*之间,例如,有95%的可能性全市房租均价在2000~2500之间),区间估计虽然不能得出精确的估计值,但是能够提供保证程度,代表了有多大把握总体参数会在相应的置信区间内。在对全体样本进行多次抽样,根据中心极限定理,多次抽样的样本均值会服从均值为总体样本均值的正态分布。     

      

    其中,μ为均值,σ为标准差,由于总体的均值μ和总体的μ是未知参数,因此我们使用抽样样本的均值和标准差作为总体均值和标准差的估计值。

    因此可以根据正态分布的图像可知,

    μ±σ时,概率为68.26%;

    μ±2σ时,概率为95.44%;

    μ±3σ时,概率为99.74%。

    在统计学中,常用的置信度一般取95%和99%,因此更为精确的值参考下图。

    附区间估计的python代码实现:

    # 代码来源网路,使用时将house_price换成自己的Dataframe,price换成要估计的参数即可
    se = house_price.price.std() / len(house_price_gr) ** 0.5 #均值标准误差
    LB = house_price.price.mean() - 1.96 * se #置信区间下界
    UB = house_price.price.mean() + 1.96 * se #置信区间上界
    

     

    展开全文
  • 统计学中的一些概念
  • 2021-01-29 12:29:00 全文共2848字,预计学习时长8...要成为一名数据科学家,就需要学习统计学及其概念。本文将具体解释10个基本的统计概念。 1.总体与样本 总体是一个群体中的所有元素。例如,美国的大学...
  • 本文讲述了数据分析师应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法。从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的...
  • 对于数据科学的艺术,统计学可以说是一个强大的工具。从高层次的角度来看,统计是利用数学对数据进行技术分析。一个基本的可视化,如条形图,可以给你提供一些高级的信息,但是通过统计学,我们可以以一种更加以信息...
  • 全文共1793字,预计学习时长5分钟图源:unsplash从某些角度上来讲,如今的数据科学家基本上等于现代统计学家。在数据科学面试中,我们也少不了要面对统计学相关的知识。以下是数据科学相...
  • 很机智的统计学概念:秩次和秩和

    千次阅读 2019-01-11 12:16:17
    我们通过一个小例子来理解秩次和秩和。先看一组数据: A组 4.7 6.4 2.6 ...按从小到大的顺序,把A组和B组数据统一排序(见下表),然后把它们的次序(即秩次)标记出来。...A组的2.6和B组2.6,分别给一个排序三,四,...
  • AB_test(online, face_to_face, h0=-1)
  • ↑关注 + 置顶 ~ 别错过小z的干货内容来源:数据分析不是个事儿在回答数据分析入门要具备什么样的能力的问题中,我经常提到统计学知识,统计学是一种利用数学理论来进行数据分析的技术,通...
  • 1.基本概念 数学期望就是平均值: 均值公式: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离...
  • 今天,本文将概述5种有助于数据科学研究的统计学概念。 这些概念没有那么抽象、令人抓狂,而是相当简单、适用的技术,作用颇大。 1. 集中趋势 数据集或特征变量的集中趋势是集的中心或典型值。我们的想法是,可能...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 31,820
精华内容 12,728
关键字:

统计学概念