• 2020-11-09 01:04:09

在学习统计学贾书的过程，在第6—14章节出有许多需要理解与记忆的公式和概念，在此通过博客的形式做一次梳理，主要内容为统计学中抽样分布、假设检验、参数估计、分类数据分析、方差分析、一元二元线性分析、时间序列分析、指数的理论知识，不足之处望多多指正。

# χ 2 \chi^{2} 分布

• 定义
但总体 X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^{2}\right) 从中抽取容量为n的样本，则有 ∑ i = 1 n ( x i − x ˉ ) 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{\sigma^{2}} \sim \chi^{2}(n-1)
• 分布概率分布图像： • 常用性质
（1）期望：n
（2）方差： 2n
（3） 分布的形状取决于其自由度n的大小，通常为不对称的正偏分布，但随着自由度的增大逐渐趋于对称
（4）具有可加性

# t分布

• 定义
设随机变量 X ∼ N ( 0 ， 1 ) X\sim N(0，1) Y ∼ χ 2 ( n ) Y\sim\chi^{2}(n) ,则 t = X Y / n t=\frac{X}{\sqrt{Y / n}} 其分布称为t分布，其自由度为n记做t（n）。
• 分布图像（与正态分布对比） # F分布

• 定义
设若U为服从自由度为 n 1 n_1 χ 2 \chi^{2} 分布;V为服从自由度为 n 2 n_2 χ 2 \chi^{2} 分布即： V ∼ χ 2 ( n 1 ) V\sim \chi^{2}(n_1) ; U ∼ χ 2 ( n 1 ) U\sim \chi^{2}(n_1) ,则称F为服从自由度 n 1 n_1 n 2 n_2 的F分布，记为： F ∼ F ( n 1 ， n 2 ) F\sim F(n_1，n_2)

• 图像（不同自由度的F分布） # 中心极限定理

• 定义
从均值为 μ \mu ，方差为 σ 2 \sigma^2 的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
(简言之：当样本容量足够大时(n >=30) ，样本均值的抽样分布逐渐趋于正态分布)
• 形象化理解： # 参考

《统计学》 第7版_贾俊平

更多相关内容
• 主要介绍了基于python进行抽样分布描述及实践详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
•   1、scipy库中各分布对应的方法   2、stats中各分布的常用方法及其功能   3、正态分布的概率密度函数及其图象     1）正态分布的概率密度函数及其图象     2）python绘制正态分布的概率密度函数图象 ...
• 概率论与数理统计考研真题集（样本及抽样分布）800字左右
• ## 抽样分布

千次阅读 2019-12-14 21:38:50
中心极限定理：即不论总体服从什么分布，只要从总体中抽取的样本容量足够大，这些样本组成的样本均值的抽样分布都近似于正态分布。 样本方差的分布：作为随机变量的函数，样本方差本身就是一个随机变量，S^2服从...

一、统计量

样本均值：即在总体中的样本数据的均值，反映样本数据的集中趋势。

样本方差：每个样本值与全体样本值平均数之差的平方值的平均数；方差是用来衡量随机变量和其数学期望（均值）之间的偏离程度。

样本变异系数：变异系数又称为离散系数，定义为标准差与平均值之比，样本变异系数即样本数据的标准差与其均值之比。

样本k阶中心矩：在概率论中，矩是用来描述随机变量的某些特征的数字，即求平均值；随机变量X的K阶中心矩定义：对于正整数k，如果E(X)存在，
E[(X-E(X))^K] <无穷大，
则 E[(X-E(X))^K] 为x的k阶中心矩。

样本偏度：常用作总体偏度的估计量和检验总体分布正态性的统计量，样本三阶中心距除以二阶中心距的3/2次幂的商记为SK；而总体偏度是一个描述总体分布不对称性的数字特征，正态分布的偏度为0。

样本峰度：常用以作为总体峰度的估计量，样本的四阶中心距除以样本二阶中心距平方的商再减去3，记为ku；正态分布的峰度为0。

二、抽样分布

1、卡方分布（x^2分布）

定义

设随机变量X1,X2,..Xn相互独立，且Xi（i=1，2，......，n）服从标准正态分布，则他们的平方和 服从自由度为n的X^2分布

这是统计学书籍的介绍不是很理解，但是通过下述公式描述就比较好理解了

X~N（μ， ） 由上述可知，卡方分布是由标准正态分布平方之和构成

当总体 X~N（μ， ），从中抽取容量n的样本则 特性

数学期望 方差 =2n

可加性，即若  2、t分布

定义

设随机变量 X~N（0，1 ），Y~X^2(n)，且X与Y独立，则 其分布称为t分布，记为t（n），其中，n为自由度。

当n>=2,t分布的数学期望E（t）=0

当n>=3，t分布的方差D（t）=n/n-2

自由度为1的分布称为柯西分布，随着自由度n的增加，t分布的密度函数越来越接近标准正态分布的密度函数，一般n>=30,t分布就与标准正态分布非常接近

t分布有关的抽样分布

设X1，X2,...Xn是来自正态分布 X~N（μ， ）的一个样本，  则有 称为服从自由度为（n-1）的t分布 F分布

定义

设随机变量Y与Z互相独立，且Y和Z分别服从自由度为m和n的X^2分布（卡方分布），随机变量X有如下表达式 则称X服从第一自由度为m，第二自由度为n的F分布，记为F（m， n），简记为X~F（m， n）

数学期望

E（X）=n/n-2 ,n>2

方差

D（X）=2n^2（m+n-2）/m（n-2）（n-4）， n>4

中心极限定理：即不论总体服从什么分布，只要从总体中抽取的样本容量足够大，这些样本组成的样本均值的抽样分布都近似于正态分布。

样本方差的分布：作为随机变量的函数，样本方差本身就是一个随机变量，S^2服从卡方分布，

转载于:https://my.oschina.net/u/1785519/blog/1060322

展开全文 • 样本均值的抽样分布One of the most important concepts discussed in the context of inferential data analysis is the idea of sampling distributions. Understanding sampling distributions helps us better ...

样本均值的抽样分布

One of the most important concepts discussed in the context of inferential data analysis is the idea of sampling distributions. Understanding sampling distributions helps us better comprehend and interpret results from our descriptive as well as predictive data analysis investigations. Sampling distributions are also frequently used in decision making under uncertainty and hypothesis testing.

在推论性数据分析的背景下讨论的最重要的概念之一是采样分布的想法。 了解采样分布有助于我们更好地理解和解释描述性和预测性数据分析调查的结果。 抽样分布也经常用于不确定性和假设检验的决策中。

# 什么是抽样分布？ (What are sampling distributions?)

You may already be familiar with the idea of probability distributions. A probability distribution gives us an understanding of the probability and likelihood associated with values (or range of values) that a random variable may assume. A random variable is a quantity whose value (outcome) is determined randomly. Some examples of a random variable include, the monthly revenue of a retail store, the number of customers arriving at a car wash location on any given day, the number of accidents on a certain highway on any given day, weekly sales volume at a retail store, etc. Although the outcome of a random variable is random, the probability distribution allows us to gain and understanding about the likelihood and probabilities of different values occurring in the outcome. Sampling distributions are probability distributions that we attach to sample statistics of a sample.

您可能已经熟悉概率分布的概念。 概率分布使我们对与随机变量可能采用的值(或值的范围)相关的概率和似然性有所了解。 随机变量是其值(结果)是随机确定的数量。 随机变量的一些示例包括：零售商店的月收入，在任何给定的一天到达洗车地点的顾客数量，在任何给定的一天在特定高速公路上发生的事故数量，在零售店的每周销量尽管随机变量的结果是随机的，但概率分布使我们获得并了解结果中出现的不同值的可能性和概率。 抽样分布是我们附加到样本的样本统计量的概率分布。

# 样本均值作为样本统计量 (Sample mean as a sample statistic)

A sample statistic (also known simply as a statistic) is a value learned from a sample. Here is an example, suppose you collect the results of a survey filled out by 250 randomly selected individuals who live in a certain neighborhood. Based on the survey results you realize that the average annual income of the individuals in this sample is $82,512. This is a sample statistic and is denoted by x̅ =$82,512. The sample mean is also a random variable (denoted by X̅) with a probability distribution. The probability distribution for X̅ is called the sampling distribution for the sample mean. Sampling distribution could be defined for other types of sample statistics including sample proportion, sample regression coefficients, sample correlation coefficient, etc.

样本统计量(也简称为统计量)是从样本中学到的值。 这是一个示例，假设您收集由居住在某个社区中的250个随机选择的个人填写的调查结果。 根据调查结果，您会发现此样本中的个人平均年收入为$82,512。 这是一个样本统计量，用x̅=$ 82,512表示。 样本均值也是具有概率分布的随机变量(用X表示)。 X̅的概率分布称为样本均值的采样分布。 可以为其他类型的样本统计定义样本分布，包括样本比例，样本回归系数，样本相关系数等。

You might be wondering why X̅ is a random variable while the sample mean is just a single number! The key to understanding this lies in the idea of sample to sample variability. This idea refers to the fact that samples drawn from the same population are not identical. Here’s an example, suppose in the example above, instead of conducting only one survey of 250 individuals living in a particular neighborhood, we conducted 35 samples of the same size in that neighborhood. If we calculated the sample mean for each of the 35 samples, you would be getting 35 different values. Now suppose, hypothetically, we conducted many many surveys of the same size in that neighborhood. We would be getting many many (different) values for sample means. The distribution resulting from those sample means is what we call the sampling distribution for sample mean. Thinking about the sample mean from this perspective, we can imagine how X̅ (note the big letter) is the random variable representing sample means and (note the small letter) is just one realization of that random variable.

您可能想知道为什么X̅是一个随机变量，而样本均值只是一个数字！ 理解这一点的关键在于样本之间的差异性 。 这个想法指的是从相同总体中抽取的样本不完全相同的事实。 这是一个示例，假设在上面的示例中，我们没有对居住在特定社区中的250个人进行一次调查，而是在该社区中进行了35个相同大小的样本。 如果我们为35个样本中的每个样本计算样本均值 ，您将获得35个不同的值。 现在假设，我们在该邻里进行了许多相同规模的调查。 我们将获得许多(不同)样本均值值。 由这些样本均值得出的分布就是所谓的样本均值的采样分布。 从这个角度考虑样本均值，我们可以想象X̅(注意大字母)是代表样本均值和 (注意小字母)的随机变量的方式。 只是该随机变量的一种实现。

# 样本均值的抽样分布 (Sampling distribution of the sample mean)

Assuming that X represents the data (population), if X has a distribution with average μ and standard deviation σ, and if X is approximately normally distributed or if the sample size n is large,

假设X代表数据(种群)，如果X具有平均μ和标准差σ的分布，并且X近似呈正态分布，或者样本量n大，

The above distribution is only valid if,

以上分配仅在以下情况下有效：

• X is approximately normal or sample size n is large, and,

X近似正常样本大小n大，并且，

• the data (population) standard deviation σ is known.

数据(种群)标准偏差σ是已知的。

If X is normal, then X̅ is also normally distributed regardless of the sample size n. Central Limit Theorem tells us that even if X is not normal, if the sample size is large enough (usually greater than 30), then X̅’s distribution is approximately normal (Sharpe, De Veaux, Velleman and Wright, 2020, pp. 318–320). If X̅ is normal, we can easily standardize and convert it to the standard normal distribution Z.

如果X是正态的，则X′也将呈正态分布，而与样本大小n无关。 中心极限定理告诉我们，即使X不是正态的，如果样本量足够大(通常大于30)，则X的分布近似正态(Sharpe，De Veaux，Velleman和Wright，2020年，第318-320页) )。 如果X̅是正态的，我们可以轻松地将其标准化并将其转换为标准正态分布Z。

If the population standard deviation σ is not known, we cannot assume that the sample mean X̅ is normally distributed. If certain conditions are satisfied (explained below), then we can transform X̅ to another random variable t such that,

如果总体标准差σ是知道，我们不能假设样本均值的正态分布。 如果满足某些条件(如下所述)，那么我们可以将X transform转换为另一个随机变量t，这样，

The random variable t is said to follow the t-distribution with n-1 degrees of freedom, where n is the sample size. The t-distribution is bell-shaped and symmetric (just like the normal distribution) but has fatter tails compared to the normal distribution. This means values further away from the mean have a higher likelihood of occurring compared to that in the normal distribution.

据说随机变量t跟随t分布具有n-1个自由度，其中n是样本大小。 t分布呈钟形且对称(就像正态分布一样)，但与正态分布相比，其尾部更胖。 这意味着与正态分布相比，远离平均值的值出现的可能性更高。

The conditions to use the t-distribution for the random variable t are as follows (Sharpe et al., 2020, pp. 415–420):

将t分布用于随机变量t的条件如下(Sharpe等人，2020年，第415-420页)：

• If X is normally distributed, even for small sample sizes (n<15), the t-distribution can be used.

如果X是正态分布的，即使对于小样本量( n < 15)，也可以使用t分布。

• If the sample size is between 15 and 40, the t-distribution can be used as long as X is unimodal and reasonably symmetric.

如果样本大小在15到40之间，则只要X是单峰且合理对称，就可以使用t分布。
• For sample sizes greater than 40, the t-distribution can be used unless X’s distribution is heavily skewed.

对于大于40的样本，除非X的分布严重偏斜，否则可以使用t分布。

# 用Python模拟 (Simulation with Python)

Let’s draw a sample of size n=250 from the normal distribution. Here we are assuming that our data is normally distributed and has parameters μ = 20 and σ = 3. Collecting one sample from this population

让我们从正态分布中绘制一个大小为n = 250的样本。 这里我们假设我们的数据是正态分布的，并且参数μ= 20和σ=3。从该总体中收集一个样本

Running this code once gives me one instance (or realization) of the random variable X̅. Below are 10 values for after I ran this code 10 times.

运行此代码一次，便为我提供了随机变量X̅的一个实例(或实现)。 在我运行此代码10次后，下面是x̅的 10个值。

But if I ran this code 10,000 times and recorded the values of and plotted the frequency (or density) of the values, I would get the following result.

但是，如果我运行此代码10,000次并记录了x values的值并绘制了这些值的频率(或密度)，我将得到以下结果。

As you can see, the distribution is approximately symmetric and bell-shaped (just like the normal distribution) with an average of approximately 20 and a standard error that is approximately equal to 3/sqrt(250) = 0.19.

如您所见，分布近似对称且呈钟形(就像正态分布一样)，平均分布约20，标准误差约等于3 / sqrt(250)= 0.19。

Sampling from the same population with different sample sizes will result in different measures of spread in the outcome distribution. As we expect, increasing the sample size will reduce the standard error and therefore, the distribution will be narrower around its average. Note that the distribution of X̅ is normal even for extremely small sample sizes. This is because X is normally distributed.

从具有不同样本量的同一总体中进行采样将导致结果分布中差异的度量不同。 正如我们所期望的，增加样本量将减少标准误差，因此，分布将在其平均值附近变窄。 请注意，即使样本量非常小，X̅的分布也是正常的。 这是因为X是正态分布的。 The effect of sample size on the standard error of the distribution for the sample mean (image by author).

# 如果总体(数据)不正常怎么办？ (What if the population (data) is not normal?)

No worries! Even if your data is not normally distributed, if the sample size is large enough, the distribution of X̅ can still be approximated using the normal distribution (according to Central Limit Theorem). The following figure shows the distribution of X̅ when X is heavily skewed to the left. As you can see, X̅’s distribution tends to mimic the distribution of X for small sample sizes. However, as sample size grows the distribution of X̅ becomes more symmetric and bell-shaped. As mentioned above, if sample size is large (usually larger than 30), X̅’s distribution is approximately normal regardless of what the distribution of X is.

别担心！ 即使您的数据不是正态分布的，如果样本量足够大，仍可以使用正态分布(根据中心极限定理)来近似估计X̅的分布。 下图显示了X严重偏向左侧时X̅的分布。 如您所见，对于小样本量，X̅的分布趋向于模仿X的分布。 但是，随着样本量的增加，X 1的分布变得更加对称和呈钟形。 如上所述，如果样本量较大(通常大于30)，则X的分布近似为正态，而与X的分布无关。 X̅’s distribution is normal for large sample sizes, even when X has a skewed distribution (image by author).

# 示例和应用 (Example and applications)

Knowing the distribution of X̅ can help us solve problems, where we need to use inferential data analysis to make decisions under uncertainty. Many business problems require decision making tools that are able to address the stochastic and probabilistic nature of random event. Hypothesis testing is one of those tools frequently used in many different business domains including retail operations, marketing, quality assurance, etc.

知道X̅的分布可以帮助我们解决问题，在这种情况下，我们需要使用推断数据分析来在不确定的情况下做出决策。 许多业务问题都需要决策工具，这些工具必须能够解决随机事件的随机性和概率性。 假设检验是许多不同业务领域(包括零售运营，市场营销，质量保证等)中经常使用的工具之一。

For example, suppose a retail store has run a major marketing campaign and is interested to investigate the effects of the campaign on average sales of the store. Suppose that the management would like to investigate if average daily sales is now greater than $8,000. The following hypotheses demonstrate this research question: 例如，假设一家零售商店进行了一次大规模的营销活动，并且有兴趣调查该活动对商店平均销售额的影响。 假设管理层想调查现在的平均每日销售额是否大于8,000美元。 以下假设证明了该研究问题： Note that we are conducting a test on the population average sales, hence the μ. To address the test, suppose we record sales volumes over 40 days (sample with n=40) and calculate the required statistics. Suppose the average and standard deviation of daily sales volumes are calculated as x̅=$8,100 and s=$580, respectively. Since the value of σ is not known, and given that the above hypothesis test is being addressed, we can convert X̅ to the random variable t with n-1=39 degrees of freedom where, 请注意，我们正在对人口平均销售额(即μ)进行测试。 为了进行测试，假设我们记录了40天的销售量( n = 40的样本)并计算所需的统计数据。 假设每日销售量的平均偏差和标准偏差分别计算为x̅=$ 8,100s = $580 。 由于σ的值未知，并且鉴于上述假设检验正在解决，我们可以将X̅转换为n-1 = 39自由度的随机变量t ，其中， To address the test, we need to find the p-value associated with the test. This property is calculated as, 要处理该测试，我们需要找到与该测试关联的p值。 此属性的计算公式为 The probability density function for the random variable t along with the p-value of the test are depicted below. 下面描述了随机变量t的概率密度函数以及检验的p值。 The p-value for the test is highlighted in the picture (image by author). The following will find the p-value for the test. 以下将找到测试的p值。 The calculations give a p-value equal to approximately 0.14. By most standards (significance levels), this is a large p-value indicating that we fail to reject the null hypothesis. In other words, based on the distribution of X̅ and the sample collected, we cannot conclude that the average daily sales volume at the retail store, μ, is greater than$8000. This calculation was possible only because we knew what the distribution of X̅ was.

计算得出的p值大约等于0.14。 按照大多数标准(显着性水平)，这是一个很大的p值，表明我们无法拒绝原假设。 换句话说，根据X的分布和收集的样本，我们不能得出结论，零售商店的平均日销售量μ大于\$ 8000。 仅因为我们知道X̅的分布是什么，才可能进行此计算。

Sampling distributions could be defined for other sample statistics (e.g., sample proportions, regression predictor coefficients, etc.) and are also used in other contexts like confidence and prediction intervals or inferential analysis on regression results.

可以为其他样本统计数据(例如，样本比例，回归预测系数等)定义采样分布，也可以在其他情况下使用采样分布，例如置信度和预测区间或对回归结果进行推论分析。

: Sharpe N. R., De Veaux R. D., Velleman P. F., Wright D. (2020) Business Statistics, Fourth Canadian Edition. Pearson Canada Inc.

：Sharpe NR，De Veaux RD，Velleman PF，Wright D.(2020) 商业统计，加拿大第四版 。 培生加拿大公司

样本均值的抽样分布

展开全文  python 机器学习
• 1、比例 2、样本比例的抽样分布 3、两个样本均值之差的抽样分布 4、关于样本方差的分布

## 1、比例 ## 2、样本比例的抽样分布  ## 3、两个样本均值之差的抽样分布 ## 4、关于样本方差的分布  展开全文  机器学习 r语言
• 抽样分布（求统计量的分布） 1.正态分布 2.卡方分布 3.t分布 4.F分布 2.卡方分布 有几个独立的标准正态分布，自由度就是几 一定不要弄混了，上α分位数和卡方。 有标准正态分布构成的卡方分布才能查后面的表。 ... 机器学习 r语言
• 这一节涉及到一些统计学中的难点，当你理解了这些概念后，后面的内容就会相对容易理解了。 文章目录自由度x2x^2x2 分布ttt 分布FFF 分布 自由度 x2x^2x2 分布 ttt 分布 FFF 分布 t分布 F分布
• 1. 抽样 1.1简单随机样本 从容量为N的总体中，抽取一个容量为n的样本，如果容量为n的样本中，每一个可能的样本都以相等的概率被抽取，那么该样本为简单随机样本。 1.2随机样本 从一个无限总体中抽取一个容量为n...
• 机器学习 算法
• ## 样本及抽样分布

千次阅读 2020-06-04 23:21:11
一、随机样本 1、基本点 总体：观察对象的全体 个体：总体中的每个对象 样本：从总体中随机选取的部分...3、随机样本的联合分布 ①、总体X离散 ②、总体X连续 二、样本统计量 1、定义 样本的不含未知参数函数 2、2 分位点
• 1. 介绍三大抽样分布（卡方分布，t分布，F分布的定义和基本性质） 2. 展示各个分布的概率密度图像 机器学习 python 人工智能
• 抽样分布特征函数三大抽样分布1. 卡方分布2. t分布3. F分布正态总体下常用统计量的分布分位数总结 统计量是我们用来对总体X的分布函数或者是参数进行统计推断的基础，因此往往需要获得统计量T(x1,x2,x3)T(x_1, x_2, ...
• 对变异系数进行有效估计和检验可以应用于既有结构的可靠性、保险理论及医院统计等...构造了一种含变异系数v=σ/μ的抽样分布，通过对这种含变异系数的抽样分布的研究，为变异系数的区间估计和小样本检验提供理论依据.
• ## 三大抽样分布

千次阅读 2018-10-10 23:24:46 F分布 t分布
• 常见的假设检验中，AB测试是最为出名的假设检验的过程，而需要深刻理解假设检验，先验知识统计量及其抽样分布的理解至关重要，这会为我们学习假设检验打下坚实的基础，本文章便是关于统计量及其抽样分布的讲解。...
• 正态总体抽样分布推导Survey research concerns taking samples of a target population. Using those samples, we can estimate the views of that population.调查研究涉及对目标人群进行抽样。 使用这些样本，... 机器学习
• 文章目录抽样分布1 样本统计量2 正态分布3 三大抽样分布3.1 卡方分布3.2 t分布3.3 F分布4 统计量的抽样分布4.1 样本均值的抽样分布4.2 样本比例的抽样分布4.3 样本方差的抽样分布 定义：样本统计量的概率分布，是一... 机器学习 大数据
• 文章目录抽样分布楔子大数法则中心极限定理自助法 抽样分布 统计量：样本均值、样本方差、样本变异系数、样本K阶矩、样本K阶中心矩、样本偏度、样本峰度、次序统计量、充分统计量 抽样分布：卡方分布、T分布、F...
• ## 统计学习-抽样分布

千次阅读 2019-12-08 22:18:21
+通俗地解释：比例的抽样分布要解决的是“已知总体的相关参数，要求解某样本比例的发生概率”的问题&oq=从同一总体中取得的所有大小为n的可能样本，由这些样本的比例形成的一个分布，就是比例的抽样分布。... 机器学习  ...