精华内容
下载资源
问答
  • 样本均值的抽样分布
    千次阅读
    2018-01-03 17:33:45

    抽样分布:

    现在,假设将抽取n个样本组成一个简单随机样本的过程重复进行下去,每次都计算 x¯ p¯ 的值。
    在不同的简单随机样本中,这些样本统计量的值有各种可能的结果,它们是随机变量。是随机变量就能得到其概率分布,我们称这些随机变量的概率分布为它们的抽样分布

    这一节,我们先来看看样本均值 x¯ 的抽样分布。
    和其他概率分布一样, x¯ 的抽样分布也有期望、标准差以及形态特征。

    x¯ 的数学期望:

    E(x¯)=μ E(x¯) x¯ 的期望, μ 为总体均值。

    x¯ 的标准差:

    x¯ 的标准差公式与总体是否有限有关。
    有限总体下:
    σx¯=NnN1(σn)
    无限总体下:
    σx¯=σn
    式中的 NnN1 称为有限总体修正系数。在很多实际抽样中,总体的容量很大,样本容量相对很小,修正系数 NnN1 趋近于1,有限总体和无限总体 x¯ 的标准差计算之间的差别可以忽略,我们可以用通式 σx¯=σn 计算样本均值的标准差。那具体是总体容量大到什么程度,样本容量小到什么程度,两条公式间的差别才可以忽略呢?我们约定,当 nN0.05 ,即样本容量不超过总体容量的5%时,两者间误差可忽略。
    另外,为强调 σx¯ 和总体标准差 σ 的不同( σx¯ 是总体的简单随机样本的均值的抽样分布的标准差),我们称 σx¯ 为均值 x¯ 标准误差

    x¯ 的抽样分布的形态

    考虑以下两种情形:总体服从正态分布、总体不服从正态分布。
    总体服从正态分布时,任何样本容量下 x¯ 的抽样分布都是正态分布;
    总体不服从正态分布时,我们引入中心极限定理:

    从总体中抽取容量为n的简单随机样本,当样本容量很大时,样本均值 x¯ 的抽样分布近似服从抽样分布。

    下图给出了样本容量分别为 n=2 n=5 n=30 时抽样分布的形状:

    三个样本容量下中心极限定理的图示

    可以看到,随着样本容量的增加,抽样分布的形态逐渐趋近于正态分布。
    在一般统计实践中,对大多数应用,假定样本容量超过或等于30时, x¯ 的抽样分布可用正态分布近似;当总体严重偏态或出现异常点时,可能需要样本容量达到50;当总体为离散型时,正态近似中所需样本容量一般依赖于总体的比率。

    更多相关内容
  • 样本均值抽样分布One of the most important concepts discussed in the context of inferential data analysis is the idea of sampling distributions. Understanding sampling distributions helps us better ...

    样本均值的抽样分布

    One of the most important concepts discussed in the context of inferential data analysis is the idea of sampling distributions. Understanding sampling distributions helps us better comprehend and interpret results from our descriptive as well as predictive data analysis investigations. Sampling distributions are also frequently used in decision making under uncertainty and hypothesis testing.

    在推论性数据分析的背景下讨论的最重要的概念之一是采样分布的想法。 了解采样分布有助于我们更好地理解和解释描述性和预测性数据分析调查的结果。 抽样分布也经常用于不确定性和假设检验的决策中。

    什么是抽样分布? (What are sampling distributions?)

    You may already be familiar with the idea of probability distributions. A probability distribution gives us an understanding of the probability and likelihood associated with values (or range of values) that a random variable may assume. A random variable is a quantity whose value (outcome) is determined randomly. Some examples of a random variable include, the monthly revenue of a retail store, the number of customers arriving at a car wash location on any given day, the number of accidents on a certain highway on any given day, weekly sales volume at a retail store, etc. Although the outcome of a random variable is random, the probability distribution allows us to gain and understanding about the likelihood and probabilities of different values occurring in the outcome. Sampling distributions are probability distributions that we attach to sample statistics of a sample.

    您可能已经熟悉概率分布的概念。 概率分布使我们对与随机变量可能采用的值(或值的范围)相关的概率和似然性有所了解。 随机变量是其值(结果)是随机确定的数量。 随机变量的一些示例包括:零售商店的月收入,在任何给定的一天到达洗车地点的顾客数量,在任何给定的一天在特定高速公路上发生的事故数量,在零售店的每周销量尽管随机变量的结果是随机的,但概率分布使我们获得并了解结果中出现的不同值的可能性和概率。 抽样分布是我们附加到样本的样本统计量的概率分布。

    样本均值作为样本统计量 (Sample mean as a sample statistic)

    A sample statistic (also known simply as a statistic) is a value learned from a sample. Here is an example, suppose you collect the results of a survey filled out by 250 randomly selected individuals who live in a certain neighborhood. Based on the survey results you realize that the average annual income of the individuals in this sample is $82,512. This is a sample statistic and is denoted by x̅ = $82,512. The sample mean is also a random variable (denoted by X̅) with a probability distribution. The probability distribution for X̅ is called the sampling distribution for the sample mean. Sampling distribution could be defined for other types of sample statistics including sample proportion, sample regression coefficients, sample correlation coefficient, etc.

    样本统计量(也简称为统计量)是从样本中学到的值。 这是一个示例,假设您收集由居住在某个社区中的250个随机选择的个人填写的调查结果。 根据调查结果,您会发现此样本中的个人平均年收入为$ 82,512。 这是一个样本统计量,用x̅= $ 82,512表示。 样本均值也是具有概率分布的随机变量(用X表示)。 X̅的概率分布称为样本均值的采样分布。 可以为其他类型的样本统计定义样本分布,包括样本比例,样本回归系数,样本相关系数等。

    You might be wondering why X̅ is a random variable while the sample mean is just a single number! The key to understanding this lies in the idea of sample to sample variability. This idea refers to the fact that samples drawn from the same population are not identical. Here’s an example, suppose in the example above, instead of conducting only one survey of 250 individuals living in a particular neighborhood, we conducted 35 samples of the same size in that neighborhood. If we calculated the sample mean for each of the 35 samples, you would be getting 35 different values. Now suppose, hypothetically, we conducted many many surveys of the same size in that neighborhood. We would be getting many many (different) values for sample means. The distribution resulting from those sample means is what we call the sampling distribution for sample mean. Thinking about the sample mean from this perspective, we can imagine how X̅ (note the big letter) is the random variable representing sample means and (note the small letter) is just one realization of that random variable.

    您可能想知道为什么X̅是一个随机变量,而样本均值只是一个数字! 理解这一点的关键在于样本之间的差异性 。 这个想法指的是从相同总体中抽取的样本不完全相同的事实。 这是一个示例,假设在上面的示例中,我们没有对居住在特定社区中的250个人进行一次调查,而是在该社区中进行了35个相同大小的样本。 如果我们为35个样本中的每个样本计算样本均值 ,您将获得35个不同的值。 现在假设,我们在该邻里进行了许多相同规模的调查。 我们将获得许多(不同)样本均值值。 由这些样本均值得出的分布就是所谓的样本均值的采样分布。 从这个角度考虑样本均值,我们可以想象X̅(注意大字母)是代表样本均值和 (注意小字母)的随机变量的方式。 只是该随机变量的一种实现。

    样本均值的抽样分布 (Sampling distribution of the sample mean)

    Assuming that X represents the data (population), if X has a distribution with average μ and standard deviation σ, and if X is approximately normally distributed or if the sample size n is large,

    假设X代表数据(种群),如果X具有平均μ和标准差σ的分布,并且X近似呈正态分布,或者样本量n大,

    Image for post

    The above distribution is only valid if,

    以上分配仅在以下情况下有效:

    • X is approximately normal or sample size n is large, and,

      X近似正常样本大小n大,并且,

    • the data (population) standard deviation σ is known.

      数据(种群)标准偏差σ是已知的。

    If X is normal, then X̅ is also normally distributed regardless of the sample size n. Central Limit Theorem tells us that even if X is not normal, if the sample size is large enough (usually greater than 30), then X̅’s distribution is approximately normal (Sharpe, De Veaux, Velleman and Wright, 2020, pp. 318–320). If X̅ is normal, we can easily standardize and convert it to the standard normal distribution Z.

    如果X是正态的,则X′也将呈正态分布,而与样本大小n无关。 中心极限定理告诉我们,即使X不是正态的,如果样本量足够大(通常大于30),则X的分布近似正态(Sharpe,De Veaux,Velleman和Wright,2020年,第318-320页) )。 如果X̅是正态的,我们可以轻松地将其标准化并将其转换为标准正态分布Z。

    If the population standard deviation σ is not known, we cannot assume that the sample mean X̅ is normally distributed. If certain conditions are satisfied (explained below), then we can transform X̅ to another random variable t such that,

    如果总体标准差σ是知道,我们不能假设样本均值的正态分布。 如果满足某些条件(如下所述),那么我们可以将X transform转换为另一个随机变量t,这样,

    Image for post

    The random variable t is said to follow the t-distribution with n-1 degrees of freedom, where n is the sample size. The t-distribution is bell-shaped and symmetric (just like the normal distribution) but has fatter tails compared to the normal distribution. This means values further away from the mean have a higher likelihood of occurring compared to that in the normal distribution.

    据说随机变量t跟随t分布具有n-1个自由度,其中n是样本大小。 t分布呈钟形且对称(就像正态分布一样),但与正态分布相比,其尾部更胖。 这意味着与正态分布相比,远离平均值的值出现的可能性更高。

    The conditions to use the t-distribution for the random variable t are as follows (Sharpe et al., 2020, pp. 415–420):

    将t分布用于随机变量t的条件如下(Sharpe等人,2020年,第415-420页):

    • If X is normally distributed, even for small sample sizes (n<15), the t-distribution can be used.

      如果X是正态分布的,即使对于小样本量( n < 15),也可以使用t分布。

    • If the sample size is between 15 and 40, the t-distribution can be used as long as X is unimodal and reasonably symmetric.

      如果样本大小在15到40之间,则只要X是单峰且合理对称,就可以使用t分布。
    • For sample sizes greater than 40, the t-distribution can be used unless X’s distribution is heavily skewed.

      对于大于40的样本,除非X的分布严重偏斜,否则可以使用t分布。

    用Python模拟 (Simulation with Python)

    Let’s draw a sample of size n=250 from the normal distribution. Here we are assuming that our data is normally distributed and has parameters μ = 20 and σ = 3. Collecting one sample from this population

    让我们从正态分布中绘制一个大小为n = 250的样本。 这里我们假设我们的数据是正态分布的,并且参数μ= 20和σ=3。从该总体中收集一个样本

    Running this code once gives me one instance (or realization) of the random variable X̅. Below are 10 values for after I ran this code 10 times.

    运行此代码一次,便为我提供了随机变量X̅的一个实例(或实现)。 在我运行此代码10次后,下面是x̅的 10个值。

    Image for post

    But if I ran this code 10,000 times and recorded the values of and plotted the frequency (or density) of the values, I would get the following result.

    但是,如果我运行此代码10,000次并记录了x values的值并绘制了这些值的频率(或密度),我将得到以下结果。

    Image for post
    The distribution of the sample mean (image by author).
    样本均值的分布(作者提供的图像)。

    As you can see, the distribution is approximately symmetric and bell-shaped (just like the normal distribution) with an average of approximately 20 and a standard error that is approximately equal to 3/sqrt(250) = 0.19.

    如您所见,分布近似对称且呈钟形(就像正态分布一样),平均分布约20,标准误差约等于3 / sqrt(250)= 0.19。

    Sampling from the same population with different sample sizes will result in different measures of spread in the outcome distribution. As we expect, increasing the sample size will reduce the standard error and therefore, the distribution will be narrower around its average. Note that the distribution of X̅ is normal even for extremely small sample sizes. This is because X is normally distributed.

    从具有不同样本量的同一总体中进行采样将导致结果分布中差异的度量不同。 正如我们所期望的,增加样本量将减少标准误差,因此,分布将在其平均值附近变窄。 请注意,即使样本量非常小,X̅的分布也是正常的。 这是因为X是正态分布的。

    Image for post
    The effect of sample size on the standard error of the distribution for the sample mean (image by author).
    样本量对样本均值分布的标准误差的影响(作者提供的图像)。

    如果总体(数据)不正常怎么办? (What if the population (data) is not normal?)

    No worries! Even if your data is not normally distributed, if the sample size is large enough, the distribution of X̅ can still be approximated using the normal distribution (according to Central Limit Theorem). The following figure shows the distribution of X̅ when X is heavily skewed to the left. As you can see, X̅’s distribution tends to mimic the distribution of X for small sample sizes. However, as sample size grows the distribution of X̅ becomes more symmetric and bell-shaped. As mentioned above, if sample size is large (usually larger than 30), X̅’s distribution is approximately normal regardless of what the distribution of X is.

    别担心! 即使您的数据不是正态分布的,如果样本量足够大,仍可以使用正态分布(根据中心极限定理)来近似估计X̅的分布。 下图显示了X严重偏向左侧时X̅的分布。 如您所见,对于小样本量,X̅的分布趋向于模仿X的分布。 但是,随着样本量的增加,X 1的分布变得更加对称和呈钟形。 如上所述,如果样本量较大(通常大于30),则X的分布近似为正态,而与X的分布无关。

    Image for post
    X̅’s distribution is normal for large sample sizes, even when X has a skewed distribution (image by author).
    X的分布对于大样本量而言是正常的,即使X的分布​​偏斜(作者提供的图像)。

    示例和应用 (Example and applications)

    Knowing the distribution of X̅ can help us solve problems, where we need to use inferential data analysis to make decisions under uncertainty. Many business problems require decision making tools that are able to address the stochastic and probabilistic nature of random event. Hypothesis testing is one of those tools frequently used in many different business domains including retail operations, marketing, quality assurance, etc.

    知道X̅的分布可以帮助我们解决问题,在这种情况下,我们需要使用推断数据分析来在不确定的情况下做出决策。 许多业务问题都需要决策工具,这些工具必须能够解决随机事件的随机性和概率性。 假设检验是许多不同业务领域(包括零售运营,市场营销,质量保证等)中经常使用的工具之一。

    For example, suppose a retail store has run a major marketing campaign and is interested to investigate the effects of the campaign on average sales of the store. Suppose that the management would like to investigate if average daily sales is now greater than $8,000. The following hypotheses demonstrate this research question:

    例如,假设一家零售商店进行了一次大规模的营销活动,并且有兴趣调查该活动对商店平均销售额的影响。 假设管理层想调查现在的平均每日销售额是否大于8,000美元。 以下假设证明了该研究问题:

    Image for post

    Note that we are conducting a test on the population average sales, hence the μ. To address the test, suppose we record sales volumes over 40 days (sample with n=40) and calculate the required statistics. Suppose the average and standard deviation of daily sales volumes are calculated as x̅=$8,100 and s=$580, respectively. Since the value of σ is not known, and given that the above hypothesis test is being addressed, we can convert X̅ to the random variable t with n-1=39 degrees of freedom where,

    请注意,我们正在对人口平均销售额(即μ)进行测试。 为了进行测试,假设我们记录了40天的销售量( n = 40的样本)并计算所需的统计数据。 假设每日销售量的平均偏差和标准偏差分别计算为x̅= $ 8,100s = $ 580 。 由于σ的值未知,并且鉴于上述假设检验正在解决,我们可以将X̅转换为n-1 = 39自由度的随机变量t ,其中,

    Image for post

    To address the test, we need to find the p-value associated with the test. This property is calculated as,

    要处理该测试,我们需要找到与该测试关联的p值。 此属性的计算公式为

    Image for post

    The probability density function for the random variable t along with the p-value of the test are depicted below.

    下面描述了随机变量t的概率密度函数以及检验的p值。

    Image for post
    The p-value for the test is highlighted in the picture (image by author).
    图片的高亮显示了测试的p值(作者提供的图像)。

    The following will find the p-value for the test.

    以下将找到测试的p值。

    The calculations give a p-value equal to approximately 0.14. By most standards (significance levels), this is a large p-value indicating that we fail to reject the null hypothesis. In other words, based on the distribution of X̅ and the sample collected, we cannot conclude that the average daily sales volume at the retail store, μ, is greater than $8000. This calculation was possible only because we knew what the distribution of X̅ was.

    计算得出的p值大约等于0.14。 按照大多数标准(显着性水平),这是一个很大的p值,表明我们无法拒绝原假设。 换句话说,根据X的分布和收集的样本,我们不能得出结论,零售商店的平均日销售量μ大于$ 8000。 仅因为我们知道X̅的分布是什么,才可能进行此计算。

    Sampling distributions could be defined for other sample statistics (e.g., sample proportions, regression predictor coefficients, etc.) and are also used in other contexts like confidence and prediction intervals or inferential analysis on regression results.

    可以为其他样本统计数据(例如,样本比例,回归预测系数等)定义采样分布,也可以在其他情况下使用采样分布,例如置信度和预测区间或对回归结果进行推论分析。

    [1]: Sharpe N. R., De Veaux R. D., Velleman P. F., Wright D. (2020) Business Statistics, Fourth Canadian Edition. Pearson Canada Inc.

    [1]:Sharpe NR,De Veaux RD,Velleman PF,Wright D.(2020) 商业统计,加拿大第四版 。 培生加拿大公司

    翻译自: https://towardsdatascience.com/sampling-distribution-sample-mean-fcf69484535e

    样本均值的抽样分布

    展开全文
  • 大纲:常见的离散型概率分布(二项,几何,超几何,泊松)常见的连续型概率分布(指数,正态,均匀)三大抽样分布(卡方,t,F)一些推论和分布之间的关系离散型分布二项分布实验重复n次,每次实验相互独立(伯努利...

    bf0e85707899ad49e1fd7548cc46b6aa.png

    大纲:

    1. 常见的离散型概率分布(二项,几何,超几何,泊松)
    2. 常见的连续型概率分布(指数,正态,均匀)
    3. 三大抽样分布(卡方,t,F)
    4. 一些推论和分布之间的关系

    离散型分布

    • 二项分布

    实验重复n次,每次实验相互独立(伯努利实验),实验有两种结果,成功概率p,失败概率1-p。

    在二项分布中,我们关注的是在n次试验中成功的次数(区别于几何分布)。

    举个栗子:

    当我们要计算抛硬币n次,恰巧有x次正面朝上的概率,可以使用二项分布的公式:

    d2ad68fec328111089a903738b652afa.png

    二项概率的数学期望为E(x) = np,方差D(x) = np(1-p)。


    • 几何分布

    几何分布(英语:Geometric distribution)指的是以下两种离散型概率分布中的一种:

    • 在伯努利试验中,得到一次成功所需要的试验次数 X
    • 在得到第一次成功之前所经历的失败次数 X
    n重伯努利实验

    在第X次成功的概率:

    2f46212f332e7290c75aec67068f01f2.png

    5980955b32c0bb5ff240bdf0934086b9.png

    • 超几何分布

    超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数(不归还 (without replacement))。

    例如:从N个样本中抽取n个,N个中有r个不合格的,求抽到x个不合格样本的概率。

    超几何分布的概率分布,均值和方差:

    2877e41a80b8d1134f1f6a67f9fab4f5.png

    • 泊松分布

    泊松概率的成立条件是在任意两个长度相等的时间区间中,事件发生的概率是相同的,并且事件是否发生都是相互独立的。

    x代表发生x次,u代表发生次数的数学期望,概率函数为:

    b073c5af9e16f5933e04dc069b7a48b9.png

    实际计算过程中用这个公式更好理解:

    45a84338c466df73f46b405df4a13618.png

    t是你要计算的时间区间长度,t=1时即为泊松分布(单位时间),扩展后的函数是泊松过程。

    泊松分布的数学期望和方差相等,因此E(x) = D(x) = λ。


    连续型分布

    • 均匀分布

    在取值区间内出现概率相同(常数)

    概率密度函数,均值和方差:

    e05f530eb863d896764aabd878a58021.png

    • 指数分布

    指数分布是连续型概率分布!!!放在这里是因为它跟泊松分布关系密切,可以由泊松分布推导而来。

    指数分布是事件的时间间隔的概率。时间间隔大于t,等同于t时间内事件次数为0的概率,而后者的概率可以由泊松过程给出。

    推导过程:

    f0299a860bcf8c3a6df2eb7993b90a2a.png

    指数分布的期望和方差:若以λ为参数,则是E(X)=1/λ D(X)=1/λ²


    • 正态分布

    feecf81e255e79118742c1b58e47171f.png

    正态分布的经验法则:

    均值±标准差:68.3%
    均值±2标准差:95.4%
    均值±3标准差:99.7%

    0b2ad1ff9748cd3a2df2bc7cd0338faf.png

    抽样分布

    • 点估计和区间估计

    点估计:用样本统计量估计总体参数,未给出估计的可靠程度(置信度)

    区间估计:给定置信水平,以估计值为中心给出真实值可能出现的区间范围。


    • 大数定律和中心极限定理

    大数定律:样本量趋近于无穷时,样本均值收敛到总体期望

    中心极限定理:

    1,样本均值约等于总体均值
    2,抽样次数趋近于无穷时,样本均值围绕总体均值呈现正态分布(无论总体分布是否服从正态分布)

    • 标准差与标准误

    标准差 = 一次抽样中个体分数间的离散程度,反映了个体分数对样本均值的代表性,用于描述统计

    标准误 = 多次抽样中样本均值间的离散程度,反映了样本均值对总体均值的代表性,用于推论统计

    fe56323802dd79979ad506578d091b13.png

    • 卡方分布

    33bc06db8b8a96a18554057e327a1cb9.png

    概率密度函数及其形状:

    989a5c7f99f66dc0425bb118327efb4b.png

    b81d1b9c55e20c6c1ffbf8124a489df7.png

    当自由度n增大时,卡方分布的概率密度函数趋于对称。

    卡方分布的性质:

    fc799a6d13c69b0e05392f49989d9d1b.png

    • t分布

    在讲t分布之前先了解下t检验和z检验:

    1. Z-Test 用于大样本(n>30),或总体方差已知;
    2. T-Test 在小样本(n<30),且总体方差未知时,适用性优于Z-Test,而在大样本时,T-Test 与 Z-Test 结论趋同。

    单样本t统计量:由于总体标准差未知,一般用样本标准差S估计总体标准差

    b888e9cb94f4fecc6075c33306a1c98c.png

    56dd1cd7560538a9aff361fe21a9c564.png

    双样本t统计量:

    4da27b434ec782f6b42ea8b143de2029.png

    aca3317ddced9e49fb44158276c34b8a.png

    t统计量的分布服从t分布。当样本量无限大时,t分布无限接近于正态分布N(0,1)。

    自由度为n的t分布

    b7342903ef859ee21b88ae916e704c52.png

    概率密度函数及其形状:

    285681d9a5f72fa5fcafd9bc222a57d7.png

    89ff164895994a9c106b4fe4276d2644.png

    t变量的性质:当n趋向于无穷大时,t变量的极限分布为N(0,1)。


    • F分布

    7fcbe9f15b694d8331b78702f94b5c6b.png

    概率密度函数及其图形:

    b93d05968daba91f566554f9ca092281.png

    自由度为m,n的F分布的密度函数

    840344379a26c9596efa2734f08cdf3c.png

    F分布的自由度mn是有顺序的, 当m≠n时, 若将自由度mn的顺序颠倒一下, 得到的是两个不同的F分布.

    F变量的性质:

    62c1dc5973efb90e9e771e1b1ae1a898.png

    几个重要推论和分布间的关系

    • 正态变量线性函数的分布

    30c0b39e7ff1e90169d4934a0e0ba493.png
    • 正态变量样本均值和样本方差的分布

    39cd4d336284241b3266adc243179151.png
    • 一些推论

    d5f5a57567a440b23485ab073ce83f9e.png

    18add7ea4403c2328bd8b69c8d3f4e90.png

    ddc531eacdce92e81b76ca570ed707c8.png

    61cf503a05f36a6aa1ce4e630de8d09e.png

    8fadcc59b25de73f1f71128335649166.png

    参考资料:

    小白都能看懂的95%置信区间_bitcarmanlee的博客-CSDN博客

    https://blog.csdn.net/anshuai_aw1/article/details/82656691

    《商务与经济统计》学习笔记(七)-各统计分布知识点归纳_天阑之蓝的博客-CSDN博客

    如何七周成为数据分析师15:读了本文,你就懂了概率分布 | 人人都是产品经理

    展开全文
  • 数学期望:随机变量的平均取值的大小 一个概率性事件的平均大小:盒子里没球的概率0.01 1个球的概率:...越大说明密度越大 概率密度分布:某事件发生概率的分布 离散型分布:二项分布,泊松分布 连续型分布:指数分...

    数学期望:随机变量的平均取值的大小 一个概率性事件的平均大小:盒子里没球的概率0.01 1个球的概率:0.7 2个球概率0.2,3个球的概率0.09

    一个各自最有可能的球数:0.01*0+0.7*1+0.2*2+0.09*3 = 1.37

    概率密度: 某种事物发生的概率占总概率1的比例,越大说明密度越大

    概率密度分布:某事件发生概率的分布

    56892e2f7b28550a837205401e2686e2.png
    • 离散型分布:二项分布,泊松分布
    • 连续型分布:指数分布,正态分布,卡方分布,t分布,F分布(后三个也属于抽样分布)
    • 抽样分布只与自由度有关:即(抽样)样本含量

    1.二项分布

    重复试验:每种结果概率恒定

    322f96f9b1fb2c001d7d68cbc4c91bdd.png

    所有概率组成一个分布:二项分布

    2.泊松分布

    一个单位(时间,空间,面积等)某稀有事件发生的概率:

    f41a206be9e5a83aedad88f4b28f1b4f.png

    所有概率组成一个分布:泊松分布

    产生条件:随机事件相继出现:符合平稳性,无后效性,普通性

    平稳性:在任意时间区间内,事件发生k次法概率只依赖于区间的长度而与区间端点无关。

    无后效性:在不相重叠的时间段内,事件发生是相互独立的。

    普通性:如果时间区间充分小,事件出现两次或两次以上的概率可忽略不计。

    二项分布在事件发生的概率很小,重复次数很大的情况下,分布接近泊松分布。


    1. 均匀分布

    连续型均匀分布:

    可能的结果是连续的,每种可能概率相等

    离散型均匀分布:n中可能的结果,每种可能概率相等

    2.指数分布

    用于表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔

    • 连续性分布,每个点的概率

    b923e7a051b2a8e798790f8225d39795.png

    无记忆性:已经有历史数据,但是发生概率与未发生的事件的发生概率相同

    fd237528c28c146bee1d1674a0b40a7c.png

    3.正态分布

    • 描述一个群体的某个指标
    • 指标连续
    • 特定指标在整个群体都有一个概率

    5fed0d95892070e1c1fca73c2aec74da.png


    所有概率组成一个分布:正态分布

    中心极限定理:

    不论总体的分布形式如何,只有样本(抽样样本)含量n足够大,样本均数的分布近似正态分布,均数与总体均数相等,标准差为 总体标准差/n的开方。

    由此:t分布,F分布,卡方分布在抽样样本含量很大时不需要对总体样本是否正态有要求。

    4.t分布

    • 总体样本为正态分布(抽样样本含量小时:要求为正态分布;较大时由于中心极限定理,近似正态分布,因而差值的概率也呈正态分布,实际上t分布的每条曲线都是正态分布曲线。
    • 从总体样本中抽样很多小样本,每个小样本有一个均值,均值与总体均值有差值t,差值用t估计。
    • 可能很多差值估计都是t,t出现的次数占所有小样本的比例:概率,所有t值的概率分布:t分布的一个曲线
    • 另外做个抽样,每个小样本包含的观测数不同,形成t分布的另外一个曲线。
    • t分布只与自由度有关,自由度越大,越接近正态分布,自由度:抽样小样本的具体观测值的个数(抽样样本含量)-1

    f691e11927d677dea836a9a7e9558d03.png

    72613e715660056d08ae52d389833fba.png

    5.卡方分布(chi square distribution):

    • 从总体样本中抽样很多小样本,观测值平方后求和:卡方,重复抽样获得多个卡方值。
    • 可能很多卡方都是相同,相同卡方出现的次数占总次数的比例:概率,所有概率组成的分布:卡方分布的一个曲线。
    • 另外做个抽样,选取每个小样本包含的观测数不同,形成卡方分布的另外一个曲线。
    • 其余自由度,样本要求同t分布相同,这里也只是将差值换做卡方。
    • 卡方的概率密度分布图:

    077d65b840f4f778bef740fb6cdb574c.png

    6.F分布

    • 两总体样本方差比的分布。
    • 抽取两个样本,两个样本的观测数可以相同也可不同,分别计算卡方,新变量F:重复抽样获得多个F值。
    • 可能很多F值都是相同,相同F值出现的次数占总次数的比例:概率,所有概率组成的分布:F分布的一个曲线。
    • 其余与t分布相同。

    c5a34bd260bbb82501df108d90155acb.png

    t分布:在推算总体平均值时,基于样本平均数的抽样分布。

    卡方分布:用样本方差估计总体方差时,必须已知样本方差的抽样方差。

    F分布:比较两个总体方差比是否相等时,必须已知样本方差的联合抽样分布。

    展开全文
  • 关于T检验以及各种假设检验的操作方法,网络上有很多详细讲解。今天我们不谈具体的步骤,而是通过案例全方面地将T...思路:从全国男性群体中随机抽取1000名样本,获得样本均值和样本标准差,进行假设检验。此处需...
  • 总体、样本样本抽样分布

    千次阅读 2020-06-07 21:48:08
    梳理一下 假设检验、卡方检验、t检验、F检验、P值、置信区间、置信水平、AB测等问题。 首先明确几个关于总体和样本的概念及符号: 总体 样本 样本均值
  • 样本均值抽样分布的均值问题

    千次阅读 2018-02-05 17:08:45
    为什么用样本均值来作为总体均值的估计? 这样真的好吗?如果好,到底好到什么程度。 目的 本文用来解释下面这句话(本人对下面这句话的逻辑一开始是不接受的,故而写文记录,以分享个人的逻辑理解): ...
  • 样本均值抽样分布

    千次阅读 2017-08-17 00:27:00
    样本均值抽样分布 重复抽样(抽取后有放回) 总体服从正态分布 X~N(μ, ),样本 的抽样分布为正态分布, 的期望为μ,方差为 ,记作 ~N(μ, ) 不 重复...
  • 样本均值抽样分布/置信区间

    千次阅读 2019-08-23 11:24:51
    样本均值的抽样分布: 最高的是正峰态分布,中间的是正态分布,最低的是负峰态分布 正偏态分布,右尾长,负偏态分布,左尾长 ...样本均值抽样分布的标准差通常称为均值标准差 (σ是原分布的标准差,...
  • 文章目录正态分布均匀分布指数分布 【练习一】对example1_1.Rdata中数据,利用R软件,完成分别有放回和无放回抽取10名学生的姓名组成一个随机样本,输出学生姓名分别有放回和无放回抽取10名学生的姓名和分数组成一个...
  • 抽样分布均值和方差的推导
  • 若总体的分布是正态分布,且方差已知,则无论样本容量是大是小,样本均值抽样分布都服从正态分布; 而如果总台的分布是正态分布,抽出的样本为小样本,且方差未知,则样本均值抽样分布服从t分布。...
  • 第7章概率和样本:样本均值分布

    千次阅读 2021-06-29 18:51:16
    样本均值的分布是抽样分布的一个特例,也叫M的抽样分布。 建立样本均值的分布步骤:1,从总体中选择一个样本量为n的随机样本,计算样本均值,2,再从总体中选择另一个样本量为n的随机样本,计算样本均值,3,重复以上...
  • 样本抽样分布

    千次阅读 2020-06-04 23:21:11
    一、随机样本 1、基本点 总体:观察对象的全体 个体:总体中的每个对象 样本:从总体中随机选取的部分...3、随机样本的联合分布 ①、总体X离散 ②、总体X连续 二、样本统计量 1、定义 样本的不含未知参数函数 2、2
  • 1、样本均值抽样分布 2、中心极限定理
  • 概率论与数理统计考研真题集(样本抽样分布)800字左右
  • 抽样分布也称统计量分布、随机变量函数分布,是指样本估计量的分布。样本估计量是样本的一个函数,在统计学中称作统计量,因此抽样分布也是指统计量的分布。以样本平均数为例,它是总体平均数的一个估计量,如果按照...
  • 样本均值的特征与分布

    万次阅读 2016-11-04 10:53:00
    样本均值的特征与分布@(概率论)这个分布的推导将需要回到大数定律与中心极限定理中去才能证明。需要严格区分样本均值与一次取样的分布。X1,X2,...,XnX_1,X_2,...,X_n是取自总体的样本,则E(Xi)=u,D(Xi)=σ2E(X_i) = ...
  • 1、比例 2、样本比例的抽样分布 3、两个样本均值之差的抽样分布 4、关于样本方差的分布
  • 首先,假定(X1,X2,X3,......样本均值分布 Xˉ∼(μ,δ2n)\bar X \sim(\mu,\dfrac{\delta^2}{n})Xˉ∼(μ,nδ2​),或者Xˉ−μδ/n∼N(0,1)\dfrac{\bar X-\mu}{\delta/\sqrt n}\sim N(0,1)δ/n​Xˉ−μ​∼N(0,1) χ
  • x代表待执行表达式,即需要抽样样本元素 size指定抽样的次数 replace=FALSE代表不放回抽样,replace=TRUE代表有放回抽样 prob指定抽取元素的概率,数量与样本数量一致(每个数都有概率)(不写默认概率相同) ...
  • 对于大样本抽样分布,由中心极限定理,无论总体分布是否为正态分布,其均值x_bar的抽样分布为近似正态分布,同时对于较大的n(n>=30),s将会是σ的优良估计。 x_bar的抽样分布的置信区间可以使用z统计量来...
  • 按照抽样需要估计的总体参数类型的不同,最常用的为对样本均值的估计和对样本比例的估计,因此这里主要讨论估计平均值时样本大小的计算和估计比例时样本大小的计算。 排版比较费劲,请允许我使用截屏的方式分享。
  • 贾俊平《统计学》第六章概率与概率分布知识点总结及课后习题答案
  • 简单抽样技术——样本均值是总体均值的无偏估计

    万次阅读 多人点赞 2019-07-13 21:26:34
    来一点废话,帮助大家理解概率的精髓: 1) 只要谈估计,那就是告诉我们一种方法,利用这个...首先,要严格区分均值和期望两个概念! 期望公式: 均值公式: 显然,它们是不一样的,一个是和元素出现的概率...
  • 一、样本均值之差的定义 设是独立的抽自总体的一个容量为的样本的均值。是独立的抽自总体的一个容量为的样本的均值。 则具备以下性质: ,表示抽取多次获取样本均值的数学期望,根据中心极限定理,则。 ...
  • 首先需要清楚一件事情,样本均值为X拔(上面有个棍) 样本的均值是讲从总体中抽样,这些样本的均值,而均值是指所有样本的真实均值。 后面部分很好推导,将...卡方n的分布抽样-样本均值,他们的方差和期望如何推导?
  • p¯\bar{p} 的抽样分布样本比率 p¯\bar{p} 的所有可能值的概率分布。 下面我们了解下 p¯\bar{p} 的期望、标准差、形状这些数学特征。 p¯\bar{p} 的数学期望 E(p¯)=pE(\bar{p})=p ,其中p为总体比率。 ...
  • 第六章 样本及抽样分布 6.3抽样分布 文章目录第六章 样本及抽样分布 6.3抽样分布基本概念常见分布 基本概念 eg: 几个常用的统计量 ...正态总体的样本均值与样本方差的的分布 一些定理: ...
  • 如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。 t分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 12,101
精华内容 4,840
关键字:

样本均值的抽样分布

友情链接: 触底长阳指标.rar