生信分析、meta分析、数据挖掘
TCGA、GEO、SEER、Oncomine

从零开始学统计(九)——中心极限定理

中心极限定理在统计学的位置极其重要,它为离散型随机变量与连续型随机变量之间搭建了桥梁。这个伟大的定理最初由法国数学家棣莫佛早在十七世纪时发现,当时棣莫佛引进正态分布,讨论了n重伯努利试验后,事件A出现的概率为1/2,但一直默默无闻,后来该理论被另一位法国数学家拉普拉斯写入他伟大的数学著作中,并拓展为概率为p的情况。但实际上中心极限定理到十九世纪后,其重要性才被人们所认知。


本期我打算先聊聊棣莫佛-拉普拉斯定理,及它与二项分布、正态分布、泊松分布的关系,随后简单介绍一下更为普遍的列维-林德伯格定理。


棣莫弗-拉普拉斯定理

设Xn是n重伯努利试验中的事件A出现的次数,在每次实验中P(A)=p是 小于1的正常数,Xn~B(n, p),则:

就是说,该定理主要说的是当n充分大时,X近似服从N(np, npq)(快说,在二项分布中,np,npq分别代表啥?)。或者,也可以说二项分布经标准化后(还记得标准化的Z值表示什么吗?),在n→∞时,成为标准正态分布,近似地有:

来,知道了上面的点,看例题就很容易理解了。


例:设在n次伯努利试验中,事件A在每次试验中出现的概率均为0.70,要使A出现的频率在0.68和0.72之间的概率不小于0.90,问至少应进行多少次试验?

 

解:假设在n次试验中事件中A出现了Xn次,则:

问题可以转换为下面的表达式,求出尽可能小的整数n:

利用以上棣莫佛-拉普拉斯定理,当n很大时,X近似服从N(np, npq),我们把上式按标准化处理一下,

进一步地,如果用(x)表示标准正态函数,则:

通过反查标准正态分布表,近似得出概率为0.95对应x=1.645,于是有:

于是,只要试验次数超过1424次,就有90%以上的把握断定A出现的频率与0.70之差的绝对值不超过0.02.


通过上例,结合棣莫佛-拉普拉斯定理,我们总结一条很实用的结论,解题常用,即:

以上,表示标准正态函数


除了上面一条结论,我们还需解决一个问题,就是,即便我们用连续型分布方法来近似模拟离散型分布变量的分布规律,但实际上离散型分布变量还是离散型的,这句“废话”的意思是,对于连续性变量,我们不能求P(Xn=k)的具体值,对吧,但是离散型变量是可以的。那么现在我们用正态分布来模拟了二项分布,当我们想知道在二项分布中,当k=0,1,2,…,n时,P(Xn=k)的值,可以利用正态分布的方法来求解吗?这个问题,我们通过下面的方式近似解决:

以上,表示标准正态密度函数


应用第二个推理,我们看看下面的例题:

例:设进行500次伯努利试验中,事件A发生的概率为0.01,求恰有5次A事件发生的概率。

 

解:很明显事件A发生是服从二项分布的,记事件A发生为X,则X~B(500, 0.01),于是有:

由于本题中p=0.01很小,np=5适中,可用泊松近似公式计算,此时,,查表计算结果如下:

结合本期主题,用棣莫弗-拉普拉斯定理导出正态近似公式计算,因有np=5,npq=4.95,得:

对比上面三种算法得结果,我们可以看到,用泊松近似公式比用正态近似公式计算的答案更接近直接用二项分布公式计算的结果,因此在p很小,np适中的情况下,用泊松近似的效果更好。


十九世纪,人们认识到了中心极限定理的重要性,数学家们也希望推导出适用性更广的定理,因此中心极限定理有很多版本。目前,除了上面适用于多次伯努利试验的棣莫佛-拉普拉斯定理外,现在比较常用的还有适用于独立同分布变量的列维-林德伯格定理,详细如下:

 

列维-林德伯格定理

大家对比一下本期两个中心极限定理的公式,应该很快就能发现棣莫弗-拉普拉斯定理是列维-林德伯格定理的特例,对吧?二项分布是由多重伯努利试验组成的,当n充分大时,每个伯努利试验之间是相互独立的,且它们都“来自”同样的二项分布,按中心极限定理,此时这些“独立同分布”事件“之和”的分布趋向正态分布,它们的均值为np,方差为npq。


同样地,类比于二项分布的例子,列维-林德伯格定理证明了,当样本序列数n为无限大时,来源于同一分布的,相互独立的样本序列“之和”服从正态分布,它们的期望为n个此时总体的期望,方差为n个此时总体的方差。要注意:首先,我们不需要在意这些样本序列是什么分布,它们可以是任何奇奇怪怪的分布,如果喜欢,都可以叫它“rick的分布”或者“morty的分布”,谁管得着?其次,这里说“样本序列”,没有说事件,是因为这个样本序列中可以代表一个事件,也可以代表由好几个事件组合成的“小集体”,只要它们都是“来源于”同一分布的,它们爱组团还是单干,也没人管它。


最后,虽然敲公式什么的实在是太痛苦了,但我们还是在例题中结束今天的话题吧!


例:某地由家小电影院,因该地区每日看电影的人数约达1600人,小电影院不能满足需求,故影院股东决定再新建一家电影院,预计电影院建成后,平均由3/4的观众回去新电影院看电影。在设计新电影院的座位数时,希望座位要尽量多,但“空座达到200个或更多”的概率不超过0.1,问依目前情况,新电影院设多少座位好?


解:设将每日看电影的人依次排号为1,2,…,1600,且令:

按预计,应有P(Xi=1)=3/4=p,P(Xi=0)=1/4=q,假定各人是否去新影院看电影是独立的选择,则是独立的随机变量,显然这时,np=1600×3/4=1200,npq=1600×3/4×1/4=300。

反查标准正态分布值表,得:

计算出t=1378,故新影院的座位应设计在1378个左右为宜。


注:本期多处搬运郝志峰等编写的概率论与数理统计

赞(0) 打赏
未经允许不得转载:医学SCI科研之家 » 从零开始学统计(九)——中心极限定理
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

meta分析、生信分析

meta、生信交流群综合科研交流群