统计学三大分布与正态分布的差异

申请扬州大学学士学位论文

扬州大学

学 士 学 位 论 文

统计学三大分布与正态分布的差异

年级专业:

学生姓名:

指导教师:

统计学三大分布与正态分布的差异

中文摘要

统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策者提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。而对数据的分析过程中就需要利用到数据的分布来研究分类。

在实际遇到的许多随机现象都服从或近似服从正态分布。而由正态分布构造的三大分布在实际中有广泛的应用,因为这三大分布不仅有明确的背景,而且其抽样分布的密度函数有明显表达式,研究三大分布与正态分布有助于研究实际事例,比如经济安全与金融保险领域、人口统计等。

本文讨论了三大分布与正态分布,并将它们之间的密度函数进行比较说明.

第二章介绍了正态分布的定义、性质,三大分布的定义、性质。

第三章介绍了正态分布与三大分布的密度函数,并将它们之间的密度函数进行比较 关键词:正态分布;三大分布;密度函数

The Difference between the Three Statistical Distributions and

the Normal Distribution

Abstract

Statistics is a branch of applied mathematics, the mathematical models are mainly established by the probability and statistics theory based on the collecting the data, so as to conduct the quantitative analysis, and obtain the correct inference. It is widely used in the subjects, such as physical, social science,

industrial and commercial field, and government intelligence decision. The process of the data analysis will need to use the data distributions to study.

In practice, many random phenomena are obedient for the normal distributions, or approximately. And the three statistical distributions structured by the normal distributions have extensive applications, because these three distributions is explicitly background, and the sampling distribution density function have obvious expressions. Research on the distributions and normal distributions is useful for the study of economic security and financial insurance fields, population statistics, etc.

This paper discusses the three statistical distributions and normal distributions, their density functions are compared.

The second chapter presents the definition of the normal distribution, the distribution of nature, three definitions and properties.

The third chapter covers a normal distribution and the density functions of the three distributions, and then the density functions are compared.

Keywords: the normal distribution; Three distribution; Density function

目 录

中文摘要………………………………………………………………………………………2 英文摘要………………………………………………………………………………………2 1 绪论…………………………………………………………………………………………5

1.1 问题的提出……………………………………………………………………………5

1.2 国内外研究现状………………………………………………………………………5

1.3 本文的主要工作………………………………………………………………………6 2 基础知识介绍……………………………………………………………………………7

2.1 正态分布………………………………………………………………………………7

2.2 三大统计分布…………………………………………………………………………8 3 三大分布与正态分布的比较……… ………………………………………………12

3.1 三大分布与正态分布的密度函数…………………………………………………12

3.2 三大分布与正态分布的密度函数比较……………………………………………12

3.3 本章小结……………………………………………………………………………16 4 进 一 步 工 作………………………………………………………………………16 参考文献………………………………………………………………………………… 17 致谢…………………………………………………………………………………………17

1 绪论

统计学,最早是由Gottfried Achenwall(1749)所使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。 18世纪末至19世纪末是统计学的发展时期。在这时期,各种学派的学术观点已经形成,并且形成了两主要学派,即数理统计学派和社会统计学派。统计分布分为离散型分布和连续型分布。正态分布又叫高斯分布,最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。而三大分布是基于正态分布的基础上提出来的。

统计学被广泛应用在各个领域中,本章第一节阐述统计学的实际背景知识;

第二节简述近些年的国内外研究现状;第三节说明本文的主要研究工作.

1.1 问题的提出

取得总体的样本后,通常是借助样本的统计量对未知的总体分布进行推断,为此须进一步确定相应的统计量所服从的分布,常用的统计分布包括正态分布, 2(n)分布,t分布,F分布,所以我们要准确的分类就必须先弄清楚这四种分类之间的相同点及不同点,所以本论文的目的就是详细阐述四种分布的差异。

1.2 国内外研究现状 现代统计学的理论基础概率论始于研究赌博的机遇问题,大约开始于

1477年。数学家为了解释支配机遇的一般法则进行了长期的研究,逐渐形成了概率论理论框架。在概率论进一步发展的基础上,到十九世纪初,数学家们逐渐建立了观察误差理论,正态分布理论和最小平方法则。在20世纪以前,统计学的领域主要是人口统计、生命统计、社会统计和经济统计。随着社会、经济和科学技术的发展,到今天,统计的范畴已覆盖了社会生活的一切领域,几乎无所不包,成为通用的方法论科学。它被广泛用于研

究社会和自然界的各个方面,并发展成为有着许多分支学科的科学,比如经济统计学,管理统计学,卫生统计学等。就最近几年来看,国家连续资助了一系列涉及统计学及其应用的重大科研项目,其中包括数学和计算机在癌症生物学中的应用、振荡积分学与高阶schdodinger方程的L_p-L_q估计、卫生统计学中t检验应用的几点注记、宏观经济统计数据的国际可比性研究等。国际上已对统计学的应用进行研究,例如在医学方面的 Microscintigraphy with high resolution collimators and radio graphicdetectors,在物理学方面的Determination of grain size distributions in thin films等。

1.3 本文的主要工作

基于以上的论述,本文的主要研究工作为:首先详细介绍正态分布以及三

2χ大分布的定义、性质以及它们的密度函数,然后利用中心极限定理证明(n)分

布的极限分布是正态分布,然后用两种方法(Stirling和特征函数)证明t分布的极限分布也是正态分布,最后利用中心极限定理证明F分布当n无穷大的时候接

2χ近正态分布,从而得出证明的结论,还在进一步的工作中可以继续证明(n)分

布的密度函数与正态分布的密度函数差值的绝对值会小于某个具体的数字,也可以进一步研究F分布当m和n都不趋于无穷大的时候是否还是接近于正态分布,这就是本文研究的主要工作。

2 基础知识介绍

2.1 正态分布

正态分布(normal distribution)是数理统计中的一种重要的理论分布 ,是许多统计方法的理论基础。正态分布有两个参数,μ和σ,决定了正态分布的位置和形态。为了应用方便,常将一般的正态变量X通过u变换转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布N (0,1)(standard normal distribution),亦称u分布。

定义:若X1,X2,……,Xn相互独立,Xi~N(μi,σi2),则

∑aXi

i=1ni~N(∑aiμi,∑ai2σi2) i=1i=1nn

1nσ2

特别地,若X1,X2,……,Xn~N(μ,σ)则X=∑Xi~N(μ,) ni=1ni.i.d2

~N(0,1)

图1:标准正态分布的密度函数图

特征1:正态曲线(normal curve)在横轴上方均数处最高。

特征2:正态分布以均数为中心,左右对称。

特征3:正态分布有两个参数,即均数μ和标准差σ。μ是位置参数,σ

固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动。σ是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭。通常用N~(μ,σ2)表示均数为μ,方差为σ2的正态分布。用N(0,1)表示标准正态分布。

特征4:正态曲线下面积的分布有一定规律。 实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。正态曲线下一定区间的面积可以通过标准正态分布函数表求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。

2.2 三大统计分布

一、χ2(n)分布(n为自由度)

χ2(n)分布是一种连续型随机变量的概率分布。这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。

定义:若X1,X2,……,Xn相互独立,且都服从标准正态分布N(0,1),

则∑Xi2~χ2(n)=Γ(1/2,n/2)

i=1n

图2:χ2(n)的密度函数图

性质1:E(χ2(n))=n,D(χ2(n))=2n

性质2:若X1=χ2(n1),X2=χ2(n2),X1,X2相互独立,则X1+X2~χ2(n1+n2)

2性质3:n→∞时,χ(n)→正态分布

2性质4:设χ2~χα(n),对给定的实数

α(0

2件:P{χ2>χα(n)}=⎰+∞

2χα(n)f(x)dx=α

2的点χα(n)为χ2(n)分布的水平α的上侧

分位数. 简称为上侧α分位数. 对不同

的α与n, 分位数的值已经编制成表供查

用。

图3:χ2(n)分布的上α分位数

二、t分布

t分布也称为学生分布,是由英国统计学家戈赛特(Goset,1876-1937)在1908年“student”的笔名首次发表的,这个分布在数理统计中也占有重要的位置。

2定义:设X~N,X,Y

相互独立,T=(0,1),Y~χ(n),则称T服从自由度为n的T分布,记为T~t(n

)

图4:t分布的密度函数图

-t

2性质1:fn(t

)是偶函数,n→∞,fn(t)→ϕ(t)=

2

性质2:设T~tα(n),对给定的实数α(0

P{T>tα(n)}=⎰+∞

tα(n)f(x)dx=α的点tα(n)为t(n)分

布的水平α的上侧分位数. 由密度函数f(x)

的对称性,可得 t1-α(n)=-tα(n).类似地,我们

可以给出t分布的双侧分位数

P{|T|>tα/2(n)}=⎰-tα/2(n)

-∞f(x)dx+⎰+∞tα/2(n)f(x)dx=α,

显然有P{T>tα/2(n)}=;P{T

对不同的α与n, t分布的双侧分位数可从附表

查得.

图5:t分布的上α分位数

三、F分布

F分布是随机变量的另一种重要的小样本分布,应用也相当广泛。它可用来检验两个总体的方差是否相等,多个总体的均值是否相等。F分布还是方差分析和正交设计的理论基础。

定义:设X~χ2(n),Y~χ2(m),X,Y相互独立,令F=

第一自由度为n,第二自由度为m的F分布。

X/n则称F服从为Y/m

图6:F分布的密度函数图

性质1:若F~F(n,m),则1/F~F(m,n) 性质2:若X~t(n),则X2~F(1,n);

性质3:设F~Fα(n,m),对给定的实数

α(0

P{F>Fα(n,m)}=

+∞

Fα(n,m)

f(x)dx=α

的点Fα(n,m)为F(n,m)分布的水平α的上侧分位数. F分布的上侧分位数的可自附表查得.

图7:F分布的上α分位数

性质4:Fα(m,n)=

1

.

F1-α(n,m)

此式常常用来求F分布表中没有列出的某些上侧分位数.

3 三大分布与正态分布的比较

3.1 三大分布与正态分布的密度函数

一、

正态分布的密度函数为p(x)(x-μ)22σ-

,-∞

特别地,当μ=0,σ=1

时,记标准正态分布的密度函数为

ϕ(u-

u22

,-∞

nx-1-+∞1

x2e2(x>0),其中Γ(α)=⎰tα-1e-tdt 二、χ(n)的密度函数为p(x)=

0n/2

Γ()22

2

x--1

特别地,当n=1

时,其密度函数为p(x)=x2e2,x>0

x1-2

当n=2时,其密度函数为p(x)=e,x>0

2

n+1

)+1

x2-n2三、t分布的密度函数为p(x)=(1+),-∞

m+nnn/2Γ()()nm+n

-1-n四、F分布的密度函数为p(x,n,m)=x2∙(1+x)2,-∞

mΓ()Γ()22

Γ(

3.2 三大分布与正态分布的密度函数比较

≤x)=一、设X~χ(n),则对任意x

,有limPn→∞22

2

n

2

i

n

2i

n

x

-∞

e-t/2dt

2

证明:因为 χ(n)分布的E(χ)=E(∑x)=∑E(x)=∑D(xi)=n

i=1

i=1

i=1

D(χ)=D(∑x)=∑D(xi2)=2n

2

2ii=1

i=1

nn

所以由独立同分布中心极限定理得Y=

→N(0,1) nx-1-122

xe,x>0且y=因为X~

nn/2Γ

()22

所以x=n 因为fY(y)dy=fX(x)dx

n1-1-(n1

(n)2e2所以fY(y)=Γ()2n/2

2

)

dx

dy

nn1-1-1-(n1n2(1)2e2=

n()2n/22

)

令n=2m,利用Stirling

公式:m!=mm⋅e-m⋅eθm,0

1 12m

m-1-(mm-1

m)(1)e

)

m-1-(mm-1

m)(1)e)

m-1-(mm-1m)(1+)e))

m-1-m(1)e

y2-1

2

−−−n→∞

所以χ2分布的极限分布为正态分布

二、t分布收敛于标准正态分布,即若Xn服从自由度为n的t

分布,

limP(Xn≤x)=

n→∞

x

-∞

e-t/2dt (1)

2

证法1:由于自由度为n的t分布的概率密度

n+1

)n+12

-xt分布的密度函数为p(x;n)=(1+)2,-∞

n()2

Γ(

-x2/2

因此(1

)式等价于lim,-∞

n→∞先利用Stirling

公式:m!=mm⋅e-m⋅eθm,0

1

12m

n+1

)

证明lim=

n→∞n()

2

Γ(

事实上,利用Γ函数的性质

n+1n-1n-3n-2k+1n-2k+1

).......Γ()= ()......Γ

()

2222

n-2k+1

(n-1)(n-3)......(n-2k+1)Γ()

=

n-2k+2

n-2)(n-4)......(n-2k+2)Γ()

2Γ(当n=2k时

n+11

)(2k-1)(2k-3)......1⋅Γ()= n

()2

2k-12k-1

() ≈=

22k-2⋅

()k-1)2

e

π(2k-1)2k-1

2k-1

=2k-2

(k-1)

22k-2⋅2π(k-1)⋅

e2k-2Γ(

=

12k-11(1+)⋅n→∞) 2k-2e当n=2k+1时亦可推出同样的结果。 另外,由特殊极限公式可得

+1x+1x

∙(-)-x2-n2x2xnn

2

lim(1+)=lim[(1+)]=e2 n→∞n→∞nn

n

2

2

综合上诉,即证明(2)式

所以,t分布的极限分布是正态分布。 证法2

:设Xn=

X~N(0,1),Y~χ2(n),且相互独立。 由于Y的特征函数为ϕY(t)=(1-2it)-n/2,

(其中i=为虚数单位) 故Y/n的特征函数为ϕY/n(t)=(1-所以limϕY/n(t)=lim(1-

n→∞

n→∞

2i-n/2

t) n

i

t)-n/2=eit n/2

Y

的分布函数 n

又eit是单点分布P(X0=1)=1的特征函数,所以

Fn(x)−−→F(x)={

W

0,x

1,x≥0

(n→∞)

所以YP

−−→X0=1(n→∞)

n

P

=1(n→∞)

P

−−→X(n→∞)

因此Xn=

故limP(Xn≤x)=n→∞x

-∞

e

-t2/2

dt

三、F分布收敛于标准正态分布,即若X~χ2(m),Y~χ2(n),X,Y相互独立,

则称F=

X/m

服从为第一自由度为m,第二自由度为n的F

分布。Y/n

limP(Xn≤x)=n→∞⎰

x

-∞

e

-t2/2

dt

P

→1 证明:当m→∞时Y/m−−

L

→X/n 所以F−−

因为E(X/n)=1,D(X/n)=

2n2

= 2nn

所以由中心极限定理,当n

→∞L

−−→N(0,1) 所以F分布的极限分布是正态分布。

3.3 本章小结

在实际应用中我们往往在取得总体的样本后,通常是借助样本的统计量对未

知的总体分布进行推断,为此须进一步确定相应的统计量所服从的分布,正态分布、 χ2(n)分布、t分布、F分布是统计学最基本的四种分布,还有其他的分布如连续型随机变量的指数分布、均匀分布等都是我们需要研究讨论的,本文只是讨论了正态分布与三大分布的密度函数差异,所以还有很多工作需要我们研究。

4 进一步工作

在证明χ2(n)分布的极限分布时,用的是中心极限定理,在进一步的工作中可以继续研究是否可以用Stirling证明;在证明t分布的时候用的是两种方法证明,但是还可以继续求出t分布的密度函数与正态分布的密度函数差值的绝对值小于的某个具体的值;在证明F分布的极限分布是正态分布的时候我只讨论了当

n→∞,m→∞的情况,还有m→∞但n不趋于∞、n→∞但m不趋于∞以及n、

m都不趋于∞的三种情况。在另一方面可以研究这篇论文中得出的结论在实际应用中有哪些应用。

参考文献

[1] 李贤平,沈崇圣,陈予毅.概率论与数理统计[M].复旦大学出版社.2005 [2] 周润兰,喻胜华.应用概率统计[M].科学出版社.1999 [3] 刘嘉焜,王家生,张玉环.应用概率统计[M].科学出版社.2004 [4] 吴坚.应用概率统计[M].高等教育出版社.2002

[5] 曹振华,赵平,胡跃清.概率论与数理统计[M].东南大学出版社.2003 [6] 茆诗松,程依明,濮晓龙.概率论与数理统计教程[M].高等教育出版社.2004. [7] 田应辉,阳妮,冷志魁.概率论与数理统计[M].高等教育出版社.2002. [8] 宗序平.概率论与数理统计[M].机械工业出版社.2004.

[9] 斯日古楞.特征函数的作用[J].内蒙古师大学报(自然科学蒙文版),

2000,(2):33-37

[10] 宗序平,赵俊,陶伟.统计学上三大分布推到方法[J].数学的实践与认识,

2009年07期

[11] Jun Shao.Mathematical Statistics[J] .世界图书出版公司北京公司.2009 [12] JIM PITMAN.PROBABILITY[J] .世界图书出版公司北京公司.2009

致 谢

值此论文完成之际, 首先感谢


相关文章

  • 初一地理教案
  • 第四章<居民与聚落> 第一节 人口与人种 一.学习目标 1. 运用人口分布图.人口统计资料,说出世界人口分布和增长特点. 2. 联系实际,说明人口问题及其对环境.社会.经济发展的影响. 3. 知道世界三大人种的外观特征,用图说出三大人种的主要分布区. 二.过程与方法 学习主题一:世界人口 ...

  • 胡焕庸线两侧人口的空间分异性及其变化
  • 第72卷第1期 2017年1月地理学报ACTA GEOGRAPHICA SINICA V ol.72, No.1January, 2017 胡焕庸线两侧人口的空间分异性及其变化 李佳洺1,陆大道1, 2,徐成东3,李扬4,陈明星1, 2 (1. 中国科学院地理科学与资源研究所中国科学院区域可持续发展 ...

  • 人口与人种教案
  • 第四章 居民与聚落 第一节 人口与人种 教学设计 第四章 居民与聚落 第一节 人口与人种 设计思路 1.学习对生活有用的地理,使所学内容不仅对学生现在的生活和学习有用,而且对他们的终身学习和发展有用.使学生了解地理知识的功能与价值,形成主动学习的态度,构建开放的地理课程. 2.充分创设情景,尽可能增 ...

  • 统计与统计学
  • 统计与统计学 统计:总括起来计算,是对某一现象或事物的有关资料进行搜集.整理.计算.分析的工作过程. 统计有三层含义:1.统计资料(statistical data),即反映各种现象的数据资料:2.统计工作(statistical work),即具体搜集.整理.分析统计资料的工作过程:属于统计实践的 ...

  • 湘教版七年级上册地理教案
  • 第一章:第一节--我们身边的地理知识教学设计 教学目标: .与生产建设.与社会风土人情的关系. 习地理的好奇心,以讨论.交流抓住学生的注意力,增强学生的兴趣,引导他们走进地理的殿堂. 这段文字描写优美,就让我们从这里走进地理,探索地理的奥秘,下面我们来学习第一章第一节 教师演示地球仪:你知道我们中国 ...

  • 人口特征与社会经济发展的关系
  • 人口特征与社会经济发展的关系 关键词:人口特征 人口基数 人口素质 人口流动 人口分布 经济发展 索引: 人,作为经济发展的最主观和客观因素,是促进经济发展最重要的主因.而人口特征所表现出的巨大差异性也造成了经济发展的差异性结果.本文将利用一些统计学原理对我国人口主要特征对国家经济发展的主要作用做一 ...

  • 初中地理知识结构大纲图
  • 地理知识结构图,帮你系统条理掌握地理知识 和 海洋 和 概念:大陆.岛屿.大洲.海.海峡.大洋 大洋 七大洲和四大洋 大洲.大洋的名称.分布相对位置 重要的洲界线 沧海桑田 海陆变迁 大陆漂移假说 板块学说 :主要观点解释 海的变化 山脉的形成 火山地震 海陆面积比例 海陆分布状况 第三章天气和气候 ...

  • 中国的疆域与人口
  • 2014-2015八年级上中国地理总复习 第一章 中国的疆域与人口 第一节中国的疆域 课标要求:运用地图,说出我国的地理位置及其特点.记住我国的领土面积,在地图上指出我国的邻国和濒临的海洋,认识我国既是陆地大国,也是海洋大国. 需要记忆:记住我国的领土面积(陆地面积约960万平方千米,领海范围12海 ...

  • 初中地理新课程标准
  • 初中地理新课程标准 当今世界,人口.资源.环境问题日益突出.人类正在重新审视自己以往所走过的历程,总结过去以大量消耗自然资源和牺牲自然环境为代价而高速发展经济所带来的严重教训,努力探索一条"人口.经济.社会.环境和资源相互协调的"可持续发展的道路.这些都给地理科学以及地理课程的改 ...

© 2024 范文中心 | 联系我们 webmaster# onjobs.com.cn