多元回归分析的应用研究

目 录

摘要: .............................................................................................................................................. 1 关键词:........................................................................................................................................... 1 Abstract : ......................................................................................................................................... 1 Key words: ..................................................................................................................................... 1 引言 .................................................................................................................................................. 2 1 一元线性回归的思想及其应用举例 . .......................................................................................... 4

1.1 一元线性回归模型 . ........................................................................................................... 5 1.2 一元线性回归模型的检验 . ............................................................................................... 6 1.3 一元线性回归模型举例 . ................................................................................................... 7 2 多元线性回归模型的思想及其应用举例 . ................................................................................ 10

2.1 多元线性回归的数学模型 . ............................................................................................. 10 2.2 多元线性回归模型的检验 . ............................................................................................. 11 2.3 多元线性回归模型应用举例 . ......................................................................................... 12

2.3.1 研究问题的提出 . .................................................................................................. 12 2.3.2 数据采集与多元回归分析 . .................................................................................. 13 2.3.3 EXCEL 作回归分析确定待定系数的值 ........................................................... 13 2.3.4 总结 . ...................................................................................................................... 14

3 前进法、后退法、逐步回归法思想及其举例 . ........................................................................ 15

3.1 前进法 . ............................................................................................................................. 15

3.1.1 前进法回归分析的应用 . ...................................................................................... 16

3.1.1.1 回归方程 . ................................................................................................... 16 3.1.1.2 回归方程及系数检验 . ............................................................................... 16

3.2 后退法 . ............................................................................................................................. 16

3.2.1 后退法回归分析的应用 . ...................................................................................... 17

3.2.1.1 回归方程 . ................................................................................................... 17 3.2.1.2 回归方程及系数的检验 . ........................................................................... 17

3.3 逐步回归法 . ..................................................................................................................... 18

3.3.1 逐步回归分析的应用 . .......................................................................................... 18 3.3.2 研究结果比较 . ...................................................................................................... 19

致谢 ................................................................................................................ 错误!未定义书签。 参考文献......................................................................................................................................... 19 附录 ................................................................................................................................................ 20

多元回归分析的应用研究

摘要:回归分析方法是多元统计分析的各方法中应用最广泛的一种,也是数理统计中最成

熟最常用的方法,主要是研究变量间的相互依赖关系。首先,本文通过建立一元线性回归模型,阐述了一元线性回归模型的基本统计思想以及它在实际问题研究中的应用原理。然后,推广建立了多元线性回归,运用SPSS 等统计软件建立了由熟料化学成分分析结果预测28d 抗压强度的模型,来指导水泥生产配比的调整,其更好的论证了多元线性回归,最优回归模型的检验、评价及预测。最后,通过前进法、后退法、逐步回归法,阐述了各个方法的思想以及步骤,论证了在多元回归方法中,并不是所有的自变量都对因变量有显著影响这一思想,举例说明了各方法的优缺点,保证所有子集为最优回归子集。同时我们也看出线性回归模型在解决这类经济增长、预测问题上有很好的效果,其作用具有很好的参考价值。

关键词:一元线性回归;多元线性回归;前进法;后退法;逐步回归

Multiple Regression Analysis of Applied Research

Abstract:Regression

analysis method is the most widely used in various methods of

multivariate statistical analysis of a, is also the most mature and most commonly used method in mathematical statistics, mainly is the study of mutually dependent relationship between variables. First of all, through the establishment of a yuan linear regression model, this paper expounds the basic statistical idea of a yuan linear regression model and its application in the actual problem research principle.Then, established the multivariate linear regression, using the statistical software of SPSS was established by the clinker chemical composition analysis result prediction model of compressive strength, to guide the adjustment of the ratio of cement production, its better demonstrates the multiple linear regression, the optimal regression model of inspection, evaluation and prediction.Finally, through the former entered, regressive method, stepwise regression method, this paper expounds the different methods of thought and steps, demonstrated in multivariate regression method, and not all the independent variables on the dependent variable has a significant impact on the ideas, the advantages and disadvantages of each method is illustrated by an example, ensuring that all subsets of the optimal subset regression.At the same time we also see that the linear regression model to deal with the problem of this kind of economic growth, forecast has very good effect, its action has the very good reference value.

Key words :A

yuan linear regression;Multiple linear regression;Before the law;Back

method;Stepwise regression method

引言

回归分析是对客观事物数量依存关系的分析,是一种重要的统计分析方法,广泛地应用于各类社会现象变量之间的影响因素和关联的研究。由于客观事物的联系错综复杂,很多现象的变化往往受到两个或多个因素的影响。为了全面揭示这种复杂的依存关系,准确的测定现象之间的数量变动,提高预测和控制的准确度,就要建立多元回归模型进入深入、系统的分析。多元回归分析是研究多个自变量与某个应变量之间相关关系的一种常用统计方法。一般地,我们有定义1.1

y =β0+β1χ1+β2χ2+ βp χp +ε

称为多元线性回归模型,其中Eε=0,D ε=σ2;σ2是未知参数。β0, β1,..., βp 是p +1个未知参数,β0称为回归参数,β0, β1,..., βp 称为回归系数,y 称为被解释变量,χ1, χ2 χp 是p 个可以精确测量并控制的一般变量,称为解释变量(自变量),为了区别,称(1.1)为理论回归模型。在回归模型中,因变量y 和自变量x 都是一维的,称它为一元回归模型;若x 是多维,y 也是多维,则称它为多重回归模型。

多元回归分析,是经济预测中常用的一种方法,通过建立经济变量与解释变量之间的数学模型,对建立的数学模型进行R 、F 、t 检验,在符合判定条件的情况下把给定的解释变量的数值代入回归模型,从而计算出经济变量的未来值即预测值。对于回归模型中的解释变量,有两种处理方法:一种当作确定性变量处理,另一种当作随机变量处理,所得计算公式式相同。其一般步骤是:首先取得解释变量和响应变量的多次观测值,这些观测值可能是实验得到的,也可能是调查出的;然后根据这些数据确定经验公式的类型,建立数学模型,列出待估参数;再用这些数据进行拟合;最后作统计分析。数据拟合是计算方法的内容,它也能解决回归分析中的数据拟合,但回归分析与计算方法的数据拟合不同,计算方法的数据拟合只估计未知参数,而回归分析不仅仅估计参数,而且要对拟合的结果作统计分析。

就回归分析的发展而言,它自身的完善和发展至今是统计学家研究的热点课题。例如自变量的选择、稳健回归、回归诊断、投影寻踪、分位回归、非参数回归等模型仍有大量研究文献出现。在回归模型中,当自变量代表时间、因变量不独立并且构成平稳序列时,这种回

[1]它提供了一系列动态数据归模型的研究就是统计学中的另一个重要分支—时间序列分析。

的处理方法,帮助人们科学的研究分析所获得的动态数据,从而建立描述动态数据的统计模型,以达到预测、控制的目的。对于满足基本假设的回归模型,它的理论已经成熟,但对于违背基本假设的回归模型的参数估计问题近些年仍有较多研究。在实际问题的研究应用中,人们发现经典的最小二乘估计的结果并不总是令人满意,统计学家从多方面进行努力试图克服经典方法的不足。例如,为了克服设计矩阵的病态性,提出了以岭估计为代表的多种有偏估计。斯泰因(Stein )于1955年证明了当维数P 大于2时,正态均值向量最小二乘估计的不可容性,既能够找到另一个估计在某种意义上一直优于最小二乘估计,从此之后人们提出许多新的估计,其中主要有岭估计、压缩估计、主成分估计、Stein 估计,以及特征根估计。为了解决自变量个数较多的大型回归模型的自变量的选择问题,人们提出了许多关于回归自变量选择的准则和算法;为了克服最小二乘估计对异常值的敏感性,人们提出了各种稳健回归;为了研究模型假设条件的合理性及样本数据对统计推断影响的大小,产生了回归诊断;为了研究回归模型中未知参数非线性的问题,人们提出了许多非线性回归方法,这其中有利

用数学规划理论提出的非线性参数估计方法、样条回归方法、微分几何方法等;为了分析和处理高维数据,特别是高维非正态数据,产生了投影寻踪回归、切片回归等。近年来,新的研究方法不断出现,如非参数统计、自助法、刀切法、经验贝叶斯估计等方法都对回归分析起着渗透和促进作用。

就回归分析的应用而言,多元回归方法因其实用性及有效性,在现今社会越来越多的领域得到广泛应用。早些时候,苑玉风[11]应用多元回归分析和逐步回归分析,研究某种汽车发动机用球墨铸铁活塞环球化率的影响因素,并建立了相关关系。李金海在多元回归数学模型基础上,提出了多元回归方法的应用步骤。另外这一方法也被广泛的应用于预报各种气象参数,牛桂萍,黄祖英用多元回归分析做暴雨的长期预报,虽然误差较大,但他们同时指出有待于因子本身作进一步的改进。此外,多元回归分析方法也被越来越多的应用于预报各种自然灾害,王震宇等将这一方法用于滑坡预报,并用实例证明了能在一定程度上

[15]

解决滑坡的预报问题。袁宇运用多元回归分析法,建立了化学污染面积,纵身与诸条件的关系,快速估算预测出突出性化学污染危害,并提前做出防范措施。索南仁欠也提出了水质污染的多元回归分析方法,这一方法的建立有助于我们更好地直观了解水质的最显著污染因素及在具体治污过程中,更有针对性地实施合理治污方案。对于太湖大面积的蓝藻事件,如果我们也应用这一方法,提前预测并做好防范工作,那污染所带来的危害及经济损失一定会有所减少。

由此看来,回归模型技术随着它自身的不断完善和发展以及应用领域的不断扩大,必将在统计学中占有更重要的位置,也必将为人类社会的发展起着它独到的作用。

[16]

[14]

[12]

[13]

1 一元线性回归的思想及其应用举例

一元线性回归是描述两个变量之间统计关系的最简单的回归模型。一元线性回归虽然简单,但通过一元线性回归模型的建立过程,我们可以了解回归分析方法的基本统计思想以及它在实际问题研究中的应用原理。

在实际问题的研究中,经常需要研究某一现象与影响它的某一最主要因素的关系。如影响粮食产量的因素非常多,但在众多的因素中,施肥量是一个最主要的因素,我们往往需要研究施肥量这一因素与粮食产量之间的关系;在消费问题的研究中,影响消费的因素很多,但我们可以之研究国民收入与消费额之间的关系,因为国民收入是影响消费的最主要因素;保险公司在研究火灾损失的规律时,把火灾发生地与最近的消防站距离作为一个最主要的因素,研究火灾损失与火灾发生地和最近的消防站距离之间的关系。

上述几个例子都是研究两个变量之间的关系,它们的一个共同点是:两个变量之间有着密切的关系,但它们之间密切的程度并不能有一个变量唯一确定另一个变量,即它们之间的关系是一种非确定性的关系。那么它们之间到底有什么样的关系呢?下面将举例说明。 用下表1-1数据做出销售额数据与广告额数据之间的散点图,并对其做一元回归分析。

表 1-1 产品销售额与广告额数据

[1]

广告额(万元)

4894 4703 4748 5844 5192

产品销售额(万元) 广告额(万元)

6809 6465 6569 8266 7257

5511 6107 5052 4985 5576

产品销售额(万元)

7784 8724 6992 6822 7949

5086 7064 6647 9650

运用EXCEL 。得出销售额与广告额之间的散点图如下图 1-1所示:

图1-1 销售额与广告额的散点图

由图1所示的趋势线和回归方程和拟合的R 平方值得到销售额与广告额之间的一元回归直线方程为:

y =1.6324x -1223.9

(1-1)

拟合度为R 2=0.9979,其拟合度非常高,拟合效果好,因此,该方程可以用于解释销售额的变化和销售额的预测。如每增加1万元的广告额,销售额将会增加1.6324万元。

1.1 一元线性回归模型

通过以上例子我们看出它只考虑两个变量间的关系,即x 与y 间的线性关系可以看做

是回归模型的特例,那么我们就可以定义一元线性回归模型的数学形式如下:

y =β0+β1x +ε

(1-2)

称为变量y 对x 的一元线性理论回归模型。

其中,β0, β1 是未知参数,β0称为回归常数,β1称为回归系数,y 称为被解释变量(因变量),χ1, χ2, χp 是p 个可以精确测量并控制的一般变量,称为解释变量(自变量),ε是随机误差,且ε~N0, σ2

为了由样本数据得到回归参数β0和β1的理想估计值,使用普通最小二乘估计。 定义离差平方和为

ϑ(β0, β1)=∑

i =1n

()

(y i -β0-β1χi )

2

(1-3)

为寻找参数β0, β1的估计值β0, β1,定义的离差平方和达到最小,则满足

ϑ⎛ β0, β1

∧∧

∧∧

⎛⎫⎫=y -β-βχ⎪∑ i i 01⎪⎭

⎝⎭=min ∑(y -β-βχ)i 01i ββ

n i =1

n

2

2

,

1

i =1

(1-4)

⎧∂ϑ

对其分别求偏导数,并令其为零,则有⎪∂β0

⎨⎪∂ϑ⎪⎩∂β1

∧∧

⎛⎫

=-2y -β-β∧ ∑01χi ⎪=0i

β0=β0⎭i =1⎝

n ∧∧⎛⎫

∧=-2∑ y i -β0-β1χi ⎪χi =0β1=β1⎭i =1⎝

n

∧⎧∧β=-β⎪0

n

经整理其方程组得到β0, β1的最小二乘估计为⎪⎪x i -x y i -y ∑⎨∧

i =1

⎪β1=2n ⎪

x i -x ∑⎪i =1⎩

()(

)

∧∧

1n 1n

其中x =∑x i , y =∑y i 得到其回归直线y =β0+β1x

n i =1n i =1

1.2 一元线性回归模型的检验

(1)t 检验,其检验回归系数的显著性。原假设为H0:β1=0 对立假设是H1:β1≠0构造统计量为

t =

n

(1-5)

其中,

1n ⎛σ=∑n -2i =1

∧2

⎫y i -y i ⎪⎝⎭

2

⎫是σ2的无偏估计,L =⎛∑x i -x 当原假设成立时,其t xx

i =1

2

⎝⎪⎭

统计量服从自由度为n -2的t 分布,给定显著性水平α,当t ≥t α时接受H0,认为y 对x

2

的一元线性回归不成立。

(2)F 检验。H0:β1=0,根据平方和分解式

∑y i -y

i =1

n

()

2

⎛∧⎫

=∑y -y i ⎪

⎝⎭

n i =1

2

∧⎫⎛ (1-6) +∑y -y i ⎪ i

⎝⎭

n i =1

2

简写为SST =SSR +SSE 构造统计量F =

SSR 其中F 服从自由度为(1, n -2)的F 分布,给定显著性水平,当

-2

F >F 1, n -2)说明回归方程显著,x 对y 有显著的线性关系。 α(

1.3 一元线性回归模型举例

某快餐店已经在全国建立了多家分店。 其成功的重要经验之一就是:店要建在学校附近。在新建立一家分店之前,管理层需要对这个新店的年销售额做出估计, 这一估计用于确定新建餐馆的规模。管理人员认为, 设在某校园附近餐馆的年销售额与该学校的人数有关。初步的看法是,设在规模大、学生人数多的学校附近的餐馆的年销售额高于设在规模小、学生人数少的学校附件的餐馆的年销售额。为研究新餐馆的年销售额y 随当地学生人数x 的变化规律,该快餐店收集了它的10个坐落在校园附近的销售分店的年销售额与其所在地学生人数的数据,这些数据如表1-2

表1-2 10个分店的年销售额及分店驻地学生人数

餐馆序号i

1 2 3 4 5 6 7 8 9 10

学生人数(1000人)x i 年销售额(1000人)y i

2 6 8 8 12 16 20 20 22 26

58 105 88 118 117 137 157 169 149 202

图1-2 学生人数与餐馆年销售额关系散点图

譬如,对第一个分店,x i =2,y i =58表示该店坐落在有2000名学生的一所学校附近,年销售额为5800元;第二分店附近的一所学校有6000名学生,它的销售额达105000元;余类

推。

以学生人数为横轴,年销售额为纵轴,将观察结果组成的数据对(x i , y i )(i =1, 2,....., 10)在直角坐标系中描出相应的散点图。如图1-2,从图1-2可见,数据点大致落在一条直线附近,这显示x , y 这两个变量近似地就有线性关系。

设随机变量y 与变量x 之间存在某种线性相关关系,这里,x 是可以控制的(或可以观察的)变量,设

y =β0+β1x +ε; ε~N0, σ2 (1-7) 其中,ε称为随机误差。未知参数β0,β1,ε都不依赖于x ,式(1-1)称为一元线性回归模型。它描述了相依变量y (销售额)与一个独立变量x (学生人数)之间的线性关系。

按前述假设,(1-7)式等价于方程E(y )=β0+β1x ,该式表示当x 已知时,可以精确地算出数学期望E(y ),由于ε表示不可控制的随机因素,通常就用E(y )作为y 的估计值, 由样本得到(1-7)式β0,β1的估计β0,β1则方程

()

y =β0+β1x

∧∧∧

(1-8)

为y 关于x 的估计回归方程或回归方程,其图形称为回归直线,式中y 表示E(y )的估计。 系数β0,β1 采用最小二乘法计算,这里我们用matlab 的多项式拟合命令实现,其程序见附录1所示, 得β0=60. 00,β1=5. 00

因此,用最小二乘法求得的估计回归方程是:y =5x +60

回归直线如图1-2所示,可以看到它与所有的数据点都很接近。

如果有充足的理由相信这个方程真实地反映了x 与y 之间的关系。对于给定的x 的值,我们就能够预测出可以信赖的y 的值,譬如,若一个新建的分店坐落在一所16000名学生的学校附近,那么有:y =5⨯16+60=140

即,这家分店的年销售额会达到140000元。

变量x 与y 之间线性关系是统计意义上的,因此必须要对这种线性关系作统计检验。 假定x 与y 的回归具有E(y )=β0+β1x 的形式。如果变量x 与y 之间确有这样的关系,即变量x 的值对y 的值施加了影响,则β1不会为零。 因此,应该检验假设

H0:β1=0,H1:β1≠0,

(1)t 检验

⎛β,σ2⎫其中2

经推导可知,β1的估计β1服从正态分布,即′β1: 1∧⎪σ∧=β

∧∧

∧∧

σ2

1

β1

∑(x -x )

i =1

而σ得无

2

2

∧2

偏估计为σ=SSE , SSE 残差平方和,可以得出SSE =1530,故,σ2==191. 25

n -2

于是σ

中的估计量就是S 2=

∧β1

2

σ

n

i i =1

∧2

β1

∑(x -x )

=0. 3367,故可使用t 检验法对H 0进行检验,检验

统计量

t =

β1-β1

S ∧

β1

:t (n -2) (1-9)

当H 0为真时,β1=0此时t =β1:t (n -2)其的H 0拒绝域是:

S S

β1

β1

>t 1-α

β1

(n -2)

其中,1-α为显著性水平。当假设H0:β1=0被拒绝时,认为回归效果是显著的,反之,就认为回归效果不显著。

将表1-2中的数据带入,可以计算出S ∧=0.5803,且β1=5而对α=0. 01和自由度为

β1

n -2=8的条件下,可以计算出临界值t 0. 99(8)=3. 36现在

β1

S ∧

β1

=8.62>3.36,故在显著水

平1-α=0. 99下拒绝H 0,即认为β1≠0,认为回归效果是显著的。

(2)F 检验

在回归模型中只有一个独立变量的情况下t 检验和F 检验产生同样的结论。 也就是说,若用t 检验法拒绝了H 0,改用F 检验法同样会得到拒绝H 0的结论。当H 0为真时,统计量

∑y i -y

i =1

n

()

2

=∑

i =1

n

⎛⎫⎛⎫

+∑y -y y -y i ⎪ i i ⎪

⎝⎭⎝⎭

n i =1

2

2

简写为SST =SSR +SSE

其中F 服从自由度为(1, n -2)的F 分布,将表2的数据带人,可以计算得SSR =14200又知SSE =1530且n -2=8,所以通过计算可得F =74.2484对于α=0. 01,得出 F 1, 8)=11. 25861-α(

由于F ≥F 1-α(1, 8)成立,故拒绝H 0所获结论与t 检验相同。由次,我们有充分的理由相信方程y =5x +60 真实地反映了y 与x 之间的关系。

由以上可以看到,通过一元回归模型很好的解决的该快餐店的销售额估计,从而使其扩

大经营有依可循,能有效的避免决策失误,减少经济损失,增大经济效益.可以说线性回归模型在解决这类经济增长、预测问题上有很好的效果。[20]

2 多元线性回归模型的思想及其应用举例

2.1 多元线性回归的数学模型

设随机变量y 与一般变量χ1, χ2,..., χp 的线性回归模型为

y =β0+β1χ1+β2χ2+ βp χp +ε (2-1) 其中,β0, β1,..., βp 是p +1个未知参数,β0称为回归参数,β0, β1,..., βp 称为回归系数,

y 称为被解释变量(因变量),χ1, χ2, χp 是p 个可以精确测量并控制的一般变量,称为

解释变量(自变量),ε是随机误差,且

ε~N(0, σ2)

E(y )=β0+β1χ1+β2χ2+ βp χp (2-2) 为理论回归方程。

对一个实际问题,获得n 组观测数据χi 2, χi 2, χip ; y i (i =1, 2 n )则线性回归模型式可

()

⎧y 1=β0+β1χ11+β2χ12+ βp χ1p +ε1

y 2=β0+β1χ21+β2χ22+ βp χ2p +ε2

以表示为⎪ (2-3) ⎨

⎪y n =β0+β1χn 1+β2χn 2+ βp χnp +εn ⎩

写成矩阵形式为y =Xβ+ε其中

⎡ε1⎤⎡y 1⎤⎡β0⎤⎢ε⎥⎢y ⎥⎢β⎥2 ⎢1⎥ε=⎢⎥y =⎢2⎥ β=⎢ ⎥⎢ ⎥⎢ ⎥⎢⎥⎢⎥⎢⎥εβ⎢p ⎥⎣n ⎦⎣y n ⎦⎣⎦

(2-4)

⎡1χ11χ12 χ1p ⎤⎢1χ⎥χ χ21222p ⎥X=⎢⎢ ⎥⎢⎥1χχ χ⎢n 1n 2np ⎥⎣⎦

对于多元线性回归方程未知参数β0, β1,..., βp 的估计与一元线性回归方程的参数估计原理一样,采用最小二乘估计,即寻找β0, β1,..., βp 的估计值β0, β1, β2 βp 即离差平方和ϑ最

小。使其满足

ϑ⎛ β0, β1, β2, βp

∧∧∧∧⎛⎫⎫

⎪=∑ y i -β0-β1χi 1-β2χi 2- βχ⎪p ip ⎭

⎝⎭=min ∑y i -β0-β1χi 1-β2χi 2- βp χip ββββ

n i =1

n

2

, 1,

2

,

p

i =1

(

) (2-5)

2

∂ϑ∂ϑ∂ϑ, ,

对其分别求偏导数∂β0∂β1∂βp ,并令其为0,

n ∧∧∧∧⎧∂ϑ⎛⎫

⎪∂ββ0=β∧0=-2∑ y i -β0-β1χi 1-β2χi 2- βp χip ⎪=0

⎭i =1⎝0⎪

n ∧∧∧∧⎪∂ϑ⎛⎫=-2y -β-βχ-βχ- β∧ i ⎪∑01i 12i 2p χip ⎪χi 1=0

⎭i =1⎝⎪∂β1β1=β1

(2-6) n ∧∧∧∧⎪⎪∂ϑ⎛⎫

=-2∑ y i -β0-β1χi 1-β2χi 2- βp χip ⎪χi 2=0∧⎨

β2=β2∂β⎭i =1⎝2⎪

⎪ ⎪n ∧∧∧∧⎪∂ϑ⎛⎫

=-2y -β-βχ-βχ- βχ∧ ⎪χip =0∑i 01i 12i 2p ip ⎪∂ββp =βp

⎭i =1⎝p

⎪⎪⎩

⎫以上方程组经整理后,用矩阵形式表示的正规方程组X' ⎛ y -χβ⎪=0

移向得X' Xβ=X' y 当(X' X)-1存在时,即得回归参数的最小二乘估计为 β=(X' X)-1X' y 得出多元线性回归预测模型为y =β0+β1χ1+β2χ2+ βp χp

2.2 多元线性回归模型的检验

对于多元线性回归方程的显著性检验与一元线性回归方程的显著检验既有相同之处,也有不同之处。下面将介绍两种统计检验方法即F 检验和t 检验。

(1)F 检验,F 检验是对整个回归方程的显著性检验,为此提出原假设

H0:β1=β2= βp =0

为建立对H 0进行检验的F 统计量,利用总离差平方和的分解

⎛∧⎫⎛∧⎫ (2-7)

∑y i -y =∑ y i -⎪+∑ y i -⎪

⎝⎭⎝⎭

n i =1

()

22

2n n

i =1i =1

简写为SST =SSR +SSE 则F 统计量如下F =

SSR /p

SSE /n -p -1 在正态假设下,当原假设H0:β1=β2= βp =0成立时F 服从自由度为(p , n -p -1)的

F 分布,于是,可以利用F 统计量对回归方程的总体显著性进行检验。当F >F α(p , n -p -1)

时,拒绝原假设H 0,认为在显著性水平α下,y 与χ1, χ2, χp 有显著的线性关系即回归

方程是显著的,反之,当F ≤F 时,认为回归方程不显著。 α(p , n -p -1)(2)t 检验,t 检验是用来对每个回归系数是否有意义进行的检验。构造t 统计量

t

j

=

βj

c jj σ

(2-8)

其中c jj 是矩阵 (X' X)-1主对角线的第j 个元素,t j 服从自由度为(n -p -1)的t 分布。当给定显著性水平α,如果t j =t α(n -p -1)则认为χj 对y 有显著影响,否则认为其线性效果

2

不显著。

(3)R 检验,R 检验是用于检验回归方程对样本观测值的拟合程度,其计算公式为

∧⎫⎛

∑ y i -y i ⎪

∑y i -y i

n i =1

i =1

2

R =1-

2

(2-9)

复相关系数R 说明χ1, χ2,..., χp 这一组影响因素与y 的相关程度,值越接近1,说明利用多元线性回归的效果越好。

2.3 多元线性回归模型应用举例

2.3.1 研究问题的提出

水泥熟料的28d 强度在水泥生产中是一个关键性的指标,甚至可以说是水泥熟料质量好坏的结论性指标。由于其测量周期长,数据不能及时反馈给用户,同时企业又不能因为此项指标的缺失而拒绝发货,因此多数水泥企业出厂管理采用强度累计增长率即二元回归的方法预测水泥熟料强度。经过长期实践证明,累计增长率的方法确实可以作为预测水泥熟料强度的依据,但要做到水泥企业的精细化管理,其预测的准确程度还有待商榷。

影响水泥熟料强度的因素很多,如:矿物组成数量、化学成分、熟料的烧结状况、熟料矿物晶体的晶型等。累计增长率的方法完全忽略了这些关系,本文提及的多元回归分析强调化学成分与水泥熟料强度的关系,运用多元回归的方法预测水泥熟料的28d 强度。众所周知水泥熟料的水化产物主要有4种,分别为:C 3S 、C 2S 、C 3A 、C 4AF 。其中对水泥熟料

[22]

28d 强度起主要作用的是C 3S 和C 2S 、C 3A 、C 4AF 对水泥熟料的影响较大。水泥熟料的

强度是其矿物组成物理特性的表现,直接获取水泥熟料水化产物的含量比较困难,但其化学成分通过化学分析的方法却能得到较精确的结果,水泥熟料的化学成分能间接反映其水化产物。f -CaO 、MgO 是水泥熟料水化的有害成分,含量过高会影响水泥的安定性。因此本文选取水泥熟料中的CaO 、S iO 2、AL 2O 3、Fe 2O 3、Loss 、f -CaO 、MgO 化学成分的含量与水泥熟料28d 强度进行多元回归分析。

2.3.2 数据采集与多元回归分析

选取生产工艺状况比较稳定、熟料全分析及物检数据准确度符合分析、检验要求、并具有代表性的若干组检验数据作为回归分析基础数据,原始数据应不少于20 组。

在此采集千业水泥公司6、7 月份熟料检验结果列于附录表2-1

根据常规熟料化学分析项目,建立多元线性回归分析的数学模型如下:

Y =b +X 1⨯C +X 2⨯S +X 3⨯AL +X 4⨯Fe +X 5⨯Loss +X 6⨯f —CaO +X 7⨯M

式中:Y 为预测的熟料28d 抗压强度MPa ;C 、S 、A 、F 、Loss 、f -CaO 、M 分别表示熟料化学分析中CaO 、S iO 2、AL 2O 3、Fe 2O 3、Loss 、f -CaO 、MgO 的百分含量;b 、X1、X2、X3、X4、X5、X6、X7为待定系数。

2.3.3 EXCEL作回归分析确定待定系数的值

创建一个EXCEL 工作表,并将所采集的数据组熟料化学分析及物检数据输入表中。然后将光标移到b 列、回归系数行的单元格,单击“fx 粘贴函数”打开粘贴函数中的“函数分类(C )”选择其中“查找与引用”,在“函数名(N)”中选择“INDEX ”然后按“确定”,此时在编辑栏中出现“=INDEX()”。再在“=INDEX()”的括号内输入表格定位:(LINEST(I5:I30,B5:H30),8) ,此时编辑栏中显示=INDEX(LINEST(I5:I30,B5:H30),8) ,单击编辑栏的“√”即可得出b 的值。将光标移到x1下回归系数行的单元格,采用同样方法输入=INDEX(LINEST(I5:I30,B5:H30),7) ,,即可得出x1的数值,移动光标到相应系数下单元格,同样方法,只需将公式中最后一个数字依次改为“6、5、4、3、2、1”,即可依次得出

X1、X2、X3、X4、X5、X6、X7的值。

在EXCCEL 中可以方便地用所求公式对强度结果进行验算,将光标移到上面EXCCEL 工作表的单元格J5,单击后单击“fx 粘贴函数”打开粘贴函数中的“函数分类(C )”选择其中“全部”,在“函数名(N)”中选择“SUMPRODUCT ”然后按“确定”,此时在编辑栏中出现“=SUMPRODUCT()”。再在“=SUMPRODUCT()”的括号内输入:“B5:H5,C2:I2”,然后再加上b 即“+B2”,此时编辑栏中显示=SUMPRODUCT(B5:H5,C2:I2)+B2。单击编辑栏的“√”,即可得出6.17 的28d 抗压强度预测值见表2-1。

将光标移到单元格J5 的右下角,当其变为黑十字时,按下鼠标左键,向下拖至单元格J30,即可得出所有相应的28d 抗压强度预测值。将光标移到工作表的单元格K5,单击后在上方编辑栏内输入公式“J5-I5”即可得出6.17 的物理检测值和预测值的差,采用同样方法向下拖至单元格K30,即可得出所有相应的误差值。其统计分析结果见表2-1 其预测公式在SPSS 中选择工具一数据分析一回归,[9]其输出结果见下表2-2,以及附录表2-3

表2-2 系数表

模型 1

(常量) x1 x2 x3 x4 x5

非标准化系数 B

2.017 .687 .537 .878 -1.088 -1.497

标准系数 试用版

.953 .661 .399 -.364 -.780

标准误差

1.000 .011 .012 .026 .030 .021

t

2.017 61.450 45.534 34.349 -36.399 -71.426

Sig. .059 .000 .000 .000 .000 .000

x6

.126 .008 .170 14.897

.000 .000

x7 .477 .011 .509 44.921

将所有结果保留2位有效数字,则水泥熟料28d 强度预测公式(1)为:

y =2. 02+0. 67x 1+0. 53x 2+0. 87x 3-1. 10x 4-1. 50x 5+0. 13x 6+0. 48x 7

) (61. 450) (45. 534) (34. 349) (-36. 399) (-71. 426) (14. 897) (44. 921

式中:每个回归系数下面括号中的数值是与其互相对应的t 值. 其中y 为水泥熟料28d 强度

预测值,X 1~X 7分别代表水泥熟料中:CaO 、SiO 2、AL 2O 3、Fe 2O 3、Loss 、f -CaO 、MgO 元素的含量。由以上回归方程可以看出,它与EXCEL 所得到的回归系数值极匹配,所选取的回归方程准确性较好,在实际测量中结果也令人满意。 下面对模型进行检验。

(1)t 检验根据显著性水平α=0. 05,df =26-2=24,查t 分布表,得t α(24)=2. 064

2

通过统计软件计算处理得到

t b 1=61. 45>t α=2. 064

2

t b 2=45. 53>t α=2. 064

2

t b 4=36. 39>t α=2. 064

2

(2-10)

从以上可得三个回归系数的t 检验均通过,同理x 3, x 5, x 6, x 7检验通过,所选择的自变量是影响28d 强度的的主要因素。

(2)F 检验通过计算机得到F =1804. 741,P=0. 000根据显著性水平

α=0. 05,df 1=7,df 2=18,查F 分布表得F 0.05(7,18)=3.85,因为

F =1804. 741,P=0. 000,F =1804. 741>F 0.05=3. 85

所以,F 检验通过,表明回归方程的回归效果显著。x 1, x 2, x 3, x 4, x 5, x 6, x 7整体上对y 有高度显著的线性关系。

(3)复相关系数R =0. 999,决定系数R 2=0. 999,由决定系数看回归方程高度显著。

本文所得的回归经验公式是建立在生产工艺较稳定,化学分析结果和熟料强度有较好的线性相关关系的基础上。采用此方法,对焦作千业水泥有限责任公司2007年6月17日至2007 年7月16日期间生产较为正常的熟料28d 抗压强度进行了预测(见附录表2-1),与物检实际28d 抗压强度相比,其绝对强度误差最大值为-1. 0MP a ,绝对平均强度误差为0.438MP a ,相关性很好,并且以水泥熟料水化机理、矿物组成与其强度的关系为依据,强调水泥熟料中化学成分对其强度的影响,选用多元回归的分析方法,打破传统累计增长率的预测形式、预测模型更加科学,具有指导水泥生产配比调整的意义。 2.3.4 总结

在多元线性回归分析中,我们知道回归方程中所包含的自变量越多,那么回归平方和SSR 就越大,则剩余平方和SSE 就越小,一般情况下剩余标准差也随之减少,回归方程效

果越好,而精度也越高。[4]在“最优”回归方程中总希望包括尽可能多的自变量,特别是对因变量y 有显著影响的自变量不能遗漏。但回归方程所包括的自变量太多,也带来不利的一面,首先,若要求自变量多,则在预测时必须测定许多量,并且计算也不方便; 其次,如果在回归方程中包括有对因变量y 不起作用或作用极小的自变量,那么剩余平方和SSE 也不会由于自变量的增加而减少,相反由于SSE 的自由度的减少,反而使剩余标准差增大,这就影响回归方程的精度; 第三,由于存在着对因变量y 影响不显著的自变量,以致影响回归方程的稳定性,使预测效果下降。因而,在“最优”回归方程中,又希望不包括对因变量y 影响不显著的自变量。

综上所述,所谓最优回归方程,就是在回归方程中包括所有对因变量y 有显著影响的自变量,而不包括对因变量y 影响不显著的自变量的回归方程。最优回归方程的建立,是采取将自变量逐个引入的方法。引入自变量的条件是:该自变量的偏回归平方和经检验是所有自变量中最显著的。同时,每引入一个新变量后,要求对已引入的自变量逐个进行检验,将偏回归平方和变得不显著的自变量及时剔除。由于每步都作检验,因而保证了最后所建立的回归方程中所有自变量都是显著的。上述这种建立最优回归方程的理论和方法,称为逐步回归分析。

3 前进法、后退法、逐步回归法思想及其举例

3.1 前进法

前进法的思想是变量有少变多,每次增加一个,直至没有可引入的变量为止,具体做法是首先将全部m 个自变量分别对因变量y 建立m 个一元线性回归方程,并分别计算这m 个

11

一元回归方程的m 个回归系数的F 检验值,记为 F 1 ,选其最大值记为 , F 21 F m

{}

111 F 1 (3-1) j =max F 1, F 2 F m

{}

给定显著性水平α,若F 1为了方便,设x j 1, n -2),则首先将x j 引入回归方程,j ≥F α(就是x 1。

接下来因变量y 分别与(x 1, x 2), (x 1, x 3) (x 1, x m )建立m -1个二元线性回归方程,对这

2

,m -1个回归方程中x 2, x 3, x m 的回归系数进行F 检验,计算F 值,记为F 22, F 32, , F m

{}

选其最大者记为

2

F j 2=max F 22, F 32, , F m

{

} (3-2)

若F j 2≥F α(1, n -3),则接着将x j 引入回归方程。

以上述方法接着做下去,直至所有的未被引入方程的自变量的F 值均小于

F α(1, n -p -1)时为止。这时,得到的回归方程就是最终确定的方程。

[2]

每步检验中的临界值F α(1, n -p -1)与自变量数目p 有关,在用软件计算时,我们实际


相关文章

  • 多元统计分析在地学中的应用
  • 多元统计分析在地学中的应用 [摘要]多元统计分析是数理统计的一个重要分支.随着理论的完善和计算机技术的进步,被广泛应用解决地学问题.地学回归分析.判别分析.聚类分析以及主成分分析的应用,呈现出多样化发展,并成为解决地学问题的利器. [关键字]回归分析:判别分析:聚类分析:主成分分析:地学研究 1.引 ...

  • 多元回归分析方法应用实证分析与比较
  • 第28卷第9期2010年9月 文章编号:1004-3918(2010)09-1083-06 河南科学 HENANSCIENCE Vol.28No.9Sep.2010 多元回归分析方法应用实证分析与比较 白秀琴1,李瑞阁2 (1.平顶山工业职业技术学院,河南平顶山467001:2.南阳理工学院应用数学 ...

  • 实验数据数学建模方法研究
  • 邓燕萍, 等:实验数据数学建模方法研究 #19# 实验数据数学建模方法研究 邓燕萍, 周波, 刘玉君, 汪骥, 郭培军 (大连理工大学船舶工程学院, 辽宁大连116024) 估计在众多的回归模型中建立一个简单而又比较合 提 要 阐述了曲线估计的基本思想和多元线性回归的概念, 介绍一种利用二者相结合的 ...

  • 心理学研究方法1
  • [06059] 心理学研究方法自学考试大纲 自学用书:<心理学研究方法>,王重鸣主编,人民教育出版社2001年2月第2版 第一章 心理学研究方法的特点与发展 (一)识记 1.科学研究的特点2.科学研究的目的3.定性研究方法(1)个案分析法(2)文献综合法 4.信息论的定义5.控制论的定义 ...

  • 模型评估方法
  • 摘要 本文立足我国二线城市,从河南的省会城市郑州的市调公司满意度模型参数估计方法应用情况入手,结合实例,分析了二线城市常用的传统回归方法的应用与主成分回归方法的优势互补方案,同时,又深入浅出地介绍了目前技术已经比较成熟的结构方程模型和偏最小二乘法的基本原理及其应用. 笔者认为,在实际满意度研究过程中 ...

  • 实验8_多元线性回归分析与非线性回归分析
  • SAS 软件与统计应用实验徐雅静.汪远征编著实验 8多元线性回归分析与非线性回归分析多元线性回归分析研究多个变量的数量伴随关系,内容主要包括模型的假定与检验.参 数的估计与检验.回归诊断与预测. 很多非线性回归问题都可以转化为线性回归问题处理,如多项式回归.指数回归.对数 回归.幂函数回归等.8.1 ...

  • 公共卫生资料的种类和特点
  • 第九期流行病学应用与实践系列培训 公共卫生资料的种类和特点 控 防 预 病 疾 大纲 2015.5 西安 制 孙谨芳 [email protected] 中 公 室 2015年5月,陕西西安 国  公共卫生资料概述 中  流行病学研究数据的评价  公共卫生资料的分析 流  流行病学研究数据的 ...

  • 国民生产总值及物价指数与投资额的回归分析
  • 成 绩 评 定 表 课程设计(论文)任务书 数理统计是具有广泛应用的数学分支,而区间估计和假设检验问题在其中占有很重要的地位.对于正态总体期望和方差的区间估计和假设检验问题已有完备的结论:对于非正态总体期望和方差的区间估计和假设检验问题,在大样本的情况下,可利用中心极限定理转化为正态总体来解决.但实 ...

  • 椭圆形油罐中油料贮量测算实用方法
  • 椭圆形油罐中油料贮量测算实用方法 作者: 作者单位: 刊名: 英文刊名: 年,卷(期): 被引用次数:毕珍平, 韩八晓, 聂武军, Bi Zhen-ping, Han Ba-xiao, Nie Wu-jun内蒙古公路工程局,呼和浩特,010010内蒙古公路与运输HIGHWAYS & TRAN ...

  • 几种实验设计方法的比较
  • 几种实验设计方法的比较 *刘红波,陆刚,边宽江 (西北农林科技大学理学院,陕西杨凌712100) 摘要 实验方案的设计与选择对于实验人员来说起着至关重要的作用,分析比较了常用的正交设计.均匀设计.球面对称设计.二次回归通用旋转设计等方法的适用范围及优劣,以供实验人员选择适合自身实验的最优方案.关键词 ...

© 2024 范文中心 | 联系我们 webmaster# onjobs.com.cn