3.2回归分析(1)
教学目标
(1)通过实例引入线性回归模型,感受产生随机误差的原因;
(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法; (3)能求出简单实际问题的线性回归方程. 教学重点,难点
线性回归模型的建立和线性回归系数的最佳估计值的探求方法. 教学过程 一.问题情境
1. 情境:对一作直线运动的质点的运动过程观测了8次,得到如下表所示的数据,试估计
当x=9时的位置y的值. 时刻x/s 位置观测值y/cm 3 5 8 6 7 1 2 4 5.54 7.52 10.02 11.73 15.69 16.12 16.98 21.06 根据《数学3(必修)》中的有关内容,解决这个问题的方法是: 先作散点图,如下图所示:
从散点图中可以看出,样本点呈直线趋势,时间x与位置观测值y之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数
nxiyinxyi1公式, bn22xin(x)i1aybx可以得到线性回归方为y3.53612.1214x,所以当x9时,由线性回归方程可以估计其位置值为y22.6287
2.问题:在时刻x9时,质点的运动位置一定是22.6287cm吗?
二.学生活动
思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映x与y之间的关系,y的值不能由x完全确定,它们之间是统计相关关系,y的实际值与估计值之间存在着误差. 三.建构数学
1.线性回归模型的定义:
我们将用于估计y值的线性函数abx作为确定性函数;
y的实际值与估计值之间的误差记为,称之为随机误差;
将yabx称为线性回归模型. 说明:(1)产生随机误差的主要原因有:
①所用的确定性函数不恰当引起的误差; ②忽略了某些因素的影响; ③存在观测误差.
(2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理(这个问题在下一节课解决); ②在模型合理的情况下,如何估计a,b? 2.探求线性回归系数的最佳估计值:
对于问题②,设有n对观测数据(xi,yi)(i1,2,3,,n),根据线性回归模型,对
于每一个xi,对应的随机误差项iyi(abxi),我们希望总误差越小越好,即要使
i1n2i越小越好.所以,只要求出使Q(,)(yx)iii1n2取得最小值时的,
值作为a,b的估计值,记为a,b.
注:这里的i就是拟合直线上的点xi,abxi到点Pixi,yi的距离. 用什么方法求a,b?
回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求a,b的方法:
最小二乘法.
利用最小二乘法可以得到a,b的计算公式为
n(xix)(yiy)i1bn2(xix)i1aybxxyininxy2xi1i1n,
2in(x)1n1n其中xxi,yyi
ni1ni1由此得到的直线yabx就称为这n对数据的回归直线,此直线方程即为线性回归方程.其中a,b分别为a,b的估计值,a称为回归截距,b称为回归系数,y称为回归值.
在前面质点运动的线性回归方程y3.53612.1214x中,a3.5361,b2.1214. 3. 线性回归方程yabx中a,b的意义是:以a为基数,x每增加1个单位,y相应
地平均增加b个单位; 4. 化归思想(转化思想)
在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式. (1)yabb1,令y'y,x',则有y'abx'. xx (2)yax,令y'lny,x'lnx,a'lna,则有y'a'bx'. (3)yae,令y'lny,x'x,a'lna,则有y'a'bx'. (4)yae,令y'lny,x'bxbx1,a'lna,则有y'a'bx'. x (5)yablnx,令y'y,x'lnx,则有y'abx'.
四.数用 1.例题:
例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数. 1949 1954 1959 19 1969 1974 1979 1984 19 1994 1999 人口数/百万 542 603 672 705 807 909 975 1035 1107 1177 1246 年份 解:为了简化数据,先将年份减去1949,并将所得值用x表示,对应人口数用y表示,得到下面的数据表: x 5 10 15 20 25 30 35 40 45 50 0 y 542 603 672 705 807 909 975 1035 1107 1177 1246 作出11个点x,y构成的散点图,
由图可知,这些点在一条直线附近,可以用线性回归模型
yabx来表示它们之
间的关系.
根据公式(1)可得
b14.453, a527.591.这里的a,b分别为a,b的估 计值,因此线性回归方程 为y527.59114.453x
由于2004年对应的x55,代入线性回归方程y527.59114.453x可得,即2004年的人口总数估计为13.23亿. y1322.506(百万)
例2. 某地区对本地的企业进行了一次抽样调查,下表是这次抽查中所得到的各企业
的人均资本x(万元)与人均产出y(万元)的数据: 人均 资本 x/万元 3 4 5.5 6.5 7 8 9 10.5 11.5 14 人均 产出 4.12 4.67 8.68 11.01 13.04 14.43 17.50 25.46 26.66 45.20 y/万元 (1)设y与x之间具有近似关系yax(a,b为常数),试根据表中数据估计a和b的值;
(2)估计企业人均资本为16万元时的人均产出(精确到0.01).
分析:根据x,y所具有的关系可知,此问题不是线性回归问题,不能直接用线性回归
方程处理.但由对数运算的性质可知,只要对yax的两边取对数,就能将其转化为线性关系.
解(1)在yax的两边取常用对数,可得lgylgablgx,设lgyz,lgaA,
bbblgxX,则zAbX.相关数据计算如图327所示.
A B 3 C 4 D 5.5 E 6.5 F 7 G 8 H 9 I 10.5 J 11.5 人均资1 本x/万元 人均产2 出y/万元 4.12 4.67 8.68 11.01 13.04 14.43 17.5 25.46 26.66 43 Xlgx 0.47712 0.60206 0.74036 0.81291 0.8451 0.90309 0.95424 1.02119 1.0607 1.14 zlgy 0.6149 0.66932 0.93852 1.04179 1.11528 1.15927 1.24304 1.40586 1.42586 1.6
A0.2155,bA仿照问题情境可得A,b的估计值,分别为由lga0.2155可得
b1.5677,a0.6088,即a,b的估计值分别为0.6088和1.5677.
(2)由(1)知y0.6088x1.5677.样本数据及回归曲线的图形如图328(见书本P102
页)
当x16时,y0.6088161.567747.01(万元),故当企业人均资本为16万元时,人均产值约为47.01万元. 2.练习:P104练习第1题. 五.回顾小结:
1. 线性回归模型yabx与确定性函数yabx相比,它表示y与x之间是统计
相关关系(非确定性关系)其中的随机误差提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a,b的工具;
2. 线性回归方程yabx中a,b的意义是:以a为基数,x每增加1个单位,y相应
地平均增加b个单位; 3.求线性回归方程的基本步骤. 六.课外作业:P106第2题.