应用回归分析(知识点整理)(一)
一、回归分析概述 1、回归分析、相关分析的联系与区别
联系:回归分析与相关分析都是研究变量间关系的统计系课题。
区别:
(1)在回归分析中,变量y为因变量;在相关分析中,y与
文章目录 一、回归分析概述 1、回归分析、相关分析的联系与区别 联系:回归分析与相关分析都是研究变量间关系的统计系课题。 区别: (1)在回归分析中,变量y为因变量;在相关分析中,y与x处于平等的地位。 (2)在回归分析中,y是随机变量,x可以是随机变量也可以是非随机的确定变量; 在相关分析中,y与x均为随机变量 (3)回归分析不仅解释了自变量x对因变量y的影响大小,还可以由回归方程进行回归与预测 相关分析主要是为了刻画两类变量间的线性相关的密切程度 2、建模的基本步骤 实际问题——确立指标变量——收集分析数据——构造理论模型——参数估计——统计诊断——模型应用 二、一元线性回归 1、模型的基本假设 通常一元线性回归模型的线性形式为:y=a+bx+c, 其中a和b是未知参数,a是回归常数,b是回归系数,c表示为其它随机因素的影响(误差项) (1)误差项c一般满足等方差及不相关条件(高斯马尔科夫条件): E(c(i))= 0 ; i=1,2,3……n var(c(i))= s^2 ; i=1,2,3……n cov(c(i),c(j)) = 0 ; i 和 j不相等 ; i=1,2,……n ; j=1,2……n (2)因变量y和误差项c是都是相互独立的随机变量,自变量x则非随机变量,是确定性变量,其值可以精确测量和控制 (3)为了方便对参数进行区间估计和假设检验;通常假定误差项服从正态分布:c(i)~N(0,s^2) ; i=1,2,3……n 误差项c服从正态分布,进一步的随机变量y也服从正态分布:y(i)~N(a+bx(i),s^2) ; i=1,2,3……n 2、参数估计方法(思想应用分析,性质(最小二乘和极大似然估计)) 最小二乘法: 对每一个得到的样本观测值(x,y),最小二乘法考虑观测值y(i)与其回归值E(y(i))=a+bx(i)的离差越小越好。 即Q(a,b)=sum(y(i) - a-bx(i))^2 ; sum表示i=1到n的累加 找到最小离差平方和min(Q),此时对应的a,b即为我们所求的最小二乘估计回归参数,记为A,B。 其中称y(i)-y为y(i)的残差,记为e(i) 则得到的残差平方和为sum(e^2(i)) = sum(y(i)-A-Bx(i))^2 对min(Q)通过微积分求极值的方法得到a,b的最小二乘估计为: 极大似然估计: 最小二乘估计性质: (1)线性 即A,B为随机变量y(i)的线性函数 (2)无偏性 (3)A,B的方差 3、模型诊断(回归方程检验、回归系数检验、相关系数检验) t检验 t检验用于检验回归系数的显著性,检验的原假设为 H0 :B = 0 回归系数的显著性检验就是检验自变量x对因变量y的影响程度是否是显著,若原假设成立,则因变量y与自变量x之间没有线性关系,即自变量x的变化对因变量y并无影响。 接受原假设,则表明一元线性回归不成立;反之则成立 F检验 F检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。 平方和分解式为:SST = SSR + SSE 其中SST为总离差平方和;SSR为回归平方和;SSE为残差平方和。 在建立了y对x的一元线性回归方程后,SST就分解为SSR与SSE,其中SSR是由自变量x的波动引起的,SSE则是由未加控制的因素引起的;即能由自变量解释的部分为SSR,不能由自变量解释的部分为SSE,因此,SSR越大则证明回归方程效果越好。 相关系数的显著性检验 一元线性回归方程描述的是变量x与变量y之间的线性关系,所以可以用x与y之间的线性相关系数检验方程显著性。 4、预测(单点、区间、均值) 单值预测 即建立回归方程后,已知确定一点x0,y0 = a+bx0 区间预测 (置信度默认95%) 从上述证明过程中,可以看到,样本量n越大,则置信区间长度越短,此时预测精度高; 在进行预测中,x0不能偏离x的平均值太大,会影响测量结果 均值预测 (编辑:通辽站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |