300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > R语言构建多元线性回归模型预测汽车的耗油效率

R语言构建多元线性回归模型预测汽车的耗油效率

时间:2021-01-18 23:39:12

相关推荐

R语言构建多元线性回归模型预测汽车的耗油效率

目录

确定研究目的以及确定因变量和自变量

数据预处理

缺失值处理

异常值处理

估计回归模型参数,建立模型

判断数据是否满足多重线性回归假设条件

(1)、线性

(2)、独立性

(3)、正态性

(4)、方差齐性

(5)、消除异方差

对模型进行回归检验

预测

确定研究目的以及确定因变量和自变量

研究目的:建立多元线性回归模型,预测汽车的耗油效率 MPG。本次实验的 basic 数据集包含 1 个因变量(mpg)和 5 个自变量(cylinders, displacement, horsepower, weight, acceleration)。其变量名称含义如下

数据预处理

缺失值处理

发现存在两个缺失值,并且定位缺失值位置,因缺失值较少,用对应序列平均值填充

异常值处理

通过箱型图发现存在异常值,因为数据较为集中,不能直接删除异常值,通过盖帽法对异常数据替换。

输出异常值

查询是否还有异常值,发现acceleration列还存在异常值,再次盖帽,发现无法盖帽替换异常值,最终通过删除异常值解决

估计回归模型参数,建立模型

将所有的参数代入建立模型,得到系数矩阵,仅有horsepower以及weight通过t检验,故只保留这两参数。

仅保留horsepower和weight建立模型,horsepower和weight均通过t检验最终得到的模型为Y=39.94+-0.023X1+-0.005X2(X1为horsepower,X2为weight)

判断数据是否满足多重线性回归假设条件

(1)、线性

观察horsepower与mpg的线性回归关系,相关程度为-8.03呈现强负相关关系

观察weight与mpg的线性回归关系,相关程度为-0.889呈现强负相关关系

(2)、独立性

两个观察值之间相互独立,通过【德宾-沃森】进行分析,一般来说 Durbin

Waston 检验值分布在 0-4 之间,越接近 2,观察值相互独立的可能性越大。DW值为1.0393接近于2并且p值<0.01,有理由认为观察值相互独立

(3)、正态性

结果展示,可以得知近似正态性,标准化残差的正态概率图,近似 一条直线,符合正态分布。

(4)、方差齐性

出来结果如下,由于 P 值<0.05,所以拒绝零假设,误差方差为异方差

(5)、消除异方差

稳健估计方法

NeweyWest()函数可以进行异方差和自相关稳健性Newey—West估计

稳健估计的结果

加权最小二乘方法

加权线性回归

方差齐性

结果分析,由于 P 值>0.05,所以选择零假设,误差方差不变,没有异方差的

存在

对模型进行回归检验

(1)模型拟合效果

自变量对因变量的解释程度可用 R^2(决定系数)来衡量。决定系数取值在 0-1

之间,R^2 越大模型拟合程度越高。本模型中 R^2=0.7815,即解释程度很高。

(2)回归模型显著性检验

对回归模型进行假设检验一般使用方差分析法(F 检验)

方差分析结果:F=577.7,p 值<0.05。所以模型具有统计学意义。

(3)回归系数显著性检验

对回归系数进行假设检验一般使用 t 检验方法。

t 检验结果:截距项和 x 因素的 p 值小于 0.05,具有统计学意义

预测

总结

新人博主,有什么不对的地方还望指正,谢谢大家

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。