一、名词解释。
不同变量相关关系的机器学习算法——简单线性回归算法。
散点图可以表示两个变量之间的相关性。
回归分析:能让我们进一步用更精确的话来描述出两个变量之间的线性相关性。
二、线性相关计算方法:
相关系数:反应的是两个变量每单位的相关性程度。
线性相关性种类:正线性相关,负线性相关,不是线性相关。
线性相关性程度衡量标准:①两个变量的相关性方向。
②相关性大小表示两个变量每单位的相关性程度。
相关系数是标准后的协方差。
python计算相关系数的方法:
相关系数矩阵,代码如下:rDf=examDf.corr()
相关系数越高,相关性越强。
三、简单线性回归
线性回归计算方法:
最佳拟合线:线性回归的本质。
回归方程:y=a+bx,截距a,相关系数b,
python实现简单线性回归:sklearn包实现。
例如:通过学习时间预测考试成绩。
实现步骤:
1.提取特征和标签。
2.建立训练数据和测试数据。
3.使用训练数据创建模型(创建线性回归),通过fit函数训练模型。
model.fit(X_train , y_train)
4.通过训练模型,创建最佳拟合线,得出线性回归模型,存放在Mode中。
#训练数据的预测值
y_train_pred = model.predict(X_train)
#绘制最佳拟合线
plt.plot(X_train, y_train_pred, color='black', linewidth=3, label="best line")
y_train_pred = model.predict(X_train)
5.使用测试数据评估模型的准确度。
决定系数r平方作用:①能表示回归线的拟合程度。(有多少百分比的Y波动可以由回归线来描述x的波动变化。)
②值大小。(R平方越高,回归模型越精确。)
python的实现方法:model.score(X_test,y_test)
评估模型通过model的score方法得到的是决定系数R平方。
总结:1.最佳拟合线的创建是通过训练特征值得出预测标签值获取。
2.测试数据是用来评估通过训练数据创建的模型的准确度。