300字范文 > python相关性分析模型_Python多元线性回归模型 python

python相关性分析模型_Python多元线性回归模型 python

时间：2023-08-19 18:13:34

只是python代码方便以后调用，理论部分需要看其他人的

回归模型的预测

import matplotlib

import matplotlib.pyplot as plt

import pandas as pd

import numpy as np

import seaborn as sns

import statsmodels.api as sm

from sklearn import model_selection

from scipy.stats import f

from scipy.stats import norm

font = {

'family': 'FangSong',

'weight': 'bold',

'size': 12

}

matplotlib.rc("font", **font)

Profit = pd.read_excel("../data/Predict to Profit.xlsx", names=list("abcde"))

'''

RD_Spend 49 non-null float64

Administration 49 non-null float64

Marketing_Spend 49 non-null float64

State 49 non-null object

Profit 49 non-null float64

'''

print(Profit.shape)

# 将数据拆分成训练集和测试集

train, test = model_selection.train_test_split(Profit, test_size=0.2, random_state=1234)

# 根据train数据集建模

model = sm.formula.ols('e ~ a+b+c+C(d)', data=train).fit()

# 删除test集中的Profit变量，用剩下的自变量进行预测

test_X = test.drop(labels='e', axis=1)

pred = model.predict(exog=test_X)

# 对比预测值和实际值的差异

print(pd.DataFrame({

'pred': pred,

'real': test.e

}))

模型的显著性检验 F检验

# 计算建模数据中因变量的均值

ybar = train.e.mean()

# 统计变量个数和观测个数

p = model.df_model # 变量个数

n = train.shape[0] # 观测个数

# 计算回归离差平方和

RSS = np.sum((model.fittedvalues - ybar) ** 2)

# 计算误差平方和

ESS = np.sum((train.e - model.fittedvalues) ** 2)

# 计算F统计量的值

F = (RSS/p)/(ESS/(n - p - 1))

# 直接得到F统计量值

F1 = model.fvalue

print(F)

# 对比结果下结论

# 计算F分布的理论值

F_Theroy = f.ppf(q=0.95, dfn=p, dfd=n-p-1)

print(F_Theroy)

回归系数的显著性检验 t检验

print(model.summary())

P>|t|的值小于0.05才有用

回归模型的诊断

①误差项ε服从正态分布

误差项服从正太分布，就是要求因变量服从正态分布

绘制直方图

sns.distplot(a=Profit.e, bins=10, norm_hist=True, fit=norm,

hist_kws={'color': 'steelblue'},

kde_kws={'color': 'black', 'linestyle': '--', 'label': '核密度图'},

fit_kws={'color': 'red', 'linestyle': ':', 'label': '正态密度曲线'})

plt.legend()

# 显示图形

plt.show()

②无多重共线性

关于多重共线性的检验可以使用方差膨胀因子VIF来鉴定，如果VIF大于10，则说明变量间存在多重共线性；如果VIF大于100,则表名变量间存在严重的多重共线性如果发现变量之间存在多重共线性的话，则可以考虑删除变量或重新选择模型

# 导入statsmodel模块函数

from statsmodels.stats.outliers_influence import variance_inflation_factor

# 自变量X(包含RD_Speed、Marketing_Speed和常数列1)

X = sm.add_constant(Profit.ix[:, ['a', 'c']])

# 构造空的数据框，用于存储VIF值

vif = pd.DataFrame()

vif['features'] = X.columns

vif['VIF Factor'] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]

print(vif)

③线性相关性

高度相关:|p| >= 0.8

中度相关:0.5 <= |p| <0.8

弱相关:0.3 <= |p| < 0.5

几乎不相关:|p| < 0.3