机器学习-创建岭回归器

168 阅读 0 评论 111 点赞

我是靠谱客的博主健忘中心，这篇文章主要介绍机器学习-创建岭回归器，现在分享给大家，希望可以做个参考。

线性回归的主要问题是对异常值敏感。在真实世界的数据收集过程中，经常会遇到错误的度量结果。而线性回归使用的是普通最小二乘法，其目标是使平方误差最小化。这时，由于异常误差的绝对值很大，因此破坏整个模型。普通最小二乘法在建模的时候会考虑每个数据点的影响，为了避免这个问题，我们引入正则化项的系数作为阈值来消除异常值的影响。这个方法被称为岭回归。

#打开文件，获取数据
import sys
import numpy as np
import sklearn.metrics as sm
from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
X = []
y = []
f = open('E:MachineLearningCodeBookdata_multivar.txt', 'r')#打开文件
lines = f.readlines()     #一次性按行把所有数据读取出来
for line in lines:       #逐行读取文件
    #print(line)          #打印一行数据
    data = [float(i) for i in line.split(',')]#逗号分隔字段，并将字段转化为浮点数
    xt ,yt = data[:-1], data[-1]
    X.append(xt)
    y.append(yt)
#划分数据为训练集与验证集
num_training = int(0.8*len(X))
num_test = len(X) - num_training
#训练数据,80%的数据是训练数据
X_train = np.array(X[:num_training]).reshape(num_training, 3)
y_train = np.array(y[:num_training])
#测试数据，20%的数据是测试数据
X_test = np.array(X[num_training:]).reshape(num_test, 3)
y_test = np.array(y[num_training:])
#训练模型
ridge_regressor = Ridge(alpha=0.01, fit_intercept=True,max_iter=10000)#alpha参数控制回归器的复杂度
ridge_regressor.fit(X_train, y_train)
y_test_predict = ridge_regressor.predict(X_test)
#计算回归准确性
print('Mean absolute error = ', round(sm.mean_absolute_error(y_test, y_test_predict)), 2)
print('Mean squared error = ', round(sm.mean_squared_error(y_test, y_test_predict)), 2)
print('Median absolute error = ', round(sm.median_absolute_error(y_test, y_test_predict)), 2)