您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

机器学习实战及Python实现——线性回归

2023/9/21 10:19:17发布23次查看
线性回归是个较大的模型算法家族,该算法是用来进行预测连续值的一种方法。本篇将会介绍几种常见的线性回归算法,使用范围,一般步骤及python实现等内容。
1、线性回归基本概念及公式
线性回归常用的有简单线性回归、局部加权线性回归、岭回归和lasso回归等模型。
(1)简单线性回归
其中比较基础的是简单线性回归,其公式如下:
简单线性回归方程
该公式中关键就是求解权重,如果x矩阵满足满秩,可以用最小二乘法进行求解,其具体公式为:
权重求解公式
(2)局部加权线性回归
局部加权线性回归,是在简单线性回归的基础上,提出一个假设条件,认为与预测点距离越近对其影响越大,其影响权重是指数函数:
局部加权权重公式
针对局部加权线性回归的权重计算公式为:
局部加权权重求解公式
其中,k指取值越小将会导致模型过拟合。
(3)岭回归
岭回归是因为矩阵不可逆,或特征数大于样本数的情况下,提出对简单线性回归修正的方法。其权重求解公式为:
岭回归权重求解公式
之所以称为“岭”,是因为i是对角线为1的单位矩阵,除对角线外其他都是0。需要注意的是第一项也为0,因为它是常数项。
其实,岭回归是l2范数正则化,等同于其损失函数公式为:
损失函数l2正则化
(4)lasso回归
lasso回归是限定了所有权重之和,如果限定较小值,将会导致某些项的权重为0,以此实现“缩减”系数。
lasso权重限定
该回归算法,相当于l1范数正则化。
l1范数正则化
求解该回归算法的权重一般用向前逐步回归,计算量较大。
2、回归算法优缺点
简单线性回归:计算简单,容易理解,但容易产生过拟合或欠拟合现象,受特征相关性影响较大。
局部加权回归:计算精度提升,但由于是有超参数,需要设定k值。其中k需要选择合适,才能有较好的结果。
岭回归:能够有效抗过拟合,是通过对不重要特征赋予较小权重来实现。
lasson回归:能够有效抗过拟合现象,并能够对不重要的特征进行稀疏处理,可解释性较强,能够有效选择关键特征。但该算法计算量较大。
3、回归实施步骤
回归算法的主要步骤有:
(1)对数据进行归一化处理;
(2)选择合适的参数k或λ;
(3)通过权重求解公式或梯度下降法进行计算;
(4)根据权重结果评估性能,选择合适权重作为最优结果;
(5)得出回归方程公式,对未知样本进行预测。
4、python实现
【样本说明】
本次使用的是uci中的鲍鱼数据集,根据其性别、重量、长度等特征来预测其年龄。该样本共有4777个,9个特征属性,分别是性别、长度、直径、高度、总重量、剥壳重量、内脏重量、壳重、环的数量等。
【python代码】
python代码
5、学习心得
通过对线性回归的学习,有几处细节需要重点关注。
(1)偏差与方差关系
偏差是指模型在训练集上的误差,而方差是模型运用到其他数据集的产生误差,也就是泛化能力。如图,上曲线是预测误差,下曲线为训练误差。一般训练误差会随着模型的复杂程度增加而降低,也就是会导致过拟合。而高方差则表示其泛化能力比较弱,因此对于模型应该综合考虑。
方差与偏差
(2)局部加权线性回归中的k值,
一般k值较小,则与其较近点的影响越大,越容易导致过拟合现象,产生低偏差高方差的效果。因此k值在选择适合可通过交叉验证。
(3)岭回归的λ值
λ的值越大,对权重的惩罚越严重,最终会导致所有权重趋于0.如图所示
λ值对权重的影响
(4)岭回归与lasso回归
两则区别不仅在正则化选择范数不同,其计算量相差也较大。lasso回归一般通过向前逐步回归,迭代次数较大时,其权重将会稳定下来。另外,lasso回归也会导致权重稀疏性,该属性能够有效识别出最重要的特征。
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product