当前位置:首页 > 学习资源 > 讲师博文 > 机器学习常用算法之线性回归

机器学习常用算法之线性回归 时间:2024-01-16      来源:华清远见

线性回归已经存在了200多年,并且已经进行了广泛的研究。 如果可能的话,使用这种技术时的一些经验法则是去除非常相似(相关)的变量并从数据中移除噪声。 这是一种快速简单的技术和良好的一种算法。

1、对于回归的理解

回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型、连续性而定义的。顾名思义,分类算法用于离散型分布预测,如KNN、决策树、朴素贝叶斯、adaboost、SVM、Logistic回归都是分类算法;

回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。

回归的目的就是建立一个回归方程用来预测目标值,回归的求解就是求这个回归方程的回归系数。预测的方法当然十分简单,回归系数乘以输入值再全部相加就得到了预测值。

2、回归的定义

回归最简单的定义是,给出一个点集D,用一个函数去拟合这个点集,并且使得点集与拟合函数间的误差最小,如果这个函数曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归。

3、线性回归方程的求解

假设有连续型值标签(标签值分布为Y)的样本,有X={x1,x2,…,xn}个特征,回归就是求解回归系数θ=θ0, θ1,…,θn。那么,如果有一些X和对应的Y,怎样才能找到θ呢?

在回归方程里,求得特征对应的最佳回归系数的方法是最小化误差的平方和,这里的误差是指预测y值和真实y值之间的差值,采用平方误差(最小二乘法)。平方误差可以写做:

4、线性回归的优化方法:最小二乘法

一般情况下为什么要用最小二乘法作为性能度量而不是最小绝对值法(最小一乘法)?

首先最小二乘法不永远是最优的方法。对于一般情况下我们认为最小二乘法为较优的度量方式;

两者的定义公式为:

相比于最小绝对值法,最小二乘法有以下的优点:

1、最优解唯一。 对于最小二乘法而言,只要自变量不是多重共线性的,解就是唯一的。但是对于最小绝对值法却不是固定的。举例而言,如果我们没有任何自变量(x),而只用截距去回归。最小二乘法会用平均值作为预测值,而最小绝对值法会得出中位数,而中位数往往是不唯一的。例如当数据是两个点:0和2时,最小二乘法会用1作为预测值,但是最小绝对值法会用0~2的任意值作为预测值。

2、求解方便。 对于最小二乘法而言,由于误差项是处处可导而且导数连续的,所以我们可以写出求解的等式。但是对于最小绝对值法而言,由于在原点不可导,所以求解会比较复杂。而且由于导数相对恒定(正误差始终为1,负误差始终为-1),所以最小绝对值法求解也会有导数过大的问题。

3、有好的解析性质。 最小二乘法在正态分布假设下可以用极大似然估计(MLE)解释,也可以证明解是最优线性无偏估计。

5、回归损失函数

是定义在单个样本上的,是指一个样本的误差,度量模型一次预测的好坏。

5.1平方损失函数(quadratic loss function)

    是MSE的单个样本损失,又叫平方损失(squared loss) 是指预测值与实际值差的平方。有时候为了求导方便,在前面乘上一个1/2。

5.2 绝对(值)损失函数(absolute loss function)

   是MAE单个样本损失,又叫绝对偏差(absolute Loss)该损失函数的意义和上面差很少,只不过是取了绝对值而不是求平方和,差距不会被平方放大。

   

   5.3 对数损失函数(logarithmic loss function)

    又称对数似然损失函数(loglikelihood loss function)这个损失函数就比较难理解了。事实上,该损失函数用到了极大似然估计的思想。

P(Y|X)通俗的解释就是:在当前模型的基础上,对于样本X,其预测值为Y,也就是预测正确的几率。由概率乘法公式可得,概率之间可以相乘,为了将其转化为加法,我们将其取对数。最后由于是损失函数,所以预测正确的概率越高,其损失值应该是越小,因此再加个负号取个反。

 

最后总结两点:

第一点就是对数损失函数很是经常使用。logistic回归,softmax回归等都用的是这个损失。

第二点就是对于这个公式的理解。这个公式的意思是在样本x在分类为y的状况下,咱们须要让几率p(y|x)达到最大值。就是利用目前已知的样本分布,找到最有可能致使这种分布的参数值。

上一篇:分享一些通用的Makefile文件模板

下一篇:Java8中Clock的使用

戳我查看2020年嵌入式每月就业风云榜

点我了解华清远见高校学霸学习秘籍

猜你关心企业是如何评价华清学员的

干货分享
相关新闻
前台专线:010-82525158 企业培训洽谈专线:010-82525379 院校合作洽谈专线:010-82525379 Copyright © 2004-2024 北京华清远见科技发展有限公司 版权所有 ,京ICP备16055225号-5京公海网安备11010802025203号

回到顶部