1. 多变量线性回归(Linear Regression with Multiple Variables)
Last updated
Was this helpful?
Last updated
Was this helpful?
目前为止,我们探讨了单变量/特征的回归模型,现在我们对房价模型增加更多的特征,例如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为的变化情况大体如下图所示:
贴一张直观点的图
对于梯度下降何时收敛,我们进行自动收敛测试,也就是用一种算法,告诉你这个梯度下降算法何时收敛,举一个例子,如果J(θ)小于某些阈值,比如0.001、0.01、0.1等时,可以判断梯度下降算法收敛,但是这个阈值很难决定用哪些。
举例,还是房价问题
所以,灵活利用特征的特征很重要
上例给出数据集如下:
根据函数图形特性,我们还可以使:
或者:
以期达到这样的效果:
上例总结如下:
如果我们采用多项式回归模型,特征的归一化是必要的,这样才能使数据变得有可比性。
某些时候用正规方程是更好的解决方案;如下图:假设这是一个关于实数θ的二次函数J(θ)
那么我们最小化这个二次函数的方法是对它求导,令导数=0之后求出的就是令J(θ)最小的θ值。
推导过程
所以有:
梯度下降与正规方程的比较:
梯度下降
正规方程
不需要
需要多次迭代
一次运算得出
适用于各种类型的模型
只适用于线性模型,不适合逻辑回归模型等其他模型
随着我们要讲的学习算法越来越复杂,例如,当我们讲到分类算法,像逻辑回归算法,我们会看到,实际上对于那些算法,并不能使用标准方程法。
。
![]()
}=3,x{3}^{\left( 2 \right)}=2](
多维特征的假设表示为:}=1]({0}^{(i)}=1),那么上式就可以转换为
如图所示,我们假设$\theta_0$项乘以一个$x_0$,那么,常数参数$\theta_0$, $\theta_1$...可以看作是一个向量$\theta$ ,那么看图,梯度下降算法的第二项中被框起来的部分,可以看作是求以向量$\theta$为参数的代价函数的偏导数
即:
最简单的方法是令:,其中 是平均值,是标准差。
所以,还是看J(θ)的变化曲线,并且这个曲线也可以提前报告于你这个算法的运行情况,参考上图的描述,改变α,课程中α的值给的例子是
假设h(θ)如下,![h{\theta}\left( x \right)={\theta{0}}+{\theta{1}}\times{frontage}+{\theta{2}}\times{depth}]()
注意frontage和depth,这两个特征其实可以化成一个特征,即把这两个相乘为面积(),那么假设h(θ)为:
={\theta{0}}+{\theta{1}}area)
对于这段数据,我们可以给出二次模型来拟合,但是二次函数曲线在size(即area)达到一定数值后就回下降,这显然不符合常理,所以,可以使用三次函数:![h{\theta}\left( x \right)={\theta{0}}+{\theta{1}}{x{1}}+{\theta{2}}{x{2}^2}+{\theta{3}}{x{3}^3}]()
![{\theta}}(x)={{\theta }{0}}\text{+}(size)+]()
![{\theta}}(x)={{\theta }{0}}\text{+}(size)+\sqrt{size}]()
![\theta =X \right)}^{-1}}{X^{T}}y]() 的推导过程:
![]() 其中:![]()
将向量表达形式转为矩阵表达形式,则有![]() ,其中为行列的矩阵(为样本个数,为特征个数),为行1列的矩阵,为行1列的矩阵,对)
![]())
![]())
接下来对)
![]())
令![](),
则有![]()
需要选择学习率
当特征数量大时也能较好适用
需要计算![]() 如果特征数量n较大则运算代价大,因为矩阵逆的计算时间复杂度为![]( 时还是可以接受的
总结一下,只要特征变量的数目并不大,标准方程是一个很好的计算参数的替代方法。具体地说,只要特征变量数量小于一万,通常使用正规方程法,而不使用梯度下降法。