水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

柴孝伟

买进就值,越来越值,时享价...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


桂浩明

申万证券研究所首席分析师


宋清辉

著名经济学家宋清辉官方账号...


banner

banner

机器学习笔记003 | 梯度下降算法

止一之路   / 2017-09-07 08:21 发布


为了达到最佳的预测效果,我们需要找到使得代价函数最小的参数。

还记得上一篇文章提到的代价函数么:


我们通过不断去调整参数θ0和θ1,最终找到让J(θ0 ,θ1)最小的参数。

如果直观来看,我们就像这样,一步一步地走下山:

走下山

走下山

具体是怎么实现的呢?

这里要提到一个算法:梯度下降(Gradient Descent)算法

为了使得代价函数的结果越来越小,我们需要不断重复以下步骤:


来改变参数,以寻找使得代价函数最小的最优解。

需要注意的是,所有的参数θj必须同时更新,如:

同时更新

同时更新

而下面这样的方式,是不正确的:

不同时更新

不同时更新

或者说已经不属于梯度下降算法的范畴,而是其他的算法了。

在这里,“:=”是赋值的含义,就是把等式右边的值赋予左边;α是学习的速率,代表着下山的脚步大小;后面这个是对代价函数的求导:


为什么通过这样的重复,可以找到最佳的参数呢?

为了方便理解,这里还是将θ0设置为0,也就是说,我们的预测函数为:

hθ(x1) = θ0 + θ1 xi = θ1 xi

那么对于θ1,我们需要重复的调整的步骤就是:


J(θ1)的代价函数大概是这样的:

代价函数曲线

代价函数曲线

对这样的代价函数求导,其实得到的,就是在某一个点的切线,也就是在该点的斜率。

斜率为正数

斜率为正数

斜率为正,说明需要减去的是一个正数,θ1的值变小。

斜率为负数

斜率为负数

斜率为负,说明需要减去了一个负数,也就是加上一个正数,θ1的值变大。

可以看到,两个图的绿点就是最低点。

因为斜率的原因,不管红点在绿点的左边还是右边,最终都会往绿点靠拢。

当到达最低点的时候,斜率为0,所以在这个位置,参数保持很定不变。

所以不管初始点设置在最低点的哪一边,在设置了合理的学习速率α的情况下,重复了这些步骤之后,最终都会往最低点汇聚。

为什么说是合理学习速率α呢?

因为如果学习速率α太大,那么有可能一直偏离,永远的去不到最低点。

如图,随着斜率的绝对值变大,脚步还越来越大,从距离低点最近的参数偏离得越来越远:

学习速率α太大

学习速率α太大

如果学习速率α太小,那么就需要很多的步骤,才能够找到最优解:

学习速率α太小

学习速率α太小

那么是否需要随着参数逐渐接近最优解的时候,降低学习速率α呢?

其实没有必要,你看一个在学习速率α固定的情况下,迈出的步子大概是这样的:

学习速率α固定

学习速率α固定

由于越接近最低点,斜率的绝对值就越小。

那么也就意味着即使学习速率恒定不变,由于斜率绝对值的不断变小,机器学习所走的脚步也会变得越来越小。

相信看到这里,你也对算法的原理有了个基本的理解。

下面是J(θ0 ,θ1)代入之后,得到的等式


为什么两个等式会不同呢?

其中对于θ1求导数的过程如下:

求导过程

求导过程

看完这个,你应该就能明白,之前代价函数为什么要乘以 1/2 了吧。

如果看不懂也没有关系,直接记住前面的等式就行了。

由于这样的梯度下降算法在整个训练过程中,每一步都去计算所有的训练样本,被命名为“批量梯度下降(batch gradient descent)”。

文章提前发布在**:止一之路