二、机器学习基础5损失函数、梯度下降

满满myno

2024-06-14 帮助1人

损失函数

损失函数（Loss function）又叫做误差函数，用来衡量算法的运行情况.

估量模型的预测值 f (x)与真实值 Y 的不一致程度，是一个非负实值函数,通常使用 $学新通$ 来表

示，损失函数越小，模型的鲁棒性就越好。

损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。

损失函数用来评价预测值和真实值不一样的程度。通常损失函数越好，模型的性能也越好。

损失函数可分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和
实际结果的差别，结构风险损失函数是在经验风险损失函数上加上正则项。

（1）0-1 损失函数

（2）绝对值损失函数

（3）平方损失函数

（4）log 对数损失函数（常用于逻辑回归）

（5）指数损失函数（例 AdaBoost）

（6）Hinge 损失函数

对数损失函数与极大似然估计的对数似然函数本质上是相同的。所以逻辑回归直接采用对数损失函数。

在机器学习中，梯度下降法主要有随机梯度下降法和批量梯度下降法。

算法迭代步长的选择；参数的初始值选择；标准化处理。

随机梯度下降法、批量梯度下降法相对来说都比较极端，简单对比如下：
批量梯度下降：
a）采用所有数据来梯度下降。
b) 批量梯度下降法在样本量很大的时候，训练速度慢。

随机梯度下降：
a) 随机梯度下降用一个样本来梯度下降。
b) 训练速度很快。
c) 随机梯度下降法仅仅用一个样本决定梯度方向，导致解有可能不是最优。 d) 收敛速度来说，随机梯度下降法一次迭代一个样本，导致迭代方向变化很大，不能很快的收敛到局部最优解。

小批量（mini-batch ）梯度下降法

对比随机梯度下降(SGD)、批量梯度下降（BGD）、小批量梯度下降（mini-batch GD）、和online GD

Online GD 于 mini-batch GD/SGD 的区别在于，所有训练数据只用一次，然后丢弃。这样做的优点在于可预测最终模型的变化趋势。

学新通

这篇好文章是转载于：学新通技术网