偏差(bias)方差(variance)

https://youtu.be/EuBBz3bI-aA

数据点里面,蓝色表示训练集,绿色表示测试集,中间的曲线表示ground truth。

数据

Bias:The inability for a machine learing method to capture the true relationship is called bias. 无法捕获真实关系

线性模型怎样都不能拟合数据,所以bias比较大。

线性模型

波浪线可以很好地拟合数据点,所以bias很小。

波浪线模型

但是如果考虑测试集,会发现测试集上反而是线性模型更好一些。

在不同数据集上的表现差异是variance。下面的图就说明overfit了。

Variance

方差比较大的模型,在新的数据上面的表现不确定。

西瓜书上的数学定义