知识蒸馏

在训练模型时，我们通常采用复杂模型或者Ensemble方式来获取最好的结果，导致参数冗余严重，像BERT里有3亿参数。因此在前向预测时，需要对模型进行复杂的计算（或多个模型加权），导致工程性能较差。

Hinton在NIPS 2014workshop中提出知识蒸馏（Knowledge Distillation，下面简称KD）概念：

把复杂模型或者多个模型Ensemble（Teacher）学到的知识迁移到另一个轻量级模型（ Student ）上叫知识蒸馏。使模型变轻量的同时（方便部署），尽量不损失性能。

从定义上来看KD属于模型压缩、加速的一类玩法。