Gumbel-Softmax

比如你每天都会喝很多次水(比如100次)，每次喝水的量也不一样。假设每次喝水的量服从正态分布𝑁(𝜇,𝜎2)(其实也有点不合理，毕竟喝水的多少不能取为负值，不过无伤大雅能理解就好，假设均值为5)，那么每天100次喝水里总会有一个最大值，这个最大值服从的分布就是Gumbel分布。

其实就是softmax的一个改进，从原分布采样Gumbel噪声的采样效果是最好的

对于强化学习来说，在选择动作之前加一个扰动，相当于增加探索度，感觉上是合理的。对于深度学习的任务来说，添加随机性去模拟分布的样本生成，也是合情合理的。