LogSumExp梯度推导
前言 在 CMU 10-414/714 Deep Learning System 第二个 homework 有一个小任务要对数值稳定形式的 LogSumExp 的梯度进行推导,查阅了不少资料 1,琢磨好半天才搞懂,特此记录。 推导过程 符号说明 推导过程中使用的符号说明如下: $$ \begin{align*} z &\in \mathbb{R}^n\\ z_k &= \max{z}\\ \hat{z} &= z - \max{z}\\ f &= \log{\sum_{i=1}^n{\exp{(z_i - \max{z})}}+\max{z}}\\ &=\log{\sum_{i=1}^n\exp\hat{z}_i}+z_k \end{align*} $$ 非最大情况推导 当 $z_j\neq z_k$ 时,$\frac{\partial{f}}{\partial{z_j}}$ 推导如下: ...