LogSumExp梯度推导

前言 在 CMU 10-414/714 Deep Learning System 第二个 homework 有一个小任务要对数值稳定形式的 LogSumExp 的梯度进行推导,查阅了不少资料 1,琢磨好半天才搞懂,特此记录。 推导过程 符号说明 推导过程中使用的符号说明如下: $$ \begin{align*} z &\in \mathbb{R}^n\\ z_k &= \max{z}\\ \hat{z} &= z - \max{z}\\ f &= \log{\sum_{i=1}^n{\exp{(z_i - \max{z})}}+\max{z}}\\ &=\log{\sum_{i=1}^n\exp\hat{z}_i}+z_k \end{align*} $$ 非最大情况推导 当 $z_j\neq z_k$ 时,$\frac{\partial{f}}{\partial{z_j}}$ 推导如下: ...

发表于7月20日 · 更新于7月24日 · 共667字

CMU 10-414 Assignments 实验笔记

前言 本文记录了完成《CMU 10-414/714 Deep Learning System》配套 Assignments 的过程和对应笔记。共有 6 个 hw,循序渐进地从头实现了一个深度学习框架,并利用搭建 DL 中厂常见的网络模型,包括 CNN、RNN、Transformer 等。 ...

发表于6月6日 · 更新于9月15日 · 共27730字

《CMU 10-414 deep learning system》学习笔记

写在最前面 从 2024-04-28 到 2024-09-08,历时四个多月,总算把 DLSys 学完了。这门课的一些收获: 自动微分理论知识和在实践过程中衍生的包括计算图等知识 系统学习了 ML 中几个基本模型和组件 Tensor 的 strides 相关内容 基础 CUDA 编程 个人认为这门课一些没达到我预期的地方: ...

发表于5月28日 · 更新于9月14日 · 共30123字