理解注意力机制:从缩放点积到多头注意力

深入解析 Transformer 中的注意力机制——从 Query-Key-Value 的直觉出发,经过缩放点积注意力,到多头注意力,配合具体数值示例追踪数据流。

2026年7月5日 · 2 分钟 · 308 字 · Latent