纵向结构上,传统架构仅对用户暴露 2 层存储交互,而随着 Hopper 添加 st.async
,NVIDIA GPU 完成暴露 3 层存储结构的双向通信接口,即 \(2\times C_{3}^{2}=6\) 一共 6 种指令。
Src\Dst | RF | SMEM | DRAM |
---|---|---|---|
RF | x | st. Shared | st. Global |
SMEM | ld. Shared | x | st. Async (Hopper) |
DRAM | ld. Global | cp. Async (Ampere) | x |
横向结构上,Hopper 支持 Distributed Shared Memory ,在 SM-SM 之间直接交互数据[1]。
Benchmarking and Dissecting the Nvidia Hopper GPU Architecture ↩︎