OpenAI久违发了篇「正经」论文:线性布局实现高澳门永利皇宫- 永利皇宫官网- 娱乐城 2025效张量计算
发布时间:2025-06-06
摘要:   永利皇宫官网,永利皇宫赌场,永利皇宫娱乐城,永利皇宫注册,永利皇宫,永利皇宫app,永利皇宫发财车,永利赌场,永利集团,永利娱乐城,永利娱乐场,永利

  永利皇宫官网,永利皇宫赌场,永利皇宫娱乐城,永利皇宫注册,永利皇宫,永利皇宫app,永利皇宫发财车,永利赌场,永利集团,永利娱乐城,永利娱乐场,永利澳门,永利博彩,澳门永利皇宫博彩官网,网上澳门彩官网,澳门永利例如,为了实现高效的矩阵乘法,英伟达在 Ampere、Hopper 和 Blackwell 等不同代际的 GPU 上采用了不同的使用 Tensor Core 的布局,并且每种布局在使用不同数据类型时都有不同的变体。AMD 和英特尔等其它 GPU 供应商在利用其类似 Tensor Core 的技术进行加速时,也使用了不同的布局。因此,硬件架构的快速发展和多样化的深度学习模型需要一种新的张量布局建模方法。

  可以观察到,高效的硬件原语(例如 ldmatrix 和 stmatrix)在这些核中被广泛用于布局转换以及共享内存的加载和存储操作。值得注意的是,layer_norm 实现了从 0.99 倍到 1.57 倍的加速 —— 在不同形状之间表现出了显著差异。对于某些输入形状,Triton-Linear 能够检测「等效」布局之间的转换,从而将转换过程降低为 no-op(无操作)。这种优化在旧版布局系统中无法实现,因为它无法直接比较不同类型的布局(例如,Blocked 布局和 Sliced 布局)。

  在 RTX4090 上,新方法实现了 1.00 倍到 1.51 倍的加速。由于 mma (RTX4090) 和 wgmma (GH200) 指令之间的差异,他们在 template_attention 上实现了更高的加速。在本例中,tt.dot 运算的左操作数在循环外部定义,会重复从同一地址加载数据,因此 ldmatrix 和常规共享内存指令均可实现高吞吐量。虽然右操作数在每次迭代中都会更新,但 wgmma 会直接在共享内存中访问它,只有在 RTX4090 上,经过优化后,它才会被降级到 ldmatrix 中。因此,在 GH200 上实现的加速相对较低。在 MI250 上,新方法实现了 0.98 倍到 1.18 倍的加速。

标签:永利皇宫游戏