MoE

昇腾 NPU 支持:融合算子与 Flash Linear Attention

Twinkle 通过全面的 monkey-patching 系统为华为昇腾 NPU 提供一等公民级别的支持,自动将标准 CUDA 算子替换为 NPU 优化的融合算子。本文介绍 kernel 架构与各项优化细节。