发布说明

目录

发布说明#

本节包含 TransformerEngine-FL 的发布信息。

v0.2.0#

  • 新增特性

    • TE V2.14 上游同步 — 集成 NVIDIA TransformerEngine 上游 v2.14(304 个提交,v2.9.0 → v2.14.0),纳入 MXFP8/NVFP4 量化、Blackwell(sm120)架构支持、FSDP2 与 DTensor 感知优化器状态、融合 RMSNorm dLN 与 add-through,以及 MoE 分组 MLP 算子。FlagOS 插件系统完全保留,同步了 OP API 签名和多后端兼容补丁。

    • KunlunXin 供应商后端 — 新增百度昆仑芯片供应商算子支持,包含 flash attention 和算子注册。

    • ENFLAME 供应商后端 — 新增 ENFLAME 芯片供应商算子支持,包含 flash attention 和算子注册。

    • FlagOS 分组 GEMM 算子 — 基于 FlagGems Triton 内核为 flagos 后端实现了 te_general_grouped_gemm,支持前向和后向计算。

    • CI/CD 增强 — 新增 MetaX MACA CI 工作流,向 FlagCICD 平台上报覆盖率,以及工作流重构和集成测试。

v0.1.0#

TransformerEngine-FL 初始版本。

  • 新增特性

    • 多后端插件架构 — 基于插件的算子调度系统(OpRegistryOpManagerSelectionPolicy),包含三层后端:FlagOS(默认/Triton)、Vendor(硬件特定)和 Reference(纯 PyTorch)。

    • 供应商后端 — 新增五个硬件供应商后端:Hygon(DCU)、METAX(GPU 含 flash attention)、KunlunXin(百度昆仑含 flash attention)、Iluvatar(Corex GPU)和 MUSA(Moore Threads S 系列 GPU)。

    • FlagOS 后端 — 基于 FlagGems 的统一算子调度,集成 FlagCX 通信库。

    • 注意力系统 — 多供应商注意力后端框架,集成 flash attention。

    • CI/CD 流水线 — GitHub Actions 工作流,多供应商测试矩阵。