发布说明#
本节包含 Megatron-LM-FL 的发布信息。
v0.2.0#
新增特性
DeepSeek V4 模型支持 — 完整的 DeepSeek V4 架构训练支持,包括 CSA/HCA 注意力变体、用于 MoE token 路由的 Hash Router、多头超连接(mHC)、Engram 辅助记忆模块和多 Token 预测(MTP)增强。新增融合内核:
fused_mhc_kernels、扩展的fused_mla_yarn_rope_apply。TXDA 平台后端 — 通过
platform_txda.py新增 Tsingmicro 芯片支持,包括针对 TXDA 硬件的优化器和流水线调度适配。NPU 平台后端 — 通过
platform_npu.py新增 Ascend NPU 支持,遵循现有的 CUDA/MUSA 平台模式。多供应商插件调度 — 扩展了
@override装饰器系统,通过MG_FL_PREFER环境变量进行运行时供应商选择。四级回退:首选供应商 → 默认供应商 → 唯一供应商 → 无。Core 0.17.0 升级 — 同步上游 Megatron-LM Core 0.17.0,保留 FlagScale 特定补丁,包括 Engram DDP 缓冲区分离、异构流水线支持、
qk_layernorm_hidden_dim支持和cur_platform抽象。CI/CD 增强 — 多平台单元和功能测试(CUDA + MetaX),Qwen3 基准测试门禁使用 A100 黄金值,pylint >= 9.0 lint 门禁,以及向 FlagCICD 平台上报覆盖率。
v0.1.0#
Megatron-LM-FL 初始版本。
新增特性
插件系统 —
@overridable/@override装饰器机制,用于平台特定的方法替换,无需修改上游代码。多平台支持 — 通过
PlatformBase进行硬件抽象,支持 NVIDIA(CUDA)、MetaX、Moore Threads(MUSA)、TXDA(Tsingmicro)和 NPU(Ascend)的实现。完整上游兼容性 — 保留所有上游 Megatron-LM 功能,包括高级并行策略(TP、PP、DP、EP、CP)、混合精度(FP16、BF16、FP8)和 GPU 优化内核。