特性

目录

特性#

统一平台抽象层#

verl/plugin/platform/ 下的策略模式设计将业务逻辑与硬件特定调用解耦，支持 CUDA、昇腾 NPU、MetaX (MACA)、摩尔线程 (MUSA)、CPU 及未来的加速器。

PlatformBase 抽象基类 — 16 个设备无关方法，涵盖设备分配、内存管理、流操作和分布式初始化
PlatformManager — 单例模式，通过 VERL_PLATFORM 环境变量覆盖运行时平台选择
硬件无关的业务逻辑 — 所有 torch.cuda.* 调用替换为平台 API

FlagOS 训练引擎集成#

通过 FlagOS 生态组件实现可插拔后端，支持多芯片 GRPO 训练：

vllm-plugin-FL — 基于 vLLM 的推理/采样引擎，支持多厂商调度
TransformerEngine-FL — FSDP 训练引擎，支持 FP8 和多后端算子调度
Megatron-LM-FL — 基于 Megatron 的训练引擎，支持大规模分布式训练的平台抽象

多厂商硬件支持#

verl-FL 支持 NVIDIA、华为昇腾、MetaX、摩尔线程和 CPU 平台。详见支持的硬件。

异构分布式训练#

通过 FlagCX 实现跨厂商集合通信，支持 NVIDIA GPU 和摩尔线程 MUSA 节点间的异构训练。一个节点运行 actor/critic（NVIDIA，FSDP），另一个节点运行 rollout（摩尔线程 MUSA，vLLM），通过 Ray 运行时上下文管理权重同步和设备隔离。