特性#
统一平台抽象层#
verl/plugin/platform/ 下的策略模式设计将业务逻辑与硬件特定调用解耦,支持 CUDA、昇腾 NPU、MetaX (MACA)、摩尔线程 (MUSA)、CPU 及未来的加速器。
PlatformBase 抽象基类 — 16 个设备无关方法,涵盖设备分配、内存管理、流操作和分布式初始化
PlatformManager — 单例模式,通过
VERL_PLATFORM环境变量覆盖运行时平台选择硬件无关的业务逻辑 — 所有
torch.cuda.*调用替换为平台 API
FlagOS 训练引擎集成#
通过 FlagOS 生态组件实现可插拔后端,支持多芯片 GRPO 训练:
vllm-plugin-FL — 基于 vLLM 的推理/采样引擎,支持多厂商调度
TransformerEngine-FL — FSDP 训练引擎,支持 FP8 和多后端算子调度
Megatron-LM-FL — 基于 Megatron 的训练引擎,支持大规模分布式训练的平台抽象
多厂商硬件支持#
verl-FL 支持 NVIDIA、华为昇腾、MetaX、摩尔线程和 CPU 平台。详见支持的硬件。
异构分布式训练#
通过 FlagCX 实现跨厂商集合通信,支持 NVIDIA GPU 和摩尔线程 MUSA 节点间的异构训练。一个节点运行 actor/critic(NVIDIA,FSDP),另一个节点运行 rollout(摩尔线程 MUSA,vLLM),通过 Ray 运行时上下文管理权重同步和设备隔离。