发布说明#
[2026/06] 发布 v0.13:
引入 FlagCX P2P 引擎,用于单边 RDMA 操作,专为与 NIXL 等传输框架集成而设计。
添加 IBRC P2P 适配器,支持基于 InfiniBand 的 P2P 通信。
重构 Device API,增加对称内存(symmem)和多播支持。
为 Device API 操作添加多 FIFO 支持。
引入设备指针 API,用于 Triton 集成。
弃用
flagcxHandlerGroup,改用独立的flagcxDeviceHandle生命周期管理。添加新的单边 RDMA 操作:
flagcxPut、flagcxBatchPut、flagcxReadCounter、flagcxWaitCounter。优化 RMA 代理,通过批量单边 PUT 操作提高 RDMA 吞吐量。
[2026/05] 发布 v0.12:
添加 Sunrise AI 加速器支持,包括设备适配器
ptpuAdaptor和 CCL 适配器pcclAdaptor。扩展 PyTorch 插件对 PCCL 后端的支持。
重构单边内存注册,采用全局句柄索引和 HeteroComm 隔离。
添加 P2P 拓扑管理器,优化点对点通信。
重构 P2P 零拷贝实现。
为 Device API 添加设备端传输支持。
添加 traits 抽象和 DeviceAPI,实现统一的厂商/回退支持。
添加 bootstrap 扩展,增强汇合能力。
将 C++17 特性替换为 C++11 等效实现,提高兼容性。
[2026/03] 发布 v0.11:
在异构平台上启用基于内核的通信,包括 NVIDIA 和 Hygon。
添加主机端和设备端单边通信语义支持。
引入适配器插件支持,支持动态加载用户定义的 Device、CCL 和 Net 适配器实现。
[2026/02] 发布 v0.10:
在 uniRunner 模式下实现 11 个芯片解耦的集合通信算法。
重构设备节点内/节点间 API,并在 NVIDIA 平台上集成 NCCL Device API 支持。
增强易用性,支持 pip 安装 FlagCX,并提供 NCCL 包装插件以便在 NVIDIA 平台上无缝采用。
[2026/01] 发布 v0.9:
添加 Enflame 支持,包括
topsAdaptor和ecclAdaptor。扩展 flagcxCCLAdaptor 以支持对称操作。
在 ncclAdaptor 中引入 NCCL Device API,支持自定义 AllReduce 操作。
重构
glooAdaptor,支持 TCP 和 IB 传输,并自动检测网卡。
[2025/12] 发布 v0.8:
启用节点内零拷贝,提高小消息数据传输效率。
在 uniRunner 模式下支持朴素的 AllReduce 实现,采用以 CPU 为中心、设备辅助的算法。
通过新 API flagcxHeteroPut 和 flagcxHeteroPutSignal 添加单边通信原语。
[2025/11] 发布 v0.7:
添加 TsingMicro 支持,包括设备适配器
tsmicroAdaptor和 CCL 适配器tcclAdaptor。实现实验性的无内核非归约集合通信(SendRecv、AlltoAll、AlltoAllv、Broadcast、Gather、Scatter、AllGather),使用设备缓冲区 IPC/RDMA。
在 NVIDIA、MetaX 和 Hygon 平台上启用自动调优,AllReduce、AllGather、ReduceScatter 和 AlltoAll 性能提升 1.02×–1.26×。
增强
flagcxNetAdaptor,添加单边原语(put、putSignal、waitValue)和重传支持,提高可靠性。
[2025/10] 发布 v0.6:
实现设备缓冲区 IPC 通信,支持节点内 SendRecv 操作。
引入设备发起、主机启动的设备端原语,支持直接从设备进行基于内核的通信。
增强自动调优,MetaX 平台上 AllReduce 操作性能提升 50%。
[2025/09] 发布 v0.5:
添加 AMD GPU 支持,包括设备适配器
hipAdaptor和 CCL 适配器rcclAdaptor。引入
flagcxNetAdaptor统一网络后端,目前支持 socket、IBRC、UCX 和 IBUC(实验性)。启用零拷贝设备缓冲区 RDMA(用户缓冲区 RDMA),提升小消息性能。
通过
flagcxTuner支持同构场景下的自动调优。在 CI/CD 中添加 PyTorch API 测试自动化。
[2025/08] 发布 v0.4:
支持 ERNIE4.5(百度)在 NVIDIA 和 Iluvatar GPU 上使用 Paddle + FlagCX 进行异构训练。
改进任意网卡配置下的异构通信,部署更加稳健灵活。
引入实验性网络插件接口,扩展支持 IBRC 和 SOCKET。设备缓冲区注册现在可以通过 DMA-BUF 完成。
添加 InterOp 级 DSL,支持自定义 C2C 算法设计。
在
docs/下提供用户文档。
[2025/07] 发布 v0.3:
集成三个额外的原生通信库:HCCL(华为)、MUSACCL(摩尔线程)和 MPI。
通过流水线优化增强异构集合通信操作。
引入设备端函数支持设备缓冲区 RDMA,补充现有的主机端函数。
提供全栈开源解决方案 FlagScale + FlagCX,实现高效的异构预填充-解码分离。
[2025/05] 发布 v0.2:
集成 3 个额外的原生通信库,包括 MCCL(摩尔线程)、XCCL(Mellanox)和 DUCCL(BAAI)。
改进 11 个异构集合通信操作,支持自动拓扑检测和单网卡/多网卡环境。
[2025/04] 发布 v0.1:
添加 5 个原生通信库,包括 NCCL(NVIDIA)、IXCCL(Iluvatar)和 CNCL(寒武纪)的 CCL 适配器,以及主机 CCL 适配器 GLOO 和 Bootstrap。
使用 C2C(集群到集群)算法支持 11 个异构集合通信操作。
提供全栈开源解决方案 FlagScale + FlagCX,实现高效异构训练。
原生集成到 PaddlePaddle v3.0.0,支持动态图和静态图。