发布说明

发布说明#

[2026/06] 发布 v0.13:
- 引入 FlagCX P2P 引擎，用于单边 RDMA 操作，专为与 NIXL 等传输框架集成而设计。
- 添加 IBRC P2P 适配器，支持基于 InfiniBand 的 P2P 通信。
- 重构 Device API，增加对称内存（symmem）和多播支持。
- 为 Device API 操作添加多 FIFO 支持。
- 引入设备指针 API，用于 Triton 集成。
- 弃用 flagcxHandlerGroup，改用独立的 flagcxDeviceHandle 生命周期管理。
- 添加新的单边 RDMA 操作：flagcxPut、flagcxBatchPut、flagcxReadCounter、flagcxWaitCounter。
- 优化 RMA 代理，通过批量单边 PUT 操作提高 RDMA 吞吐量。
[2026/05] 发布 v0.12:
- 添加 Sunrise AI 加速器支持，包括设备适配器 ptpuAdaptor 和 CCL 适配器 pcclAdaptor。
- 扩展 PyTorch 插件对 PCCL 后端的支持。
- 重构单边内存注册，采用全局句柄索引和 HeteroComm 隔离。
- 添加 P2P 拓扑管理器，优化点对点通信。
- 重构 P2P 零拷贝实现。
- 为 Device API 添加设备端传输支持。
- 添加 traits 抽象和 DeviceAPI，实现统一的厂商/回退支持。
- 添加 bootstrap 扩展，增强汇合能力。
- 将 C++17 特性替换为 C++11 等效实现，提高兼容性。
[2026/03] 发布 v0.11:
- 在异构平台上启用基于内核的通信，包括 NVIDIA 和 Hygon。
- 添加主机端和设备端单边通信语义支持。
- 引入适配器插件支持，支持动态加载用户定义的 Device、CCL 和 Net 适配器实现。
[2026/02] 发布 v0.10:
- 在 uniRunner 模式下实现 11 个芯片解耦的集合通信算法。
- 重构设备节点内/节点间 API，并在 NVIDIA 平台上集成 NCCL Device API 支持。
- 增强易用性，支持 pip 安装 FlagCX，并提供 NCCL 包装插件以便在 NVIDIA 平台上无缝采用。
[2026/01] 发布 v0.9:
- 添加 Enflame 支持，包括 topsAdaptor 和 ecclAdaptor。
- 扩展 flagcxCCLAdaptor 以支持对称操作。
- 在 ncclAdaptor 中引入 NCCL Device API，支持自定义 AllReduce 操作。
- 重构 glooAdaptor，支持 TCP 和 IB 传输，并自动检测网卡。
[2025/12] 发布 v0.8:
- 启用节点内零拷贝，提高小消息数据传输效率。
- 在 uniRunner 模式下支持朴素的 AllReduce 实现，采用以 CPU 为中心、设备辅助的算法。
- 通过新 API flagcxHeteroPut 和 flagcxHeteroPutSignal 添加单边通信原语。
[2025/11] 发布 v0.7:
- 添加 TsingMicro 支持，包括设备适配器 tsmicroAdaptor 和 CCL 适配器 tcclAdaptor。
- 实现实验性的无内核非归约集合通信（SendRecv、AlltoAll、AlltoAllv、Broadcast、Gather、Scatter、AllGather），使用设备缓冲区 IPC/RDMA。
- 在 NVIDIA、MetaX 和 Hygon 平台上启用自动调优，AllReduce、AllGather、ReduceScatter 和 AlltoAll 性能提升 1.02×–1.26×。
- 增强 flagcxNetAdaptor，添加单边原语（put、putSignal、waitValue）和重传支持，提高可靠性。
[2025/10] 发布 v0.6:
- 实现设备缓冲区 IPC 通信，支持节点内 SendRecv 操作。
- 引入设备发起、主机启动的设备端原语，支持直接从设备进行基于内核的通信。
- 增强自动调优，MetaX 平台上 AllReduce 操作性能提升 50%。
[2025/09] 发布 v0.5:
- 添加 AMD GPU 支持，包括设备适配器 hipAdaptor 和 CCL 适配器 rcclAdaptor。
- 引入 flagcxNetAdaptor 统一网络后端，目前支持 socket、IBRC、UCX 和 IBUC（实验性）。
- 启用零拷贝设备缓冲区 RDMA（用户缓冲区 RDMA），提升小消息性能。
- 通过 flagcxTuner 支持同构场景下的自动调优。
- 在 CI/CD 中添加 PyTorch API 测试自动化。
[2025/08] 发布 v0.4:
- 支持 ERNIE4.5（百度）在 NVIDIA 和 Iluvatar GPU 上使用 Paddle + FlagCX 进行异构训练。
- 改进任意网卡配置下的异构通信，部署更加稳健灵活。
- 引入实验性网络插件接口，扩展支持 IBRC 和 SOCKET。设备缓冲区注册现在可以通过 DMA-BUF 完成。
- 添加 InterOp 级 DSL，支持自定义 C2C 算法设计。
- 在 docs/ 下提供用户文档。
[2025/07] 发布 v0.3:
- 集成三个额外的原生通信库：HCCL（华为）、MUSACCL（摩尔线程）和 MPI。
- 通过流水线优化增强异构集合通信操作。
- 引入设备端函数支持设备缓冲区 RDMA，补充现有的主机端函数。
- 提供全栈开源解决方案 FlagScale + FlagCX，实现高效的异构预填充-解码分离。
[2025/05] 发布 v0.2:
- 集成 3 个额外的原生通信库，包括 MCCL（摩尔线程）、XCCL（Mellanox）和 DUCCL（BAAI）。
- 改进 11 个异构集合通信操作，支持自动拓扑检测和单网卡/多网卡环境。
[2025/04] 发布 v0.1:
- 添加 5 个原生通信库，包括 NCCL（NVIDIA）、IXCCL（Iluvatar）和 CNCL（寒武纪）的 CCL 适配器，以及主机 CCL 适配器 GLOO 和 Bootstrap。
- 使用 C2C（集群到集群）算法支持 11 个异构集合通信操作。
- 提供全栈开源解决方案 FlagScale + FlagCX，实现高效异构训练。
- 原生集成到 PaddlePaddle v3.0.0，支持动态图和静态图。