发布说明

目录

发布说明#

本节包含 vllm-plugin-FL 的发布信息。

v0.2.0#

vllm-plugin-FL v0.2.0 需要 vllm v0.20.2。支持的平台:NVIDIA、Hygon DCU。

  • 新增功能

    • Qwen3.6-35B-A3B 模型支持,包含文本和图像推理/服务

    • Qwen3.6-27B 模型支持,包含文本和图像推理/服务

    • Hygon DCU 平台支持,通过 DTK 容器部署

    • 基于服务的测试工作流(vllm serve + OpenAI 客户端),用于多模态模型

  • 功能增强

    • 扩展 NVIDIA 平台测试矩阵,覆盖 Qwen3.6 模型

    • 更新 vLLM 兼容性至 v0.20.x

v0.1.0#

vllm-plugin-FL v0.1.0 需要 vllm v0.13.0。支持的平台:NVIDIA、Ascend、T-Head、MetaX、Iluvatar。

  • 新增功能

    • vllm-plugin-FL 初始发布,作为 vLLM 推理/服务框架插件

    • 通过 FlagGems 和 FlagCX 集成实现统一多芯片后端支持

    • 灵活的算子调度系统,支持 FlagGems、厂商特定和 PyTorch 参考后端

    • 端到端验证支持 Qwen3.5-397B-A17B、Qwen3-Next-80B-A3B、Qwen3-4B、MiniCPM-o 4.5、GLM-5、Qwen3.5-35B-A3B 和 BAAI/bge-m3 模型

    • 硬件支持 NVIDIA、Ascend、T-Head、MetaX 和 Iluvatar 芯片

    • 平台特定配置文件(ascend.yaml、cuda.yaml),用于自动检测默认值

    • 基于环境变量的配置,用于后端选择、厂商过滤和算子控制

    • YAML 配置文件支持,用于完整调度策略覆盖

    • 多进程安全的算子注册表,支持线程安全缓存操作

  • 功能增强

    • 优化调度流程,对已解析算子进行缓存

    • 从首选后端到可用替代后端的失败回退机制

    • 每个算子的后端选择顺序配置

    • FlagGems 和 OOT 算子的白名单和黑名单支持

    • 调试日志模式,用于调度系统故障排除