发布说明#
本节包含 vllm-plugin-FL 的发布信息。
v0.2.0#
vllm-plugin-FL v0.2.0 需要 vllm v0.20.2。支持的平台:NVIDIA、Hygon DCU。
新增功能
Qwen3.6-35B-A3B 模型支持,包含文本和图像推理/服务
Qwen3.6-27B 模型支持,包含文本和图像推理/服务
Hygon DCU 平台支持,通过 DTK 容器部署
基于服务的测试工作流(vllm serve + OpenAI 客户端),用于多模态模型
功能增强
扩展 NVIDIA 平台测试矩阵,覆盖 Qwen3.6 模型
更新 vLLM 兼容性至 v0.20.x
v0.1.0#
vllm-plugin-FL v0.1.0 需要 vllm v0.13.0。支持的平台:NVIDIA、Ascend、T-Head、MetaX、Iluvatar。
新增功能
vllm-plugin-FL 初始发布,作为 vLLM 推理/服务框架插件
通过 FlagGems 和 FlagCX 集成实现统一多芯片后端支持
灵活的算子调度系统,支持 FlagGems、厂商特定和 PyTorch 参考后端
端到端验证支持 Qwen3.5-397B-A17B、Qwen3-Next-80B-A3B、Qwen3-4B、MiniCPM-o 4.5、GLM-5、Qwen3.5-35B-A3B 和 BAAI/bge-m3 模型
硬件支持 NVIDIA、Ascend、T-Head、MetaX 和 Iluvatar 芯片
平台特定配置文件(ascend.yaml、cuda.yaml),用于自动检测默认值
基于环境变量的配置,用于后端选择、厂商过滤和算子控制
YAML 配置文件支持,用于完整调度策略覆盖
多进程安全的算子注册表,支持线程安全缓存操作
功能增强
优化调度流程,对已解析算子进行缓存
从首选后端到可用替代后端的失败回退机制
每个算子的后端选择顺序配置
FlagGems 和 OOT 算子的白名单和黑名单支持
调试日志模式,用于调度系统故障排除