算子列表

算子列表#

本页列出了 FlagGems-vLLM 导出的算子，来源于 src/flaggems_vllm/ops/__init__.py。

FlagGems-vLLM 使用 Triton 编程语言提供了常用 vLLM 算子的优化实现。目前共导出以下 75 个算子：

算子	描述
`combine_topk_swa_indices`	组合 DeepSeek V4 的 top-K 和滑动窗口注意力索引
`compute_global_topk_indices_and_lens`	计算 DeepSeek V4 的全局 top-K 索引和长度
`dequantize_and_gather_k_cache`	DeepSeek V4 的 K 缓存反量化与收集
`fused_q_kv_rmsnorm`	DeepSeek V4 的融合 Q/KV RMSNorm
`fused_deepseek_v4_qnorm_rope_kv_rope_quant_insert`	DeepSeek V4 的融合 Q-norm、RoPE、KV-RoPE、量化与插入

算子	描述
`dispatch_fused_moe_kernel`	分发融合 MoE 内核
`fused_experts_impl`	融合 MoE 专家实现
`grouped_topk`	MoE 路由的分组 top-K 选择
`inplace_fused_experts`	原地融合 MoE 专家
`invoke_fused_moe_triton_kernel`	调用融合 MoE Triton 内核
`moe_align_block_size`	MoE 块大小对齐
`moe_align_block_size_triton`	MoE 块大小对齐（Triton 变体）
`moe_sum`	MoE 专家输出求和
`outplace_fused_experts`	非原地融合 MoE 专家
`top_k_per_row_decode`	解码阶段的逐行 top-K
`top_k_per_row_prefill`	预填充阶段的逐行 top-K
`topk_softmax`	MoE 门控的 top-K softmax
`topk_softplus_sqrt`	MoE 门控的 top-K softplus 与 sqrt

算子	描述
`add_rms_norm`	加法与 RMSNorm
`fused_add_rms_norm`	融合加法与 RMSNorm
`instance_norm`	实例归一化
`skip_layer_norm`	跳跃连接与 LayerNorm
`weight_norm`	权重归一化
`weight_norm_interface`	权重归一化接口
`weight_norm_interface_backward`	权重归一化接口反向传播

算子	描述
`bucket_sort_topk`	桶排序 top-K 选择
`cp_gather_indexer_k_quant_cache`	收集索引器 K 与量化缓存
`indexer_k_quant_and_cache`	索引器 K 量化与缓存

算子	描述
`chunk_gated_delta_rule`	门控 delta 规则计算
`chunk_gated_delta_rule_fwd`	门控 delta 规则前向传播
`fused_recurrent_gated_delta_rule_fwd`	融合循环门控 delta 规则前向传播

算子	描述
`rwkv_ka_fusion`	RWKV 键-注意力融合内核
`rwkv_mm_sparsity`	RWKV 矩阵乘法稀疏性内核