基准结果

目录

基准结果#

KernelGenBench 评估实验的关键发现。

多源结果#

在 NVIDIA A100 上对来自三个来源（ATen、vLLM、cuBLAS）的 210 个算子进行评估。

多源结果

关键发现#

发现	详情
最高精度	Claude Code (Opus-4.6) 达到 87%
最高加速比	AutoKernel (Qwen3.5) 达到 1.02×
最具挑战性	所有方法的 cuBLAS 算子

按算子来源#

来源	最佳精度	最佳加速比
ATen	92% (Claude Code)	1.00× (AKO4ALL)
vLLM	68% (Claude Code)	1.63× (AutoKernel)
cuBLAS	94% (Claude Code)	0.71× (多种方法)

多芯片结果#

在 6 个硬件平台上对 110 个 ATen 算子进行跨平台评估。

多芯片结果

跨平台性能

关键发现#

发现	详情
平台差异	生成性能在不同硬件间差异显著
跨平台性能下降	AutoKernel 从 87%（NVIDIA）下降到 25%（平台 E）
编译器成熟度影响	非 NVIDIA 平台需要 2 倍或更多的 Token 和时间

各平台精度#

平台	Claude Code	AKO4ALL
NVIDIA	87%	83%
平台 A	~70%	~60%
平台 B	~65%	~55%
平台 C	~60%	~45%
平台 D	~55%	~35%
平台 E	~45%	~25%

成本分析#

方法	每次成功所需 Token
Pass@5	~50K
Claude Code	~500K
AKO4ALL	~5.19M

警告

大规模智能体评估可能消耗数十亿 Token。请相应规划您的预算。