成本分析#

了解基于智能体的内核生成的 Token 成本。

Token 消耗#

智能体方法比直接 LLM 采样消耗更多的 Token。

方法

每次成功的 Token 数

Pass@5

~50K

Claude Code(普通)

~500K

AKO4ALL

~5.19M

成本因素#

迭代调试#

智能体可能会执行多次迭代:

  • 每次迭代生成新代码

  • 执行反馈增加上下文

  • 错误消息增加提示大小

模型选择#

模型

相对成本

GPT-4o

中等

Opus-4.6

Qwen3.5

GLM-5.0

中等

算子复杂度#

算子类型

平均迭代次数

ATen(简单)

2-5

ATen(复杂)

5-10

vLLM

10-20

cuBLAS

10-30

成本估算#

快速估算#

# First run in debug mode (8 operators)
bash test_ops.sh --debug --device-count 1

# Check token usage
cat agent_bench/runs/<run_name>/results.json | grep tokens

外推#

Full run cost ≈ (debug tokens / 8) × 210

成本优化#

减少算子#

# Test only specific operators
bash test_ops.sh add,softmax,mul --device-count 1

使用更经济的方法#

# naive_cc uses fewer tokens than normal_cc
bash test_ops.sh add -m naive_cc --device-count 1

设置超时#

# Limit time per operator
bash test_ops.sh add --timeout 300 --device-count 1

预算规划#

基于 KernelGenBench 实验:

规模

预估 Token 数

预估成本(Opus)

调试(8 个算子)

~5M

~$50

ATen(110 个算子)

~500M

~$5,000

完整(210 个算子)

~1B

~$10,000

完整 AKO4ALL

~5B

~$50,000

警告

大规模智能体评估可能消耗数十亿 Token。请务必先使用调试模式测试,并相应规划预算。