评估指标#
KernelGenBench 从多个维度衡量内核生成能力:正确性、性能和成本效率。
精度#
定义#
至少有一个生成的内核通过以下检查的算子百分比:
所有测试用例(组合形状、数据类型、布局)
三层防作弊检查
纯净通过率#
内核仅在以下情况下被计为成功:
所有
ki测试用例通过数值验证所有防作弊层通过
测试用例生成#
组合测试套件通过以下因素的笛卡尔积创建:
核心语义参数(维度、转置)
形状变化
数据类型
内存布局
加速比#
计算方式#
两级几何平均:
第一级:对
ki个测试用例计算几何平均 → 算子级 加速比Si第二级:对所有算子计算几何平均 → 全局加速比
公式#
Si = (∏ speedup_test_j)^(1/ki)
Global = (∏ Si)^(1/n)
解读#
加速比 |
含义 |
|---|---|
> 1.0× |
生成的内核比基准更快 |
= 1.0× |
性能相当 |
< 1.0× |
生成的内核比基准更慢 |
基准#
Token 成本#
指标#
指标 |
描述 |
|---|---|
总 Token 数 |
消耗的所有 Token 总和 |
每次成功的 Token 数 |
总 Token 数 ÷ 通过算子数量 |
重要性#
Token 消耗直接影响:
API 成本
评估时间
大规模运行的可行性
运行时间#
定义#
每个算子的累积求解时间,与并行度无关。
用途#
比较不同生成方法的效率,与并行执行无关。
汇总表#
指标 |
类型 |
描述 |
|---|---|---|
精度 |
正确性 |
通过所有测试的算子百分比 |
加速比 |
性能 |
相对于基准的几何平均值 |
Token 成本 |
效率 |
消耗的 Token 数量 |
运行时间 |
效率 |
消耗的时间 |