LLM 赛道#

LLM 赛道使用 Pass@K 指标评估大语言模型的直接内核生成能力。

测试内容#

基础模型在没有执行反馈的情况下生成 GPU 内核的能力。

适用场景#

  • 评估基础模型代码生成能力

  • 比较不同的大语言模型提供商

  • 以较低成本快速进行基准测试

快速开始#

python scripts/generate_kernel_and_verify.py \
    --op-name aten::add \
    --single-test \
    --server-type openai