FlagBLAS 发布说明

目录

FlagBLAS 发布说明#

v0.2.0#

  • 新增功能

    • 算子注册表 —— 新增 conf/operators.yaml,包含完整的算子元数据。

    • CI/CD 流水线 —— GitHub Actions 工作流,包含正确性测试、性能基准测试和 pre-commit 钩子。

    • libtuner 自动调优 —— 集成 libtuner 实现内核配置的自动调优。

  • 增强功能

    • hgemm 通过 block-pointer 和 TMA 内核变体进行优化。

    • amax 小 N 路径优化,提升性能。

    • asum 算子经过深度性能调优。

    • sgemm 和 hgemm 自动调优从硬编码配置迁移至 libtuner。

    • GEMV fp64 标量打包和小 N 路径优化。

v0.1.0#

FlagBLAS 初始版本。

  • 新增功能

    • BLAS 标准接口库,支持多后端。

    • 核心向量和矩阵操作(BLAS Level 1、2、3)。

    • 灵活的多后端支持机制。