FlagTensor 发布说明

目录

FlagTensor 发布说明#

v0.2.0#

  • 新增功能

    • 一元算子 —— abs、acos、acosh、asin、asinh、atan、atanh、ceil、conj、cos、cosh、exp、floor、identity、log、mish、neg、rcp、relu、sigmoid、sin、sinh、soft_plus、soft_sign、sqrt、swish、tan、tanh(28 个算子)。

    • 二元算子 —— add、max、min、mul。

    • 收缩算子 —— contraction、contraction_trinary、elementwise_trinary。

    • 稀疏算子 —— block_sparse_contraction。

    • 算子注册表 —— 添加了 conf/operators.yaml,包含完整的算子元数据。

    • 多 GPU 测试运行器 —— tools/run_tests.py,带实时进度显示和 YAML 驱动的算子选择。

    • CI/CD 流水线 —— 质量门(lint/format)、正确性和性能流水线。

  • 增强功能

    • 手工优化的 Triton 内核,支持按架构自动调优(Ampere、Hopper)。

    • 与供应商无关的后端抽象,已注册 15 家供应商。

    • 架构特定的内核特化(_nvidia/hopper/_nvidia/ampere/)。

    • 每个算子的测试基础设施,支持 pytest 标记和 JSON 结果记录。

v0.1.0#

FlagTensor 首次发布。

  • 新增功能

    • 支持多后端的张量原语库。

    • 一元操作(ReLU 等)。

    • 用于逐元素张量算术的二元操作。

    • 用于多维归约的收缩操作。

    • 基于 cuTensor 基线的正确性和性能比较。