with one click
ascendc-operator-design
// 完成AscendC算子设计 - 帮助用户完成算子的架构设计、接口定义和性能规划。当用户提到算子设计、算子开发、tiling策略、内存规划、AscendC kernel设计、两级tiling、核间切分、核内切分时,使用此skill。
// 完成AscendC算子设计 - 帮助用户完成算子的架构设计、接口定义和性能规划。当用户提到算子设计、算子开发、tiling策略、内存规划、AscendC kernel设计、两级tiling、核间切分、核内切分时,使用此skill。
[HINT] Download the complete skill directory including SKILL.md and all related files
| name | ascendc-operator-design |
| description | 完成AscendC算子设计 - 帮助用户完成算子的架构设计、接口定义和性能规划。当用户提到算子设计、算子开发、tiling策略、内存规划、AscendC kernel设计、两级tiling、核间切分、核内切分时,使用此skill。 |
根据算子需求生成完整的设计文档(design.md),供后续 code-gen skill 消费。
在 ascendc-operator-project-init 创建骨架后、ascendc-operator-code-gen 生成代码之前调用。
如果由调度 skill 调用,算子名称和功能描述已确定,直接进入步骤 2。
如果独立调用,与用户确认以下信息:
| 信息 | 必填 | 说明 |
|---|---|---|
| 算子名称(snake_case) | 是 | 如 acosh, rms_norm |
| 功能描述 / 数学公式 | 是 | 如 "acosh(x) = ln(x + sqrt(x²-1))" |
| 支持的数据类型 | 否 | 默认 float16 + float32 |
MANDATORY: 检查 PyTorch / NumPy 是否存在同名接口。如果存在,接口签名和语义 必须 与之对齐(如 torch.acosh、torch.softmax)。
根据算子特性,推荐合适的实现方式:
| 实现路径 | 适用场景 | 判断标准 |
|---|---|---|
| AscendC Kernel | 纯 vector 算子 | 不涉及矩阵乘法 |
| CATLASS 模板库 | GEMM / FlashAttention | 含 cube 矩阵计算 |
| ACLNN 封装 | CANN 已有内置算子 | 无需自定义 kernel |
新算子默认使用 AscendC Kernel 路径,除非明确涉及矩阵乘法。
MANDATORY: 在生成设计文档之前,必须读取以下参考文档:
templates/design-template.md — 设计文档模板references/elementwise-tiling.mdreferences/reduction-tiling.mdreferences/index-tiling.mdreferences/sort-tiling.mdreferences/pooling-tiling.mdreferences/general-tiling-principles.md绝对不要跳过参考文档的阅读。
设计文档包含以下核心章节:
必须 将数学公式分解为 AscendC API 调用序列。这是 code-gen skill 的直接输入。
常见数学函数到 AscendC API 映射:
| 数学运算 | AscendC API | 备注 |
|---|---|---|
| x + y | Add(dst, src0, src1, len) | 双输入 |
| x - y | Sub(dst, src0, src1, len) | 双输入 |
| x * y | Mul(dst, src0, src1, len) | 双输入 |
| x / y | Div(dst, src0, src1, len) | 双输入 |
| x + scalar | Adds(dst, src, scalar, len) | 标量运算,优先使用 |
| x * scalar | Muls(dst, src, scalar, len) | 标量运算,优先使用 |
| abs(x) | Abs(dst, src, len) | |
| exp(x) | Exp(dst, src, len) | |
| ln(x) | Ln(dst, src, len) | |
| sqrt(x) | Sqrt(dst, src, len) | |
| 1/x | Reciprocal(dst, src, len) | |
| 1/sqrt(x) | Rsqrt(dst, src, len) | |
| tanh(x) | Tanh(dst, src, len) | |
| relu(x) | Relu(dst, src, len) | |
| max(x,y) | Max(dst, src0, src1, len) | |
| min(x,y) | Min(dst, src0, src1, len) | |
| fp16→fp32 | Cast(dst, src, CAST_NONE, len) | 升精度无损 |
| fp32→fp16 | Cast(dst, src, CAST_ROUND, len) | 降精度有损 |
示例 — acosh(x) 的 API 调用序列:
Mul(tmp, x, x, len); // tmp = x²
Adds(tmp, tmp, -1.0f, len); // tmp = x² - 1
Sqrt(tmp, tmp, len); // tmp = sqrt(x² - 1)
Add(tmp, tmp, x, len); // tmp = x + sqrt(x² - 1)
Ln(y, tmp, len); // y = ln(x + sqrt(x² - 1))
注意:如果计算序列中某步的 dst 与 src 相同(原地操作),大部分 AscendC API 支持,但需确认具体 API。
重要: AscendC 算子采用两级 Tiling 策略,根据算子类型参考相应文档:
┌─────────────────────────────────────────────────────────────┐
│ 全局内存 (GM) │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ totalLength 元素数据 │ │
│ └─────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘
│
┌────────────────┼────────────────┐
▼ ▼ ▼
┌──────────┐ ┌──────────┐ ┌──────────┐
│ Core 0 │ │ Core 1 │ ... │ Core 39 │ ← Block级Tiling (核间切分)
└──────────┘ └──────────┘ └──────────┘
│ │ │
▼ ▼ ▼
┌──────────┐ ┌──────────┐ ┌──────────┐
│ UB 0 │ │ UB 1 │ │ UB 39 │ ← UB级Tiling (核内切分)
└──────────┘ └──────────┘ └──────────┘
Block级Tiling(核间切分):
UB级Tiling(核内切分):
参考文档:
references/elementwise-tiling.md(包含完整两级 Tiling 实现)references/reduction-tiling.mdreferences/index-tiling.mdreferences/sort-tiling.mdreferences/pooling-tiling.mdreferences/general-tiling-principles.md根据算子输入数量和数据类型,快速确定 bufferCoefficient:
单输入单输出 elementwise(acosh, relu, sigmoid, exp, ln, sqrt, abs...):
| 数据类型 | UB 布局 | bufferCoefficient |
|---|---|---|
| float32 | inQ(2×4) + outQ(2×4) + tmpBuf(1×4) = 20 | 20 |
| float16 | inQ(2×2) + outQ(2×2) + tmpBuf1(1×4) + tmpBuf2(1×4) = 16 | 16 |
双输入单输出 elementwise(add, mul, sub, div...):
| 数据类型 | UB 布局 | bufferCoefficient |
|---|---|---|
| float32 | inQ_X(2×4) + inQ_Y(2×4) + outQ(2×4) + tmpBuf(2×4) = 32 | 32 |
| float16 | inQ_X(2×2) + inQ_Y(2×2) + outQ(2×2) + tmpBuf(3×4) = 24 | 24 |
实战经验:bufferCoefficient 是 code-gen 阶段最关键的参数。设计文档中 必须 明确给出每种 dtype 的值,否则代码生成无法正确计算 tileLength。
基于收集的信息,读取 templates/design-template.md 模板,填充所有章节,输出到 csrc/ops/<op_name>/design.md。
输出位置: ascend-kernel/csrc/ops/<op_name>/design.md(覆盖初始化阶段的占位文件)
被调度 skill 调用时(推荐流程):
独立调用时:
参数结构化:
// 好的做法:使用结构体
struct MyOperatorTilingData {
int64_t totalLength; // 总数据长度
int64_t formerNum; // 整核数量
int64_t formerLength; // 整核数据长度
int64_t tailNum; // 尾核数量
int64_t tailLength; // 尾核数据长度
int64_t tileLength; // UB单次处理长度
};
// 避免:使用大量独立参数
void KernelFunc(int64_t totalLength, int64_t tileNum, int64_t tileLength, ...);
两级对齐:
// Block级: Cache Line 对齐 (512字节)
constexpr int64_t CACHE_LINE_BYTE_LENGTH = 512;
int64_t totalLengthCoreAlign = ((totalLengthCore + CACHE_LINE_BYTE_LENGTH - 1) / CACHE_LINE_BYTE_LENGTH) * CACHE_LINE_BYTE_LENGTH;
// UB级: 32字节对齐
int64_t ubAlignElements = 32 / dtypeSize;
int64_t tileLengthAligned = ((tileLength + ubAlignElements - 1) / ubAlignElements) * ubAlignElements;
UB 分配表: 每个算子设计必须包含 UB 分配表,明确列出:
Double Buffer: 使用 BUFFER_NUM=2 实现 double buffer,隐藏内存延迟
设计文档生成后,必须包含以下关键产出物(供 code-gen skill 直接消费):
at::Tensor op_name(const at::Tensor &self, ...) 完整声明设计完成后,使用 ascendc-operator-code-gen skill 生成具体代码实现。