Ejecuta cualquier Skill en Manus
con un clic

Ejecuta cualquier Skill en Manus con un clic

$pwd:

ascend-moe-optimizer-auto-trace

Name: Ascend Moe Optimizer Auto Trace
Author: openJiuwen-ai

// 为昇腾算子在源码中接入 TRACE_POINT 与 MoeTracing，串通 trace_preprocessor、profiling tensor、point_map.json、 save_profiling_data 与 trace_collector 生成 Chrome trace。强调门禁 G1–G5：全链路预处理与 OPP、profiling 为数据输出最后一位、整条编译与示例脚本联调、落盘路径在 spawn 前 resolve。遵循函数级粒度与就地扩展，禁止另注册 xxx_profiling 类第二入口，保持原 Op 与 torch.ops 名称及签名不变。在用户提到算子打点、Profiling、Chrome trace、MoeTracing，或将结论写入本 skill 时读取。

Ejecutar en Manus

$ git log --oneline --stat

stars:877

forks:166

updated:19 de mayo de 2026, 14:14

Explorador de archivos

16 archivos

SKILL.md

readonly

related-skills.json

mismo repositorio

llm-wiki.md

from "openJiuwen-ai/jiuwenswarm"

Build and maintain a persistent knowledge base (LLM Wiki) using native backend tools. Supports ingesting PDFs, Markdown, and TXT files, and querying or linting the data. Use this whenever the user wants to add, retrieve, or manage their own local knowledge base and documents.

2026-05-28877

advanced-daily-report.md

from "openJiuwen-ai/jiuwenswarm"

进阶版日报生成器，支持多数据源采集、工作分析、趋势对比、周报月报聚合

2026-05-19877

akg-agents.md

from "openJiuwen-ai/jiuwenswarm"

代理执行 AKG 算子任务。先检查固定仓库与分支；若 `~/.akg/check_env.md` 不存在则强制 `FULL_SETUP=true`；忽略所有 `akg_cli` 检查和使用；后端代码生成直接执行 `run_workflow.py --workflow kernelgen`。

2026-05-19877

ascend-moe-optimizer-trace-analyzer.md

from "openJiuwen-ai/jiuwenswarm"

在用户提供 Chrome/Perfetto trace.json、或排查 Ascend 上 MoE/FusedDeepMoe 等算子性能时使用。按 phase、category、core group、tid 统计耗时、overlap、bubble，输出 CSV、Markdown 报告与确定性诊断；可选外部 LLM 扩写分析。默认 phase 映射面向 UMDK FusedDeepMoe，其它 trace 需替换或扩展 config/phase_map.yaml。

2026-05-19877

cross-channel-history-retrieval.md

from "openJiuwen-ai/jiuwenswarm"

跨会话检索聊天原文（记忆不足时再用）。在回答任何关于历史事件、日期、人物、过去对话的问题时，如果记忆中没有相关信息或不足以回答，则需要使用跨会话检索聊天原文。用 mcp_exec_command 执行 scripts/search_history.py，读 ~/.jiuwenswarm/agent/sessions/*/history.json。支持 channel、session_id、关键词、时间窗。如果搜索结果不足，尝试用不同的关键词再次搜索。

2026-05-19877

delayed-restart-app.md

from "openJiuwen-ai/jiuwenswarm"

安排延迟重启本 Agent 所在的服务（JiuwenSwarm app）。执行后当前 Agent 进程会被终止并重新启动，当前会话会断开。用于用户要求重启、配置更新需生效、或服务异常需重载时。使用 bash 调用脚本。

2026-05-19877

package.json

"author": "openJiuwen-ai"

"repository": "openJiuwen-ai/jiuwenswarm"

Abrir repositorio de GitHub Ver repositorios del creador

$ install --global

$ download --local

Ejecutar en Manus

$ useful --forSOC

Científicos de datosOcupaciones informáticas y matemáticas15-2051L4

Ejecuta cualquier Skill con un clic

name

ascend-moe-optimizer-auto-trace

description

为昇腾算子在源码中接入 TRACE_POINT 与 MoeTracing，串通 trace_preprocessor、profiling tensor、point_map.json、 save_profiling_data 与 trace_collector 生成 Chrome trace。强调门禁 G1–G5：全链路预处理与 OPP、profiling 为数据输出最后一位、整条编译与示例脚本联调、落盘路径在 spawn 前 resolve。遵循函数级粒度与就地扩展，禁止另注册 xxx_profiling 类第二入口，保持原 Op 与 torch.ops 名称及签名不变。在用户提到算子打点、Profiling、Chrome trace、MoeTracing，或将结论写入本 skill 时读取。

昇腾算子自动打点

Agent 速查（执行本 skill 时先读）

红线：用户未明确说「只要改源码里的 TRACE / 不要 GM / 不要改 Op 输出与 pybind」时，禁止只改 op_kernel 或只插桩不交联调脚本。须满足下表 G1–G5；任一缺失须在回复中写明「未完成项 + 后续风险」，不得宣称已闭环。

门禁	必须满足
G1 预处理	团队 `compile_ascend_proj.sh`（或等价）已接入 `trace_preprocessor.py` hook；当次编译在构建树生成 `point_map.json`，且与当前运行的 OPP/核同源
G2 输出位次	`profiling_data` 为全部 Tensor「数据输出」中的最后一个（主输出 `1…N`，再第 `N+1` 路 profiling）。*`op_host` / infer / tiling（若描述输出）/ 类 `Init` / `__global__` / `aclnnInner_` / 手写 `pregen/.../aclnn_` / `EXEC_NPU_CMD` 实参* 顺序一致；禁止只改其中一层
G3 编译	用项目常用整条命令跑通 OPP（及若有的 pybind whl）。不等于仅通过 `validate_trace_points.py` / `check_compile_safety.py`
G4 联调与后处理	在既有 *`examples/_sample.py` 和/或 `test_.py`* 中：设备同步（如 `torch_npu.npu.synchronize`）→ `trace_utils.save_profiling_data`；若生成 Chrome：调用 `trace_collector.py`，且 `point_map.json` 满足 G1。不得「算子已多一路输出，但脚本仍按旧 arity 解包且从不落盘」
G5 落盘路径	传给 `save_profiling_data` / `trace_collector` 的 `profiling_dir`、`chrome_trace`、`point_map`：在 `multiprocessing.spawn` 或等价并行之前一律 `Path(...).expanduser().resolve()` 为绝对路径。相对路径在 `save_profiling_data` 内会拼到 `trace_utils.py` 所在目录，与 shell cwd 不一致 → 易出现 *No rank.pt**

模式 A / B（与步骤 7 一致）：A = profiling_data OPTIONAL，Python 侧可不增返回值个数；B = 同一 torch.ops 名，返回值最后一项为 profiling。用户要落盘 / Chrome 时优先 B 或在 sample 中显式接 optional 内核参数；OpDef REQUIRED 时禁止用 nullptr 规避。

阅读顺序：本段门禁 → 下文「目标」与「全链路操作性定义」→ 必须执行的流程 1–7 → reference.md。

目标

根据自然语言需求，为目标算子生成可落地的算子侧打点代码。

边界约束：

本 skill 负责算子代码插桩 + profiling 数据采集/解析工具链的完整闭环。
本 skill 不修改 算子的业务逻辑（matmul、通信等功能代码），仅新增 profiling 相关代码。
本 skill 需要支持 在仅有算子代码时，自动补齐打点所需工程脚本、编译接入、以及从 profiling tensor 到 Chrome Trace JSON 的完整处理链路。
就地改造、少增文件：优先改现有编译脚本、示例与 UT；避免平行维护新 sh、新 run_*、新整文件测试副本（细则见步骤 6–7 与下表）。
同一算子、同一接口名：profiling 视为对原算子的增强，禁止再注册名为 xxx_profiling、*_with_profiling 或任何「看起来像另一个算子」的 Op / torch.ops 入口；算子在图与 Python 侧的注册名保持不变（若工程允许 arity +1，仅在同一名下多返回 profiling 张量；输入形参名与顺序也尽量不变，新增输出走既有扩展约定而非改名分叉）。

默认交付标准（本 skill 执行时按此闭环，除非用户明确只要「仅插桩、不要 GM」）：

算子侧：在 *_base.h 中 ENABLE_MOE_PROFILING 默认为 1（关闭设备侧写入改为 0 并重编核；禁止依赖「不向设备传 profiling 张量」规避，与 REQUIRED 契约一致时尤其如此）；profiling_data（或工程约定的同名输出）与主输出同级（OpDef / infer / pybind / 核形参与 Init 顺序一致），核入口栈 buffer、SetMoeProfilePtr、GM 写回齐全。
profiling_data 在「数据输出」中的位置（易执行错、须写死）：凡本 skill 走 模式 B / REQUIRED、或用户要求 可采集 GM profiling 时，在所有与 GE/设备绑定的输出列表里，profiling_data 必须是最后一个 Output（主输出 1…N 在前，第 N+1 个且仅最后一个为 profiling）。Infer / tiling 中该输出的索引、aclnnInner_* 与手写 pregen/.../aclnn_*.cpp 形参顺序、EXEC_NPU_CMD 实参、__global__/Init 的 GM 槽位须与同序；workspace / tiling 缓冲等非 Tensor 输出若与 Tensor 输出混排，以该算子工程既有约定为准，但 profiling 张量不得插在主输出中间。禁止只改 op_host 而漏改 infer/pregen/pybind/核入口任一处导致「看似编过、运行时错槽」。
编译：在团队实际使用的 compile_ascend_proj.sh（或等价） 中已部署 trace_preprocessor.py hook（# TRACE_PREPROCESSOR_HOOK_START/END）；本仓库 UMDK 路径为 umdk/build/cam/comm_operator/compile_ascend_proj.sh，工具链脚本与 skill scripts/ 对齐（可用 bootstrap_trace_toolchain.py 同步）。
测试：在既有 *_sample.py / test_*.py 上扩展——返回值 arity 与 torch.ops 解包兼容多一路 profiling；torch_npu.npu.synchronize（或等价）后再落盘；可选 --point_map + trace_collector.py 生成 Chrome trace（具体 CLI 以目标仓库已存在的示例脚本为准）。

用户用语与默认范围（避免只做「半套」）

用户仅说 「打点 / 插桩 / trace / profiling / 性能点位」 且未写明 「只要改源码里的 TRACE_POINT 字符串、不要改 Op 输出 / 不要 GM / 不要动 pybind」 等缩范围指令时，一律按上文「默认交付标准」执行全链路（算子 + profiling 张量绑定 + 编译预处理 + 示例或 UT 解包）。
仅当用户明确缩小范围（例如「只加点位、本迭代不接 profiling 输出」）时，才可省略 GM / Op 变更，并应在回复中说明后续补齐项与风险。

「全链路」操作性定义（避免只改少数文件就交差）
以下视为同一交付物，缺任一项即属半套（须在回复中列出未完成项）：① 编译管线中的 trace_preprocessor.py hook（生成与当次 OPP 一致的 point_map.json）；② op_host / infer / tiling（若有输出描述） 与 核 Init/__global__ 的输出顺序一致，且 profiling 为最后一路数据输出（见上条）；③ aclnnInner_* 与手写 pregen/.../aclnn_* 对齐；④ pybind 多路返回或 EXEC_NPU_CMD 与之一致；⑤ 既有 examples/*_sample.py 或 test_*.py：在 torch_npu.npu.synchronize（或等价）之后 调用 save_profiling_data，且父进程或文档可 trace_collector.py → chrome_trace.json（与 point_map.json 同源）。仅 kernel 内 TRACE_POINT + 工具链脚本存在，但 sample/UT 仍不解包、不落盘、不接 collector —— 不算完成本 skill 默认交付。

推荐执行顺序（与下方步骤编号对应）：扫描与规划（1→2→3）→ 插桩（4）→ 静态校验（5）→ 部署工具链与编译接入（6）→ Profile 测试脚本分叉（7，可与 6 并行准备，但须在 pybind/算子已暴露 profiling 输出之后才有意义）。

Skill 自维护（元规则）

与本 skill 范围相关的讨论（排障、形状、ABI、profiling 与主路径关系等）若得出 可复用、非一次性 的结论，应在同一会话或用户确认后写回本仓库 skill，避免经验只留在聊天记录里。

写哪里：默认编辑本目录下的 SKILL.md（与 reference.md 同级；本仓库示例路径见 reference.md 文首）；过长细节写入 reference.md 并保持链接。
写什么：短条目、可执行检查项、易错的「不要 / 必须」、与代码路径/常量名的对应；不要整段粘贴 plog 或冗长堆栈。
本仓库 UMDK 与 Skill 同步：若修改本 skill scripts/ 下的 trace_preprocessor.py、trace_utils.py、trace_save.py、trace_collector.py、validate_trace_points.py、check_compile_safety.py、inspect_rank_pt.py、bootstrap_trace_toolchain.py，应同步更新 umdk/build/cam/comm_operator/ 下同名文件（若仓库内另有对照/金标树（本仓常见为并行目录下的 build/cam/comm_operator/），应与之对齐或文档说明有意差异）。批量同步：python3 <skill_root>/scripts/bootstrap_trace_toolchain.py --build-dir umdk/build/cam/comm_operator（<skill_root> 为含本 SKILL.md 的目录；从仓库根代入 jiuwenswarm/resources/agent/workspace/skills/ascend-moe-optimizer-auto-trace/）。
何时写：用户明确要求「记成规则 / 写进 skill」时必做；若新结论修正 skill 里旧表述（例如 optional vs REQUIRED），应直接改原文并保持一致性。
触发词：用户说「记录规则」「经验更新到 skill」「探讨的结论落盘」等，按本条执行。

近期已并入本 skill 的探讨结论（示例索引，便于检索）

主题	要点
Agent 门禁 G1–G5	文首「Agent 速查」；默认交付先逐条满足，回复对照「输出约定」声明；G5 与 `save_profiling_data` 相对路径陷阱见 reference.md「常见陷阱」。
`point_map.json` 与 Chrome 解析	必须与当前已安装 OPP/核为同一次 `trace_preprocessor` 产物；路径填真实文件（勿用 `/path/to/...` 占位）。Host 落盘 profiling 须在 NPU `synchronize`（或等价）之后。`skipped_no_mapping` 高而 `rank.pt` 非空 ⇒ 映射与二进制不一致*，非「没打点」。详见 reference.md 末尾相关小结。
profiling 输出地位（示例：多输出算子）	若采用独立 `profiling_data`：与主输出同级绑定（OpDef/pybind/核 `__global__`/`Init` 顺序一致）；REQUIRED 时禁止向设备传空 profiling；关设备侧写入用宏 + 重编核。若工程选择「复用既有 GM / optional」须与图语义一致，勿混用两种绑定。
核写回与 host 可见性	设备写 profiling GM 后，若 host 读数异常或陈旧，可按平台补充 cache 一致性操作（如 `DataCacheCleanAndInvalid` 等），以目标 CANN/AscendC 文档为准。
混合核入口同步	1C2V 等场景下，若在 `SetMoeProfilePtr` 前后或首条 `MoeTracing` 前出现边界异常，可按算子语义在 AIC/AIV 间补 CrossCore 屏障，避免 trace 与执行顺序错位。
大块实现 / `#include` 子树（易漏检）	入口 `op_kernel/<入口>.h` 往往只调度；真正耗时的 matmul / epilogue / 通信 / 分核 `operator()` 常在 `gemm/`、`kernel/`、`epilogue/`、`raw_distributed/` 等子目录头文件中。必须从入口递归扫全 `op_kernel/`，对这些翻译单元打点；禁止只改入口壳子。自检：对目标算子目录 **`grep -E 'MoeTracing
编译接入形态	改造已有编译脚本，用标记块插入 `trace_preprocessor.py`；不新增平行「专用编译 sh」作为唯一入口。工具链优先放在与 `compile_*.sh` 同目录的可提交路径；`bootstrap` / `apply_trace_scaffold` 仅在其他仓无副本或一次性接入时使用。
就地改造与文件数量	尽量少新建文件：在既有 `_sample.py`、`compile_.sh`、`test_<op>.py` 上扩展；工具链与预处理脚本优先与现有 build 目录同仓提交。
算子命名与接口	禁止单独算子名 `xxx_profiling` / *`_with_profiling`（及同类变体）；保持原算子注册名与 `torch.ops` 名不变，profiling 为同算子改造（多一路输出时用同一 Op 名** + 文档化的返回值扩展，而非第二个算子）。
`MIX_AIC_1_2_SLOTS_PER_GROUP`	`1 + GetSubBlockNum()`，本任务 1C2V 下常数为 `1 + 2`；Infer 中拆成 `MIX_AIC_1_2_SUBBLOCK_NUM` 与 `1 + …` 避免魔法数 `3`。
`MAX_INFER_GETBLOCKNUM_UB = 128`	Infer 无 `GetBlockNum()`；为防低估 profiling GM；运行时常见 24 与上界无关；宁可略大占 GM，不可估小。
默认全链路 / `ENABLE_MOE_PROFILING`	交工默认含 profiling 输出（或与工程一致的绑定方式）+ 预处理 hook + 示例或 UT 解包；设备侧宏默认 `1`。Infer 与动态输出：若主输出行数/形状依赖运行时计数、infer 难以与 tiling 一致，可仅对 `profiling_data` 在 infer 中强制 shape/dtype，其余输出仍由图或 tiling 推导（须在工程内验证 GE/运行时无冲突）；此为工程权衡，非所有算子必需。

输入

目标算子路径，例如 src/.../op_kernel/<op>.h（或仓库约定的 ascend_kernels/<op>/ 根目录）。
自然语言需求：若未显式缩小范围，默认按 「默认交付标准」 与 「用户用语与默认范围」 执行（见文首）。
打点风格：MoeTracing(TRACE_POINT("label", "B/E")) 或带上下文 MoeTracing(TRACE_POINT("label", "B/E"), extraId, index)。
约束条件：
- 函数级粒度（见 reference.md「打点密度与均匀性要求」）
- 根节点名称固定为 processing
- 最大深度为 7（实际按语义需要决定，不要人为卡在浅层）
- 对深层或低价值调用链执行智能合并

插桩覆盖必达清单（交工前自检）

以下与具体算子目录结构无关；不得只改「最外层调度头文件 / 单文件入口」即视为完成插桩。

Kernel 入口：op_kernel 下实际参与编译的 device 入口（通常为 *.cpp 中的 __global__ / __aicore__ 函数）——含 profiling 栈 buffer、与 GM 写回等与本 skill 约定一致的逻辑时，必须接入且与 op_host 参数个数一致。
入口头文件 + 递归 #include 可达的全部实现：在该算子 op_kernel/（含任意子目录）内，凡实现 AIC / AIV 分核主流程阶段的翻译单元（含模板 operator()<AscendC::AIC> / operator()<AscendC::AIV>、分核 Process、通信、epilogue、与入口链路上的大块计算/融合逻辑等），均须具备与语义匹配的 B/E 点位；仅最外层已打点、深层实现头文件未打点视为未完成。易漏检形态：入口头只做转发，大块逻辑在子目录头文件中——须 逐层 #include 跟到底，不得以「文件名像数学库」为由跳过（见上表 大块实现 / #include 子树）。
op_host / infer / pybind：profiling 输出、形状推导、Python 解包 arity 等按本 skill 其他章节执行；凡在 OpDef 中将 profiling_data（或等价名）标为 REQUIRED 的算子，均须满足下文 「profiling_data 与主输出同等工程地位」 全条（禁止 nullptr optional、核 __global__ 与类 Init / aclnn 形参顺序一致等）。
密度门槛：见 reference.md「打点密度与均匀性要求」——按每种核类型（AIC、AIV）分别核对可见语义标签数；未达标时优先在「大块实现」内补阶段边界（见步骤 4 与 reference.md「常见陷阱」），而不是在入口重复堆叠同义点位。

必须执行的流程

扫描目标代码
- 从入口文件出发，递归跟随 #include 进入同算子目录下的所有头文件，直到遍历完整个算子内部代码树。不能只看入口 .h，必须读取其直接或间接包含的所有实现文件。
- 识别主流程阶段与函数边界；特别关注 模板实例化调用链：如果入口函数调用了模板类并最终执行 operator()()，该 operator() 同样属于主流程阶段边界，必须跟进到对应头文件。
- 将 #include 拉起的、参与编译的 所有子目录头文件列入待打点清单；对 子目录中文件名含 workspace / kernel / gemm / epilogue 等大块实现 尤须逐文件打开核对（与上条「易漏检」一致），不得因模板深或行数多而跳过。
- 识别 AIC / AIV 分核执行路径：如果算子使用混合核（1C2V 等），AIC 分支和 AIV 分支各自是独立的主流程，需要分别打点。
- 对于 1C2V 等模式，必须检查 operator()<AIV>() 内部是否存在角色分工（如 send core / recv core / compute core / share quant core）。不同 AIV 核可能通过 aivIdx 或 GetSubBlockIdx() 走完全不同的分支，每种角色的主要工作阶段都需要独立打点。
- 尽量保留已存在且合法的点位。
构建打点树
- L1 必须是 processing。
- L2 至 L7 必须来源于当前算子真实语义（不要把 dispatch/combine 当作全局默认词）；合并规则见步骤 3，语义需要时用到 L6/L7 是正常的。
- 对 AIC/AIV 分核执行路径，分别用 <phase> aic / <phase> aiv 作为 L2/L3 区分。
- 对 expert group 循环、stage 循环等带索引的重复结构，打点时必须传递索引参数（见 reference.md「MoeTracing 运行时规格」）。
应用智能合并规则
- 超过 7 层的调用，折叠到最近的 L7 祖先节点。
- 对无同步/无通信边界的薄封装函数与 helper 进行合并。
- 对热点语义（wait、sync、send、recv、copy、quant、dequant）保留独立点位。
插入代码
- 使用稳定命名的 B/E 成对点位。
- 保证 begin/end 词法嵌套正确。
- "最内层循环"指 tile 级别的矩阵计算循环（如 matmul 块内沿 K 的迭代、细粒度 epilogue tile 循环），不要在其中打点。但 expert group 循环、stage 循环属于阶段边界，必须在循环体入口/出口打点。
- 区分「阶段边界」与「tile 内层」——同一头文件里可能同时存在二者，不得以目录名或文件名猜测并整文件跳过：
  - ✅ 需要打点：分核主流程的 operator()<AIC> / operator()<AIV>（或等价的分核入口） 的整体阶段边界；expert / stage 等粗粒度循环体上的入口与出口；AIC↔AIV 同步与等待；独立语义的 epilogue、通信、dispatch/combine 子阶段等。
  - ❌ 不要打点：块内 matmul/epilogue 单次 tile 的内层搬运与沿 K 的紧循环、孤立单次 DataCopy 等无独立阶段语义的位置。
  - 判断标准：若某函数/入口是 本分核上某一整段业务的调度或阶段边界（典型为分核 operator()、或等价的大阶段入口），则打点；若仅为 单次 tile 或单次微内核调用的内层实现，则不打点。文件名、子目录名不作为是否跳过的依据。
校验
- 对改动文件运行 scripts/validate_trace_points.py，检查点位命名与 B/E 配对。
- 若仓库内同一算子存在多套源码树（例如金标目录与产品目录），建议对每一套各自的 op_kernel（或等价目录）各跑一遍上述脚本，避免分叉漂移。
- 运行 scripts/check_compile_safety.py <operator_dir>，静态检查插桩是否会引入编译错误。此脚本检查：花括号平衡、预处理指令配对（#if/#endif）、MoeTracing 头文件可达性、TRACE_POINT 参数语法、变量作用域、profiling guard 闭合、kernel 参数与 op_host 注册的一致性。
- 步骤 5 的定位：主要覆盖算子源码树内的常见静态错误；不能替代完整 OPP / cust_opapi / pybind 工程编译。例如 aclnnInner_*（自动生成）与仓库内手写 pregen/.../aclnn_*.cpp 签名不一致、EXEC_NPU_CMD 宏对参数左值的要求、CPack 安装路径缺失等，脚本未必能检出。
- 如果校验失败，修正问题后重新运行。两个脚本都通过后，仍须用目标仓库的 build.sh / compile_ascend_proj.sh（或 CI 等价命令）跑通一次完整编译作为最终门禁（见 reference.md「编译与打包门禁」）。
部署工具链并接入编译（必须执行，不可跳过）
- 此步骤不是可选的"缺省场景"，而是打点流程的必要组成部分。即使插桩代码已正确插入，如果工具链脚本未部署、预处理未接入编译，打点数据无法采集和解析。
- 少新文件、改已有入口（优先原则）：不要为打点单独再维护一条「新的编译 sh」或平行入口，替代团队已在用的命令。正确做法是：在现有 compile_ascend_proj.sh（或 CI 调用的等价脚本）里，于 copy_ops/源码拷入构建树之后、./build.sh 之前，插入一段预处理调用，并用 # TRACE_PREPROCESSOR_HOOK_START / # TRACE_PREPROCESSOR_HOOK_END 包裹，便于幂等与审查。日常编译仍只跑原命令；apply_trace_scaffold.sh 仅是一次性接入助手（跑完 bootstrap + patch + verify），不是长期编译入口。
- 工具链放哪：若仓库已把 trace_preprocessor.py / trace_utils.py / trace_collector.py 等与编译脚本放在同一可提交目录（例如本仓库 umdk/build/cam/comm_operator/），hook 内用 dirname "${BASH_SOURCE[0]}" 解析到的目录调用即可，无需再 bootstrap 复制一份到别处，避免重复文件与路径漂移。仅当目标仓没有可提交的副本、且不希望把 .py 纳入版本库时，才用 bootstrap_trace_toolchain.py 拷到指定 build_dir。
- 发现 build 目录：在项目中搜索编译脚本（如 compile*.sh、build*.sh、Makefile、CMakeLists.txt），定位算子的 build 目录。常见位置如 build/、scripts/ 等，不要假设目录名称。
- 部署脚本（按需）：无仓内副本时，运行 bootstrap_trace_toolchain.py 将下列脚本复制到目标 build 目录：trace_preprocessor.py、trace_utils.py、trace_save.py、trace_collector.py、validate_trace_points.py、check_compile_safety.py、inspect_rank_pt.py（以脚本内 TOOLCHAIN_FILES 为准）。
- 接入编译：运行 patch_build_pipeline.py 在现有编译脚本中注入预处理 hook；anchor 不匹配时，手工在同一脚本、同一相对顺序插入命令并加 # TRACE_PREPROCESSOR_HOOK_START / END 标记。
- 校验部署：运行 verify_trace_scaffold.py 确认脚本文件存在且编译 hook 已就位。
- 不覆盖用户已有脚本；已存在时只做缺失补齐或可控更新。
- 完整编译门禁：工具链部署完成后，必须在实际使用的环境（容器 / CI / 本机）中执行与团队一致的一条完整编译（含算子包与 pybind，若项目如此组织）。仅「预处理成功」或仅步骤 5 通过，不等于产物可安装、可 import。常见工程问题见 reference.md「编译与打包门禁」。
Profile 测试脚本分叉（默认交付的组成部分；非「有空再做」）
- 与本段相关的交付门禁：G4（同步后落盘、collector 与 point_map 同源）、G5（profiling_dir 等 resolve()）。不满足则默认交付不完整。
- Python 面两种模式（勿混为一谈）：
  - 模式 A（保持原返回值个数）：图 / op_host 注册 OPTIONAL profiling_data（或等价名）时，公开 pybind 可仍只返回原先主输出；在 C++ 里通过 aclnn*GetWorkspaceSize 向 Inner 传入空 optional / nullptr 表示本次不采 profiling。原 UT、原 torch.ops arity 不变。注意：一旦某算子在 OpDef 中将 profiling_data 标为 REQUIRED，则禁止再使用该 nullptr 路径，否则图语义、GE 绑定与设备参数不一致。
  - 模式 B（同一算子名、返回值 arity +1）：在 Op 注册名 / torch.ops 名与输入签名均不变 的前提下，仅在同一算子名上扩展返回值（多一路 profiling_data）。禁止新增 xxx_profiling、*_with_profiling 等第二套算子或第二套 torch.ops 名（那是「另一个算子」，与本原则冲突）。调用方用 ..., _ = op(...) 忽略最后一项即可保持业务逻辑不变；落盘与 Chrome 在团队已有或本 skill 扩展的 *_sample.py 中用 --profiling_dir（写 rank*.pt）、可选 --point_map + --chrome_trace（spawn 结束后 subprocess 调 trace_collector.py）完成，避免再增 run_* / *_profile.py 整文件。
- 多主输出算子：profiling_data 与主输出同等工程地位（REQUIRED 时强制契约）
  打点 / profiling 的 GM 输出 必须与该算子全部主输出在图与绑定上同级，不得单独做成「可选旁路」导致向设备传 nullptr 或与主输出参数生命周期不一致。设主输出共 N 路，profiling 为第 N+1 路 GM 输出（具体枚举名以 op_host 为准）。实现检查清单：
  1. op_host OpDef（op_host/<op>.cpp 或团队等价路径）：Output("profiling_data") 使用 ParamType(REQUIRED)，与主输出同级。
  2. InferShape / InferDataType（op_host/<op>_infer.cpp 等）：对 profiling 输出索引做与主输出相同的 nullptr 门禁；始终设置其维度与 dtype，不得依赖「可选输出可能不存在」分支。
  3. pybind（pybind/<op>.cpp 等）：始终分配并向 aclnn<OpName> / EXEC_NPU_CMD 传入 profiling 的 at::Tensor（与主输出同为实张量）。禁止用 c10::nullopt、环境变量等方式向设备侧传入「空 profiling GM」以规避绑定。
  4. 设备类 Init（op_kernel/<入口>.h）：GM 形参顺序为 主输出 1…N，再 profiling_data，再 workspace/tiling 等——须与 OpDef / aclnn 一致（具体是否紧挨 workspace 以该算子既有约定为准，但不得与核入口乱序）。
  5. __global__ 核函数入口（op_kernel/<op>.cpp 等）：与 OpDef / Init 同序；改序后必须 全量重编算子包 / OPP 并做一次运行验证（plog 参数槽与 DFX），避免与旧二进制混用导致错参。
  6. 关闭设备侧 trace 写入：通过 ENABLE_MOE_PROFILING（在 <op>_base.h 或团队等价 base 头）与重编核控制核内是否写入；不要依赖「不传 profiling 张量」——在 REQUIRED 契约下该做法非法且易与参数槽位/调试结论混淆。
- 目的：历史脚本若只解包前 N 个主输出，需在升级后改为多解包一位（可用 _ 丢弃）；专门采集脚本显式接收 profiling 张量并 save_profiling_data。
- 禁止：为适配 profiling 在 profile 用途之外 把 trace_utils 硬塞进核心数值 UT 的主路径。原 UT 仍以数值断言为主；若必须兼容旧 arity，可在调用处用 *head, _ = op(...) 或固定长度解包。
- 推荐（少新文件）：在原有 examples/<op>_sample.py 或团队 driver（非 pytest）中扩展：对 torch.ops...<原算子名>(...) 使用 len(outs) 分支，向 forward 返回元组末尾附带 profiling（或 None）；__main__ 增加 profiling / trace 相关 CLI；子进程内 save_profiling_data，父进程在 mp.spawn(..., join=True) 之后可用 subprocess 调用 trace_collector.py。算子名与接口名不变；不要注册 xxx_profiling / xxx_with_profiling。若仅有 pytest UT、无 sample，再在同一份 test_<op>.py 里增加辅助函数（仍优于新建整文件副本）。
- 命名与位置：优先改现有 *_sample.py / 团队已有 driver；确需 pytest 专用断言时再在同一目录的 test_<op>.py 内加函数，避免另建 test_<op>_profile.py 除非团队明确要求分拆文件。
- 必改内容：
  - 对主入口 torch.ops.<lib>.<op>(...) 在 len(outs) 上兼容「旧 arity / 新 arity（多一路 profiling）」；最后一项为 profiling 时参与落盘。
  - 封装算子的 nn.Module 的 _apply_ops 若把 profiling 传到 forward，下游解包须与元组长度一致；数值对拍仍只比较主输出，可用 _ 忽略 profiling。
  - SmallOps / 对照路径：baseline 不返回 profiling 时保持原元组长度不变；带 profiling 的路径在对比时只对主输出子集 assert_close。
- 与工具链对接：build/.../trace_utils.py 的 save_profiling_data；模式为：若设 --profiling_dir，在 torch_npu.npu.synchronize（或等价）之后 再 save_profiling_data；__main__ 在 --profiling_dir 且 --point_map 时用 subprocess 调用 trace_collector.py 写 chrome_trace.json（输出路径可用 --chrome_trace）。本仓库可在 umdk/src/cam/examples/ 下查找已接入上述 CLI 的 sample 作参照（文件名随算子而变）。
- 无 NPU 静态校验：可在 sample 或 UT 中增加 --trace_checks（或等价入口），内部调用 validate_trace_points.py 与 check_compile_safety.py，脚本路径优先解析到仓内已提交的 comm_operator 工具链目录。
- trace_utils 导入：将含 trace_utils.py 的目录加入 sys.path 后再 import；目录不存在时打印提示并跳过（见 sample 实现）。
- 环境说明：save_profiling_data 的 base_h_path 指向 <op>_base.h（ENABLE_MOE_PROFILING / PROF_SIZE_PER_CORE）；sample 默认尝试仓库内相对路径。
- pytest：无单独 test_*_profile.py 时，在 test_<op>.py 内增加无 NPU 的校验函数即可。

命名规则

通用根标签固定为 processing。
阶段标签必须从当前算子语义中提取。
标签采用 空格分隔的层级路径，前缀表示所属阶段，后缀表示具体子阶段。例如 "dispatch-phase1 aic" 表示「dispatch-phase1」主阶段下 AIC 分支。
名称描述"做什么"，不要过度绑定实现细节。
在语义不变时，尽量保持命名稳定。

示例（名称仅示意，须与当前算子真实阶段一致）：

processing
dispatch-phase1
dispatch-phase1 aic、dispatch-phase1 aiv
dispatch-phase1 moe-process（带 groupIdx）
dispatch-phase1 wait-token（带 groupIdx）
combine-phase block-epilogue waiting（带 stageId）
combine-phase block-epilogue calc（带 stageId）
combine-phase combine-send、combine-phase combine-recv

详细参考

以下已移至 reference.md：MoeTracing 模板与缓冲区、Profiling 搬运规格、infer 与 pybind 对齐、编译与打包门禁、打点密度、trace.json 四步流程、point_map 契约、固定脚本一览与示例命令、常见陷阱。

执行本 skill 时以门禁与上文「必须执行的流程」为准；需要完整样板代码或大表时展开 reference.md。

输出约定

完成后回复中必须包含：

门禁对照（默认范围）

用 G1–G5 逐条声明 已满足 / 未满足；未满足须写原因与用户需补动作。

技术与结果

插桩修改的文件列表（含 op_kernel/ 子树，不仅是入口壳子）。
最终点位层级（L1 为 processing；合并关系可简述）。
validate_trace_points.py 与 check_compile_safety.py 结果（或说明为何目标仓未跑）。
全链路改动摘要：至少列出 op_host / infer / tiling / 核入口 / pregen aclnn_* / pybind 中是否已对齐 G2（profiling 最后一路、顺序一致）。
工具链：hook 所在脚本、point_map.json 典型路径形态；若 bootstrap 了哪些文件到 build 目录。
步骤 7：改动的 examples/*_sample.py / test_*.py 路径；是否 synchronize → save_profiling_data；Chrome 是否 trace_collector + 同源 point_map；路径是否已 resolve()（G5）。
UMDK：wheel 路径 umdk/output/cam/comm_operator/dist/、安装命令；libcam.so / 返回值个数 见 reference.md「编译与打包门禁」。
生成 chrome_trace.json 的命令行示例（参数用真实形态，避免 /path/to 占位误导）。

name

ascend-moe-optimizer-auto-trace

description

昇腾算子自动打点

Agent 速查（执行本 skill 时先读）

门禁	必须满足
G1 预处理	团队 `compile_ascend_proj.sh`（或等价）已接入 `trace_preprocessor.py` hook；当次编译在构建树生成 `point_map.json`，且与当前运行的 OPP/核同源
G2 输出位次	`profiling_data` 为全部 Tensor「数据输出」中的最后一个（主输出 `1…N`，再第 `N+1` 路 profiling）。*`op_host` / infer / tiling（若描述输出）/ 类 `Init` / `__global__` / `aclnnInner_` / 手写 `pregen/.../aclnn_` / `EXEC_NPU_CMD` 实参* 顺序一致；禁止只改其中一层
G3 编译	用项目常用整条命令跑通 OPP（及若有的 pybind whl）。不等于仅通过 `validate_trace_points.py` / `check_compile_safety.py`
G4 联调与后处理	在既有 *`examples/_sample.py` 和/或 `test_.py`* 中：设备同步（如 `torch_npu.npu.synchronize`）→ `trace_utils.save_profiling_data`；若生成 Chrome：调用 `trace_collector.py`，且 `point_map.json` 满足 G1。不得「算子已多一路输出，但脚本仍按旧 arity 解包且从不落盘」
G5 落盘路径	传给 `save_profiling_data` / `trace_collector` 的 `profiling_dir`、`chrome_trace`、`point_map`：在 `multiprocessing.spawn` 或等价并行之前一律 `Path(...).expanduser().resolve()` 为绝对路径。相对路径在 `save_profiling_data` 内会拼到 `trace_utils.py` 所在目录，与 shell cwd 不一致 → 易出现 *No rank.pt**

阅读顺序：本段门禁 → 下文「目标」与「全链路操作性定义」→ 必须执行的流程 1–7 → reference.md。

目标

根据自然语言需求，为目标算子生成可落地的算子侧打点代码。

边界约束：

本 skill 负责算子代码插桩 + profiling 数据采集/解析工具链的完整闭环。
本 skill 不修改 算子的业务逻辑（matmul、通信等功能代码），仅新增 profiling 相关代码。
本 skill 需要支持 在仅有算子代码时，自动补齐打点所需工程脚本、编译接入、以及从 profiling tensor 到 Chrome Trace JSON 的完整处理链路。
就地改造、少增文件：优先改现有编译脚本、示例与 UT；避免平行维护新 sh、新 run_*、新整文件测试副本（细则见步骤 6–7 与下表）。
同一算子、同一接口名：profiling 视为对原算子的增强，禁止再注册名为 xxx_profiling、*_with_profiling 或任何「看起来像另一个算子」的 Op / torch.ops 入口；算子在图与 Python 侧的注册名保持不变（若工程允许 arity +1，仅在同一名下多返回 profiling 张量；输入形参名与顺序也尽量不变，新增输出走既有扩展约定而非改名分叉）。

默认交付标准（本 skill 执行时按此闭环，除非用户明确只要「仅插桩、不要 GM」）：

算子侧：在 *_base.h 中 ENABLE_MOE_PROFILING 默认为 1（关闭设备侧写入改为 0 并重编核；禁止依赖「不向设备传 profiling 张量」规避，与 REQUIRED 契约一致时尤其如此）；profiling_data（或工程约定的同名输出）与主输出同级（OpDef / infer / pybind / 核形参与 Init 顺序一致），核入口栈 buffer、SetMoeProfilePtr、GM 写回齐全。
profiling_data 在「数据输出」中的位置（易执行错、须写死）：凡本 skill 走 模式 B / REQUIRED、或用户要求 可采集 GM profiling 时，在所有与 GE/设备绑定的输出列表里，profiling_data 必须是最后一个 Output（主输出 1…N 在前，第 N+1 个且仅最后一个为 profiling）。Infer / tiling 中该输出的索引、aclnnInner_* 与手写 pregen/.../aclnn_*.cpp 形参顺序、EXEC_NPU_CMD 实参、__global__/Init 的 GM 槽位须与同序；workspace / tiling 缓冲等非 Tensor 输出若与 Tensor 输出混排，以该算子工程既有约定为准，但 profiling 张量不得插在主输出中间。禁止只改 op_host 而漏改 infer/pregen/pybind/核入口任一处导致「看似编过、运行时错槽」。
编译：在团队实际使用的 compile_ascend_proj.sh（或等价） 中已部署 trace_preprocessor.py hook（# TRACE_PREPROCESSOR_HOOK_START/END）；本仓库 UMDK 路径为 umdk/build/cam/comm_operator/compile_ascend_proj.sh，工具链脚本与 skill scripts/ 对齐（可用 bootstrap_trace_toolchain.py 同步）。
测试：在既有 *_sample.py / test_*.py 上扩展——返回值 arity 与 torch.ops 解包兼容多一路 profiling；torch_npu.npu.synchronize（或等价）后再落盘；可选 --point_map + trace_collector.py 生成 Chrome trace（具体 CLI 以目标仓库已存在的示例脚本为准）。

用户用语与默认范围（避免只做「半套」）

用户仅说 「打点 / 插桩 / trace / profiling / 性能点位」 且未写明 「只要改源码里的 TRACE_POINT 字符串、不要改 Op 输出 / 不要 GM / 不要动 pybind」 等缩范围指令时，一律按上文「默认交付标准」执行全链路（算子 + profiling 张量绑定 + 编译预处理 + 示例或 UT 解包）。
仅当用户明确缩小范围（例如「只加点位、本迭代不接 profiling 输出」）时，才可省略 GM / Op 变更，并应在回复中说明后续补齐项与风险。

Skill 自维护（元规则）

写哪里：默认编辑本目录下的 SKILL.md（与 reference.md 同级；本仓库示例路径见 reference.md 文首）；过长细节写入 reference.md 并保持链接。
写什么：短条目、可执行检查项、易错的「不要 / 必须」、与代码路径/常量名的对应；不要整段粘贴 plog 或冗长堆栈。
本仓库 UMDK 与 Skill 同步：若修改本 skill scripts/ 下的 trace_preprocessor.py、trace_utils.py、trace_save.py、trace_collector.py、validate_trace_points.py、check_compile_safety.py、inspect_rank_pt.py、bootstrap_trace_toolchain.py，应同步更新 umdk/build/cam/comm_operator/ 下同名文件（若仓库内另有对照/金标树（本仓常见为并行目录下的 build/cam/comm_operator/），应与之对齐或文档说明有意差异）。批量同步：python3 <skill_root>/scripts/bootstrap_trace_toolchain.py --build-dir umdk/build/cam/comm_operator（<skill_root> 为含本 SKILL.md 的目录；从仓库根代入 jiuwenswarm/resources/agent/workspace/skills/ascend-moe-optimizer-auto-trace/）。
何时写：用户明确要求「记成规则 / 写进 skill」时必做；若新结论修正 skill 里旧表述（例如 optional vs REQUIRED），应直接改原文并保持一致性。
触发词：用户说「记录规则」「经验更新到 skill」「探讨的结论落盘」等，按本条执行。

近期已并入本 skill 的探讨结论（示例索引，便于检索）

主题	要点
Agent 门禁 G1–G5	文首「Agent 速查」；默认交付先逐条满足，回复对照「输出约定」声明；G5 与 `save_profiling_data` 相对路径陷阱见 reference.md「常见陷阱」。
`point_map.json` 与 Chrome 解析	必须与当前已安装 OPP/核为同一次 `trace_preprocessor` 产物；路径填真实文件（勿用 `/path/to/...` 占位）。Host 落盘 profiling 须在 NPU `synchronize`（或等价）之后。`skipped_no_mapping` 高而 `rank.pt` 非空 ⇒ 映射与二进制不一致*，非「没打点」。详见 reference.md 末尾相关小结。
profiling 输出地位（示例：多输出算子）	若采用独立 `profiling_data`：与主输出同级绑定（OpDef/pybind/核 `__global__`/`Init` 顺序一致）；REQUIRED 时禁止向设备传空 profiling；关设备侧写入用宏 + 重编核。若工程选择「复用既有 GM / optional」须与图语义一致，勿混用两种绑定。
核写回与 host 可见性	设备写 profiling GM 后，若 host 读数异常或陈旧，可按平台补充 cache 一致性操作（如 `DataCacheCleanAndInvalid` 等），以目标 CANN/AscendC 文档为准。
混合核入口同步	1C2V 等场景下，若在 `SetMoeProfilePtr` 前后或首条 `MoeTracing` 前出现边界异常，可按算子语义在 AIC/AIV 间补 CrossCore 屏障，避免 trace 与执行顺序错位。
大块实现 / `#include` 子树（易漏检）	入口 `op_kernel/<入口>.h` 往往只调度；真正耗时的 matmul / epilogue / 通信 / 分核 `operator()` 常在 `gemm/`、`kernel/`、`epilogue/`、`raw_distributed/` 等子目录头文件中。必须从入口递归扫全 `op_kernel/`，对这些翻译单元打点；禁止只改入口壳子。自检：对目标算子目录 **`grep -E 'MoeTracing
编译接入形态	改造已有编译脚本，用标记块插入 `trace_preprocessor.py`；不新增平行「专用编译 sh」作为唯一入口。工具链优先放在与 `compile_*.sh` 同目录的可提交路径；`bootstrap` / `apply_trace_scaffold` 仅在其他仓无副本或一次性接入时使用。
就地改造与文件数量	尽量少新建文件：在既有 `_sample.py`、`compile_.sh`、`test_<op>.py` 上扩展；工具链与预处理脚本优先与现有 build 目录同仓提交。
算子命名与接口	禁止单独算子名 `xxx_profiling` / *`_with_profiling`（及同类变体）；保持原算子注册名与 `torch.ops` 名不变，profiling 为同算子改造（多一路输出时用同一 Op 名** + 文档化的返回值扩展，而非第二个算子）。
`MIX_AIC_1_2_SLOTS_PER_GROUP`	`1 + GetSubBlockNum()`，本任务 1C2V 下常数为 `1 + 2`；Infer 中拆成 `MIX_AIC_1_2_SUBBLOCK_NUM` 与 `1 + …` 避免魔法数 `3`。
`MAX_INFER_GETBLOCKNUM_UB = 128`	Infer 无 `GetBlockNum()`；为防低估 profiling GM；运行时常见 24 与上界无关；宁可略大占 GM，不可估小。
默认全链路 / `ENABLE_MOE_PROFILING`	交工默认含 profiling 输出（或与工程一致的绑定方式）+ 预处理 hook + 示例或 UT 解包；设备侧宏默认 `1`。Infer 与动态输出：若主输出行数/形状依赖运行时计数、infer 难以与 tiling 一致，可仅对 `profiling_data` 在 infer 中强制 shape/dtype，其余输出仍由图或 tiling 推导（须在工程内验证 GE/运行时无冲突）；此为工程权衡，非所有算子必需。

输入

目标算子路径，例如 src/.../op_kernel/<op>.h（或仓库约定的 ascend_kernels/<op>/ 根目录）。
自然语言需求：若未显式缩小范围，默认按 「默认交付标准」 与 「用户用语与默认范围」 执行（见文首）。
打点风格：MoeTracing(TRACE_POINT("label", "B/E")) 或带上下文 MoeTracing(TRACE_POINT("label", "B/E"), extraId, index)。
约束条件：
- 函数级粒度（见 reference.md「打点密度与均匀性要求」）
- 根节点名称固定为 processing
- 最大深度为 7（实际按语义需要决定，不要人为卡在浅层）
- 对深层或低价值调用链执行智能合并

插桩覆盖必达清单（交工前自检）

以下与具体算子目录结构无关；不得只改「最外层调度头文件 / 单文件入口」即视为完成插桩。

Kernel 入口：op_kernel 下实际参与编译的 device 入口（通常为 *.cpp 中的 __global__ / __aicore__ 函数）——含 profiling 栈 buffer、与 GM 写回等与本 skill 约定一致的逻辑时，必须接入且与 op_host 参数个数一致。
入口头文件 + 递归 #include 可达的全部实现：在该算子 op_kernel/（含任意子目录）内，凡实现 AIC / AIV 分核主流程阶段的翻译单元（含模板 operator()<AscendC::AIC> / operator()<AscendC::AIV>、分核 Process、通信、epilogue、与入口链路上的大块计算/融合逻辑等），均须具备与语义匹配的 B/E 点位；仅最外层已打点、深层实现头文件未打点视为未完成。易漏检形态：入口头只做转发，大块逻辑在子目录头文件中——须 逐层 #include 跟到底，不得以「文件名像数学库」为由跳过（见上表 大块实现 / #include 子树）。
op_host / infer / pybind：profiling 输出、形状推导、Python 解包 arity 等按本 skill 其他章节执行；凡在 OpDef 中将 profiling_data（或等价名）标为 REQUIRED 的算子，均须满足下文 「profiling_data 与主输出同等工程地位」 全条（禁止 nullptr optional、核 __global__ 与类 Init / aclnn 形参顺序一致等）。
密度门槛：见 reference.md「打点密度与均匀性要求」——按每种核类型（AIC、AIV）分别核对可见语义标签数；未达标时优先在「大块实现」内补阶段边界（见步骤 4 与 reference.md「常见陷阱」），而不是在入口重复堆叠同义点位。

必须执行的流程

扫描目标代码
- 从入口文件出发，递归跟随 #include 进入同算子目录下的所有头文件，直到遍历完整个算子内部代码树。不能只看入口 .h，必须读取其直接或间接包含的所有实现文件。
- 识别主流程阶段与函数边界；特别关注 模板实例化调用链：如果入口函数调用了模板类并最终执行 operator()()，该 operator() 同样属于主流程阶段边界，必须跟进到对应头文件。
- 将 #include 拉起的、参与编译的 所有子目录头文件列入待打点清单；对 子目录中文件名含 workspace / kernel / gemm / epilogue 等大块实现 尤须逐文件打开核对（与上条「易漏检」一致），不得因模板深或行数多而跳过。
- 识别 AIC / AIV 分核执行路径：如果算子使用混合核（1C2V 等），AIC 分支和 AIV 分支各自是独立的主流程，需要分别打点。
- 对于 1C2V 等模式，必须检查 operator()<AIV>() 内部是否存在角色分工（如 send core / recv core / compute core / share quant core）。不同 AIV 核可能通过 aivIdx 或 GetSubBlockIdx() 走完全不同的分支，每种角色的主要工作阶段都需要独立打点。
- 尽量保留已存在且合法的点位。
构建打点树
- L1 必须是 processing。
- L2 至 L7 必须来源于当前算子真实语义（不要把 dispatch/combine 当作全局默认词）；合并规则见步骤 3，语义需要时用到 L6/L7 是正常的。
- 对 AIC/AIV 分核执行路径，分别用 <phase> aic / <phase> aiv 作为 L2/L3 区分。
- 对 expert group 循环、stage 循环等带索引的重复结构，打点时必须传递索引参数（见 reference.md「MoeTracing 运行时规格」）。
应用智能合并规则
- 超过 7 层的调用，折叠到最近的 L7 祖先节点。
- 对无同步/无通信边界的薄封装函数与 helper 进行合并。
- 对热点语义（wait、sync、send、recv、copy、quant、dequant）保留独立点位。
插入代码
- 使用稳定命名的 B/E 成对点位。
- 保证 begin/end 词法嵌套正确。
- "最内层循环"指 tile 级别的矩阵计算循环（如 matmul 块内沿 K 的迭代、细粒度 epilogue tile 循环），不要在其中打点。但 expert group 循环、stage 循环属于阶段边界，必须在循环体入口/出口打点。
- 区分「阶段边界」与「tile 内层」——同一头文件里可能同时存在二者，不得以目录名或文件名猜测并整文件跳过：
  - ✅ 需要打点：分核主流程的 operator()<AIC> / operator()<AIV>（或等价的分核入口） 的整体阶段边界；expert / stage 等粗粒度循环体上的入口与出口；AIC↔AIV 同步与等待；独立语义的 epilogue、通信、dispatch/combine 子阶段等。
  - ❌ 不要打点：块内 matmul/epilogue 单次 tile 的内层搬运与沿 K 的紧循环、孤立单次 DataCopy 等无独立阶段语义的位置。
  - 判断标准：若某函数/入口是 本分核上某一整段业务的调度或阶段边界（典型为分核 operator()、或等价的大阶段入口），则打点；若仅为 单次 tile 或单次微内核调用的内层实现，则不打点。文件名、子目录名不作为是否跳过的依据。
校验
- 对改动文件运行 scripts/validate_trace_points.py，检查点位命名与 B/E 配对。
- 若仓库内同一算子存在多套源码树（例如金标目录与产品目录），建议对每一套各自的 op_kernel（或等价目录）各跑一遍上述脚本，避免分叉漂移。
- 运行 scripts/check_compile_safety.py <operator_dir>，静态检查插桩是否会引入编译错误。此脚本检查：花括号平衡、预处理指令配对（#if/#endif）、MoeTracing 头文件可达性、TRACE_POINT 参数语法、变量作用域、profiling guard 闭合、kernel 参数与 op_host 注册的一致性。
- 步骤 5 的定位：主要覆盖算子源码树内的常见静态错误；不能替代完整 OPP / cust_opapi / pybind 工程编译。例如 aclnnInner_*（自动生成）与仓库内手写 pregen/.../aclnn_*.cpp 签名不一致、EXEC_NPU_CMD 宏对参数左值的要求、CPack 安装路径缺失等，脚本未必能检出。
- 如果校验失败，修正问题后重新运行。两个脚本都通过后，仍须用目标仓库的 build.sh / compile_ascend_proj.sh（或 CI 等价命令）跑通一次完整编译作为最终门禁（见 reference.md「编译与打包门禁」）。
部署工具链并接入编译（必须执行，不可跳过）
- 此步骤不是可选的"缺省场景"，而是打点流程的必要组成部分。即使插桩代码已正确插入，如果工具链脚本未部署、预处理未接入编译，打点数据无法采集和解析。
- 少新文件、改已有入口（优先原则）：不要为打点单独再维护一条「新的编译 sh」或平行入口，替代团队已在用的命令。正确做法是：在现有 compile_ascend_proj.sh（或 CI 调用的等价脚本）里，于 copy_ops/源码拷入构建树之后、./build.sh 之前，插入一段预处理调用，并用 # TRACE_PREPROCESSOR_HOOK_START / # TRACE_PREPROCESSOR_HOOK_END 包裹，便于幂等与审查。日常编译仍只跑原命令；apply_trace_scaffold.sh 仅是一次性接入助手（跑完 bootstrap + patch + verify），不是长期编译入口。
- 工具链放哪：若仓库已把 trace_preprocessor.py / trace_utils.py / trace_collector.py 等与编译脚本放在同一可提交目录（例如本仓库 umdk/build/cam/comm_operator/），hook 内用 dirname "${BASH_SOURCE[0]}" 解析到的目录调用即可，无需再 bootstrap 复制一份到别处，避免重复文件与路径漂移。仅当目标仓没有可提交的副本、且不希望把 .py 纳入版本库时，才用 bootstrap_trace_toolchain.py 拷到指定 build_dir。
- 发现 build 目录：在项目中搜索编译脚本（如 compile*.sh、build*.sh、Makefile、CMakeLists.txt），定位算子的 build 目录。常见位置如 build/、scripts/ 等，不要假设目录名称。
- 部署脚本（按需）：无仓内副本时，运行 bootstrap_trace_toolchain.py 将下列脚本复制到目标 build 目录：trace_preprocessor.py、trace_utils.py、trace_save.py、trace_collector.py、validate_trace_points.py、check_compile_safety.py、inspect_rank_pt.py（以脚本内 TOOLCHAIN_FILES 为准）。
- 接入编译：运行 patch_build_pipeline.py 在现有编译脚本中注入预处理 hook；anchor 不匹配时，手工在同一脚本、同一相对顺序插入命令并加 # TRACE_PREPROCESSOR_HOOK_START / END 标记。
- 校验部署：运行 verify_trace_scaffold.py 确认脚本文件存在且编译 hook 已就位。
- 不覆盖用户已有脚本；已存在时只做缺失补齐或可控更新。
- 完整编译门禁：工具链部署完成后，必须在实际使用的环境（容器 / CI / 本机）中执行与团队一致的一条完整编译（含算子包与 pybind，若项目如此组织）。仅「预处理成功」或仅步骤 5 通过，不等于产物可安装、可 import。常见工程问题见 reference.md「编译与打包门禁」。
Profile 测试脚本分叉（默认交付的组成部分；非「有空再做」）
- 与本段相关的交付门禁：G4（同步后落盘、collector 与 point_map 同源）、G5（profiling_dir 等 resolve()）。不满足则默认交付不完整。
- Python 面两种模式（勿混为一谈）：
  - 模式 A（保持原返回值个数）：图 / op_host 注册 OPTIONAL profiling_data（或等价名）时，公开 pybind 可仍只返回原先主输出；在 C++ 里通过 aclnn*GetWorkspaceSize 向 Inner 传入空 optional / nullptr 表示本次不采 profiling。原 UT、原 torch.ops arity 不变。注意：一旦某算子在 OpDef 中将 profiling_data 标为 REQUIRED，则禁止再使用该 nullptr 路径，否则图语义、GE 绑定与设备参数不一致。
  - 模式 B（同一算子名、返回值 arity +1）：在 Op 注册名 / torch.ops 名与输入签名均不变 的前提下，仅在同一算子名上扩展返回值（多一路 profiling_data）。禁止新增 xxx_profiling、*_with_profiling 等第二套算子或第二套 torch.ops 名（那是「另一个算子」，与本原则冲突）。调用方用 ..., _ = op(...) 忽略最后一项即可保持业务逻辑不变；落盘与 Chrome 在团队已有或本 skill 扩展的 *_sample.py 中用 --profiling_dir（写 rank*.pt）、可选 --point_map + --chrome_trace（spawn 结束后 subprocess 调 trace_collector.py）完成，避免再增 run_* / *_profile.py 整文件。
- 多主输出算子：profiling_data 与主输出同等工程地位（REQUIRED 时强制契约）
  打点 / profiling 的 GM 输出 必须与该算子全部主输出在图与绑定上同级，不得单独做成「可选旁路」导致向设备传 nullptr 或与主输出参数生命周期不一致。设主输出共 N 路，profiling 为第 N+1 路 GM 输出（具体枚举名以 op_host 为准）。实现检查清单：
  1. op_host OpDef（op_host/<op>.cpp 或团队等价路径）：Output("profiling_data") 使用 ParamType(REQUIRED)，与主输出同级。
  2. InferShape / InferDataType（op_host/<op>_infer.cpp 等）：对 profiling 输出索引做与主输出相同的 nullptr 门禁；始终设置其维度与 dtype，不得依赖「可选输出可能不存在」分支。
  3. pybind（pybind/<op>.cpp 等）：始终分配并向 aclnn<OpName> / EXEC_NPU_CMD 传入 profiling 的 at::Tensor（与主输出同为实张量）。禁止用 c10::nullopt、环境变量等方式向设备侧传入「空 profiling GM」以规避绑定。
  4. 设备类 Init（op_kernel/<入口>.h）：GM 形参顺序为 主输出 1…N，再 profiling_data，再 workspace/tiling 等——须与 OpDef / aclnn 一致（具体是否紧挨 workspace 以该算子既有约定为准，但不得与核入口乱序）。
  5. __global__ 核函数入口（op_kernel/<op>.cpp 等）：与 OpDef / Init 同序；改序后必须 全量重编算子包 / OPP 并做一次运行验证（plog 参数槽与 DFX），避免与旧二进制混用导致错参。
  6. 关闭设备侧 trace 写入：通过 ENABLE_MOE_PROFILING（在 <op>_base.h 或团队等价 base 头）与重编核控制核内是否写入；不要依赖「不传 profiling 张量」——在 REQUIRED 契约下该做法非法且易与参数槽位/调试结论混淆。
- 目的：历史脚本若只解包前 N 个主输出，需在升级后改为多解包一位（可用 _ 丢弃）；专门采集脚本显式接收 profiling 张量并 save_profiling_data。
- 禁止：为适配 profiling 在 profile 用途之外 把 trace_utils 硬塞进核心数值 UT 的主路径。原 UT 仍以数值断言为主；若必须兼容旧 arity，可在调用处用 *head, _ = op(...) 或固定长度解包。
- 推荐（少新文件）：在原有 examples/<op>_sample.py 或团队 driver（非 pytest）中扩展：对 torch.ops...<原算子名>(...) 使用 len(outs) 分支，向 forward 返回元组末尾附带 profiling（或 None）；__main__ 增加 profiling / trace 相关 CLI；子进程内 save_profiling_data，父进程在 mp.spawn(..., join=True) 之后可用 subprocess 调用 trace_collector.py。算子名与接口名不变；不要注册 xxx_profiling / xxx_with_profiling。若仅有 pytest UT、无 sample，再在同一份 test_<op>.py 里增加辅助函数（仍优于新建整文件副本）。
- 命名与位置：优先改现有 *_sample.py / 团队已有 driver；确需 pytest 专用断言时再在同一目录的 test_<op>.py 内加函数，避免另建 test_<op>_profile.py 除非团队明确要求分拆文件。
- 必改内容：
  - 对主入口 torch.ops.<lib>.<op>(...) 在 len(outs) 上兼容「旧 arity / 新 arity（多一路 profiling）」；最后一项为 profiling 时参与落盘。
  - 封装算子的 nn.Module 的 _apply_ops 若把 profiling 传到 forward，下游解包须与元组长度一致；数值对拍仍只比较主输出，可用 _ 忽略 profiling。
  - SmallOps / 对照路径：baseline 不返回 profiling 时保持原元组长度不变；带 profiling 的路径在对比时只对主输出子集 assert_close。
- 与工具链对接：build/.../trace_utils.py 的 save_profiling_data；模式为：若设 --profiling_dir，在 torch_npu.npu.synchronize（或等价）之后 再 save_profiling_data；__main__ 在 --profiling_dir 且 --point_map 时用 subprocess 调用 trace_collector.py 写 chrome_trace.json（输出路径可用 --chrome_trace）。本仓库可在 umdk/src/cam/examples/ 下查找已接入上述 CLI 的 sample 作参照（文件名随算子而变）。
- 无 NPU 静态校验：可在 sample 或 UT 中增加 --trace_checks（或等价入口），内部调用 validate_trace_points.py 与 check_compile_safety.py，脚本路径优先解析到仓内已提交的 comm_operator 工具链目录。
- trace_utils 导入：将含 trace_utils.py 的目录加入 sys.path 后再 import；目录不存在时打印提示并跳过（见 sample 实现）。
- 环境说明：save_profiling_data 的 base_h_path 指向 <op>_base.h（ENABLE_MOE_PROFILING / PROF_SIZE_PER_CORE）；sample 默认尝试仓库内相对路径。
- pytest：无单独 test_*_profile.py 时，在 test_<op>.py 内增加无 NPU 的校验函数即可。

命名规则

通用根标签固定为 processing。
阶段标签必须从当前算子语义中提取。
标签采用 空格分隔的层级路径，前缀表示所属阶段，后缀表示具体子阶段。例如 "dispatch-phase1 aic" 表示「dispatch-phase1」主阶段下 AIC 分支。
名称描述"做什么"，不要过度绑定实现细节。
在语义不变时，尽量保持命名稳定。

示例（名称仅示意，须与当前算子真实阶段一致）：

processing
dispatch-phase1
dispatch-phase1 aic、dispatch-phase1 aiv
dispatch-phase1 moe-process（带 groupIdx）
dispatch-phase1 wait-token（带 groupIdx）
combine-phase block-epilogue waiting（带 stageId）
combine-phase block-epilogue calc（带 stageId）
combine-phase combine-send、combine-phase combine-recv

详细参考

执行本 skill 时以门禁与上文「必须执行的流程」为准；需要完整样板代码或大表时展开 reference.md。

输出约定

完成后回复中必须包含：

门禁对照（默认范围）

用 G1–G5 逐条声明 已满足 / 未满足；未满足须写原因与用户需补动作。

技术与结果

插桩修改的文件列表（含 op_kernel/ 子树，不仅是入口壳子）。
最终点位层级（L1 为 processing；合并关系可简述）。
validate_trace_points.py 与 check_compile_safety.py 结果（或说明为何目标仓未跑）。
全链路改动摘要：至少列出 op_host / infer / tiling / 核入口 / pregen aclnn_* / pybind 中是否已对齐 G2（profiling 最后一路、顺序一致）。
工具链：hook 所在脚本、point_map.json 典型路径形态；若 bootstrap 了哪些文件到 build 目录。
步骤 7：改动的 examples/*_sample.py / test_*.py 路径；是否 synchronize → save_profiling_data；Chrome 是否 trace_collector + 同源 point_map；路径是否已 resolve()（G5）。
UMDK：wheel 路径 umdk/output/cam/comm_operator/dist/、安装命令；libcam.so / 返回值个数 见 reference.md「编译与打包门禁」。
生成 chrome_trace.json 的命令行示例（参数用真实形态，避免 /path/to 占位误导）。

ascend-moe-optimizer-auto-trace

Más de este repositorio

Más de este repositorio

昇腾算子自动打点

Agent 速查（执行本 skill 时先读）

目标

Skill 自维护（元规则）

输入

插桩覆盖必达清单（交工前自检）

必须执行的流程

命名规则

详细参考

输出约定

昇腾算子自动打点

Agent 速查（执行本 skill 时先读）

目标

Skill 自维护（元规则）

输入

插桩覆盖必达清单（交工前自检）

必须执行的流程

命名规则

详细参考

输出约定