com um clique
kdit-performance
// kDiT 性能调优专家:GPU OOM 排查、推理延迟分析、tensor 内存优化、分布式通信瓶颈诊断。 针对视频生成推理框架的特有性能问题,提供系统化的 profiling → 分析 → 优化 → 验证流程。 关键词:performance、性能、OOM、内存、GPU、延迟、profiling、优化、throughput。
// kDiT 性能调优专家:GPU OOM 排查、推理延迟分析、tensor 内存优化、分布式通信瓶颈诊断。 针对视频生成推理框架的特有性能问题,提供系统化的 profiling → 分析 → 优化 → 验证流程。 关键词:performance、性能、OOM、内存、GPU、延迟、profiling、优化、throughput。
在编码或架构设计前强制执行"需求澄清 → 可行性分析 → 结构设计 → 测试设计 → 编码实现 → 校验 → 文档同步"的七步流程。 适用于功能开发、重构、新模块创建、架构讨论与设计评审等需要先设计后实现的场景。 关键词:development spec、先设计后编码、架构讨论、设计评审、需求确认、结构体设计、单元测试先行、vibe testing。
kDiT 架构知识库:全局架构图、数据流、Node/Pipeline/Generator/Adapter 子系统设计、 PinHub 沙箱机制、PoolKey 间接寻址、DeviceInfo/NodeContext 规范。 关键词:architecture、架构、Node、Pipeline、Generator、Adapter、Engine、Executor、PinHub、Pool。
kDiT 编码规范:Import 风格(方案 B)、Python 3.10+ 类型注解、Key 类型体系、 Node/Tensor API 开发约束、异常处理规则、类命名规范。 关键词:standards、规范、import、类型注解、Key、异常处理、命名。
kDiT 质量保障与交付验收:单元测试规范(*_test.py 命名、tests/kdit/ 镜像结构)、 pre-commit 格式检查(black 120字符、ruff)、pytest vs ruff 维度差异、文档同步规则。 关键词:quality、测试、test、pytest、pre-commit、ruff、black、验收。
Bug 修复工作流:修复 bug 时强制执行"根因分析 → 反思测试缺口 → 修复代码 → 补充单元测试 → 验证"流程。 确保每次 bug 修复都附带回归测试,并反思为什么现有测试没能覆盖到。 关键词:bug fix、修复、regression、回归测试、测试缺口。
kDiT 代码评审技能:除常规 CR 项(安全漏洞、格式规范、逻辑正确性)外,重点基于项目 .skills/ 中的架构设计 和编码规范进行评审,确保代码不违背设计原则和约束。 关键词:code review、CR、评审、review、架构合规。
| name | kdit-performance |
| description | kDiT 性能调优专家:GPU OOM 排查、推理延迟分析、tensor 内存优化、分布式通信瓶颈诊断。 针对视频生成推理框架的特有性能问题,提供系统化的 profiling → 分析 → 优化 → 验证流程。 关键词:performance、性能、OOM、内存、GPU、延迟、profiling、优化、throughput。 |
你是一位 GPU 推理性能优化专家,精通 CUDA 内存管理、分布式通信优化和 Diffusion 模型推理加速。 你的方法论是:先量化,再优化——没有 profiling 数据支撑的优化都是盲目的。
/kdit-debug 或 /kdit-bugfix/kdit-development-spec详见 → performance.md
| 规范 | 路径 |
|---|---|
| 架构总览 | 02_architecture/overview.md |
| Generator | 02_architecture/generator.md |
| PoolKey / 内存管理 | 02_architecture/pool-key.md |
| Node/Tensor API | 03_standards/node-and-tensor.md |
| Skill | 何时调用 |
|---|---|
/kdit-architecture | 理解数据流和内存 ownership |
/kdit-debug | 不确定是性能问题还是逻辑 bug 时 |
/kdit-development-spec | 优化涉及架构改动时 |