Manus에서 모든 스킬 실행
원클릭으로
원클릭으로
원클릭으로 Manus에서 모든 스킬 실행
시작하기llm-evaluation-plan
为 AI 功能定义离线与线上评估方案,包括样本、指标和阻断阈值。适用于上线前需要明确质量标准的场景。
스타1
포크0
업데이트2026년 3월 25일 10:46
파일 탐색기
2 개 파일SKILL.md
readonly메뉴
为 AI 功能定义离线与线上评估方案,包括样本、指标和阻断阈值。适用于上线前需要明确质量标准的场景。
用结构化输入定义或调整定价与套餐结构,明确目标客户、价值指标、免费层边界、套餐层级、升级触发点与风险取舍。适用于定价新建、改版、AI 增值包或商业化实验前的推演。
在正式交付前用结构化关口审查方案、文档或分析结果。适用于避免局部正确但整体跑偏、避免草率交付的场景。
把一个较大的 PM、AI PM 或商业化任务拆成可快速验证的执行步骤。适用于任务过大、容易失控、需要先把执行顺序和检查点想清楚的场景。
定义一个 AI 功能的用户任务、输入、输出、质量标准和 fallback。适用于把模糊 AI 点子整理成可讨论方案的场景。
把一个 AI 产品想法整理成问题定义、功能定义、评估方案和风险评审。适用于 roadmap 前的产品定义场景。
诊断转化漏斗的阶段、掉点、可能原因和下一步核查方向。适用于获客、激活或付费转化出问题的场景。
| name | llm-evaluation-plan |
| description | 为 AI 功能定义离线与线上评估方案,包括样本、指标和阻断阈值。适用于上线前需要明确质量标准的场景。 |
| type | component |
| best_for | ["为 AI 功能设计评估方案","把主观质量讨论变成可测方案","定义 LLM 功能上线门槛"] |
| scenarios | ["为 AI 会议纪要做评估方案","怎么评估 AI 支持助手的质量"] |
用一套可执行的评估方案,把“这个 AI 好不好”从感觉题变成证据题。
常见维度:
评估计划不是为了证明“模型不错”,而是为了判断:
测试集至少应覆盖三类样本:
如果只有“正常样本”,评估结果通常会虚高。
在评估计划里,必须主动加入会削弱结论可信度的检查:
如果一个功能在常见样本上表现不错,但在高风险样本上失败代价过高:
## Evaluation Plan
### Feature
[功能]
### Offline Test Set
- [样本场景]
### Metrics
- [指标]
### Failure Thresholds
- [什么情况不能上线]
### Stress Cases
- [最容易翻车的样本]
### Online Signals
- [线上信号]
### What Would Change The Launch Decision
- [哪些额外结果会让 go 变 no-go,或让 no-go 变 limited rollout]
好:
差:
template.md../ai-feature-brief/SKILL.md../ai-risk-review/SKILL.md