with one click
eval-harness
Claude Code 会话的正式评测框架,实现了评测驱动开发(EDD)原则
Install with Codex or Claude Copy this prompt, paste it into Codex, Claude, or another assistant, and let it review the skill page and install it for you.
Menu
Claude Code 会话的正式评测框架,实现了评测驱动开发(EDD)原则
Install with Codex or Claude Copy this prompt, paste it into Codex, Claude, or another assistant, and let it review the skill page and install it for you.
Based on SOC occupation classification
| name | eval-harness |
| description | Claude Code 会话的正式评测框架,实现了评测驱动开发(EDD)原则 |
| tools | Read, Write, Edit, Bash, Grep, Glob |
Claude Code 会话的正式评测框架,实现了评测驱动开发(Evaluation-Driven Development, EDD)原则。
评测驱动开发将评测视为“AI 开发的单元测试”:
测试 Claude 是否能够完成以前无法完成的任务:
[CAPABILITY EVAL: feature-name]
任务:Claude 应达成目标的描述
成功标准:
- [ ] 标准 1
- [ ] 标准 2
- [ ] 标准 3
预期输出:预期结果的描述
确保变更未破坏现有功能:
[REGRESSION EVAL: feature-name]
基线(Baseline):SHA 或检查点名称
测试:
- existing-test-1: PASS/FAIL
- existing-test-2: PASS/FAIL
- existing-test-3: PASS/FAIL
结果:X/Y 通过(之前为 Y/Y)
使用代码进行确定性检查:
# 检查文件中是否包含预期模式
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"
# 检查测试是否成功
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"
# 检查构建是否成功
npm run build && echo "PASS" || echo "FAIL"
使用 Claude 评测自由格式的输出:
[MODEL GRADER PROMPT]
请评估以下代码变更:
1. 是否解决了所述问题?
2. 结构是否合理?
3. 是否处理了边界情况?
4. 错误处理是否得当?
Score: 1-5 (1=差, 5=优秀)
Reasoning: [说明]
标记需要手动复审:
[HUMAN REVIEW REQUIRED]
变更:变更内容的说明
原因:需要人工复审的原因
风险等级:LOW/MEDIUM/HIGH
“k 次尝试中至少成功 1 次”
“k 次尝试全部成功”
## 评测定义:feature-xyz (EVAL DEFINITION: feature-xyz)
### 能力评测
1. 能够创建新用户账号
2. 能够验证邮箱格式
3. 能够安全地哈希化密码
### 回归评测
1. 现有登录功能依然可用
2. 会话管理未发生变更
3. 退出流程得以维持
### 成功指标
- 能力评测 pass@3 > 90%
- 回归评测 pass^3 = 100%
编写符合已定义评测要求的代码。
# 运行能力评测
[运行各能力评测并记录 PASS/FAIL]
# 运行回归评测
npm test -- --testPathPattern="existing"
# 生成报告
评测报告:feature-xyz (EVAL REPORT: feature-xyz)
========================
能力评测:
create-user: 通过 (PASS) (pass@1)
validate-email: 通过 (PASS) (pass@2)
hash-password: 通过 (PASS) (pass@1)
总体: 3/3 通过
回归评测:
login-flow: 通过 (PASS)
session-mgmt: 通过 (PASS)
logout-flow: 通过 (PASS)
总体: 3/3 通过
指标:
pass@1: 67% (2/3)
pass@3: 100% (3/3)
状态:可供评审 (READY FOR REVIEW)
/eval define feature-name
在 .claude/evals/feature-name.md 中创建评测定义文件。
/eval check feature-name
执行当前评测并报告状态。
/eval report feature-name
生成完整的评测报告。
在项目中存储评测:
.claude/
evals/
feature-xyz.md # 评测定义
feature-xyz.log # 评测执行历史
baseline.json # 回归基线
## 评测:添加身份验证 (EVAL: add-authentication)
### 第一阶段:定义 (10 分钟)
能力评测:
- [ ] 用户可以通过邮箱/密码注册
- [ ] 用户可以使用有效的凭据登录
- [ ] 无效凭据会被拒绝并返回适当错误
- [ ] 页面刷新后会话依然持久
- [ ] 退出登录会清除会话
回归评测:
- [ ] 公开路由依然可以访问
- [ ] API 响应未发生变更
- [ ] 数据库模式保持兼容
### 第二阶段:实现 (时长不定)
[编写代码]
### 第三阶段:评测
运行:/eval check add-authentication
### 第四阶段:报告
评测报告:添加身份验证 (EVAL REPORT: add-authentication)
==============================
能力:5/5 通过 (pass@3: 100%)
回归:3/3 通过 (pass^3: 100%)
状态:可以上线 (SHIP IT)
生产级 API 的 REST API 设计模式,包括资源命名、状态码、分页、过滤、错误响应、版本控制和速率限制。
撰写文章、指南、博客、教程、时事通讯等长篇内容,并根据提供的示例或品牌指南呈现独特的语言风格。当用户需要篇幅超过一段的精炼文字,且重视风格一致性、结构和可信度时,请使用此技能。
后端架构模式、API 设计、数据库优化以及适用于 Node.js、Express 和 Next.js API 路由的服务端最佳实践。
适用于 TypeScript、JavaScript、React 和 Node.js 开发的通用编码标准、最佳实践与模式。
为 X、LinkedIn、TikTok、YouTube、时事通讯 (Newsletters) 以及多平台复用活动创建平台原生内容系统。当用户需要社交帖子、推文串 (Threads)、脚本、内容日历或将单一源素材清晰地适配到多个平台时使用。
Playwright E2E 测试模式、页面对象模型(POM)、配置、CI/CD 集成、产物管理以及不稳定测试(flaky test)策略。