mit einem Klick
eval-harness
// 适用于 Claude Code 会话的正规评测框架(Evaluation Framework),实现了评测驱动开发(Eval-Driven Development, EDD)原则
// 适用于 Claude Code 会话的正规评测框架(Evaluation Framework),实现了评测驱动开发(Eval-Driven Development, EDD)原则
| name | eval-harness |
| description | 适用于 Claude Code 会话的正规评测框架(Evaluation Framework),实现了评测驱动开发(Eval-Driven Development, EDD)原则 |
| origin | ECC |
| tools | Read, Write, Edit, Bash, Grep, Glob |
一个用于 Claude Code 会话的正规评测框架(Evaluation Framework),旨在落实评测驱动开发(Eval-Driven Development, EDD)原则。
评测驱动开发(Eval-Driven Development)将评测(Eval)视为“AI 开发中的单元测试”:
测试 Claude 是否能够完成其之前无法完成的任务:
[CAPABILITY EVAL: feature-name]
Task: 描述 Claude 应该完成的任务
Success Criteria:
- [ ] 准则 1
- [ ] 准则 2
- [ ] 准则 3
Expected Output: 预期结果的描述
确保变更不会破坏现有功能:
[REGRESSION EVAL: feature-name]
Baseline: SHA 或检查点(checkpoint)名称
Tests:
- existing-test-1: PASS/FAIL
- existing-test-2: PASS/FAIL
- existing-test-3: PASS/FAIL
Result: X/Y 通过 (之前为 Y/Y)
使用代码进行确定性检查:
# 检查文件是否包含预期模式
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"
# 检查测试是否通过
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"
# 检查构建是否成功
npm run build && echo "PASS" || echo "FAIL"
使用 Claude 对开放式输出进行评估:
[MODEL GRADER PROMPT]
评估以下代码变更:
1. 它是否解决了所述问题?
2. 结构是否良好?
3. 是否处理了边缘情况?
4. 错误处理是否恰当?
Score: 1-5 (1=差, 5=优秀)
Reasoning: [解释]
标记以供人工复核:
[HUMAN REVIEW REQUIRED]
Change: 变更内容描述
Reason: 为何需要人工复核
Risk Level: LOW/MEDIUM/HIGH
“在 k 次尝试中至少成功一次”
“所有 k 次试验均成功”
## EVAL DEFINITION: feature-xyz
### 能力评测(Capability Evals)
1. 能够创建新用户账号
2. 能够验证邮箱格式
3. 能够安全地哈希密码
### 回归评测(Regression Evals)
1. 现有登录功能仍然正常
2. 会话管理未改变
3. 注销流程完好无损
### 成功指标
- 能力评测的 pass@3 > 90%
- 回归评测的 pass^3 = 100%
编写代码以通过定义的评测(Evals)。
# 运行能力评测
[运行每个能力评测,记录 PASS/FAIL]
# 运行回归评测
npm test -- --testPathPattern="existing"
# 生成报告
EVAL REPORT: feature-xyz
========================
Capability Evals:
create-user: PASS (pass@1)
validate-email: PASS (pass@2)
hash-password: PASS (pass@1)
Overall: 3/3 passed
Regression Evals:
login-flow: PASS
session-mgmt: PASS
logout-flow: PASS
Overall: 3/3 passed
Metrics:
pass@1: 67% (2/3)
pass@3: 100% (3/3)
Status: READY FOR REVIEW
/eval define feature-name
在 .claude/evals/feature-name.md 创建评测定义文件
/eval check feature-name
运行当前评测并报告状态
/eval report feature-name
生成完整的评测报告
在项目中存储评测(Evals):
.claude/
evals/
feature-xyz.md # 评测定义
feature-xyz.log # 评测运行历史
baseline.json # 回归基准
## EVAL: add-authentication
### 阶段 1:定义 (10 分钟)
能力评测:
- [ ] 用户可以使用邮箱/密码注册
- [ ] 用户可以使用有效凭据登录
- [ ] 无效凭据被拒绝并返回正确错误
- [ ] 会话在页面重新加载后保持
- [ ] 注销会清除会话
回归评测:
- [ ] 公共路由仍然可以访问
- [ ] API 响应未改变
- [ ] 数据库架构兼容
### 阶段 2:实现 (时间视情况而定)
[编写代码]
### 阶段 3:评测
运行:/eval check add-authentication
### 阶段 4:报告
EVAL REPORT: add-authentication
==============================
Capability: 5/5 passed (pass@3: 100%)
Regression: 3/3 passed (pass^3: 100%)
Status: SHIP IT (可以发布)
生产级 API 的 REST API 设计模式,包括资源命名、状态码、分页、过滤、错误响应、版本控制和速率限制。
撰写文章、指南、博客、教程、时事通讯等长篇内容,并根据提供的示例或品牌指南呈现独特的语言风格。当用户需要篇幅超过一段的精炼文字,且重视风格一致性、结构和可信度时,请使用此技能。
后端架构模式、API 设计、数据库优化以及适用于 Node.js、Express 和 Next.js API 路由的服务端最佳实践。
适用于 TypeScript、JavaScript、React 和 Node.js 开发的通用编码标准、最佳实践与模式。
为 X、LinkedIn、TikTok、YouTube、时事通讯 (Newsletters) 以及多平台复用活动创建平台原生内容系统。当用户需要社交帖子、推文串 (Threads)、脚本、内容日历或将单一源素材清晰地适配到多个平台时使用。
Playwright E2E 测试模式、页面对象模型(POM)、配置、CI/CD 集成、产物管理以及不稳定测试(flaky test)策略。