원클릭으로
eval-harness
Framework formal de evaluación para sesiones de Claude Code que implementa principios de desarrollo orientado a evals (EDD)
메뉴
Framework formal de evaluación para sesiones de Claude Code que implementa principios de desarrollo orientado a evals (EDD)
| name | eval-harness |
| description | Framework formal de evaluación para sesiones de Claude Code que implementa principios de desarrollo orientado a evals (EDD) |
| origin | ECC |
| tools | Read, Write, Edit, Bash, Grep, Glob |
Un framework formal de evaluación para sesiones de Claude Code, implementando principios de desarrollo orientado a evals (EDD).
El Desarrollo Orientado a Evals trata los evals como las "pruebas unitarias del desarrollo de IA":
Probar si Claude puede hacer algo que antes no podía:
[CAPABILITY EVAL: feature-name]
Task: Descripción de lo que Claude debe lograr
Success Criteria:
- [ ] Criterio 1
- [ ] Criterio 2
- [ ] Criterio 3
Expected Output: Descripción del resultado esperado
Asegurar que los cambios no rompan la funcionalidad existente:
[REGRESSION EVAL: feature-name]
Baseline: SHA o nombre del checkpoint
Tests:
- existing-test-1: PASS/FAIL
- existing-test-2: PASS/FAIL
- existing-test-3: PASS/FAIL
Result: X/Y pasaron (anteriormente Y/Y)
Verificaciones deterministas usando código:
# Verificar si el archivo contiene el patrón esperado
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"
# Verificar si las pruebas pasan
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"
# Verificar si el build tiene éxito
npm run build && echo "PASS" || echo "FAIL"
Usar Claude para evaluar salidas de forma abierta:
[MODEL GRADER PROMPT]
Evalúa el siguiente cambio de código:
1. ¿Resuelve el problema declarado?
2. ¿Está bien estructurado?
3. ¿Se manejan los casos límite?
4. ¿El manejo de errores es apropiado?
Puntuación: 1-5 (1=pobre, 5=excelente)
Razonamiento: [explicación]
Marcar para revisión manual:
[HUMAN REVIEW REQUIRED]
Cambio: Descripción de qué cambió
Razón: Por qué se necesita revisión humana
Nivel de Riesgo: BAJO/MEDIO/ALTO
"Al menos un éxito en k intentos"
"Todos los k ensayos tienen éxito"
## EVAL DEFINITION: feature-xyz
### Capability Evals
1. Puede crear nueva cuenta de usuario
2. Puede validar formato de email
3. Puede hashear contraseña de forma segura
### Regression Evals
1. El login existente sigue funcionando
2. La gestión de sesiones no cambió
3. El flujo de logout está intacto
### Success Metrics
- pass@3 > 90% para evals de capacidad
- pass^3 = 100% para evals de regresión
Escribir código para pasar los evals definidos.
# Ejecutar evals de capacidad
[Ejecutar cada eval de capacidad, registrar PASS/FAIL]
# Ejecutar evals de regresión
npm test -- --testPathPattern="existing"
# Generar reporte
EVAL REPORT: feature-xyz
========================
Capability Evals:
create-user: PASS (pass@1)
validate-email: PASS (pass@2)
hash-password: PASS (pass@1)
Overall: 3/3 passed
Regression Evals:
login-flow: PASS
session-mgmt: PASS
logout-flow: PASS
Overall: 3/3 passed
Metrics:
pass@1: 67% (2/3)
pass@3: 100% (3/3)
Status: READY FOR REVIEW
/eval define feature-name
Crea el archivo de definición de eval en .claude/evals/feature-name.md
/eval check feature-name
Ejecuta los evals actuales y reporta el estado
/eval report feature-name
Genera el reporte completo de eval
Almacenar evals en el proyecto:
.claude/
evals/
feature-xyz.md # Definición de eval
feature-xyz.log # Historial de ejecuciones
baseline.json # Líneas base de regresión
pass@1: confiabilidad directapass@3: confiabilidad práctica bajo reintentos controladospass^3: prueba de estabilidad (las 3 ejecuciones deben pasar)Umbrales recomendados:
Instinct-based learning system that observes sessions via hooks, creates atomic instincts with confidence scoring, and evolves them into skills/commands/agents. v2.1 adds project-scoped instincts to prevent cross-project contamination.
Orchestrate building a brand-new feature end to end — research, plan, TDD implementation, review, and gated commit — by delegating each phase to the matching ECC agent. Use when adding a capability that does not exist yet.
Orchestrate bootstrapping a working MVP from a design or spec document — ingest the doc, plan thin vertical slices, scaffold the first end-to-end slice, then TDD-implement, review, and gated commit. Use to turn an SDD/PRD into a running starting point.
Orchestrate altering an existing, working feature to new desired behavior — update its tests to the new spec, change the implementation to match, review, and gated commit. Use when behavior is not broken but should be different.
Orchestrate fixing a bug — reproduce it as a failing regression test, fix to green, review, and gated commit — by delegating each phase to the matching ECC agent. Use when existing behavior is broken or wrong.
Shared orchestration engine for the orch-* skill family. Defines the gated Research-Plan-TDD-Review-Commit pipeline, the size classifier, the agent map, and the two human gates that the orch-* operation skills delegate to. Not usually invoked directly.