Skip to main content
Ejecuta cualquier Skill en Manus
con un clic

ai-agent-evaluation

Estrellas161
Forks16
Actualizado14 de abril de 2026, 07:59

Comprehensive evaluation patterns for AI agents including multi-turn conversation testing, LLM-as-judge frameworks, benchmark suites, regression detection, and systematic eval pipelines for measuring agent quality and safety.

Instalación

Instalar con Codex o Claude Copia este prompt, pégalo en Codex, Claude u otro asistente, y deja que revise la página de la skill y la instale por ti.

SKILL.md
readonly