Skip to main content
Execute qualquer Skill no Manus
com um clique

ai-agent-evaluation

Estrelas161
Forks16
Atualizado14 de abril de 2026 às 07:59

Comprehensive evaluation patterns for AI agents including multi-turn conversation testing, LLM-as-judge frameworks, benchmark suites, regression detection, and systematic eval pipelines for measuring agent quality and safety.

Instalação

Instalar com Codex ou Claude Copie este prompt, cole no Codex, Claude ou outro assistente e deixe que ele revise a página da skill e instale para você.

SKILL.md
readonly