Skip to main content
Exécutez n'importe quel Skill dans Manus
en un clic

agent-evaluation

Tests and benchmarks LLM agents covering behavioral testing, capability assessment, reliability metrics, and production monitoring. Use when evaluating agent quality, designing eval suites, building regression tests, or measuring real-world reliability beyond benchmark scores.

Étoiles11
Forks1
Mis à jour25 mai 2026 à 13:43
Explorateur de fichiers
11 fichiers
SKILL.md
readonly