Skip to main content
Manus에서 모든 스킬 실행
원클릭으로

agent-evaluation

Tests and benchmarks LLM agents covering behavioral testing, capability assessment, reliability metrics, and production monitoring. Use when evaluating agent quality, designing eval suites, building regression tests, or measuring real-world reliability beyond benchmark scores.

스타11
포크1
업데이트2026년 5월 25일 13:43
파일 탐색기
11 개 파일
SKILL.md
readonly