Skip to main content
在 Manus 中运行任何 Skill
一键导入

agent-evaluation

Testing and benchmarking LLM agents including behavioral testing, capability assessment, reliability metrics, and production monitoring—where even top agents achieve less than 50% on real-world benchmarks

星标1
分支1
更新时间2026年5月27日 00:39
文件资源管理器
3 个文件
SKILL.md
readonly