Skip to main content
تشغيل أي مهارة في Manus
بنقرة واحدة

agent-evaluation

النجوم٤٥٣
التفرعات١٣٩
آخر تحديث١١ فبراير ٢٠٢٦ في ٠٨:٥٣

Testing and benchmarking LLM agents including behavioral testing, capability assessment, reliability metrics, and production monitoring—where even top agents achieve less than 50% on real-world benchmarks Use when: agent testing, agent evaluation, benchmark agents, agent reliability, test agent.

التثبيت

التثبيت باستخدام Codex أو Claude انسخ هذا Prompt والصقه في Codex أو Claude أو مساعد آخر ليراجع صفحة Skill ويثبّتها لك.

مستكشف الملفات
7 ملفات
SKILL.md
readonly