Skip to main content
تشغيل أي مهارة في Manus
بنقرة واحدة
$pwd:

evaluating-llms

// Evaluate LLM systems using automated metrics, LLM-as-judge, and benchmarks. Use when testing prompt quality, validating RAG pipelines, measuring safety (hallucinations, bias), or comparing models for production deployment.

$ git log --oneline --stat
stars:345
forks:52
updated:٩ ديسمبر ٢٠٢٥ في ٢١:٠٢
مستكشف الملفات
18 ملفات
SKILL.md
readonly