Skip to main content
تشغيل أي مهارة في Manus
بنقرة واحدة

eval-model

// Evaluate a trained or downloaded language model with `lm-eval-harness` standard tasks (arc, hellaswag, gsm8k, mmlu, truthfulqa, ifeval, ...). Triggered when the user wants to benchmark, eval, or compare a model — pre- or post-training.

$ git log --oneline --stat
stars:٠
forks:٠
updated:٢٨ أبريل ٢٠٢٦ في ٠٨:٠٣
SKILL.md
readonly