Skip to main content
تشغيل أي مهارة في Manus
بنقرة واحدة

evaluation-harness

Builds repeatable evaluation systems with golden datasets, scoring rubrics, pass/fail thresholds, and regression reports. Use for "LLM evaluation", "testing AI systems", "quality assurance", or "model benchmarking".

نظرة عامة

Builds repeatable evaluation systems with golden datasets, scoring rubrics, pass/fail thresholds, and regression reports. Use for "LLM evaluation", "testing AI systems", "quality assurance", or "model benchmarking".

أمر التثبيت
npx skills add https://github.com/patricio0312rev/skillset --skill evaluation-harness

انسخ والصق هذا الأمر في Claude Code لتثبيت المهارة

النجوم٥
التفرعات٠
آخر تحديث٣١ ديسمبر ٢٠٢٥ في ٠٥:٠٥
SKILL.md
readonly