Skip to main content
Manusで任意のスキルを実行
ワンクリックで

evaluation-harness

Builds repeatable evaluation systems with golden datasets, scoring rubrics, pass/fail thresholds, and regression reports. Use for "LLM evaluation", "testing AI systems", "quality assurance", or "model benchmarking".

概要

Builds repeatable evaluation systems with golden datasets, scoring rubrics, pass/fail thresholds, and regression reports. Use for "LLM evaluation", "testing AI systems", "quality assurance", or "model benchmarking".

インストールコマンド
npx skills add https://github.com/patricio0312rev/skillset --skill evaluation-harness

このコマンドをClaude Codeにコピー&ペーストしてスキルをインストール

スター5
フォーク0
更新日2025年12月31日 05:05
SKILL.md
readonly