Skip to main content
Manusで任意のスキルを実行
ワンクリックで
GitHub リポジトリ

agentic-usability

agentic-usability には PSPDFKit-labs から収集した 10 個の skills があり、リポジトリ単位の職業カバレッジとサイト内 skill 詳細ページを表示します。

収集済み skills
10
Stars
19
更新
2026-05-14
Forks
0
職業カバレッジ
3 件の職業カテゴリ · 100% 分類済み
リポジトリエクスプローラー

このリポジトリの skills

init
ソフトウェア開発者

Initialize a new agentic-usability benchmark pipeline project. Use when setting up a new SDK benchmark, creating a config.json, or starting a new evaluation project.

2026-05-14
sandbox
ネットワーク・コンピュータシステム管理者

Launch an interactive shell inside a microsandbox for debugging. Supports bare mode, executor setup, or judge setup with optional test case scaffolding.

2026-05-14
eval
ソフトウェア品質保証アナリスト・テスター

Run the full evaluation pipeline (execute, judge, report) for an SDK usability benchmark. Use when running a complete benchmark end-to-end, resuming an interrupted pipeline, or checking pipeline status.

2026-04-27
execute
ソフトウェア品質保証アナリスト・テスター

Execute benchmark test cases in sandboxed environments with AI agents. Spins up microsandbox containers for each test case and extracts solutions.

2026-04-27
export
ソフトウェア開発者

Export a benchmark pipeline as a zip file for sharing or archiving. Excludes cache and large snapshots.

2026-04-27
generate
ソフトウェア品質保証アナリスト・テスター

Generate SDK usability test cases by exploring source code. Use when creating benchmark test suites, generating test cases for an SDK, or when the user wants to create evaluation scenarios.

2026-04-27
insights
ソフトウェア開発者

Analyze benchmark results and identify SDK improvement areas. Use when reviewing evaluation results, finding failure patterns, identifying documentation gaps, or understanding API design issues.

2026-04-27
inspect
ソフトウェア開発者

Open the web UI to visually inspect, edit, and run the benchmark pipeline. Use when the user wants a visual interface for their pipeline.

2026-04-27
judge
ソフトウェア品質保証アナリスト・テスター

Have an LLM judge compare reference and generated solutions, scoring on API discovery, correctness, completeness, and functional correctness.

2026-04-27
report
ソフトウェア品質保証アナリスト・テスター

Display a terminal scorecard of benchmark results showing pass rates, scores by difficulty, and per-test breakdowns. Use when the user asks about benchmark results, scores, or wants to see how their SDK performed.

2026-04-27