Skip to main content
Execute qualquer Skill no Manus
com um clique

evaluating-code-models

Estrelas9.996
Forks745
Atualizado14 de dezembro de 2025 às 00:38

Evaluates code generation models across HumanEval, MBPP, MultiPL-E, and 15+ benchmarks with pass@k metrics. Use when benchmarking code models, comparing coding abilities, testing multi-language support, or measuring code generation quality. Industry standard from BigCode Project used by HuggingFace leaderboards.

Instalação

Instalar com Codex ou Claude Copie este prompt, cole no Codex, Claude ou outro assistente e deixe que ele revise a página da skill e instale para você.

Explorador de arquivos
4 arquivos
SKILL.md
readonly