com um clique
rl-policy-optimization
Best practices for reinforcement learning policy optimization. Use when working on RL agents, PPO, SAC, or reward design.
Instalar com Codex ou Claude Copie este prompt, cole no Codex, Claude ou outro assistente e deixe que ele revise a página da skill e instale para você.