원클릭으로
rl-policy-optimization
Best practices for reinforcement learning policy optimization. Use when working on RL agents, PPO, SAC, or reward design.
Codex 또는 Claude로 설치 이 Prompt를 복사해 Codex, Claude 또는 다른 어시스턴트에 붙여 넣으면 Skill 페이지를 검토하고 설치를 진행할 수 있습니다.