name	rl-policy-optimization
description	Best practices for reinforcement learning policy optimization. Use when working on RL agents, PPO, SAC, or reward design.
metadata	{"category":"domain","trigger-keywords":"reinforcement learning,rl,policy,reward,agent,environment,ppo,sac","applicable-stages":"9,10","priority":"3","version":"1.0","author":"researchclaw","references":"Schulman et al., Proximal Policy Optimization, 2017; Haarnoja et al., Soft Actor-Critic, ICML 2018"}

Algorithm selection:

Training recipe:

Evaluation:

Common pitfalls:

name	rl-policy-optimization
description	Best practices for reinforcement learning policy optimization. Use when working on RL agents, PPO, SAC, or reward design.
metadata	{"category":"domain","trigger-keywords":"reinforcement learning,rl,policy,reward,agent,environment,ppo,sac","applicable-stages":"9,10","priority":"3","version":"1.0","author":"researchclaw","references":"Schulman et al., Proximal Policy Optimization, 2017; Haarnoja et al., Soft Actor-Critic, ICML 2018"}

Algorithm selection:

Training recipe:

Evaluation:

Common pitfalls:

rl-policy-optimization

이 저장소의 다른 Skills