Skip to main content
تشغيل أي مهارة في Manus
بنقرة واحدة

rl-policy-optimization

النجوم١٣٬٥٥٧
التفرعات١٬٥٨٩
آخر تحديث٢٣ مارس ٢٠٢٦ في ٠١:٤٦

Best practices for reinforcement learning policy optimization. Use when working on RL agents, PPO, SAC, or reward design.

التثبيت

التثبيت باستخدام Codex أو Claude انسخ هذا Prompt والصقه في Codex أو Claude أو مساعد آخر ليراجع صفحة Skill ويثبّتها لك.

SKILL.md
readonly