Skip to main content
تشغيل أي مهارة في Manus
بنقرة واحدة

rlhf

// Understanding Reinforcement Learning from Human Feedback (RLHF) for aligning language models. Use when learning about preference data, reward modeling, policy optimization, or direct alignment algorithms like DPO.

$ git log --oneline --stat
stars:٢٤
forks:٠
updated:٦ مايو ٢٠٢٦ في ٠٤:٣٥
مستكشف الملفات
4 ملفات
SKILL.md
readonly