Skip to main content
Exécutez n'importe quel Skill dans Manus
en un clic

rlhf

// Understanding Reinforcement Learning from Human Feedback (RLHF) for aligning language models. Use when learning about preference data, reward modeling, policy optimization, or direct alignment algorithms like DPO.

$ git log --oneline --stat
stars:24
forks:0
updated:6 mai 2026 à 04:35
Explorateur de fichiers
4 fichiers
SKILL.md
readonly