Skip to main content
在 Manus 中运行任何 Skill
一键导入

rlhf

// Understanding Reinforcement Learning from Human Feedback (RLHF) for aligning language models. Use when learning about preference data, reward modeling, policy optimization, or direct alignment algorithms like DPO.

$ git log --oneline --stat
stars:24
forks:0
updated:2026年5月6日 04:35
文件资源管理器
4 个文件
SKILL.md
readonly