Skip to main content
Manus에서 모든 스킬 실행
원클릭으로

rlhf

// Understanding Reinforcement Learning from Human Feedback (RLHF) for aligning language models. Use when learning about preference data, reward modeling, policy optimization, or direct alignment algorithms like DPO.

$ git log --oneline --stat
stars:24
forks:0
updated:2026년 5월 6일 04:35
파일 탐색기
4 개 파일
SKILL.md
readonly