Skip to main content
Manus에서 모든 스킬 실행
원클릭으로

train-dpo

// Direct Preference Optimization (DPO) fine-tune with TRL `DPOTrainer`. Triggered when the user wants to align a model on preferences / pairwise comparisons / chosen-vs-rejected data, or improve an existing SFT checkpoint with a preference dataset.

$ git log --oneline --stat
stars:0
forks:0
updated:2026년 4월 28일 08:03
SKILL.md
readonly