Skip to main content
Manus에서 모든 스킬 실행
원클릭으로

simpo-training

Simple Preference Optimization for LLM alignment. Reference-free alternative to DPO with better performance (+6.4 points on AlpacaEval 2.0). No reference model needed, more efficient than DPO. Use for preference alignment when want simpler, faster training than DPO/PPO.

개요

Simple Preference Optimization for LLM alignment. Reference-free alternative to DPO with better performance (+6.4 points on AlpacaEval 2.0). No reference model needed, more efficient than DPO. Use for preference alignment when want simpler, faster training than DPO/PPO.

설치 명령
npx skills add https://github.com/NousResearch/hermes-agent --skill simpo-training

이 명령을 Claude Code에 복사하여 붙여넣어 스킬을 설치하세요

스타178,912
포크30,651
업데이트2026년 5월 8일 21:27
파일 탐색기
4 개 파일
SKILL.md
readonly