Skip to main content
Exécutez n'importe quel Skill dans Manus
en un clic

simpo-training

Simple Preference Optimization for LLM alignment. Reference-free alternative to DPO with better performance (+6.4 points on AlpacaEval 2.0). No reference model needed, more efficient than DPO. Use for preference alignment when want simpler, faster training than DPO/PPO.

Aperçu

Simple Preference Optimization for LLM alignment. Reference-free alternative to DPO with better performance (+6.4 points on AlpacaEval 2.0). No reference model needed, more efficient than DPO. Use for preference alignment when want simpler, faster training than DPO/PPO.

Commande d'installation
npx skills add https://github.com/NousResearch/hermes-agent --skill simpo-training

Copiez et collez cette commande dans Claude Code pour installer le skill

Étoiles178 912
Forks30 651
Mis à jour8 mai 2026 à 21:27
Explorateur de fichiers
4 fichiers
SKILL.md
readonly