Skip to main content
Exécutez n'importe quel Skill dans Manus
en un clic

debug-training-logs

Debug distributed training failures (NeMo, Megatron, PyTorch) from worker stderr logs and optional AIStore daemon logs. Finds root cause across NCCL timeouts, data loading errors, and storage failures.

Étoiles17 390
Forks3 436
Mis à jour15 avril 2026 à 20:53
SKILL.md
readonly