Skip to main content
Manus에서 모든 스킬 실행
원클릭으로

debug-training-logs

Debug distributed training failures (NeMo, Megatron, PyTorch) from worker stderr logs and optional AIStore daemon logs. Finds root cause across NCCL timeouts, data loading errors, and storage failures.

스타17,390
포크3,436
업데이트2026년 4월 15일 20:53
SKILL.md
readonly