Skip to main content
Manusで任意のスキルを実行
ワンクリックで

debug-training-logs

Debug distributed training failures (NeMo, Megatron, PyTorch) from worker stderr logs and optional AIStore daemon logs. Finds root cause across NCCL timeouts, data loading errors, and storage failures.

スター17,390
フォーク3,436
更新日2026年4月15日 20:53
SKILL.md
readonly