| name | cron-system-maintenance |
| related_skills | [] |
| description | Cron任务运维:诊断error状态、修复脚本缺陷、验证连接性。覆盖cron job list分析、错误分类、脚本语法验证、prompt更新、vLLM多节点负载均衡。 |
| version | 1.0.0 |
| license | MIT |
| author | Synthos |
| allowed-tools | ["cronjob","terminal","read_file","write_file","skill_manage"] |
| metadata | {"synthos":{"version":"1.2.0","priority":"P1","atom_type":"pipeline","author":"Synthos","signature":"job_list -> diagnose -> fix -> verify"}} |
IO_CONTRACT
- input:
cron_job: str, action: str — 用户请求描述、上下文信息
- output:
result: dict — cron任务执行结果
对应原则:P2(机械原子暴露输入输出规范)
cron-system-maintenance
Cron任务运维:诊断error状态、修复脚本缺陷、验证连接性。覆盖cron job list分析、错误分类、脚本语法验证、prompt更新、vLLM多节点负载均衡。
触发条件
- cron job list中任何job
last_status == "error"
- 用户要求检查cron健康状态
- cron连续失败(同一job连续3次error)
- 闲置时主动巡检
执行步骤
- 列出所有cron任务 —
cronjob(action='list')
- 筛选error jobs — 提取
last_status == "error"的job列表
- 定位错误根源 — 对每个error job:
- 读取最近错误日志:
~/.hermes/cron/output/<job_id>/*.md(取最新的)
- 分类错误类型:
- 语法错误 — Python SyntaxError、Shell语法错误
- 超时错误 —
timed out、Request timed out、Script timed out after 120s
- 连接错误 — curl返回000、connection refused
- 运行时错误 — 其他RuntimeError
- 技能缺失 — cron引用的SKILL.md被删除(根因是技能缺失而非网络超时)
- 注意误报:skill加载内容含"Error"/"FAILED"但不是真正失败
- 关键诊断:技能缺失检测 — 在
cronjob(action='list')输出中查看skill字段,然后用ls ~/.hermes/skills/<skill_name>/SKILL.md验证存在性。如果技能缺失,从备份或Synthos/skills/恢复。
- 修复脚本 — 根据错误类型修复:
- 语法错误:直接patch文件
- 超时:减少输出(
--quiet)、增加间隔(--stats)、限速(--bwlimit)
- 连接错误:在prompt中增加pre-flight探测步骤
- 验证修复 —
python3 -m py_compile / bash -n
- 更新cron prompt — 对持续超时任务,在prompt开头增加连接性探测代码块
- 确认修复状态 — 再次list确认last_status是否恢复
vLLM多节点负载均衡架构
当存在多个vLLM节点时(如amax + amax-fallback),按以下原则分配cron任务:
- 验证节点健康:
curl -s http://<host>:8000/v1/models → HTTP 200 + 返回模型列表
- 验证推理能力:
curl -s http://<host>:8000/v1/chat/completions -d '{"model":"...","messages":[...], "max_tokens":10}'
- 分配规则:
- 高频任务(every 30m)→ 主节点(通常10ms级响应),如autonomous-core-researcher、evolution-full
- 中频任务(every 6h / daily)→ 备节点(通常13ms级响应),如papers-daily-scan、literature-monitor、bib-standardization
- 脚本任务(no_agent)→ 独立,不消耗LLM资源
- 负载均衡目标:主节点日调用
50次,备节点7次;比例约7:1合理
Pitfalls
参考
references/cron-error-diagnosis-pattern.md — 错误分类与诊断模式
references/cron-health-check-2026-06-12.md — 完整诊断记录:3个error修复 + vLLM双活验证 + provider负载均衡 + 技能缺失根因发现
references/cron-failure-root-cause-diagnosis.md — 技能缺失诊断流程(Step 4),最常见误诊的修复方案
references/codex-process-diagnosis-2026-06-21.md — 诊断运行中 Codex 进程在做什么:进程→会话→用户任务→报告