with one click
obdiag-check-rca
// 标准 SOP:集群巡检 check_cluster/check_list 与 RCA 入口(rca_run/rca_list)。用户要健康检查、巡检时使用;RCA 场景映射与手动降级详见 obdiag-rca skill;与 observer-log-analysis、observer-sql-analysis、obproxy-log-analysis 分工明确。
// 标准 SOP:集群巡检 check_cluster/check_list 与 RCA 入口(rca_run/rca_list)。用户要健康检查、巡检时使用;RCA 场景映射与手动降级详见 obdiag-rca skill;与 observer-log-analysis、observer-sql-analysis、obproxy-log-analysis 分工明确。
备份、日志归档、物理恢复、恢复时间窗、NFS/OSS/COS 归档路径、对象存储权限、备租户恢复源、ob_admin 读取归档位点、oblogminer schema_meta 等问题;OMS 迁移同步问题不使用本 skill。
标准 SOP:多集群发现 list_obdiag_clusters、当前会话 show_current_cluster、/use 切换与 cluster_config_path 定向。多套 ~/.obdiag/*.yml、切换默认集群、或一句话点名某集群时使用。
性能类采集与主机 IO:ASH、AWR、perf 火焰图、sysstat、磁盘 IO。在用户说卡顿、慢、会话堆积、要看 ASH/AWR/火焰图或主机负载时使用;与 observer-sql-analysis、observer-log-analysis 互补。
OceanBase 集群所有根因分析场景的统一 SOP。覆盖事务超时/回滚/断连、内存不足、合并卡住、日志盘满、DDL 失败、Schema 泄漏、GC 异常、弱一致性读、OMS 等。始终先执行 rca_run,如 RCA 脚本无法给出结论再按本 skill 降级到手动日志采集分析。
未知/未分类问题的统一分诊 SOP:用户描述集群异常但症状不明确、不知从何入手,或问题无法直接对应 rca/observer-log-analysis/observer-sql-analysis 等专项 skill 时,强制先执行全量巡检 check_cluster,再根据巡检结果决定下一步路径。
obdiag agent 工具使用指南:配置文件生成、gather/analyze/check/rca 各命令的调用方式、参数说明与典型场景。用户询问"怎么用 obdiag"、"如何采集日志"、"怎么生成配置"、"如何巡检/根因分析",或 agent 自身不确定该调哪个工具时加载本 skill。
| name | obdiag-check-rca |
| description | 标准 SOP:集群巡检 check_cluster/check_list 与 RCA 入口(rca_run/rca_list)。用户要健康检查、巡检时使用;RCA 场景映射与手动降级详见 obdiag-rca skill;与 observer-log-analysis、observer-sql-analysis、obproxy-log-analysis 分工明确。 |
| 需求 | 不要用 | 应用 |
|---|---|---|
| 收集 observer 日志、按 trace 过滤 | 本 skill | observer-log-analysis(gather_log / analyze_log) |
| OBProxy 日志 | 本 skill | obproxy-log-analysis(gather_obproxy_log + 文件工具) |
| OBProxy/ODP 路由、弱读、读写分离、连接配置 | 本 skill | obproxy-routing-troubleshooting |
| 单条 SQL 计划 / trace 计划监控 | 本 skill | observer-sql-analysis(gather_plan_monitor、db_query) |
| 日志盘/数据盘、文件系统、索引或副本空间的手动 SOP | 直接跳 RCA | observer-storage-space-troubleshooting;若用户要 RCA,仍先用本 skill → obdiag-rca |
| 备份、归档、恢复窗口、OSS/COS/NFS、oblogminer | 本 skill | backup-archive-restore-troubleshooting |
| 文档级「参数含义、官方怎么说」 | 本 skill | oceanbase-knowledge |
check_list 列出可用巡检任务(输出依赖 当前会话活跃集群 的配置)。
check_list 直接执行 check_cluster。check_list 确认 任务名或用例名存在再执行。check_cluster 执行巡检,支持以下参数:
cases(套餐名,来自 observer_check_package.yaml 的顶层 key,如 "ad"、"k8s_basic"、"deep")、observer_tasks(具体任务名或正则,分号分隔,如 "cluster.*" 或 "disk.data_disk_full;cluster.no_leader",优先级高于 cases)obproxy_cases(套餐名,如 "proxy")、obproxy_tasks(具体任务名或正则,分号分隔,优先级高于 obproxy_cases)check_cluster(observer_tasks="cluster.*") 或 check_cluster(cases="k8s_basic")store_dir。若用户点名 非默认集群,在 check_cluster 上传 cluster_config_path(短名如 obdiag_test 或完整 yml 路径)。file_list / file_read 查看 HTML/文本报告摘要。obdiag-rca skill,按其"场景速查表"将用户描述的症状(如"合并卡住"、"断连"、"OOM")匹配到正确 scene 名称;不要凭感觉猜测 scene。rca_list 确认该 scene 在当前环境中可用。rca_run(scene="<scene_name>");非默认集群加 cluster_config_path。obdiag-rca 中对应场景的手动降级步骤继续分析,不要直接告知用户"无法定位"。| 流程 | 完成标准 |
|---|---|
| 巡检 | 已执行 check_cluster(或先 check_list 再执行);结果中失败/告警已归纳;若有报告路径已 file_list/file_read 摘要或告知用户路径。 |
| RCA | 已执行 rca_run 且 scene 与现象匹配;结论与建议已输出。 |
observer-log-analysis / obproxy-log-analysis。check_list/rca_list 时,已 /use 切换或向用户说明当前列表对应哪套 config。check_cluster/rca_run 在点名集群时已传 cluster_config_path(若适用)。check_list / rca_list 使用会话 当前 config_path,不接收 cluster_config_path。若用户要列的是 另一套集群 的任务列表,需先在 agent 里 /use <name|path> 切换活跃集群(见 obdiag-multi-cluster skill),再调用 list。check_cluster / rca_run 支持 cluster_config_path,可在不切换会话的情况下定向某集群。gather_log、db_query、或知识库查参数)。