with one click
obdiag-performance
// 性能类采集与主机 IO:ASH、AWR、perf 火焰图、sysstat、磁盘 IO。在用户说卡顿、慢、会话堆积、要看 ASH/AWR/火焰图或主机负载时使用;与 observer-sql-analysis、observer-log-analysis 互补。
// 性能类采集与主机 IO:ASH、AWR、perf 火焰图、sysstat、磁盘 IO。在用户说卡顿、慢、会话堆积、要看 ASH/AWR/火焰图或主机负载时使用;与 observer-sql-analysis、observer-log-analysis 互补。
| name | obdiag-performance |
| description | 性能类采集与主机 IO:ASH、AWR、perf 火焰图、sysstat、磁盘 IO。在用户说卡顿、慢、会话堆积、要看 ASH/AWR/火焰图或主机负载时使用;与 observer-sql-analysis、observer-log-analysis 互补。 |
| 用户说法 / 目标 | 工具 | 说明 |
|---|---|---|
| ASH、活跃会话历史、会话等待 | gather_ash | 可配合 from_time/to_time(格式 yyyy-mm-dd hh:mm:ss)、trace_id、sql_id、wait_class、report_type 等 |
| AWR、gather awr、ParalleSQL 报告包 | gather_awr | since 或 from_time/to_time;可选 cluster_name / cluster_id |
| 火焰图、perf、pstack、采样性能 | gather_perf | 重采集,需用户确认 |
| 主机信息、sysstat、机器侧基线 | gather_sysstat | 与集群节点主机相关 |
| 单条 SQL 执行计划监控、给定 trace_id 的计划包 | gather_plan_monitor | 仅 计划监控,不是「收集日志」 |
| 磁盘 IO 慢、验盘 | tool_io_performance | 可选 disk、date |
| 集群整体健康、巡检告警引发性能 | check_cluster | 与 ASH/AWR 互补;用于发现配置/状态类根因 |
| 场景化根因分析(如 CPU/内存/磁盘) | rca_run | 先 rca_list 看可用 scene,再 rca_run(scene="...") |
observer-sql-analysis 的关系observer-sql-analysis:围绕 一条 SQL、锁、trace、计划——优先 db_query + gather_plan_monitor + gather_log(grep trace)。gather_ash / gather_awr / gather_sysstat。gather_log + analyze_log(observer-log-analysis)。obproxy-log-analysis,不要用 analyze_log 分析 OBProxy 日志。requires_approval;执行前简要说明要采什么、大概耗时。cluster_config_path。file_list / file_read 帮用户看报告路径或摘要。gather_log、或 check_cluster / RCA)。以下为主路径示例,仍以工具速查表为准选型;非默认集群全程加 cluster_config_path。
gather_ash:设定与现象匹配的时间窗;看等待类、top SQL。gather_awr(时间窗与租户/集群参数按环境)。gather_sysstat;若怀疑磁盘:tool_io_performance。observer-sql-analysis / observer-log-analysis 跟进。observer-sql-analysis(gather_plan_monitor、db_query、必要时 gather_log grep);本 skill 不强行替代。file_list / file_read 摘要;重采集前说明原因。.tar.gz / .zip 压缩包时,先用 run_shell(需用户审批)解压(如 tar -xzf xxx.tar.gz -C ./extracted),再 file_list → file_read 明文报告;不可直接 file_read 二进制压缩包。gather_plan_monitor 代替「收整体性能/日志」类诉求。observer-sql-analysis?备份、日志归档、物理恢复、恢复时间窗、NFS/OSS/COS 归档路径、对象存储权限、备租户恢复源、ob_admin 读取归档位点、oblogminer schema_meta 等问题;OMS 迁移同步问题不使用本 skill。
标准 SOP:集群巡检 check_cluster/check_list 与 RCA 入口(rca_run/rca_list)。用户要健康检查、巡检时使用;RCA 场景映射与手动降级详见 obdiag-rca skill;与 observer-log-analysis、observer-sql-analysis、obproxy-log-analysis 分工明确。
标准 SOP:多集群发现 list_obdiag_clusters、当前会话 show_current_cluster、/use 切换与 cluster_config_path 定向。多套 ~/.obdiag/*.yml、切换默认集群、或一句话点名某集群时使用。
OceanBase 集群所有根因分析场景的统一 SOP。覆盖事务超时/回滚/断连、内存不足、合并卡住、日志盘满、DDL 失败、Schema 泄漏、GC 异常、弱一致性读、OMS 等。始终先执行 rca_run,如 RCA 脚本无法给出结论再按本 skill 降级到手动日志采集分析。
未知/未分类问题的统一分诊 SOP:用户描述集群异常但症状不明确、不知从何入手,或问题无法直接对应 rca/observer-log-analysis/observer-sql-analysis 等专项 skill 时,强制先执行全量巡检 check_cluster,再根据巡检结果决定下一步路径。
obdiag agent 工具使用指南:配置文件生成、gather/analyze/check/rca 各命令的调用方式、参数说明与典型场景。用户询问"怎么用 obdiag"、"如何采集日志"、"怎么生成配置"、"如何巡检/根因分析",或 agent 自身不确定该调哪个工具时加载本 skill。