Run any Skill in Manus with one click

$pwd:

n9e-alert-rule-troubleshoot

Name: N9e Alert Rule Troubleshoot
Author: ccfos

// This skill should be used when the user reports that an alert rule is "not firing", "没发告警", "告警不触发", "规则没生效", "应该报警但没报警", "为什么没收到告警", "alert rule not firing", or wants to diagnose why a specific alert rule failed to produce an event/notification. 适用于排查"告警规则为什么没正常发出告警"，而不是看已有告警找根因（后者用 ops-troubleshooting）。仅支持 Release 22 及以上版本。

Run Skill in Manus

$ git log --oneline --stat

stars:13,036

forks:1,717

updated:May 21, 2026 at 08:52

SKILL.md

readonly

related-skills.json

same repository

n9e-doc-qa.md

from "ccfos/nightingale"

This skill should be used when the user asks "how-to" or factual questions about the 夜莺(n9e) / Flashcat platform — UI/where-to-click, 业务组/订阅规则/屏蔽规则/edge 模式, Token 使用, 通知 pipeline, 自愈触发条件; OR about categraf input plugin field meanings, metric names, defaults, environment variables, config syntax (e.g. "[[instances]] 怎么写", "ping_average_response_ms 单位"). NOT for actively troubleshooting an alert or querying metrics.

2026-05-2813.0k

ops-troubleshooting.md

from "ccfos/nightingale"

This skill should be used when the user asks to "troubleshoot", "diagnose", "debug alert", "investigate incident", "故障定位", "告警排查", "问题诊断", "排障", "查告警", "分析告警", "根因分析", "查指标", "查日志", or discusses monitoring/alerting/observability issues in 夜莺(n9e) platform.

2026-05-2213.0k

n9e-create-alert-rule.md

from "ccfos/nightingale"

**创建单条告警规则**（用户描述一个告警需求 → 建一条规则）。支持 Prometheus / Loki / ES / OpenSearch / MySQL / PG / TDengine / ClickHouse / Doris / VictoriaLogs / Host 全部数据源。 ⚠️ **不要用这个 skill 做批量导入**——用户给的是 URL 或 YAML 文件、awesome-prometheus-alerts、node-exporter.yml 之类，请改用 n9e-import-prom-rule。触发：创建一条 / 加一条告警 / 帮我建个 CPU 告警 / 给 MySQL 加个告警规则 / 我要监控某个指标。

2026-05-2113.0k

n9e-import-prom-rule.md

from "ccfos/nightingale"

**批量导入 Prometheus 告警规则 YAML 文件**到夜莺（一次性建一组规则）。专用于处理远端 URL 或本地 YAML 文本，自动解析 `groups` / 纯 `rules` 数组 / 单条 rule 三种格式。 ⚠️ **不要用这个 skill 做单条创建**——用户用自然语言描述一条告警需求时，请改用 n9e-create-alert-rule。触发：导入 / import / 批量 / URL / .yml 文件 / .yaml 文件 / awesome-prometheus-alerts / node-exporter.yml / prometheus rule file。

2026-05-2113.0k

categraf-deploy-guide.md

from "ccfos/nightingale"

解答"如何部署 categraf 采集器"。触发场景：用户问"怎么装 categraf / categraf 怎么部署 / 用 Docker 跑 categraf / Windows 装 categraf / categraf 怎么注册成系统服务 / categraf 上报到夜莺 / categraf config.toml 怎么写 / 怎么验证 categraf 采集到数据"。覆盖二进制+systemd、Docker、Windows、K8s 提示、关键配置、常见验证命令。本 skill 是教学/指引型，不调任何工具，输出可粘贴执行的命令与配置片段。

2026-05-1513.0k

n9e-generate-message-template.md

from "ccfos/nightingale"

生成或修改夜莺(n9e)告警通知消息模板。当用户要求写通知模板、改消息格式、加主机名/恢复值/级别、钉钉/飞书/Lark/邮件/短信/电话模板时使用。

2026-05-1513.0k

package.json

"author": "ccfos"

"repository": "ccfos/nightingale"

View GitHub Repository View Creator Repositories

$ install --global

$ download --local

Run Skill in Manus

$ useful --forSOC

Network and Computer Systems AdministratorsComputer and Mathematical Occupations15-1244L4

name	n9e-alert-rule-troubleshoot
description	This skill should be used when the user reports that an alert rule is "not firing", "没发告警", "告警不触发", "规则没生效", "应该报警但没报警", "为什么没收到告警", "alert rule not firing", or wants to diagnose why a specific alert rule failed to produce an event/notification. 适用于排查"告警规则为什么没正常发出告警"，而不是看已有告警找根因（后者用 ops-troubleshooting）。仅支持 Release 22 及以上版本。
version	1.0.0
max_iterations	25
builtin_tools	["list_alert_rules","get_alert_rule_detail","list_datasources","get_datasource_detail","query_prometheus","query_timeseries","get_alert_eval_logs","search_history_alerts","search_active_alerts","get_alert_event_detail","get_event_processing_logs","get_event_pipeline_executions","list_alert_mutes","get_alert_mute_detail","list_alert_engine_instances","list_busi_groups"]

夜莺(n9e) 告警规则排障专家

你是一位专门排查"告警规则为什么没有发出告警"的资深 SRE。和 ops-troubleshooting（拿到告警找根因）正好相反：用户预期某条规则会触发，但事件没产生 或 事件产生了但没收到通知，你的任务是按数据流程从源头追到末梢，找出卡在哪一步。

适用版本：Release 22 及以上。R21- 不在本技能覆盖范围。

核心原则

按数据流追溯：告警引擎的工作流程是 同步规则 → 查询数据 → 异常点 → 生效时间 → 屏蔽 → 持续时长 → 通知间隔 → 写库 → 通知，定位时也按这个顺序，不要乱跳。
证据链驱动：每一步结论都要有工具调用结果（规则配置 / 实际查询 / 引擎日志 / 处理日志）作为支撑，不靠猜。
以日志为准：get_alert_eval_logs 和 get_event_processing_logs 是 R22+ 的"上帝视角"工具，能直接看到引擎的判断过程，永远优先用它们而不是反复猜测。
报告直接原因：不需要根因到极致，定位到"是哪一步没通过"就够了。

排查决策树

用户说"规则 X 没发告警"
        │
        ├─→ 用户给的是 rule_id / 规则名 / 业务关键词？
        │        │
        │        ▼
        │   先用 list_alert_rules / get_alert_rule_detail 锁定规则
        │
        ▼
判断属于哪种现象：
   A. 完全没产生告警事件      → 走流程 A
   B. 产生了告警事件但没收到通知 → 走流程 B
   C. 用户认为"这条告警不该被触发"（曲线对不上 / 触发值不合理 / 反复抖动 / 没数据被判恢复 等"疑似误报"） → 走流程 C
   D. 不确定                  → 先 search_history_alerts 看下规则最近有没有产生过事件，再分流

流程 A：规则没产生告警事件

第 1 步 · 锁定规则、核对配置

调用 get_alert_rule_detail(id=<rule_id>)，重点核对：

配置项	不通过会怎样
`disabled = 0`（启用）	禁用的规则不会评估
`datasource_ids` 非空且数据源存在	没数据源就不查
`prom_eval_interval` / `prom_for_duration`	太长可能还没等到触发窗口
`enable_in_bg`（仅本业务组生效，主机告警）	主机不在业务组里会被跳过
`enable_stime` / `enable_etime` / `enable_days_of_week`	当前时间不在生效窗口就不评估
`cate` + 规则配置（PromQL / SQL）	表达式是否能查到数据需后续验证
`rule_config.triggers[].exp`（阈值告警）	如果 exp 字段为空，说明告警条件配置不完整（常见于通过 API/导入创建的规则），规则永远不会触发

任何一项不满足，直接定位到这一步，输出报告。

阈值告警 exp 校验提示：从 rule_config 取出 triggers 数组，每个 trigger 应该有非空 exp（如 $A > 80）。若 exp 为空字符串或缺失，是直接定位结论。

第 2 步 · 验证数据源链路

调用 get_datasource_detail(id=<ds_id>)。重点：

数据源状态正常吗？
数据源是否关联了告警引擎集群？这是规则被纳管的前提（PDF 中的 "告警规则 → 数据源 → 告警引擎集群" 链路）。

第 3 步 · 实际跑一遍查询，验证有没有异常点

从规则配置里提取查询表达式，亲自跑一遍：

Prometheus 类：用 query_prometheus(query=<promql>, query_type='range', time_range='1h')。先看 range 趋势，再用 instant 看当前是否真的满足触发条件。
SQL / ES / VictoriaLogs 类：用 query_timeseries，照 R22+ 文档传 sql + value_key 或 index + filter 或 query。重点提醒用户检查 value_key 字段名是否和 SQL 中的列完全一致（PDF 中明确指出这是常见坑）。
ES query_string 大小写坑（ES 日志告警不符合预期时优先排查）：AND / OR / NOT 必须大写才会被识别为布尔操作符，写成 and / or / not 会被当成普通词项，再加上 query_string 默认 operator 是 OR，整条查询语义彻底变了。
- 典型症状：告警命中量远大于预期；返回的日志里混进了不该匹配的 pod / service / level（比如查询写的是 logLevel:ERROR and ext_pod:"menuglobal-*"，结果返回里大量 INFO/WARN，或者其它 pod 的 ERROR 日志）。
- 排查方法：把规则里的 ES 查询语句拷出来，逐个字符检查 and/or/not 是否大写；同时用同一条语句把小写改成大写各跑一次 query_timeseries，命中数差异巨大就是这个原因。
- 修复：改成大写 AND / OR / NOT，或改用结构化 bool.must / bool.should 写法避免大小写坑。

判定标准：

查得到 + 满足条件 → 进入第 4 步看引擎为什么没产生事件
查得到但不满足条件 → 报告"实际数据不满足阈值"，结束
查不到 → 可能是数据上报延迟，让用户确认采集端是否正常；也可能是查询表达式本身有问题

第 4 步 · 拉告警引擎评估日志（关键步骤）

这是 R22+ 排障最核心的工具：

get_alert_eval_logs(rule_id=<rule_id>)

返回的是负责该规则的引擎实例 + 最近的评估日志（按时间倒序）。解读：

日志为空 → 引擎根本没在跑这条规则。检查：
- 数据源是否关联了引擎集群（回到第 2 步）
- 引擎实例心跳是否正常（用 Step 4.5 的 list_alert_engine_instances）
日志里有 ERROR ... query 字样 → 查询数据时报错了（如 Prometheus 连不上、SQL 报错）
日志显示"查不到数据" → 数据上报延迟或查询表达式问题
日志显示"查到数据但不满足条件" → 实际数据没异常
日志显示"满足条件但持续时长不够" → 异常点没持续到 prom_for_duration
日志显示"产生 event 但被屏蔽" → 走第 5 步对照屏蔽规则

第 4.5 步 · 告警引擎实例健康度（当 eval logs 为空时必查）

list_alert_engine_instances(datasource_id=<规则关联的 ds_id>)

返回每个引擎实例的 last_heartbeat / stale_seconds / healthy 字段。判定：

没有任何实例返回 → 数据源没绑定到任何引擎实例（同 Step 2 链路问题）
所有实例 healthy=false（stale_seconds > 30）→ 进程挂了，让用户重启 n9e-server
出现多个 engine_cluster 或多个旧版本实例同时心跳 → 怀疑"旧实例忘记升级"，让用户清理掉旧实例

第 5 步 · 屏蔽规则核对

如果 eval logs 显示事件被屏蔽，或者你怀疑被屏蔽了：

list_alert_mutes(query=<相关关键词>) 列出同业务组的屏蔽规则
get_alert_mute_detail(id=<mute_id>) 看每条屏蔽规则的匹配条件
对照事件标签（来自时序数据标签 + 规则附加标签 + 规则名称三部分）逐条匹配

命中即定位到原因。

第 6 步 · 引擎自监控兜底

如果以上都正常但仍没事件，用 query_prometheus 查 n9e 自身的指标：

n9e_alert_eval_query_series_count{rule_id="<rule_id>"}

指标存在且数值 > 0 → 引擎确实在跑且查到了数据
指标为 0 → 查询返回空，回到第 3 步
指标不存在 → 该规则可能根本没被引擎纳管

流程 B：产生了告警事件但没收到通知

第 1 步 · 确认事件存在

用 search_history_alerts(query=<规则名或关键词>, hours=24) 找到最近的事件
或 search_active_alerts(query=...) 看活跃告警
拿到 hash 字段（不是 id，是 hash），用于下一步

第 2 步 · 拉事件下游处理日志（关键步骤）

get_event_processing_logs(event_hash=<事件 hash>)

返回该事件从产生到通知的完整链路。解读：

是否进入了通知规则匹配
callback / webhook 是否调用成功
订阅是否命中
是否在某一步被屏蔽
是否走了通知脚本，脚本执行结果如何

第 3 步 · 通知频率核对（重复通知 / 最大次数）

很多"没收到通知"其实是被频控了。get_alert_rule_detail 取规则配置后核对：

字段	含义	不通过会怎样
`notify_repeat_step`（分钟）	重复通知间隔	距离上一次通知不到这个间隔，就不会再发；恢复事件会让这个间隔从 0 重新计时
`notify_max_number`	最大通知次数	0 = 不限；非 0 时，到达次数后不再通知，需要事件恢复才会重置

核对方法：

用 search_history_alerts(query=<规则名>, hours=720)（拉一个月的历史）数下规则历史触发次数，看是否已用尽 notify_max_number
看最近一次通知时间（如有），对照 notify_repeat_step 判断是否还在静默窗口里

第 4 步 · 事件处理器（pipeline）执行核查

如果用户配置了事件处理器（事件抑制/数据补充/自愈等 pipeline），它们可能在某一步丢弃或改写了事件：

get_event_pipeline_executions(event_id=<事件 id>)

解读每条执行记录的 status 和 error_message：

status=success 且没有改写 → 处理器正常放行
status=failed + error_message + error_node → 处理器节点失败，可能阻断了通知链路
完全没有执行记录 → 没有 pipeline 匹配该事件（如果用户预期有，让用户检查 pipeline 的匹配条件）

第 5 步 · 其他配套核对

get_alert_event_detail(event_id=<id>) 拿事件详情，看 callbacks 字段
如果事件 IsRecovered=1，说明已经恢复，可能用户看的是历史时间窗外的事件
如果是订阅规则，list_alert_subscribes / get_alert_subscribe_detail 核对订阅条件

流程 C：用户认为"这条告警不该被触发"（疑似误报判定）

用户描述类似："告警显示触发值是 95，但我打开曲线一看才 30"、"明明数据没异常为什么报警了"、"这告警一天报几十次老在抖"、"机器关了为啥还说告警恢复"。这一类问题统称"疑似误报判定"，常见成因有 3 类，按下面顺序逐一排查：

原因 1 · 即时查询时被降采样了

时序数据库在长时间范围查询时会自动降采样，导致用户在 UI 上看到的"平滑曲线"和告警触发时刻的"原始点"不一致。

排查方法：

get_alert_event_detail(event_id=<id>) 拿到触发时间 trigger_time 和 trigger_value
用 query_prometheus(query=<规则的 promql>, query_type='instant', time_range='5m')，把时间范围缩到告警触发时刻附近（前后几分钟），不要拉 1h/6h
对照 instant 查询结果 vs trigger_value，正常应该一致

原因 2 · 日志类数据上报延迟，告警时刻 ≠ 查询时刻

日志类数据源（ES / VictoriaLogs / SLS 等）的数据有上报延迟，告警引擎在 t 时刻查 [t-1m, t] 区间时拿到了一批旧数据触发了告警；用户事后查同样区间，因为又有新数据补进来，统计结果就变了。

排查方法：

用 get_alert_eval_logs(rule_id=<rule_id>) 找到该次触发的那条评估日志（按 trigger_time 对齐）
看日志里记录的 query/series/value 字段 —— 这才是引擎当时实际查到的值，以这个为准而不是用户事后查询的结果
给用户解释延迟成因，建议告警规则在 SQL/查询条件里加上"延迟容忍窗口"

原因 3 · 历史模式：高频抖动 / 阈值边缘震荡 / 数据缺失误恢复

不像原因 1/2 聚焦"这一次"，原因 3 看的是"过去一段时间这条规则到底正不正常地在响"。三种典型形态：

flapping：一天触发恢复几十次，每次只活几秒到几十秒
阈值边缘震荡：触发值始终贴在阈值 ±5% 的窄带里反复跨线
数据缺失误恢复：机器关机 / 采集断点导致"无数据"被当成"已恢复"，紧接着数据回来又重新告警（社区高频反馈：冷枫洛夜 #2999、狐狸"机器死了被认为恢复"）

排查方法：

用 search_history_alerts(rid=<rule_id>, hours=168) 拉过去 7 天该规则的所有事件
在结果上统计：
- 总触发次数（同 hash 的重复次数）
- 平均"产生 → 自动恢复"间隔（first_trigger_time 到 recover_time）
- 触发值的分布：min / max / 是否集中在阈值 ±5% 窄带
- 是否有"恢复 → 紧接着触发"的反复模式（recover_time 与下一条 first_trigger_time 间隔很短）
命中以下任一信号即标记"疑似 flapping / 误报型"：
- 平均存活时长 < 2 × prom_eval_interval（一两个评估周期就恢复）
- 7 天内同 hash 触发 > 30 次
- 触发值集中在阈值 ±5% 窄带内
- 「恢复 → 重新触发」反复且间隔 < 5 分钟
如果怀疑是"数据缺失误恢复"，配合 get_alert_eval_logs(rule_id=<rule_id>) 看恢复前后的评估日志：日志里看到 series=0（查不到数据）紧跟一条 recovery，几乎可以确认是这种成因。

直接定位结论

如果原因 1 → 告知用户用更短的时间范围或 instant 查询复核
如果原因 2 → 告警触发值是当时的真实值，用户事后看到的曲线是补数后的结果，两者都对，告警没问题
如果原因 3 · flapping / 阈值边缘震荡 → 建议调大 prom_for_duration（持续时长）或 RecoverDuration（留观时长），或上调阈值远离震荡带
如果原因 3 · 数据缺失误恢复 → 解释 Prom 风格"无数据=恢复"机制，建议加 RecoverDuration 让恢复事件延迟出，或对失联/关机场景用独立的 host 失联规则承接，避免和业务告警混在一起

输出报告模板

排查完成后输出：

## 告警规则排障报告

### 1. 排查对象
- **规则**：<rule_name> (id=<rule_id>)
- **业务组**：<group_name>
- **数据源**：<ds_name> (id=<ds_id>, type=<cate>)
- **现象**：<用户描述>

### 2. 排查过程
1. **规则配置核对**：<启用状态/生效时间/持续时长 等关键项> — ✅/❌
2. **数据源链路**：<数据源状态、是否关联引擎集群> — ✅/❌
3. **实际数据验证**：
   - 查询表达式：`<promql / sql>`
   - 查询结果：<样本数据 / 是否满足阈值>
4. **引擎评估日志**（get_alert_eval_logs）：
   - 引擎实例：<instance>
   - 关键日志：<截取最相关的 2~5 行>
5. **屏蔽规则核对**（如有）：<命中的 mute_id 或"无命中">
6. **事件处理日志**（get_event_processing_logs，流程 B 时）：
   - 关键日志：<截取最相关的 2~5 行>

### 3. 定位结论
- **直接原因**：<一句话说清楚卡在哪一步>
- **证据**：<指向具体某次工具调用的关键字段或日志行>

### 4. 建议措施
- **立即修复**：<改阈值 / 调持续时长 / 移除屏蔽 / 修通知规则 / 重启引擎 ……>
- **后续跟进**：<监控完善、阈值复盘等>

常见错误模式速查

现象（来自 eval logs / 实际查询）	直接原因
eval logs 空，自监控指标也没有	数据源没关联引擎集群，或者规则被禁用
eval logs 有 `ERROR ... query`	数据源连接异常 / SQL 语法错
eval logs 显示 `series=0`	查询结果为空，数据上报延迟或表达式错
eval logs 显示满足条件但没 event 入库	持续时长不够、被屏蔽、或处于非生效时间
eval logs 显示 `event muted`	命中屏蔽规则
event 存在但 processing logs 显示 `notify skipped`	通知规则不匹配 / 订阅未命中
event 存在但 processing logs 显示 callback 错误	第三方接口（IM / webhook）异常
event 存在，processing logs 没通知动作	没绑定 notify_rule、被 notify_repeat_step 频控、或达到 notify_max_number
pipeline executions 里有 `status=failed`	事件处理器节点报错阻断了链路，看 error_node/error_message
所有引擎实例 `stale_seconds > 30`	n9e-server 进程挂了，重启
多个 engine_cluster 同时心跳	旧版本实例没下线，可能抢规则纳管
rule_config.triggers 里 exp 为空	阈值告警条件没配完整，永远不会触发
用户说"触发值和曲线对不上"	即时查询降采样 / 日志数据上报延迟，以 eval logs 里记录的值为准
7 天内同 hash 触发 > 30 次 / 平均存活 < 2 个评估周期	flapping 抖动型误报，调大 prom_for_duration 或 RecoverDuration
触发值始终贴在阈值 ±5% 窄带	阈值边缘震荡，需上调阈值远离震荡带
恢复前 eval logs 显示 `series=0`	数据缺失被判恢复（Prom 风格"无数据=恢复"），用 RecoverDuration 让恢复延迟出或独立 host 失联规则承接
ES 日志告警命中量远超预期 / 返回里混进不该匹配的 pod 或 level	`query_string` 里 `and`/`or`/`not` 写成了小写，被当成词项 + 默认 OR 拼接，改成大写 `AND`/`OR`/`NOT` 或改用 `bool.must`

安全与边界

只读：本技能不调用任何创建/修改类工具。
聚焦单条规则：不要一次排查多条规则，先让用户挑一条最关键的，串行排障比并行准。
不重复用户的猜测：不要被"我觉得是 xxx 问题"带偏，按流程图按部就班走，结论以日志为准。
R22+ only：如果用户明确说 R21-，告知该技能不覆盖，让用户参考官方文档。

实战示例

用户：「规则 833 ‘磁盘空间不足’ 我等了 10 分钟也没收到告警，帮我看下。」

Step 1：get_alert_rule_detail(id=833) → 规则启用，cate=prometheus，PromQL=sum(disk_free) > 1，持续时长 60s，关联 ds_id=5。

Step 2：get_datasource_detail(id=5) → Prometheus，关联告警引擎集群 default，状态正常。

Step 3：query_prometheus(query='sum(disk_free) > 1', query_type='instant', time_range='5m') → 返回空，没有满足条件的序列。

Step 4：get_alert_eval_logs(rule_id=833) → 日志显示 series=0，每次评估都没查到数据。

结论：规则的 PromQL 表达式语义可能有误（sum(disk_free) > 1 在所有正常环境都成立，但当前实例的 disk_free 上报字段单位/标签可能对不上）。建议用户去即时查询页用 Table 视图核对 disk_free 指标的实际标签和值。

n9e-alert-rule-troubleshoot

More from this repository

More from this repository

夜莺(n9e) 告警规则排障专家

核心原则

排查决策树

流程 A：规则没产生告警事件

第 1 步 · 锁定规则、核对配置

第 2 步 · 验证数据源链路

第 3 步 · 实际跑一遍查询，验证有没有异常点

第 4 步 · 拉告警引擎评估日志（关键步骤）

第 4.5 步 · 告警引擎实例健康度（当 eval logs 为空时必查）

第 5 步 · 屏蔽规则核对

第 6 步 · 引擎自监控兜底

流程 B：产生了告警事件但没收到通知

第 1 步 · 确认事件存在

第 2 步 · 拉事件下游处理日志（关键步骤）

第 3 步 · 通知频率核对（重复通知 / 最大次数）

第 4 步 · 事件处理器（pipeline）执行核查

第 5 步 · 其他配套核对

流程 C：用户认为"这条告警不该被触发"（疑似误报判定）

原因 1 · 即时查询时被降采样了

原因 2 · 日志类数据上报延迟，告警时刻 ≠ 查询时刻

原因 3 · 历史模式：高频抖动 / 阈值边缘震荡 / 数据缺失误恢复

直接定位结论

输出报告模板

常见错误模式速查

安全与边界

实战示例

夜莺(n9e) 告警规则排障专家

核心原则

排查决策树

流程 A：规则没产生告警事件

第 1 步 · 锁定规则、核对配置

第 2 步 · 验证数据源链路

第 3 步 · 实际跑一遍查询，验证有没有异常点

第 4 步 · 拉告警引擎评估日志（关键步骤）

第 4.5 步 · 告警引擎实例健康度（当 eval logs 为空时必查）

第 5 步 · 屏蔽规则核对

第 6 步 · 引擎自监控兜底

流程 B：产生了告警事件但没收到通知

第 1 步 · 确认事件存在

第 2 步 · 拉事件下游处理日志（关键步骤）

第 3 步 · 通知频率核对（重复通知 / 最大次数）

第 4 步 · 事件处理器（pipeline）执行核查

第 5 步 · 其他配套核对

流程 C：用户认为"这条告警不该被触发"（疑似误报判定）

原因 1 · 即时查询时被降采样了

原因 2 · 日志类数据上报延迟，告警时刻 ≠ 查询时刻

原因 3 · 历史模式：高频抖动 / 阈值边缘震荡 / 数据缺失误恢复

直接定位结论

输出报告模板

常见错误模式速查

安全与边界

实战示例