Run any Skill in Manus with one click

$pwd:

p2e-shadow-validation

Name: P2e Shadow Validation
Author: gmaxxxie

// AI Native 产品方法论——影子验证的实操 Skill。用户提供收敛决策结论，Skill 自动执行影子验证：影子系统设计 → 并行运行方案 → 人工对比机制 → 失败模式沉淀 → 审计放行证据 → 输出影子验证报告。基于《AI Native 产品方法论》第10章（试验展开-影子验证）。

Run Skill in Manus

$ git log --oneline --stat

stars:27

forks:0

updated:May 6, 2026 at 05:17

SKILL.md

readonly

package.json

"author": "gmaxxxie"

"repository": "gmaxxxie/ai-native-product-agent-skills"

View GitHub Repository

$ install --globalskills.sh

$ download --local

Run Skill in Manus

[HINT] Download the complete skill directory including SKILL.md and all related files

Run any Skill with one click

name	p2e-shadow-validation
description	AI Native 产品方法论——影子验证的实操 Skill。用户提供收敛决策结论，Skill 自动执行影子验证：影子系统设计 → 并行运行方案 → 人工对比机制 → 失败模式沉淀 → 审计放行证据 → 输出影子验证报告。基于《AI Native 产品方法论》第10章（试验展开-影子验证）。
tags	["ai-product","methodology","shadow-validation","shadow-system","production-ready","book-skill"]
author	Max
source_book	AI Native 产品方法论
source_chapter	第10章试验展开-影子验证
version	1
stage	p2e
homepage	https://github.com/gmaxxxie/ai-native-product-agent-skills/tree/main/skills/p2e-shadow-validation

影子验证 Skill

使用场景

收敛决策已完成，需要在真实环境中验证系统是否具备进入工程化的条件
离线实验效果良好，但不确定真实流量下表现是否一致
需要为审计放行准备真实的、可量化的证据

核心概念

影子验证（Shadow Validation）：让 AI 在真实场景中并行运行，但暂不直接接管业务结果
影子系统（Shadow System）：承载这种验证方式的系统形态，与人工流程并行存在
离线评估：在样本集上检验能力边界
灰度上线：让系统在有限真实范围内直接影响业务结果

影子验证 vs 其他验证方式

验证方式	真实性	风险	证据质量	适用阶段
离线评估	最低	无	中（样本偏差）	能力实验
影子验证	中	低	高（真实流量）	放行前验证
灰度上线	高	中	最高	生产运行

影子验证流程

收敛决策通过
  → 影子系统设计
    → 并行运行方案
      → 人工对比机制
        → 失败模式沉淀
          → 审计放行证据
            → 灰度上线 / 继续影子验证

第一步：影子系统设计

影子系统的核心设计原则：

输出可见但不执行：AI 给出建议，但业务动作仍由人工执行
完整记录：每次 AI 输出都记录，包括输入、上下文、置信度、人工对比结果
可开关：发现重大问题时能快速切换到纯人工模式

影子系统架构

真实工单进入
  → 人工流程（正常执行）
    → 影子系统（并行生成建议）
      → 建议存储（不外发）
        → 周度人工对比
          → 失败模式沉淀
            → 系统优化

第二步：并行运行方案

运行参数设计：

参数	设计	理由
并行比例	从5%开始，逐步扩到50%	控制初期风险
场景筛选	先从低风险场景开始	避免高风险场景先行暴雷
扩量节奏	采纳率连续2周>60%再扩	确保质量稳定后再放量
熔断机制	连续3次高风险误判自动暂停	防止持续出错

第三步：人工对比机制

每周人工对比：

随机抽取影子系统建议（≥50条）
人工标注：正确 / 可接受 / 错误 / 风险误判
计算采纳率、错误率、风险漏过率

第四步：失败模式沉淀

每次对比后沉淀失败案例：

失败类型	数量	占比	根因	改进方向
上下文丢失	12	24%	会话状态未保留	补充记忆系统
风险漏过	5	10%	边界规则不完善	收紧风险规则
知识缺失	8	16%	知识库覆盖不足	补充知识库

第五步：审计放行证据准备

影子验证报告需包含：

运行概况：并行时长、工单量、场景分布
质量指标：采纳率、错误率、风险漏过率
失败模式分析：Top失败类型及根因
与离线评估对比：是否出现离线未发现的问题
放行建议：是否具备进入工程化/灰度上线条件

输出物：影子验证报告

影子系统配置：并行比例、场景选择、熔断规则
质量趋势图：采纳率、错误率随时间的变化
失败模式报告：Top问题、根因和改进建议
审计放行证据包：符合 @ai-native-audit-release 输入要求的完整证据

与其他 Skill 的关系

前置：@p2d-convergence-decision（收敛决策通过）
后置：@ai-native-audit-release（审计放行输入）、@ai-native-system-building（通过后进入工程化）
协同：@ai-native-production-ops（生产环境准备）

示例

用户输入

"客服 Copilot 收敛决策通过，准备进入影子验证"

Skill 执行

影子系统设计:
  架构: 侧边栏建议面板（不外发）
  记录: 每次建议+人工对比+采纳标记
  熔断: 连续3次赔付类误判自动暂停

并行运行方案:
  第1周: 5%工单（低风险场景：订单查询）
  第2周: 20%工单（+物流解释）
  第3周: 50%工单（全场景）
  扩量条件: 采纳率连续2周>65%

人工对比（第1周结果）:
  样本: 60条
  采纳率: 68%
  错误率: 12%（主要：上下文丢失）
  风险漏过率: 5%（主要：退款承诺）

失败模式:
  Top1: 多轮上下文丢失（35%）→ 补充会话状态设计
  Top2: 退款承诺误判（25%）→ 增加规则拦截
  Top3: 知识库缺失（20%）→ 补充200条FAQ

审计放行证据:
  ✅ 采纳率68% > 60%阈值
  ⚠️ 风险漏过率5%（需强化规则后再放行高风险场景）
  建议: 低风险场景先行灰度，高风险场景继续影子

深入核心概念

基于书稿第10章，以下概念在执行本 Skill 时需深入理解：

影子系统是真实环境验证机制：AI 产品最常见的问题是离线实验看起来成立，但进入真实环境效果波动。原因是真实用户请求、真实业务数据、真实流程边界和真实异常情况远比实验集复杂。影子系统与生产系统并行运行，接收真实请求但不直接返回结果给用户，因此能在不影响用户体验的前提下验证 AI 在真实环境中的表现。
影子系统在方法论中的位置：影子系统不是主循环中的独立阶段，而是试验展开通往系统构建/审计放行/生产运行的关键桥梁。它帮助回答两个实际问题：实验里的能力能否扛住真实流量，系统准备上线前还有哪些隐性风险。
四类价值：① 用真实数据验证 AI 能力（而非只看离线样本）；② 在系统构建阶段提前暴露稳定性、性能和边界问题；③ 在审计放行阶段持续观察幻觉、越权、错误调用和风险输出；④ 在正式上线前为生产运行建立更稳的信心和评估依据。
双轨并行结构：用户请求同时进入生产系统（返回实际响应）和影子系统（生成影子结果）。第二条链路不直接影响用户，但为团队提供能力评估、差异比较、模型优化、流程修正和风险发现的依据。
工程实现核心：常见方式是流量复制或事件镜像（API Gateway、消息队列、事件流等）。关键不在于"复制到哪里"，而在于如何记录结果差异、如何定义评估指标、如何防止影子链路反向影响生产链路。

分步执行指南

基于书稿方法论，本 Skill 的完整执行分为 6 步：

步骤 1：影子系统设计

设计三条核心原则：输出可见但不执行（AI 给建议，业务动作仍由人工执行）、完整记录（每次 AI 输出都记录输入/上下文/置信度/人工对比结果）、可开关（发现重大问题时能快速切到纯人工模式）
设计影子系统架构：真实请求 → 人工流程（正常执行）+ 影子系统（并行生成建议）→ 建议存储 → 周度人工对比 → 失败模式沉淀 → 系统优化
确保影子链路不会反向影响生产链路

步骤 2：并行运行参数设计

并行比例：从 5% 开始，逐步扩到 50%（控制初期风险）
场景筛选：先从低风险场景开始（避免高风险场景先行暴雷）
扩量节奏：采纳率连续 2 周 > 60% 再扩（确保质量稳定后再放量）
熔断机制：连续 3 次高风险误判自动暂停（防止持续出错）

步骤 3：人工对比机制建立

每周人工对比：随机抽取影子系统建议（≥ 50 条）
人工标注四类：正确 / 可接受 / 错误 / 风险误判
计算三个核心指标：采纳率、错误率、风险漏过率
对比结果与离线评估：是否出现离线未发现的新问题

步骤 4：失败模式沉淀与分析

每次对比后沉淀失败案例，按类型分类：上下文丢失、风险漏过、知识缺失、幻觉输出、权限越界等
分析每类失败的根因和占比
制定改进方向：补充记忆系统、收紧风险规则、补充知识库、增加输出过滤等
将失败模式反馈到系统优化循环

步骤 5：审计放行证据准备

整理影子验证报告：运行概况（并行时长、工单量、场景分布）、质量指标（采纳率、错误率、风险漏过率）、失败模式分析（Top 问题及根因）、与离线评估对比、放行建议
确保证据包符合审计放行输入要求
明确哪些场景可以进入灰度，哪些需要继续影子验证

步骤 6：放行决策

低风险场景：质量指标达标 → 灰度上线
高风险场景：质量指标未完全达标 → 继续影子验证
全场景：质量指标全面达标 → 进入系统构建/正式上线
输出影子验证报告和放行决策

示例一：客服 Copilot 影子验证

用户输入

"客服 Copilot 收敛决策通过，准备进入影子验证。已确定低风险场景（订单查询）和高风险场景（退款赔付）。"

Skill 执行

影子系统设计:
  架构:
    生产链路: 真实工单 → 客服正常处理 → 回复客户
    影子链路: 同一工单 → AI 生成建议 → 建议存储（不外发）
  三条原则:
    输出可见不执行: AI 建议仅在客服侧边栏显示，不自动发送
    完整记录: 每次建议记录输入上下文、AI输出、置信度、客服是否采纳
    可开关: 管理后台一键暂停影子系统
  熔断规则:
    连续 3 次赔付类误判 → 暂停该场景
    风险漏过率 > 10% → 暂停全场景，人工排查

并行运行方案:
  第 1 周:
    并行比例: 5% 工单（约 25 条/天）
    场景: 仅低风险（订单查询、物流状态）
    目标: 验证基础流程是否通畅
  第 2 周:
    并行比例: 20% 工单（约 100 条/天）
    场景: +物流解释、FAQ 回复
    扩量条件: 第 1 周采纳率 > 60%
  第 3 周:
    并行比例: 50% 工单（约 250 条/天）
    场景: 全场景（含售后政策）
    扩量条件: 第 2 周采纳率 > 60% 且风险漏过率 < 5%
  第 4 周:
    并行比例: 50%（维持）
    场景: 全场景
    目标: 稳定运行，准备放行决策

人工对比（周度执行）:
  第 1 周结果:
    样本: 60 条
    正确: 41 条（68%）
    可接受: 10 条（17%）
    错误: 7 条（12%）
    风险误判: 2 条（3%）
    采纳率: 68%
    风险漏过率: 3%

  第 2 周结果:
    样本: 120 条
    正确: 78 条（65%）
    可接受: 22 条（18%）
    错误: 14 条（12%）
    风险误判: 6 条（5%）
    采纳率: 65%
    风险漏过率: 5%

失败模式分析:
  Top 1: 多轮上下文丢失（占比 35%）
    现象: 超过 3 轮对话后 AI 忘记前文
    根因: 会话状态未保留到影子系统
    改进: 补充会话记忆模块
  Top 2: 退款承诺误判（占比 25%）
    现象: AI 建议的退款金额超出政策允许范围
    根因: 退款规则边界不清晰
    改进: 增加退款规则硬编码拦截
  Top 3: 知识库缺失（占比 20%）
    现象: 特定品类的售后政策 AI 无法回答
    根因: 该品类 FAQ 尚未入库
    改进: 补充 200 条品类 FAQ
  Top 4: 情绪误判（占比 12%）
    率象: 客户已明显不满但 AI 未标记情绪风险
    根因: 情绪检测模型未集成
    改进: 集成情绪检测作为辅助信号
  Top 5: 格式问题（占比 8%）
    现象: AI 回复格式不统一
    根因: 输出模板未强制
    改进: 增加输出格式校验

与离线评估对比:
  离线准确率: 88%
  影子准确率: 83%（下降 5%）
  新发现问题: 多轮上下文丢失（离线未测试）、情绪场景（离线样本不足）
  结论: 影子验证发现了离线评估未覆盖的问题，验证了影子机制的必要性

审计放行证据:
  运行概况:
    并行时长: 4 周
    总工单量: 约 2,800 条
    场景分布: 订单查询 40%、物流 25%、售后 20%、其他 15%
  质量指标:
    采纳率: 66%（> 60% 阈值 ✅）
    错误率: 12%（< 15% 阈值 ✅）
    风险漏过率: 4.5%（< 5% 阈值 ✅）
  放行建议:
    ✅ 低风险场景（订单查询、物流状态）: 达标，可进入灰度上线
    ⚠️ 中风险场景（售后政策）: 基本达标，建议灰度后继续观察
    ❌ 高风险场景（退款赔付）: 风险漏过仍存在，继续影子验证
  后续计划:
    灰度上线: 低风险场景先行，10% → 30% → 50% 逐步放量
    继续影子: 高风险场景（退款赔付）再验证 2 周
    系统优化: 会话记忆+退款规则拦截+品类FAQ补充（优先级从高到低）

示例二：AI 文档审核影子验证（对比案例）

用户输入

"文档审核收敛决策通过，条款提取和批量初筛两个方向进入影子验证。审核对象是合同文档。"

Skill 执行

影子系统设计:
  架构:
    生产链路: 法务上传合同 → 人工审核 → 出具审核意见
    影子链路: 同一合同 → AI 提取条款+初筛分级 → 结果存储（不外发）
  三条原则:
    输出可见不执行: AI 结果在审核面板显示，不替代人工审核
    完整记录: 每次提取记录输入文档、AI输出、置信度、法务对比结果
    可开关: 法务主管可一键暂停
  熔断规则:
    条款提取遗漏率 > 10% → 暂停该合同类型
    分级错误率 > 15% → 暂停自动分级

并行运行方案:
  第 1 周:
    并行比例: 10% 合同（约 15 份/天）
    场景: 标准采购合同（模板化程度高）
    目标: 验证条款提取准确率
  第 2 周:
    并行比例: 25% 合同
    场景: +服务合同、租赁合同
    扩量条件: 第 1 周提取准确率 > 88%
  第 3 周:
    并行比例: 50% 合同
    场景: 全类型合同
    目标: 验证批量初筛分级效果
  第 4 周:
    并行比例: 50%（维持）
    场景: 全类型
    目标: 稳定运行，准备放行决策

人工对比（周度执行）:
  第 1 周结果:
    样本: 40 份合同
    条款提取:
      正确: 36 份（90%）
      部分遗漏: 3 份（7.5%）
      严重遗漏: 1 份（2.5%）
    初筛分级:
      正确分级: 34 份（85%）
      错误分级: 6 份（15%）
    法务采纳率: 72%（用于辅助参考）

  第 2 周结果:
    样本: 80 份合同
    条款提取准确率: 87%（非标合同比标准合同低 5%）
    初筛分级准确率: 83%
    法务采纳率: 68%

失败模式分析:
  Top 1: 非标条款遗漏（占比 40%）
    现象: 非标准模板合同中的特殊条款被遗漏
    根因: 训练样本以标准合同为主，非标样本不足
    改进: 补充 100 份非标合同样本
  Top 2: 跨页条款断裂（占比 25%）
    现象: 跨页的长条款被截断，只提取了部分内容
    根因: 文档解析未处理跨页连贯性
    改进: 优化文档解析器，增加跨页合并逻辑
  Top 3: 分级标准偏差（占比 20%）
    现象: 高风险合同被分为中风险
    根因: 分级阈值需调整
    改进: 收紧高风险判定阈值
  Top 4: 格式识别错误（占比 15%）
    现象: 表格中的条款未被正确识别
    根因: 表格解析能力不足
    改进: 增强表格解析模块

审计放行证据:
  运行概况:
    并行时长: 4 周
    总合同量: 约 650 份
    合同类型: 采购 45%、服务 30%、租赁 15%、其他 10%
  质量指标:
    条款提取准确率: 88%（> 85% 阈值 ✅）
    初筛分级准确率: 84%（> 80% 阈值 ✅）
    法务采纳率: 70%（> 65% 阈值 ✅）
    条款遗漏率: 5%（< 8% 阈值 ✅）
  放行建议:
    ✅ 标准采购合同: 条款提取和初筛均达标，可进入灰度
    ⚠️ 服务合同: 基本达标，灰度后继续观察
    ⚠️ 租赁合同: 样本量偏少，继续影子验证 2 周
    ❌ 非标合同: 准确率不足，继续影子验证
  后续计划:
    灰度上线: 标准采购合同先行，逐步扩展到服务合同
    继续影子: 租赁合同+非标合同再验证
    系统优化: 非标合同样本补充+跨页合并+表格解析增强+分级阈值调整

name	p2e-shadow-validation
description	AI Native 产品方法论——影子验证的实操 Skill。用户提供收敛决策结论，Skill 自动执行影子验证：影子系统设计 → 并行运行方案 → 人工对比机制 → 失败模式沉淀 → 审计放行证据 → 输出影子验证报告。基于《AI Native 产品方法论》第10章（试验展开-影子验证）。
tags	["ai-product","methodology","shadow-validation","shadow-system","production-ready","book-skill"]
author	Max
source_book	AI Native 产品方法论
source_chapter	第10章试验展开-影子验证
version	1
stage	p2e
homepage	https://github.com/gmaxxxie/ai-native-product-agent-skills/tree/main/skills/p2e-shadow-validation

影子验证 Skill

使用场景

收敛决策已完成，需要在真实环境中验证系统是否具备进入工程化的条件
离线实验效果良好，但不确定真实流量下表现是否一致
需要为审计放行准备真实的、可量化的证据

核心概念

影子验证（Shadow Validation）：让 AI 在真实场景中并行运行，但暂不直接接管业务结果
影子系统（Shadow System）：承载这种验证方式的系统形态，与人工流程并行存在
离线评估：在样本集上检验能力边界
灰度上线：让系统在有限真实范围内直接影响业务结果

影子验证 vs 其他验证方式

验证方式	真实性	风险	证据质量	适用阶段
离线评估	最低	无	中（样本偏差）	能力实验
影子验证	中	低	高（真实流量）	放行前验证
灰度上线	高	中	最高	生产运行

影子验证流程

收敛决策通过
  → 影子系统设计
    → 并行运行方案
      → 人工对比机制
        → 失败模式沉淀
          → 审计放行证据
            → 灰度上线 / 继续影子验证

第一步：影子系统设计

影子系统的核心设计原则：

输出可见但不执行：AI 给出建议，但业务动作仍由人工执行
完整记录：每次 AI 输出都记录，包括输入、上下文、置信度、人工对比结果
可开关：发现重大问题时能快速切换到纯人工模式

影子系统架构

真实工单进入
  → 人工流程（正常执行）
    → 影子系统（并行生成建议）
      → 建议存储（不外发）
        → 周度人工对比
          → 失败模式沉淀
            → 系统优化

第二步：并行运行方案

运行参数设计：

参数	设计	理由
并行比例	从5%开始，逐步扩到50%	控制初期风险
场景筛选	先从低风险场景开始	避免高风险场景先行暴雷
扩量节奏	采纳率连续2周>60%再扩	确保质量稳定后再放量
熔断机制	连续3次高风险误判自动暂停	防止持续出错

第三步：人工对比机制

每周人工对比：

随机抽取影子系统建议（≥50条）
人工标注：正确 / 可接受 / 错误 / 风险误判
计算采纳率、错误率、风险漏过率

第四步：失败模式沉淀

每次对比后沉淀失败案例：

失败类型	数量	占比	根因	改进方向
上下文丢失	12	24%	会话状态未保留	补充记忆系统
风险漏过	5	10%	边界规则不完善	收紧风险规则
知识缺失	8	16%	知识库覆盖不足	补充知识库

第五步：审计放行证据准备

影子验证报告需包含：

运行概况：并行时长、工单量、场景分布
质量指标：采纳率、错误率、风险漏过率
失败模式分析：Top失败类型及根因
与离线评估对比：是否出现离线未发现的问题
放行建议：是否具备进入工程化/灰度上线条件

输出物：影子验证报告

影子系统配置：并行比例、场景选择、熔断规则
质量趋势图：采纳率、错误率随时间的变化
失败模式报告：Top问题、根因和改进建议
审计放行证据包：符合 @ai-native-audit-release 输入要求的完整证据

与其他 Skill 的关系

前置：@p2d-convergence-decision（收敛决策通过）
后置：@ai-native-audit-release（审计放行输入）、@ai-native-system-building（通过后进入工程化）
协同：@ai-native-production-ops（生产环境准备）

示例

用户输入

"客服 Copilot 收敛决策通过，准备进入影子验证"

Skill 执行

影子系统设计:
  架构: 侧边栏建议面板（不外发）
  记录: 每次建议+人工对比+采纳标记
  熔断: 连续3次赔付类误判自动暂停

并行运行方案:
  第1周: 5%工单（低风险场景：订单查询）
  第2周: 20%工单（+物流解释）
  第3周: 50%工单（全场景）
  扩量条件: 采纳率连续2周>65%

人工对比（第1周结果）:
  样本: 60条
  采纳率: 68%
  错误率: 12%（主要：上下文丢失）
  风险漏过率: 5%（主要：退款承诺）

失败模式:
  Top1: 多轮上下文丢失（35%）→ 补充会话状态设计
  Top2: 退款承诺误判（25%）→ 增加规则拦截
  Top3: 知识库缺失（20%）→ 补充200条FAQ

审计放行证据:
  ✅ 采纳率68% > 60%阈值
  ⚠️ 风险漏过率5%（需强化规则后再放行高风险场景）
  建议: 低风险场景先行灰度，高风险场景继续影子

深入核心概念

基于书稿第10章，以下概念在执行本 Skill 时需深入理解：

影子系统是真实环境验证机制：AI 产品最常见的问题是离线实验看起来成立，但进入真实环境效果波动。原因是真实用户请求、真实业务数据、真实流程边界和真实异常情况远比实验集复杂。影子系统与生产系统并行运行，接收真实请求但不直接返回结果给用户，因此能在不影响用户体验的前提下验证 AI 在真实环境中的表现。
影子系统在方法论中的位置：影子系统不是主循环中的独立阶段，而是试验展开通往系统构建/审计放行/生产运行的关键桥梁。它帮助回答两个实际问题：实验里的能力能否扛住真实流量，系统准备上线前还有哪些隐性风险。
四类价值：① 用真实数据验证 AI 能力（而非只看离线样本）；② 在系统构建阶段提前暴露稳定性、性能和边界问题；③ 在审计放行阶段持续观察幻觉、越权、错误调用和风险输出；④ 在正式上线前为生产运行建立更稳的信心和评估依据。
双轨并行结构：用户请求同时进入生产系统（返回实际响应）和影子系统（生成影子结果）。第二条链路不直接影响用户，但为团队提供能力评估、差异比较、模型优化、流程修正和风险发现的依据。
工程实现核心：常见方式是流量复制或事件镜像（API Gateway、消息队列、事件流等）。关键不在于"复制到哪里"，而在于如何记录结果差异、如何定义评估指标、如何防止影子链路反向影响生产链路。

分步执行指南

基于书稿方法论，本 Skill 的完整执行分为 6 步：

步骤 1：影子系统设计

设计三条核心原则：输出可见但不执行（AI 给建议，业务动作仍由人工执行）、完整记录（每次 AI 输出都记录输入/上下文/置信度/人工对比结果）、可开关（发现重大问题时能快速切到纯人工模式）
设计影子系统架构：真实请求 → 人工流程（正常执行）+ 影子系统（并行生成建议）→ 建议存储 → 周度人工对比 → 失败模式沉淀 → 系统优化
确保影子链路不会反向影响生产链路

步骤 2：并行运行参数设计

并行比例：从 5% 开始，逐步扩到 50%（控制初期风险）
场景筛选：先从低风险场景开始（避免高风险场景先行暴雷）
扩量节奏：采纳率连续 2 周 > 60% 再扩（确保质量稳定后再放量）
熔断机制：连续 3 次高风险误判自动暂停（防止持续出错）

步骤 3：人工对比机制建立

每周人工对比：随机抽取影子系统建议（≥ 50 条）
人工标注四类：正确 / 可接受 / 错误 / 风险误判
计算三个核心指标：采纳率、错误率、风险漏过率
对比结果与离线评估：是否出现离线未发现的新问题

步骤 4：失败模式沉淀与分析

每次对比后沉淀失败案例，按类型分类：上下文丢失、风险漏过、知识缺失、幻觉输出、权限越界等
分析每类失败的根因和占比
制定改进方向：补充记忆系统、收紧风险规则、补充知识库、增加输出过滤等
将失败模式反馈到系统优化循环

步骤 5：审计放行证据准备

整理影子验证报告：运行概况（并行时长、工单量、场景分布）、质量指标（采纳率、错误率、风险漏过率）、失败模式分析（Top 问题及根因）、与离线评估对比、放行建议
确保证据包符合审计放行输入要求
明确哪些场景可以进入灰度，哪些需要继续影子验证

步骤 6：放行决策

低风险场景：质量指标达标 → 灰度上线
高风险场景：质量指标未完全达标 → 继续影子验证
全场景：质量指标全面达标 → 进入系统构建/正式上线
输出影子验证报告和放行决策

示例一：客服 Copilot 影子验证

用户输入

"客服 Copilot 收敛决策通过，准备进入影子验证。已确定低风险场景（订单查询）和高风险场景（退款赔付）。"

Skill 执行

影子系统设计:
  架构:
    生产链路: 真实工单 → 客服正常处理 → 回复客户
    影子链路: 同一工单 → AI 生成建议 → 建议存储（不外发）
  三条原则:
    输出可见不执行: AI 建议仅在客服侧边栏显示，不自动发送
    完整记录: 每次建议记录输入上下文、AI输出、置信度、客服是否采纳
    可开关: 管理后台一键暂停影子系统
  熔断规则:
    连续 3 次赔付类误判 → 暂停该场景
    风险漏过率 > 10% → 暂停全场景，人工排查

并行运行方案:
  第 1 周:
    并行比例: 5% 工单（约 25 条/天）
    场景: 仅低风险（订单查询、物流状态）
    目标: 验证基础流程是否通畅
  第 2 周:
    并行比例: 20% 工单（约 100 条/天）
    场景: +物流解释、FAQ 回复
    扩量条件: 第 1 周采纳率 > 60%
  第 3 周:
    并行比例: 50% 工单（约 250 条/天）
    场景: 全场景（含售后政策）
    扩量条件: 第 2 周采纳率 > 60% 且风险漏过率 < 5%
  第 4 周:
    并行比例: 50%（维持）
    场景: 全场景
    目标: 稳定运行，准备放行决策

人工对比（周度执行）:
  第 1 周结果:
    样本: 60 条
    正确: 41 条（68%）
    可接受: 10 条（17%）
    错误: 7 条（12%）
    风险误判: 2 条（3%）
    采纳率: 68%
    风险漏过率: 3%

  第 2 周结果:
    样本: 120 条
    正确: 78 条（65%）
    可接受: 22 条（18%）
    错误: 14 条（12%）
    风险误判: 6 条（5%）
    采纳率: 65%
    风险漏过率: 5%

失败模式分析:
  Top 1: 多轮上下文丢失（占比 35%）
    现象: 超过 3 轮对话后 AI 忘记前文
    根因: 会话状态未保留到影子系统
    改进: 补充会话记忆模块
  Top 2: 退款承诺误判（占比 25%）
    现象: AI 建议的退款金额超出政策允许范围
    根因: 退款规则边界不清晰
    改进: 增加退款规则硬编码拦截
  Top 3: 知识库缺失（占比 20%）
    现象: 特定品类的售后政策 AI 无法回答
    根因: 该品类 FAQ 尚未入库
    改进: 补充 200 条品类 FAQ
  Top 4: 情绪误判（占比 12%）
    率象: 客户已明显不满但 AI 未标记情绪风险
    根因: 情绪检测模型未集成
    改进: 集成情绪检测作为辅助信号
  Top 5: 格式问题（占比 8%）
    现象: AI 回复格式不统一
    根因: 输出模板未强制
    改进: 增加输出格式校验

与离线评估对比:
  离线准确率: 88%
  影子准确率: 83%（下降 5%）
  新发现问题: 多轮上下文丢失（离线未测试）、情绪场景（离线样本不足）
  结论: 影子验证发现了离线评估未覆盖的问题，验证了影子机制的必要性

审计放行证据:
  运行概况:
    并行时长: 4 周
    总工单量: 约 2,800 条
    场景分布: 订单查询 40%、物流 25%、售后 20%、其他 15%
  质量指标:
    采纳率: 66%（> 60% 阈值 ✅）
    错误率: 12%（< 15% 阈值 ✅）
    风险漏过率: 4.5%（< 5% 阈值 ✅）
  放行建议:
    ✅ 低风险场景（订单查询、物流状态）: 达标，可进入灰度上线
    ⚠️ 中风险场景（售后政策）: 基本达标，建议灰度后继续观察
    ❌ 高风险场景（退款赔付）: 风险漏过仍存在，继续影子验证
  后续计划:
    灰度上线: 低风险场景先行，10% → 30% → 50% 逐步放量
    继续影子: 高风险场景（退款赔付）再验证 2 周
    系统优化: 会话记忆+退款规则拦截+品类FAQ补充（优先级从高到低）

示例二：AI 文档审核影子验证（对比案例）

用户输入

"文档审核收敛决策通过，条款提取和批量初筛两个方向进入影子验证。审核对象是合同文档。"

Skill 执行

影子系统设计:
  架构:
    生产链路: 法务上传合同 → 人工审核 → 出具审核意见
    影子链路: 同一合同 → AI 提取条款+初筛分级 → 结果存储（不外发）
  三条原则:
    输出可见不执行: AI 结果在审核面板显示，不替代人工审核
    完整记录: 每次提取记录输入文档、AI输出、置信度、法务对比结果
    可开关: 法务主管可一键暂停
  熔断规则:
    条款提取遗漏率 > 10% → 暂停该合同类型
    分级错误率 > 15% → 暂停自动分级

并行运行方案:
  第 1 周:
    并行比例: 10% 合同（约 15 份/天）
    场景: 标准采购合同（模板化程度高）
    目标: 验证条款提取准确率
  第 2 周:
    并行比例: 25% 合同
    场景: +服务合同、租赁合同
    扩量条件: 第 1 周提取准确率 > 88%
  第 3 周:
    并行比例: 50% 合同
    场景: 全类型合同
    目标: 验证批量初筛分级效果
  第 4 周:
    并行比例: 50%（维持）
    场景: 全类型
    目标: 稳定运行，准备放行决策

人工对比（周度执行）:
  第 1 周结果:
    样本: 40 份合同
    条款提取:
      正确: 36 份（90%）
      部分遗漏: 3 份（7.5%）
      严重遗漏: 1 份（2.5%）
    初筛分级:
      正确分级: 34 份（85%）
      错误分级: 6 份（15%）
    法务采纳率: 72%（用于辅助参考）

  第 2 周结果:
    样本: 80 份合同
    条款提取准确率: 87%（非标合同比标准合同低 5%）
    初筛分级准确率: 83%
    法务采纳率: 68%

失败模式分析:
  Top 1: 非标条款遗漏（占比 40%）
    现象: 非标准模板合同中的特殊条款被遗漏
    根因: 训练样本以标准合同为主，非标样本不足
    改进: 补充 100 份非标合同样本
  Top 2: 跨页条款断裂（占比 25%）
    现象: 跨页的长条款被截断，只提取了部分内容
    根因: 文档解析未处理跨页连贯性
    改进: 优化文档解析器，增加跨页合并逻辑
  Top 3: 分级标准偏差（占比 20%）
    现象: 高风险合同被分为中风险
    根因: 分级阈值需调整
    改进: 收紧高风险判定阈值
  Top 4: 格式识别错误（占比 15%）
    现象: 表格中的条款未被正确识别
    根因: 表格解析能力不足
    改进: 增强表格解析模块

审计放行证据:
  运行概况:
    并行时长: 4 周
    总合同量: 约 650 份
    合同类型: 采购 45%、服务 30%、租赁 15%、其他 10%
  质量指标:
    条款提取准确率: 88%（> 85% 阈值 ✅）
    初筛分级准确率: 84%（> 80% 阈值 ✅）
    法务采纳率: 70%（> 65% 阈值 ✅）
    条款遗漏率: 5%（< 8% 阈值 ✅）
  放行建议:
    ✅ 标准采购合同: 条款提取和初筛均达标，可进入灰度
    ⚠️ 服务合同: 基本达标，灰度后继续观察
    ⚠️ 租赁合同: 样本量偏少，继续影子验证 2 周
    ❌ 非标合同: 准确率不足，继续影子验证
  后续计划:
    灰度上线: 标准采购合同先行，逐步扩展到服务合同
    继续影子: 租赁合同+非标合同再验证
    系统优化: 非标合同样本补充+跨页合并+表格解析增强+分级阈值调整