Run any Skill in Manus
with one click

Run any Skill in Manus with one click

$pwd:

p13k-intuition-evolution

// 直觉进化——持续训练判断力、建立标准提升机制

Run Skill in Manus

$ git log --oneline --stat

stars:27

forks:0

updated:May 6, 2026 at 06:42

SKILL.md

readonly

Run any Skill with one click

name	p13k-intuition-evolution
description	直觉进化——持续训练判断力、建立标准提升机制
stage	p13
tags	["判断力","直觉进化","标准提升","持续修炼"]
source_book	判断力与直觉力
source_chapter	第12章直觉的边界与进化
version	1.0.0

直觉进化 Skill

适用场景

希望长期提升判断力
建立个人/团队的标准进化机制
防止判断力退化

输入

字段	说明
judgment_history	历史判断记录
learning_feedback	反馈与学习素材
current_standards	当前判断标准

输出

判断力训练计划
标准更新建议
长期修炼路线图

工作流程

标准识别：明确当前的判断标准与原则
挑战引入：主动引入与现有标准相悖的案例与观点
标准升级：根据新经验修正与提升判断标准
训练固化：将新标准转化为可训练的练习
持续循环：建立"实践→复盘→标准升级→再实践"的循环

注意事项

直觉进化的关键是"标准持续提升"而非"经验积累"
要主动寻找"反例"来挑战现有判断模式
判断力的终点不是"永远正确"，而是"持续接近更好"

核心概念

1. 托付不是情绪，而是一种结构

用户愿意托付通常不是因为他忽然变得胆大了，而是因为产品让他觉得：我知道它在做什么、我知道我能管住它、我知道我可以核一下、我知道出错时退得回来、我知道最后谁承担结果。这五种感觉一旦成立，托付就开始发生。少了其中一项，用户就会进入防御姿态。

2. 可托付感五问

(1) 它可理解吗——用户至少要知道系统在替他做什么、依据什么做、做到什么程度会停。(2) 它可控制吗——托付不是把控制权全部让出去，而是重新分配。用户能调、能改、能停、能拒绝、能设边界。(3) 它可校验吗——让用户能迅速判断结果靠不靠谱：来源引用、不确定项标记、关键推理依据。(4) 它可回退吗——结果可以撤回、流程可以切回人工、错误不会直接扩散。(5) 它可承担吗——责任边界清楚：哪些是建议、哪些自动做、哪些必须人工确认、哪些异常升级。

3. 真正该警惕的不是用户抱怨，而是用户默默绕过你

信任缺失在产品里经常不是以强烈投诉出现的。更常见的情况是：用户嘴上说还不错，行为上却一直绕过你。他会让 AI 先起草但不会让 AI 直接发送；会看 AI 总结但不会拿它做会议结论；会在产品里点"自动处理"却私下再留一套人工台账。这类静默绕过比抱怨更值得警惕——它说明产品表层功能可能成立了，但托付结构并没有成立。

4. 设计托付梯度而非一步到位自动化

很多团队一谈智能体就天然想做全自动闭环。但真实世界里的托付更像一段梯度：先看→先建议→帮我起草→你先做我来批→低风险你自动做→高风险你停下来等我。如果把梯度设计对了，用户会自然越交越多。如果上来就要求全量托付，用户往往用最保守的方式回应你。

5. 可托付感常常体现在"停"的地方

很多人以为强智能体的标志是尽可能少停、尽可能全做。其实不是。真正让用户放心的系统往往在该停的地方停得很对：信息不足时停、风险升高时停、责任跨边界时停、用户偏好不明确时停、低把握度但高后果的位置停。知道在哪里停，说明系统对自己的边界有判断，也说明产品对人的角色还有尊重。

深入核心概念

1. 静默绕过比抱怨更值得警惕

"用户嘴上说还不错，行为上却一直绕过他。他会让AI先起草但不会让AI直接发送；会看AI总结但不会拿它做会议结论。这类静默绕过比抱怨更值得警惕——它说明产品表层功能可能成立了，但托付结构并没有成立。" ——书稿第11章

信任缺失在产品里经常不是以强烈投诉出现的。用户不是不用，而是用了但不信任结果——搜索后手动核验、AI起草后自己重写、点了"自动处理"却私下留一套人工台账。这种行为说明：功能层面"能用"，但托付层面"没成立"。应用：设计3个可以观察的用户行为指标来检测静默绕过——搜索后手动核验率、结果直接采纳率、AI功能使用后的手动修正率。如果这些指标不健康，问题不在功能本身，而在托付结构。

2. 可托付感常常体现在"停"的地方

"真正让用户放心的系统往往在该停的地方停得很对：信息不足时停、风险升高时停、责任跨边界时停、用户偏好不明确时停、低把握度但高后果的位置停。" ——书稿第11章

很多人以为强智能体的标志是尽可能少停、尽可能全做。其实不是。知道在哪里停，说明系统对自己的边界有判断，也说明产品对人的角色还有尊重。停得太多→用户觉得"还不如自己做"；停得太少→用户觉得"我管不住它"。正确的停点是：信息不足、风险升高、责任跨边界、低把握度。应用：为每个AI功能设计智能停点——信息不足时请求补充、风险升高时等人工确认、责任跨边界时明确归属、低把握度时标注不确定。高质量的智能体不只是更会做事，更是更知道该在哪里停。

3. 失败路径没设计，信任就无从建立

"很多信任问题，并不是成功路径做差了，而是失败路径根本没设计。用户之所以绕过你，经常不是因为他已经看见错误，而是因为他提前闻到了'出事时没法收场'的味道。" ——书稿第11章

每设计一个AI功能，不仅要写成功路径（用户点击→系统生成→用户确认→完成），还必须补全失败路径：信息不完整怎么办？来源冲突怎么办？用户不同意怎么办？系统低把握怎么办？执行后后果变严重怎么办？缺少失败路径=产品在成功时很好用，出问题时用户无法收场。应用：每设计一个AI功能，强制补全6条失败路径。如果失败路径没有被设计，不要上线——因为用户之所以不托付，往往不是因为已经看见错误，而是因为提前感知到"出事时没法收场"。

分步执行

步骤 1：托付结构五问评估

对产品逐问评估：(1) 用户知不知道系统在做什么？依据是什么？(2) 用户能不能调、改、停、拒绝、设边界？(3) 用户能不能低成本验证结果？(4) 出了问题能不能撤回/切回人工？(5) 责任边界清不清楚——建议/自动/人工确认/异常升级各在哪？找到最弱的一层。

步骤 2：静默绕过行为检测

观察用户是否有静默绕过行为：嘴上说不错但私下留人工台账？让 AI 起草但自己手动发送？看了 AI 总结但自己重新整理？这些行为说明托付结构没有成立，需要进一步诊断卡在哪一层。

步骤 3：失败路径补全

每设计一个 AI 功能，强迫自己补一版失败路径。不要只写"用户点击→系统生成→用户确认→任务完成"，还要写：信息不完整怎么办？来源冲突怎么办？用户不同意怎么办？系统低把握怎么办？执行后后果变严重怎么办？很多信任问题不是成功路径做差了，而是失败路径根本没设计。

步骤 4：托付梯度设计

设计从低风险到高风险的托付梯度。每级都需要：明确的升级条件、清晰的回退机制、异常处理路径。不要一步到位推全自动化，让用户在每一步都有安全感。

步骤 5："停"点设计

在产品中设计智能"停"点：信息不足时停下来请求补充、风险升高时停下来等人工确认、责任跨边界时停下来明确归属、低把握度时停下来标注不确定。好的停点设计不是能力弱的表现，而是对用户角色的尊重。

示例 1：两个 AI 客服回复助手的对比

场景：两个 AI 客服回复助手服务同一类售后场景（物流延迟、退款、赔付、保修例外）。

产品 A（缺乏可托付感）：客户提问后 AI 直接生成完整回复，默认一键发送。不展示依据，不提示哪些来自知识库/哪些只是推断。客服想改只能整体重写。资料不全时仍给出很确定口吻，赔付/保修例外问题不主动停下来。

产品 B（设计了可托付感）：先给建议回复，附来源条目，标出高风险表述。赔付/承诺/政策例外问题自动停在"建议草稿"状态，提示人工确认。客服可局部改写、整段重生、一键切回人工。责任更重的对话直接把建议降级成参考。

五问对比：

维度	产品 A	产品 B
可理解	❌ 不展示依据	✅ 来源标注
可控制	❌ 只能整体重写	✅ 局部改写/重生/切人工
可校验	❌ 无法验证	✅ 来源对照
可回退	⚠️ 困难	✅ 一键切回人工
可承担	❌ 责任模糊	✅ 赔付/例外自动停等确认

结论：产品 A 更像在逼用户赌一次。产品 B 虽然没那么激进，却更容易进入真实工作——它把托付所需的结构条件补齐了。

示例 2：AI 智能体的"停"点设计

场景：设计一个 AI 文档审批助手的停点规则。

停点类型	触发条件	系统行为	用户操作
信息不足	关键字段缺失或矛盾	暂停执行，高亮缺失项	补充信息后继续
风险升高	涉及金额>阈值或合规敏感	降级为"建议模式"	人工审核确认
责任跨边界	涉及外部承诺或法律条款	停在草稿状态	必须人工确认
低把握度	模型置信度<阈值	标注不确定，给出多个选项	用户选择或修改
用户偏好不明	多个合理方向	列出选项和各自利弊	用户决策

设计原则：停下来不代表能力弱。知道在哪里停，说明系统对自己的边界有判断，也说明产品对人的角色还有尊重。高质量的智能体不只是更会做事，更是更知道该在哪里停。

示例 3：托付结构五问自检——以 AI 采购审批助手为例

场景：用五问框架评估一个 AI 采购审批助手的可托付感。

逐问评估：

问题	评估结果	得分	改进方向
可理解？	展示了审批依据，但不展示哪些规则触发了建议	6/10	增加规则触发链路展示
可控制？	可以修改金额，但不能修改审批规则	5/10	增加规则自定义入口
可校验？	有审批依据，但来源不可点击	4/10	来源可追溯、可对照
可回退？	审批通过后不可撤销	3/10	增加撤销窗口期
可承担？	责任边界模糊——"系统建议通过"	4/10	明确哪些是建议/哪些自动做

总分：22/50，最弱层是"可回退"和"可承担"。

改进优先级：

最优先：增加审批撤销机制（可回退从 3→7）
次优先：明确责任边界——建议/自动/人工确认各在哪（可承担从 4→7）
第三：来源可追溯（可校验从 4→7）

示例 4：静默绕过行为检测——AI 知识库助手

场景：检测一个企业 AI 知识库助手是否存在静默绕过行为。

观察数据：

行为	数据	诊断
AI 搜索使用率	60%	表面不错
搜索后直接采纳结果的比例	15%	极低——用户在大量二次核验
用户搜索后去旧知识库查证的比例	45%	静默绕过严重
会议中引用 AI 结果的比例	8%	信任度极低
向同事推荐 AI 搜索的比例	22%	推荐意愿弱

诊断结论：

产品功能层面"能用"，但托付结构层面"没成立"
用户在用 AI 搜索，但几乎不在用 AI 的结果——这是典型的静默绕过
最弱层：可校验（用户没法低成本验证结果是否可靠）
改进方向：来源标注、置信度标记、相关文档关联、一键对照原文

可托付感评估 Checklist

#	评估项	状态	当前得分	目标得分
1	用户知道系统在做什么	⬜	/10	8+
2	用户知道结果依据什么	⬜	/10	7+
3	用户能修改/重做/缩小范围	⬜	/10	7+
4	用户能暂停/停止	⬜	/10	8+
5	用户能低成本验证结果	⬜	/10	7+
6	结果可撤回/流程可回退	⬜	/10	7+
7	高风险动作有确认点	⬜	/10	8+
8	责任边界清晰	⬜	/10	8+
9	异常有升级路径	⬜	/10	7+
10	失败路径已设计	⬜	/10	7+

总分：/100，目标 70+。低于 50 说明可托付感严重不足，需要优先补齐。

失败路径补全模板

成功路径（通常已设计）

用户输入 → 系统生成 → 用户确认 → 任务完成

失败路径（必须补全）

异常场景	系统行为	用户操作	后果控制
输入信息不完整	暂停，提示缺失项	补充信息	不执行不完整任务
来源数据冲突	标注冲突，列出两边	用户判断	不硬给结论
用户不同意结果	允许修改/重新生成	用户编辑	不强制采纳
系统低把握	标注不确定，给选项	用户选择	不假装确定
执行后后果变严重	告警 + 暂停 + 回退入口	用户干预	后果不扩散
外部依赖失败	暂停，提示外部原因	用户决定	不盲目重试

使用说明：每设计一个 AI 功能，必须同时设计以上 6 条失败路径。缺少失败路径 = 产品在成功时很好用，出问题时用户无法收场。

常见托付结构缺陷

缺陷 1：只有成功路径，没有失败路径

产品文档里写满了"用户点击→系统处理→任务完成"，但没有任何关于"如果系统做错了怎么办"的设计。用户遇到问题时只能自己摸索。

缺陷 2：回退成本高于重新开始

虽然设计了"撤销"功能，但撤销后需要重新输入大量信息。用户宁可手动修正也不愿撤销重来。回退应该是低成本的——一键回到上一步，不需要重新配置。

缺陷 3：确认点位置不对

在低风险步骤设置了确认点（用户觉得烦），在高风险步骤没有确认点（用户觉得怕）。确认点应该出现在后果变重的位置，而不是每个步骤都有。

缺陷 4：停得太多或停得太少

停得太多 → 用户觉得"还不如自己做"，系统变成一个不断需要审批的助手。停得太少 → 用户觉得"我管不住它"，系统变成一个不受控的自动执行器。正确的停点是：信息不足、风险升高、责任跨边界、低把握度。

缺陷 5：把"可理解"做成了"信息过载"

为了展示透明度，把所有推理过程、数据来源、模型权重都展示出来。用户看到一堆信息反而更不知道该看什么。可理解不等于信息量大——关键是有层次地展示：先结论、再依据、再不确定项、再详情。

训练方法：可托付感设计练习

练习 1：失败路径补全

选一个你正在做的 AI 功能，写下成功路径后，补全以下 6 条失败路径：

输入信息不完整怎么办
来源冲突怎么办
用户不同意怎么办
系统低把握怎么办
执行后后果变严重怎么办
外部依赖失败怎么办

练习 2：五问打分

对同一个产品分别用五个问题打分（每问 1-10），画出雷达图。最弱的一层就是改进优先级最高的。

练习 3：静默绕过检测

设计 3 个可以观察的用户行为指标，判断用户是否在静默绕过你的 AI 功能。例如：

搜索后手动核验率
结果直接采纳率
AI 功能使用后的手动修正率

核心训练：可托付感不是用户调研问卷里的"信任度评分"，而是行为数据里的"用户是否真的在用你处理的结果"。

可托付感演进路径

从"试试看"到"放心交"

阶段 0：不了解
    → 用户不知道你的存在

阶段 1：好奇试用
    → 用户试了一下，觉得"挺厉害"

阶段 2：谨慎使用
    → 用户在低风险场景使用，每次都检查

阶段 3：习惯使用
    → 用户形成固定使用习惯，只在关键步骤检查

阶段 4：放心托付
    → 用户在大部分场景放心使用，只在高风险步骤确认

阶段 5：深度依赖
    → 用户把系统当成默认工具，拿掉会觉得明显不便

每阶段跃迁条件

跃迁	需要满足的条件	典型时间
0→1	有明确的价值主张和试用入口	1-2 周
1→2	首次体验有价值，有低风险入口	1 周
2→3	低风险段稳定可靠，有回访理由	2-4 周
3→4	可预期性建立，校验成本低	4-8 周
4→5	组织采用，工作流嵌入	8-16 周

使用说明：判断你的产品当前在哪个阶段，找到跃迁需要的条件，集中精力满足它。

可托付感设计原则

原则 1：宁可少做，不要做错

在不确定的场景，停下来等人工确认，比冒险自动执行更好。用户宁可多等一秒，也不愿事后花一小时收场。

原则 2：让用户觉得"我在用它"，而不是"它在用我"

用户应该始终保持主导感。系统是工具，不是决策者。即使系统在自动执行，用户也应该觉得自己在"使用一个工具"，而不是"被一个系统接管"。

原则 3：把不确定性变成信息

不要隐藏不确定性，而要把不确定变成用户可以判断的信息。"我不确定"比"我猜一个答案"更有价值。

原则 4：回退成本必须低于继续成本

如果用户想撤回，成本必须低于继续用下去的成本。否则用户会"将错就错"，这比不用更危险。

原则 5：信任是行为累积的结果，不是声明建立的

不要在营销材料里写"值得信赖"。信任是用户在一次次使用中逐渐建立的——每次使用结果可靠、每次出错能收场、每次不确定会标注，信任自然累积。

可托付感诊断速查表

症状	最可能缺的层	快速验证方法	改进方向
用户试了就走	可理解	用户能说出系统做了什么吗	增加动作说明和范围边界
用户反复检查	可校验	校验成本是否低于原始劳动	增加来源标注和不确定标记
用户私下留台账	可控制	用户能否随时暂停/修改	增加控制权和回退机制
用户不推荐团队	可承担	责任边界是否清晰	增加角色权限和审批链
用户只用低风险	可回退	出错后能否低成本收场	增加撤销和回退机制

使用说明：观察最突出的"症状"，找到最缺的层，集中改进。不要试图一次补齐所有层——先解决最痛的那个。