with one click
with one click
[HINT] Download the complete skill directory including SKILL.md and all related files
| name | p13i-judgment-traps |
| description | 判断陷阱与认知偏误——识别常见判断错误模式及其防范策略 |
| stage | p13 |
| tags | ["判断力","认知偏误","决策陷阱","防范策略"] |
| source_book | 判断力与直觉力 |
| source_chapter | 第10章 判断的常见陷阱与偏差 |
| version | 1.0.0 |
| 字段 | 说明 |
|---|---|
| past_mistakes | 过去的判断错误案例 |
| decision_context | 典型决策场景 |
很多 AI 产品第一次打开时确实是靠能力说服人的——"原来它已经能做到这个程度"。但产品进入第二次、第三次、第十次使用后,决定它能不能留下来的往往不是"它有多强",而是"它让我有多放心"。放心感表现为:我大致知道它什么时候稳、我不用每次都重新判断它靠不靠谱、它没有把返工和盯防劳动重新丢回给我、我把它放进工作后整体更省心了。很多产品输不是因为能力绝对值更差,而是因为用户在持续使用时总觉得自己还得额外盯着它、防着它、解释它、兜着它。
(1) 第一眼被打动的是什么——"它真厉害"说明在卖能力。(2) 持续使用靠的是什么——从"能力炫技"转成"让我更省心、更确定、更少返工"才是放心感。(3) 用户每次使用前要不要重新判断它靠不靠谱——每次都像开盲盒就很难形成稳定使用。(4) 它有没有减少决策负担而不是增加盯防劳动——"从执行者变成审查员"不是真的在帮忙。(5) 价值主张是在讲"强"还是"稳"——"更聪明/更自动"vs"少返工/少漏项/少出错/少担责"。
用户买的往往不是某个单点功能,而是一种整体感觉:我把它放进工作里之后,事情是不是更确定了。更确定意味着:我更少犹豫、更少返工、更少担心漏掉什么、更少需要反复确认、更知道什么时候该信什么时候该停。放心感不是"柔性价值",它直接影响使用频率、任务托付深度和组织扩散速度。
"我们有更强的 AI 总结能力"→"你不用再担心长会之后漏掉关键决定,结果和出处都会帮你标清楚"。"我们能自动生成客户回复"→"你不用每次都从空白开始写,也不用担心关键承诺被漏掉,风险句会先帮你标出来"。能力版卖点更容易吸引目光,放心版卖点更容易推动持续采用。如果你只能讲能力,说明你还没有真正把产品价值压到用户的现实处境里。
A 产品模型更强回答更流畅,B 产品没那么会"说"但每次标出来源、区分确定和不确定、允许一键回到原文。比第一印象 A 更先进,但进入真实工作后很多团队更愿意留 B。因为真实工作里用户不只是想被一次性打动——他还要拿结果去和别人对齐、承担后果、推进下一步。这时候放心感会压过纯能力感。A 给的是"这次答得真厉害",B 给的是"我知道什么时候能用它,出了问题也知道怎么核回来"。
定义:第一眼打动用户的是能力——"它真厉害"。让用户长期留下来的是放心感——"它让我更省心、更确定、更少返工"。能力感产品靠新鲜感驱动,放心感产品靠确定感驱动。很多 AI 产品输,不是因为能力差,而是用户在持续使用时总觉得自己还得额外盯着它、防着它、解释它。
书稿引用:「放心感听起来很软,实际上非常硬。它通常表现为:我大致知道它什么时候稳、我不用每次都重新判断它靠不靠谱、它没有把返工和盯防劳动重新丢回给我、我把它放进工作后整体更省心了。」(第9章)书中进一步指出:「用户买的往往不是某个单点功能,而是一种整体感觉:我把它放进工作里之后,事情是不是更确定了。」
应用:用"五问诊断"评估你的产品——第一眼被打动的是什么?持续使用靠的是什么?每次使用前要不要重新判断靠不靠谱?有没有减少决策负担?价值主张在讲"强"还是"稳"?如果答案偏向"在卖能力",需要系统性补充放心感设计。
定义:很多 AI 产品表面上省了"做"的步骤,实际上把用户从"做的人"变成了"审的人"。如果审查成本 > 原始劳动成本,产品价值为负。盯防劳动审计是检查 AI 产品到底是在减少总劳动,还是在把执行劳动变成审查劳动。
书稿引用:「用户在系统外多做的一步,往往不是'顺手',而是补偿劳动。它是在替产品和流程兜底。比如再发一条确认消息、再去原文里核一次出处、再开一个表格手动整理、再找同事口头解释一次。这些动作看起来小,却常常最接近工作流里的真实代价。」(第5章)
应用:列出用户使用 AI 产品前后的完整操作流程,标注每步的劳动类型(执行/审查/确认/补救),计算总劳动时间对比。如果审查+补救劳动占比超过总劳动的 40%,产品需要重新设计——减少审查面(只标关键项)、降低审查难度(来源对照)、提供修改快捷方式。
定义:用户说"挺好的"可能是社交礼貌,用了但每次手动检查说明校验成本高,只用低风险场景说明信任有边界,私下留人工台账说明托付结构没成立,不推荐给同事说明对组织扩散没信心。不要只听用户说什么,要看用户做什么。
书稿引用:「信任缺失在产品里,经常不是以强烈投诉出现的。更常见的情况是:用户嘴上说还不错,行为上却一直绕过你。这类静默绕过,比抱怨更值得警惕。因为它说明产品表层功能可能成立了,但托付结构并没有成立。」(第11章)
应用:建立"行为信号清单"——列出 8-10 个关键用户行为信号,每个信号对应一个深层诊断。定期对照清单扫描用户行为,发现"静默绕过"信号时立即深入调查。核心原则:沉默不是信任的信号,持续使用才是。
判断产品第一印象主要来自什么。如果完全来自"它真厉害",它在卖能力。能力是必要的进入切口,但要继续看:用户第一次被打动的点是不是也刚好是他之后愿意持续使用的点?很多时候不是。
分析用户持续使用的真实动力。问:新鲜感过去后,用户留下来的理由是什么?如果已经从"能力炫技"转成"让我更省心/更确定/更少返工",产品正在建立放心感。如果还在靠新鲜感维持,要警惕。
检查用户是否形成了可预期感:他大致知道哪类结果比较稳?哪类任务更适合先用它?哪种情况下自己应该保守一点?如果每次都像开盲盒,哪怕偶尔特别惊艳也很难形成稳定使用。
审计产品是否在增加盯防劳动而非减少决策负担。检查:用户是否还是得反复确认?是否还得自己补最后判断?是否还得替它承担返工成本?是否只是从执行者变成了审查员?如果答案是肯定的,产品没有建立真正的放心感。
把当前的价值主张从"能力版"改写成"放心版"。能力版讲"更强/更快/更自动",放心版讲"少返工/少漏项/少出错/少担责/少做一次重复确认"。两版对照后,你会立刻看见自己一直在卖"强"还是在卖"更确定"。
场景:市场有两款 AI 知识助手。A 产品模型更强,回答更流畅更像真人。B 产品没那么会"说",但每次标出来源、区分确定和不确定、允许一键回到原文、资料冲突时不硬给答案。
对比分析:
| 维度 | A 产品(能力型) | B 产品(放心型) |
|---|---|---|
| 第一印象 | "它答得真厉害" | "标得挺清楚" |
| 可预期性 | 每次像开盲盒 | 知道什么时候能用 |
| 校验成本 | 很难验证对错 | 一键回到原文 |
| 持续使用动力 | 新鲜感 | 省心感 |
| 组织扩散 | 个人尝鲜 | 团队采用 |
| 长期结果 | 试用多采用少 | 稳定使用 |
结论:真实工作里用户不只是想被一次性打动,还要拿结果去对齐、承担后果、推进下一步。放心感会压过纯能力感。
场景:为三个 AI 产品功能做价值主张改写练习。
| 功能 | 能力版卖点 | 放心版卖点 |
|---|---|---|
| AI 总结 | 我们有更强的总结能力 | 你不用再担心长会之后漏掉关键决定,结果和出处都会帮你标清楚 |
| AI 客服回复 | 我们能自动生成客户回复 | 你不用每次都从空白开始写,也不用担心关键承诺被漏掉,风险句会先帮你标出来 |
| AI 数据分析 | 我们能自动分析数据趋势 | 你不用再怕看漏异常信号,系统会帮你把不确定的部分标出来,来源随时可查 |
改写规则:能力版讲"我们更强在哪里",放心版讲"用户因此更确定什么"。如果你只能讲能力,说明你还没有真正把产品价值压到用户的现实处境里。
场景:用五问框架诊断一个 AI 数据分析产品。
五问诊断:
| 问题 | 回答 | 判断 |
|---|---|---|
| 第一眼被打动的是什么 | "它能自动生成数据趋势报告" | 在卖能力 |
| 持续使用靠的是什么 | "……用户还是觉得要自己再看一遍" | 放心感不足 |
| 每次使用前要不要重新判断靠不靠谱 | "要看是什么数据,有些准有些不准" | 可预期性弱 |
| 有没有减少决策负担 | "生成了报告但我还得自己挑重点" | 盯防劳动增加 |
| 价值主张在讲"强"还是"稳" | "AI 驱动的智能分析" | 在讲强 |
诊断结论:产品能力不差,但放心感严重不足。用户第一次觉得"真厉害",第二次开始觉得"还得自己再看一遍"。产品需要把能力版价值主张改写成放心版,同时补充来源标注、不确定项标记、关键假设说明。
场景:审计一个 AI 自动生成周报产品,检查它是在减少劳动还是在增加盯防。
审计发现:
| 审计项 | 发现 | 诊断 |
|---|---|---|
| 用户是否需要反复确认 | 是,每次都要逐句检查 | 盯防劳动高 |
| 用户是否需要自己补判断 | 是,重点和结论需要自己提炼 | 决策负担未减少 |
| 用户是否需要替它承担返工 | 是,格式错误需要手动修正 | 返工成本存在 |
| 用户是否从执行者变成审查员 | 是,原来写30分钟,现在审40分钟 | 劳动反而增加 |
结论:产品表面上省了"写"的步骤,实际上把用户从"写的人"变成了"审的人"。如果审查成本 > 写作成本,产品价值为负。需要重新设计:减少审查面(只标关键项)、降低审查难度(来源对照)、提供修改快捷方式(局部改写而非整体重写)。
| 维度 | 能力感产品 | 放心感产品 |
|---|---|---|
| 第一印象 | "它真厉害" | "它挺清楚" |
| 使用前心态 | "试试看这次怎么样" | "大概知道它能做什么" |
| 结果校验 | 从头检查到尾 | 只检查标注项 |
| 出错后 | "果然不靠谱" + 放弃 | "这次出了问题,我知道怎么处理" |
| 组织扩散 | 个人尝鲜传播 | 团队流程采用 |
| 付费意愿 | "免费试试就好" | "愿意为确定性付费" |
| 竞争壁垒 | 模型更强就能替代 | 信任积累难以替代 |
使用说明:把当前产品放在左右两列对照,判断它更像哪一列。如果更像左边,需要系统性地补充放心感设计。
| # | 设计项 | 状态 | 说明 |
|---|---|---|---|
| 1 | 结果附带来源/依据 | ⬜ | 用户能验证结论 |
| 2 | 不确定项有标记 | ⬜ | 用户知道哪里需要自己判断 |
| 3 | 可预期性已建立 | ⬜ | 用户知道哪类任务稳、哪类不稳 |
| 4 | 盼防劳动已审计 | ⬜ | 审查成本 < 原始劳动成本 |
| 5 | 出错后有低成本收场方式 | ⬜ | 可撤销/可回退/可切人工 |
| 6 | 价值主张已改写为放心版 | ⬜ | 讲"确定"而非讲"强" |
| 7 | 用户可预期使用结果 | ⬜ | 不像开盲盒 |
| 8 | 高风险任务有确认点 | ⬜ | 不会无感执行 |
模型在测试集上准确率 95%,团队觉得足够好了。但用户关心的不是平均准确率,而是"我拿到这个结果后需不需要再查一遍"。95% 准确率意味着每 20 次有 1 次错——如果那 1 次的后果很重,用户就永远不敢放心用。
团队追求更高的自动化率,认为"用户少做一步就多一分价值"。但用户感受到的可能是"我越来越管不住它了"。自动化程度和放心感之间不是线性关系——过了某个点,更自动 = 更不安。
精心准备的 demo 场景总是效果很好,因为数据是干净的、场景是典型的、用户注意力是集中的。但日常使用中数据有噪声、场景是边缘的、用户注意力是分散的。用 demo 效果推断日常体验,会严重高估放心感。
产品设计了自动执行,但用户在"最后一次确认"时的心理负担非常重——因为他知道点下去就没有退路了。这个确认点的设计质量直接影响放心感:如果确认时看不到关键信息、无法快速判断、不知道后果范围,用户宁可自己做。
用户不投诉、不反馈,不代表他放心。更常见的情况是:他已经绕过你了,只是没告诉你。沉默不是信任的信号,持续使用才是。
练习规则:
练习示例:
| 功能 | 能力版 | 放心版 |
|---|---|---|
| AI 代码审查 | 自动发现代码缺陷 | 不用担心线上 bug 被漏掉,关键风险会标红并给出修复建议 |
| AI 合同审查 | 智能识别合同风险 | 不用担心错过关键条款,异常条款会高亮并附法律依据 |
| AI 日程安排 | 自动优化日程冲突 | 不用担心会议撞车,冲突和优先级会提前标出 |
核心训练:只要第二句写不出来或只会重复第一句,说明你对用户的现实处境理解还不够深。
| 层次 | 用户知道什么 | 设计方式 | 效果 |
|---|---|---|---|
| 结果可预期 | "这类任务通常结果怎么样" | 历史表现统计、置信度标签 | 减少开盲盒感 |
| 边界可预期 | "什么情况下我该自己来" | 能力边界说明、适用场景标注 | 减少错误使用 |
| 行为可预期 | "它下一步会做什么" | 执行预告、进度展示 | 减少失控感 |
| # | 设计项 | 状态 | 说明 |
|---|---|---|---|
| 1 | 历史准确率/成功率可查 | ⬜ | 按任务类型展示 |
| 2 | 适用场景已明确标注 | ⬜ | 什么情况用、什么情况不用 |
| 3 | 执行前有预告 | ⬜ | 用户知道接下来会发生什么 |
| 4 | 执行中有进度 | ⬜ | 用户知道进行到哪 |
| 5 | 执行后有总结 | ⬜ | 用户知道做了什么、结果如何 |
| 6 | 异常情况有提示 | ⬜ | 不确定/低把握/高风险会标注 |
第一阶段:能力切入(让人"哇"一下)
第二阶段:信任建立(让人"放心用")
第三阶段:习惯形成(让人"离不开")
第四阶段:组织扩散(让团队"都在用")
| 阶段 | 关键动作 | 常见错误 |
|---|---|---|
| 能力切入 | 展示一次强效果 | 把第一次效果当成产品成立 |
| 信任建立 | 补齐来源/回退/确认机制 | 继续只优化能力不补放心感 |
| 习惯形成 | 嵌入工作流、积累数据 | 没有找到回访理由 |
| 组织扩散 | 解决团队层面的信任问题 | 只有个人版没有团队版 |
使用说明:大部分 AI 产品卡在第一阶段到第二阶段的跨越——有能力但缺放心感。如果你的产品"试用不错但采用弱",大概率是在这个卡点。
| 操作步骤 | 无 AI 时长 | 有 AI 时长 | 劳动类型 | 节省/增加 |
|---|---|---|---|---|
| 收集信息 | 30 分钟 | 5 分钟 | 执行 | -25 分钟 |
| 整理信息 | 20 分钟 | 3 分钟 | 执行 | -17 分钟 |
| 审查结果 | 0 | 15 分钟 | 审查 | +15 分钟 |
| 手动修正 | 0 | 10 分钟 | 补救 | +10 分钟 |
| 合计 | 50 分钟 | 33 分钟 | -17 分钟 |
诊断:虽然总时间减少了 17 分钟,但审查+补救劳动占了 25 分钟。如果审查成本继续上升,可能接近临界点。
| 用户行为 | 表面解读 | 深层诊断 |
|---|---|---|
| 试用后说"挺好的" | 满意 | 可能是社交礼貌,看行为 |
| 用了但每次手动检查 | 在用 | 校验成本高,信任不足 |
| 只用低风险场景 | 有信任 | 信任有边界,高风险段不敢 |
| 私下留人工台账 | 在用 | 托付结构没成立 |
| 不推荐给同事 | 个人觉得还行 | 对组织扩散没信心 |
| 用了但不愿付费 | 有价值 | 价值没到"不可或缺" |
| 频率逐渐下降 | 自然流失 | 回访理由在减弱 |
| 用了很久但从不提需求 | 稳定 | 可能已经绕过你了 |
使用说明:不要只听用户说什么,要看用户做什么。行为信号比语言信号更接近真实。
| 要素 | 个人层面 | 团队层面 |
|---|---|---|
| 可预期 | 我知道它能做什么 | 团队都知道它能做什么 |
| 可校验 | 我能验证结果 | 结果可以被团队审查 |
| 可回退 | 我能撤回我的操作 | 团队能撤回影响他人的操作 |
| 可承担 | 我知道责任在哪 | 团队知道谁负责什么 |
| 可审计 | — | 管理者能看到操作日志 |
| # | 设计项 | 状态 | 说明 |
|---|---|---|---|
| 1 | 权限分级已设计 | ⬜ | 不同角色不同权限 |
| 2 | 操作日志已开启 | ⬜ | 谁做了什么可追溯 |
| 3 | 审批流程已设计 | ⬜ | 关键动作需要审批 |
| 4 | 责任边界已明确 | ⬜ | AI 做的/人做的/需要确认的 |
| 5 | 异常升级机制已设计 | ⬜ | 出问题时谁来处理 |