name	p0h-triple-balance-assessor
description	AI 产品三重平衡表。当团队讨论 AI 产品方向时，最容易只看增长和效率。这个 Skill 帮团队同时看商业、人性、文化三层。基于《AI

AI 产品三重平衡表

一句话定位

不要只看商业指标，用三层判断确保 AI 产品赢得长期信任。

何时触发

大方向评审会
评估新功能/新产品方向
觉得团队只在追求增长和效率
需要平衡短期收益与长期价值

输入

一个 AI 产品方向或功能描述。

示例输入：

方向: "做一个默认全自动帮用户安排日程、催办任务、对外发确认消息的 AI 助手"

输出

三层评估 + 综合判断 + 调整建议。

三层判断

层 1: 商业层（Business）

核心问题：这个能力能不能赚钱？能不能持续？

三个检查点：

这个能力的长期成本是什么？
- Token/算力成本
- 运维成本
- 错误兌底成本
- 人工复核成本
它带来的价值能不能覆盖持续消耗？
- 单位用户价值
- 增值服务收费潜力
- 用户留存提升
它是不是靠高成本堆出"看起来很聪明"？
- 是否需要持续高成本维护才能保持体验？
- 如果成本下降 50%，体验会不会大打折扣？
- 是否是"资金密集型"而非"结构优势型"？

输出格式：

商业层评估:
  long_term_cost: "长期成本估算"
  value_coverage: "价值是否覆盖成本"
  smart_illusion: "是否靠高成本堆出"
  viability: "viable/marginal/not_viable"

层 2: 人性层（Humanity）

核心问题：这个能力是不是真正帮助了人？

三个检查点：

它是否真的减轻了用户的长期负担？
- 减轻的是执行负担还是决策负担？
- 是否把负担从用户转移到了其他地方？
- 用户是否感觉更轻松了？
它是否保留了人的主体性和判断感？
- 用户是否还能做出自己的选择？
- 系统是在"帮助判断"还是"替代判断"？
- 用户是否还能感觉到"这是我的决定"？
它是在帮助人生活，还是让人更依赖系统？
- 用户是否变得更独立了，还是更依赖了？
- 如果系统没了，用户是更强了还是更弱了？
- 这个依赖是健康的还是不健康的？

输出格式：

人性层评估:
  burden_reduction: "是否减轻长期负担"
  agency_preservation: "是否保留主体性"
  dependency_type: "healthy/unhealthy/neutral"
  human_flourishing: "是否促进人的成长"

层 3: 文化层（Culture）

核心问题：这个产品在训练什么？扩散什么？

三个检查点：

它在训练用户怎么理解效率、关系和责任？
- 效率是否变成了唯一标准？
- 关系是否被简化成了交易？
- 责任是否被外包了？
它是在扩大人的现实感，还是在鼓励更浅的自动化依赖？
- 用户是否更关注现实世界了？
- 还是更沉迷于系统优化的虚拟体验？
- 产品是否在"放大"还是"缩小"人的能力？
这种产品逻辑是否值得被扩散？
- 如果所有产品都这么做，世界会变得更好吗？
- 这种逻辑能否被复制到其他领域？
- 如果被复制，结果是什么？

输出格式：

文化层评估:
  value_training: "训练了什么价值观"
  reality_expansion: "扩大还是缩小现实感"
  worth_spreading: "是否值得扩散"
  cultural_impact: "positive/neutral/negative"

综合输出格式

triple_balance_assessment:
  input:
    direction: "产品方向描述"
    context: "业务背景"
  
  business_layer:
    long_term_cost: "长期成本"
    value_coverage: "价值覆盖"
    smart_illusion: "是否高成本堆出"
    viability: "viable/marginal/not_viable"
    score: "1-10"
  
  humanity_layer:
    burden_reduction: "减轻负担"
    agency_preservation: "保留主体性"
    dependency_type: "healthy/unhealthy/neutral"
    flourishing: "促进成长"
    score: "1-10"
  
  culture_layer:
    value_training: "训练价值观"
    reality_expansion: "扩大/缩小现实感"
    worth_spreading: "值得扩散"
    impact: "positive/neutral/negative"
    score: "1-10"
  
  balance_analysis:
    strongest_layer: "最强的一层"
    weakest_layer: "最弱的一层"
    imbalance_risk: "失衡风险"
    
  verdict:
    overall_score: "1-10"
    recommendation: "proceed_with_caution/adjust/stop"
    key_adjustments: ["关键调整建议"]
    
  next_steps:
    if_proceed: "如果继续，需要补强的方面"
    if_adjust: "具体调整方案"
    if_stop: "如果停止，替代方向"

快速使用法

填写产品方向
逐层过三个层次，每层回答三个问题
如果只有商业层有答案，先不要轻易下结论
看哪一层最弱，调整方案补强这一层

示例：完整走一遍

方向：

"做一个默认全自动帮用户安排日程、催办任务、对外发确认消息的 AI 助手"

三层评估：

层次	评估	分数
商业层	容易讲增长故事，能提高效率感和付费想象。但长期运行成本、错误兌底成本、对外沟通失误成本会一起上升。	6/10
人性层	可能减轻执行负担，但会吞掉很多本该由用户自己保留的判断。系统在"替代判断"而不是"帮助判断"。	4/10
文化层	如果系统越来越默认替人表达、替人确认、替人推进，最后训练出来的不是更成熟的协作，而是更舒服的判断外包。	3/10

综合判断：

总分：13/30 —— 不建议原样实施
关键调整：
1. 保留一部分自动化
2. 高风险动作改为待确认
3. 把"替用户落锤"改成"替用户暴露风险和整理上下文"
4. 让产品从"更强"变成"更可信"

常见误判

商业层一票否决：只看能不能赚钱，忽视长期信任
人性层变成道德说教：不是不做，而是找到平衡点
文化层太抽象：要具体到"如果所有产品都这么做会怎样"

一句判断

下一代 AI 产品，不该只赢得指标，还要赢得长期信任。

核心概念

概念一：为什么需要三重平衡而不只是商业评估

大多数产品讨论最终回到商业。这不庸俗，是现实——团队要生存，产品需要收入。但在 AI 时代，模型调用、上下文长度、工具编排、重试和系统防护都在持续消耗成本，商业问题比以前更早进入产品设计。

但正因为如此，AI 产品需要比"商业优先"更完整的平衡框架。

如果只看商业，团队会滑向最容易增长、转化和衡量的方向，也会推动系统走向短期刺激、过度自动化和用户依赖。产品可能盈利，但未必减轻了谁的负担，也未必塑造了值得被重复的生活方式。

只有商业层有答案时，先不要轻易下结论。

概念二：商业层——不是"能不能赚钱"，而是"能不能持续创造价值"

AI 产品的商业难点不同于传统软件。过去团队大多对标人力成本，今天越来越多面对持续运营成本：token 消耗、推理深度、链路编排、稳定性和防护成本都在重新定义毛利结构。

商业层核心问题：

这个能力的长期运营成本是什么？
它带来的价值能否覆盖持续消耗？
这个体验是不是靠高成本堆出"看起来很聪明"？
有没有更克制的设计、更好的毛利结构？

没有可持续价值交换，再漂亮的产品理想也很难长期存活。

概念三：人性层——不是"用户喜不喜欢"，而是"是否真的减轻了长期负担"

人性层的"好"不是抽象善意，而是非常具体的判断：

是否真的减轻了用户的长期负担？
是否保留了人的主体性和判断感？
是在帮助人生活，还是在让人慢慢失去对判断、关系和节奏的掌控？

关键判断线：这个产品是在帮助用户重获判断力和现实感，还是在帮他们以更舒服的方式交出越来越多的判断？

短期上瘾、高粘性、高转化的产品，不自动等于人性层做得好。

概念四：文化层——产品不只是工具，还在训练用户的世界观

文化层讨论最少，但可能最重要。因为产品从来不只是工具，还在持续训练用户如何理解效率、关系、责任、注意力，以及如何与系统共处。

文化层核心问题：

这个产品在训练用户怎样理解效率、关系和责任？
它是在扩大人的现实感，还是在鼓励更浅的自动化依赖？
这种产品逻辑是否值得被扩散？

文化层的后果不会立刻出现在报表里，但最终决定产品是只赢一时，还是能被长期信任。

概念五：三层冲突时的优先级判断

三层不可能永远和谐。真正的难点不是机械地说"三层都重要"，而是团队必须能判断：

什么时候必须商业优先，否则产品无法生存
什么时候必须为人性层拒绝短期有利的设计
什么时候文化层的长期代价大到不能再忽视

决策框架：

冲突	判断原则
商业 vs 人性	如果人性风险不可逆（生命安全、歧视），人性优先；如果可控，商业优先但必须有保护机制
商业 vs 技术	技术不成熟但商业机会重大，先做 MVP；技术成本过高商业模式不成立，等待技术成熟
人性 vs 技术	技术能力不应决定人性边界，而是人性边界决定技术能用多少

成熟的平衡不是每层都满分，而是团队至少知道自己在牺牲什么、为什么牺牲、这个牺牲值不值得。

分步执行

Step 1：方案描述——明确产品方案和已知约束

输入：产品方案描述 + 已知约束条件

处理：

用一句话描述产品方案的核心功能
列出已知约束（技术限制、合规要求、预算限制）
标记团队内部的主要分歧点

输出：产品方案简述（附约束和分歧标记）

Step 2：商业层评估——逐项打分

输入：Step 1 产出的方案简述

处理：

评估长期运营成本（token/算力、运维、错误兜底、人工复核）
评估价值是否覆盖持续消耗
评估是否靠高成本堆出"看起来很聪明"
打分（1-10），列出优势和劣势

输出：商业层评估报告（附分数和关键问题）

Step 3：人性层评估——逐项打分

输入：Step 1 产出的方案简述

处理：

评估是否减轻了用户的长期负担（执行负担 vs 决策负担）
评估是否保留了人的主体性和判断感
评估是在帮助人生活还是让人更依赖系统
打分（1-10），列出优势和劣势

输出：人性层评估报告（附分数和关键问题）

Step 4：文化层评估——逐项打分

输入：Step 1 产出的方案简述

处理：

评估产品在训练用户怎样理解效率、关系和责任
评估是在扩大现实感还是鼓励更浅的自动化依赖
评估这种产品逻辑是否值得被扩散
打分（1-10），列出优势和劣势

输出：文化层评估报告（附分数和关键问题）

Step 5：三角形分析——判断平衡类型和最大矛盾

输入：Step 2-4 的三层评估报告

处理：

将三个分数绘制到三角形中
判断平衡类型：理想型 / 商业-人性型 / 商业-技术型 / 人性-技术型 / 偏斜型
识别最大矛盾点
计算健康度分数（1-10）

输出：三角形分析图 + 平衡类型判断 + 健康度分数

Step 6：改进计划——制定分阶段行动

输入：Step 5 的三角形分析

处理：

制定立即要做的（保护机制、风险缓解）
制定短期要做的（产品调整、指标升级）
制定长期要做的（方向校准、文化层建设）
明确"如果必须做权衡，建议优先级"

输出：分阶段改进计划 + 红线清单

示例 1：AI 面试辅助工具的三重平衡

场景描述：一家 HR 科技公司做 AI 面试辅助工具，功能是自动生成面试评估报告。

Step 1 方案描述：

核心功能：AI 在面试过程中自动记录、分析候选人回答、生成评估报告
约束：面试官担心 AI 替代人的判断
分歧：产品团队想让 AI 直接出"通过/不通过"建议，HR 总监认为应该只做辅助

Step 2 商业层评估：

收入模型：SaaS 订阅，按面试次数计费
支付意愿：企业 HR 部门愿意为节省时间付费
成本结构：模型调用成本可控
竞争壁垒：面试数据积累形成壁垒
分数：7/10

Step 3 人性层评估：

自主性：如果 AI 直接出"通过/不通过"，面试官可能过度依赖
偏见风险：AI 可能放大历史面试数据中的偏见
透明度：候选人不知道 AI 在评估自己
退出机制：面试官可以不参考 AI 建议
分数：4/10（偏见风险和自主性是主要扣分项）

Step 4 文化层评估：

效率观：在训练用户"面试可以被 AI 加速"
关系观：可能弱化面试中"人对人的判断"
责任观：如果出错，责任归属不清晰
分数：5/10

Step 5 三角形分析：

平衡类型：商业-技术型，人性有风险
最大矛盾点：AI 直接出"通过/不通过"会提升效率但损害人性层
健康度：5/10

Step 6 改进计划：

立即：AI 只提供"评估参考"，不提供"通过/不通过"建议
短期：设计"人工复核"强制流程，添加偏见检测机制
长期：收集数据证明 AI 辅助能提升招聘质量（而非替代判断）

结论：AI 面试工具可以做，但必须保护面试官的最终判断权。系统应该"辅助判断"而非"替代判断"。

示例 2：AI 学习监督产品的三重平衡

场景描述：一家教育科技公司想做 AI 学习监督系统，自动打卡提醒、学习进度跟踪、惩罚机制、排行榜。

Step 1 方案描述：

核心功能：AI 自动监督学习——打卡提醒、进度跟踪、未完成惩罚、排行榜
约束：用户可能觉得被"监控"
分歧：增长团队认为惩罚机制能提升留存，教育专家认为会损害学习动机

Step 2 商业层评估：

收入模型：订阅制 + 增值服务
支付意愿：家长愿意为孩子的学习监督付费
留存预期：惩罚机制和排行榜短期能显著提升留存
分数：8/10

Step 3 人性层评估：

自主性：惩罚机制可能让学习变成"被追着跑"，而非主动选择
依赖性：一旦产品关闭，用户可能立即回到旧习惯
长期负担：是在帮助建立能力，还是在制造依赖？
分数：3/10（核心问题是制造依赖而非培养能力）

Step 4 文化层评估：

学习观：在训练用户"学习必须被监督、被追、被奖励"
责任观：在鼓励"把学习责任外包给系统"
这种逻辑值得被扩散吗？→ 不值得
分数：3/10

Step 5 三角形分析：

平衡类型：偏斜型（商业高，人性和文化低）
最大矛盾点：短期留存提升 vs 长期用户能力退化
健康度：4/10

Step 6 改进计划：

立即：去掉羞辱性惩罚（如"你已经落后 XX 天"）
短期：保留提醒和节奏支持，但减少依赖循环；把"被监督"变成"自我节奏管理"
长期：增加"能力成长"指标，让用户在产品关闭后仍能自主学习
文化层校准：产品应该帮助用户建立自己的学习节奏，而非永远从外部推动

结论：学习监督可以做，但必须从"外部驱动"转向"内在能力培养"。去掉惩罚，保留节奏支持，让产品帮用户成为更能自主学习的人。

name	p0h-triple-balance-assessor
description	AI 产品三重平衡表。当团队讨论 AI 产品方向时，最容易只看增长和效率。这个 Skill 帮团队同时看商业、人性、文化三层。基于《AI

AI 产品三重平衡表

一句话定位

不要只看商业指标，用三层判断确保 AI 产品赢得长期信任。

何时触发

大方向评审会
评估新功能/新产品方向
觉得团队只在追求增长和效率
需要平衡短期收益与长期价值

输入

一个 AI 产品方向或功能描述。

示例输入：

方向: "做一个默认全自动帮用户安排日程、催办任务、对外发确认消息的 AI 助手"

输出

三层评估 + 综合判断 + 调整建议。

三层判断

层 1: 商业层（Business）

核心问题：这个能力能不能赚钱？能不能持续？

三个检查点：

这个能力的长期成本是什么？
- Token/算力成本
- 运维成本
- 错误兌底成本
- 人工复核成本
它带来的价值能不能覆盖持续消耗？
- 单位用户价值
- 增值服务收费潜力
- 用户留存提升
它是不是靠高成本堆出"看起来很聪明"？
- 是否需要持续高成本维护才能保持体验？
- 如果成本下降 50%，体验会不会大打折扣？
- 是否是"资金密集型"而非"结构优势型"？

输出格式：

商业层评估:
  long_term_cost: "长期成本估算"
  value_coverage: "价值是否覆盖成本"
  smart_illusion: "是否靠高成本堆出"
  viability: "viable/marginal/not_viable"

层 2: 人性层（Humanity）

核心问题：这个能力是不是真正帮助了人？

三个检查点：

它是否真的减轻了用户的长期负担？
- 减轻的是执行负担还是决策负担？
- 是否把负担从用户转移到了其他地方？
- 用户是否感觉更轻松了？
它是否保留了人的主体性和判断感？
- 用户是否还能做出自己的选择？
- 系统是在"帮助判断"还是"替代判断"？
- 用户是否还能感觉到"这是我的决定"？
它是在帮助人生活，还是让人更依赖系统？
- 用户是否变得更独立了，还是更依赖了？
- 如果系统没了，用户是更强了还是更弱了？
- 这个依赖是健康的还是不健康的？

输出格式：

人性层评估:
  burden_reduction: "是否减轻长期负担"
  agency_preservation: "是否保留主体性"
  dependency_type: "healthy/unhealthy/neutral"
  human_flourishing: "是否促进人的成长"

层 3: 文化层（Culture）

核心问题：这个产品在训练什么？扩散什么？

三个检查点：

它在训练用户怎么理解效率、关系和责任？
- 效率是否变成了唯一标准？
- 关系是否被简化成了交易？
- 责任是否被外包了？
它是在扩大人的现实感，还是在鼓励更浅的自动化依赖？
- 用户是否更关注现实世界了？
- 还是更沉迷于系统优化的虚拟体验？
- 产品是否在"放大"还是"缩小"人的能力？
这种产品逻辑是否值得被扩散？
- 如果所有产品都这么做，世界会变得更好吗？
- 这种逻辑能否被复制到其他领域？
- 如果被复制，结果是什么？

输出格式：

文化层评估:
  value_training: "训练了什么价值观"
  reality_expansion: "扩大还是缩小现实感"
  worth_spreading: "是否值得扩散"
  cultural_impact: "positive/neutral/negative"

综合输出格式

triple_balance_assessment:
  input:
    direction: "产品方向描述"
    context: "业务背景"
  
  business_layer:
    long_term_cost: "长期成本"
    value_coverage: "价值覆盖"
    smart_illusion: "是否高成本堆出"
    viability: "viable/marginal/not_viable"
    score: "1-10"
  
  humanity_layer:
    burden_reduction: "减轻负担"
    agency_preservation: "保留主体性"
    dependency_type: "healthy/unhealthy/neutral"
    flourishing: "促进成长"
    score: "1-10"
  
  culture_layer:
    value_training: "训练价值观"
    reality_expansion: "扩大/缩小现实感"
    worth_spreading: "值得扩散"
    impact: "positive/neutral/negative"
    score: "1-10"
  
  balance_analysis:
    strongest_layer: "最强的一层"
    weakest_layer: "最弱的一层"
    imbalance_risk: "失衡风险"
    
  verdict:
    overall_score: "1-10"
    recommendation: "proceed_with_caution/adjust/stop"
    key_adjustments: ["关键调整建议"]
    
  next_steps:
    if_proceed: "如果继续，需要补强的方面"
    if_adjust: "具体调整方案"
    if_stop: "如果停止，替代方向"

快速使用法

填写产品方向
逐层过三个层次，每层回答三个问题
如果只有商业层有答案，先不要轻易下结论
看哪一层最弱，调整方案补强这一层

示例：完整走一遍

方向：

"做一个默认全自动帮用户安排日程、催办任务、对外发确认消息的 AI 助手"

三层评估：

层次	评估	分数
商业层	容易讲增长故事，能提高效率感和付费想象。但长期运行成本、错误兌底成本、对外沟通失误成本会一起上升。	6/10
人性层	可能减轻执行负担，但会吞掉很多本该由用户自己保留的判断。系统在"替代判断"而不是"帮助判断"。	4/10
文化层	如果系统越来越默认替人表达、替人确认、替人推进，最后训练出来的不是更成熟的协作，而是更舒服的判断外包。	3/10

综合判断：

总分：13/30 —— 不建议原样实施
关键调整：
1. 保留一部分自动化
2. 高风险动作改为待确认
3. 把"替用户落锤"改成"替用户暴露风险和整理上下文"
4. 让产品从"更强"变成"更可信"

常见误判

商业层一票否决：只看能不能赚钱，忽视长期信任
人性层变成道德说教：不是不做，而是找到平衡点
文化层太抽象：要具体到"如果所有产品都这么做会怎样"

一句判断

下一代 AI 产品，不该只赢得指标，还要赢得长期信任。

核心概念

概念一：为什么需要三重平衡而不只是商业评估

但正因为如此，AI 产品需要比"商业优先"更完整的平衡框架。

只有商业层有答案时，先不要轻易下结论。

概念二：商业层——不是"能不能赚钱"，而是"能不能持续创造价值"

商业层核心问题：

这个能力的长期运营成本是什么？
它带来的价值能否覆盖持续消耗？
这个体验是不是靠高成本堆出"看起来很聪明"？
有没有更克制的设计、更好的毛利结构？

没有可持续价值交换，再漂亮的产品理想也很难长期存活。

概念三：人性层——不是"用户喜不喜欢"，而是"是否真的减轻了长期负担"

人性层的"好"不是抽象善意，而是非常具体的判断：

是否真的减轻了用户的长期负担？
是否保留了人的主体性和判断感？
是在帮助人生活，还是在让人慢慢失去对判断、关系和节奏的掌控？

关键判断线：这个产品是在帮助用户重获判断力和现实感，还是在帮他们以更舒服的方式交出越来越多的判断？

短期上瘾、高粘性、高转化的产品，不自动等于人性层做得好。

概念四：文化层——产品不只是工具，还在训练用户的世界观

文化层讨论最少，但可能最重要。因为产品从来不只是工具，还在持续训练用户如何理解效率、关系、责任、注意力，以及如何与系统共处。

文化层核心问题：

这个产品在训练用户怎样理解效率、关系和责任？
它是在扩大人的现实感，还是在鼓励更浅的自动化依赖？
这种产品逻辑是否值得被扩散？

文化层的后果不会立刻出现在报表里，但最终决定产品是只赢一时，还是能被长期信任。

概念五：三层冲突时的优先级判断

三层不可能永远和谐。真正的难点不是机械地说"三层都重要"，而是团队必须能判断：

什么时候必须商业优先，否则产品无法生存
什么时候必须为人性层拒绝短期有利的设计
什么时候文化层的长期代价大到不能再忽视

决策框架：

冲突	判断原则
商业 vs 人性	如果人性风险不可逆（生命安全、歧视），人性优先；如果可控，商业优先但必须有保护机制
商业 vs 技术	技术不成熟但商业机会重大，先做 MVP；技术成本过高商业模式不成立，等待技术成熟
人性 vs 技术	技术能力不应决定人性边界，而是人性边界决定技术能用多少

成熟的平衡不是每层都满分，而是团队至少知道自己在牺牲什么、为什么牺牲、这个牺牲值不值得。

分步执行

Step 1：方案描述——明确产品方案和已知约束

输入：产品方案描述 + 已知约束条件

处理：

用一句话描述产品方案的核心功能
列出已知约束（技术限制、合规要求、预算限制）
标记团队内部的主要分歧点

输出：产品方案简述（附约束和分歧标记）

Step 2：商业层评估——逐项打分

输入：Step 1 产出的方案简述

处理：

评估长期运营成本（token/算力、运维、错误兜底、人工复核）
评估价值是否覆盖持续消耗
评估是否靠高成本堆出"看起来很聪明"
打分（1-10），列出优势和劣势

输出：商业层评估报告（附分数和关键问题）

Step 3：人性层评估——逐项打分

输入：Step 1 产出的方案简述

处理：

评估是否减轻了用户的长期负担（执行负担 vs 决策负担）
评估是否保留了人的主体性和判断感
评估是在帮助人生活还是让人更依赖系统
打分（1-10），列出优势和劣势

输出：人性层评估报告（附分数和关键问题）

Step 4：文化层评估——逐项打分

输入：Step 1 产出的方案简述

处理：

评估产品在训练用户怎样理解效率、关系和责任
评估是在扩大现实感还是鼓励更浅的自动化依赖
评估这种产品逻辑是否值得被扩散
打分（1-10），列出优势和劣势

输出：文化层评估报告（附分数和关键问题）

Step 5：三角形分析——判断平衡类型和最大矛盾

输入：Step 2-4 的三层评估报告

处理：

将三个分数绘制到三角形中
判断平衡类型：理想型 / 商业-人性型 / 商业-技术型 / 人性-技术型 / 偏斜型
识别最大矛盾点
计算健康度分数（1-10）

输出：三角形分析图 + 平衡类型判断 + 健康度分数

Step 6：改进计划——制定分阶段行动

输入：Step 5 的三角形分析

处理：

制定立即要做的（保护机制、风险缓解）
制定短期要做的（产品调整、指标升级）
制定长期要做的（方向校准、文化层建设）
明确"如果必须做权衡，建议优先级"

输出：分阶段改进计划 + 红线清单

示例 1：AI 面试辅助工具的三重平衡

场景描述：一家 HR 科技公司做 AI 面试辅助工具，功能是自动生成面试评估报告。

Step 1 方案描述：

核心功能：AI 在面试过程中自动记录、分析候选人回答、生成评估报告
约束：面试官担心 AI 替代人的判断
分歧：产品团队想让 AI 直接出"通过/不通过"建议，HR 总监认为应该只做辅助

Step 2 商业层评估：

收入模型：SaaS 订阅，按面试次数计费
支付意愿：企业 HR 部门愿意为节省时间付费
成本结构：模型调用成本可控
竞争壁垒：面试数据积累形成壁垒
分数：7/10

Step 3 人性层评估：

自主性：如果 AI 直接出"通过/不通过"，面试官可能过度依赖
偏见风险：AI 可能放大历史面试数据中的偏见
透明度：候选人不知道 AI 在评估自己
退出机制：面试官可以不参考 AI 建议
分数：4/10（偏见风险和自主性是主要扣分项）

Step 4 文化层评估：

效率观：在训练用户"面试可以被 AI 加速"
关系观：可能弱化面试中"人对人的判断"
责任观：如果出错，责任归属不清晰
分数：5/10

Step 5 三角形分析：

平衡类型：商业-技术型，人性有风险
最大矛盾点：AI 直接出"通过/不通过"会提升效率但损害人性层
健康度：5/10

Step 6 改进计划：

立即：AI 只提供"评估参考"，不提供"通过/不通过"建议
短期：设计"人工复核"强制流程，添加偏见检测机制
长期：收集数据证明 AI 辅助能提升招聘质量（而非替代判断）

结论：AI 面试工具可以做，但必须保护面试官的最终判断权。系统应该"辅助判断"而非"替代判断"。

示例 2：AI 学习监督产品的三重平衡

场景描述：一家教育科技公司想做 AI 学习监督系统，自动打卡提醒、学习进度跟踪、惩罚机制、排行榜。

Step 1 方案描述：

核心功能：AI 自动监督学习——打卡提醒、进度跟踪、未完成惩罚、排行榜
约束：用户可能觉得被"监控"
分歧：增长团队认为惩罚机制能提升留存，教育专家认为会损害学习动机

Step 2 商业层评估：

收入模型：订阅制 + 增值服务
支付意愿：家长愿意为孩子的学习监督付费
留存预期：惩罚机制和排行榜短期能显著提升留存
分数：8/10

Step 3 人性层评估：

自主性：惩罚机制可能让学习变成"被追着跑"，而非主动选择
依赖性：一旦产品关闭，用户可能立即回到旧习惯
长期负担：是在帮助建立能力，还是在制造依赖？
分数：3/10（核心问题是制造依赖而非培养能力）

Step 4 文化层评估：

学习观：在训练用户"学习必须被监督、被追、被奖励"
责任观：在鼓励"把学习责任外包给系统"
这种逻辑值得被扩散吗？→ 不值得
分数：3/10

Step 5 三角形分析：

平衡类型：偏斜型（商业高，人性和文化低）
最大矛盾点：短期留存提升 vs 长期用户能力退化
健康度：4/10

Step 6 改进计划：

立即：去掉羞辱性惩罚（如"你已经落后 XX 天"）
短期：保留提醒和节奏支持，但减少依赖循环；把"被监督"变成"自我节奏管理"
长期：增加"能力成长"指标，让用户在产品关闭后仍能自主学习
文化层校准：产品应该帮助用户建立自己的学习节奏，而非永远从外部推动

结论：学习监督可以做，但必须从"外部驱动"转向"内在能力培养"。去掉惩罚，保留节奏支持，让产品帮用户成为更能自主学习的人。