| name | brainstorm-assistant |
| source | ../../../../skills/brainstorm-assistant/SKILL.md |
| source_version | 4.0.0 |
| source_hash | 25e622a7d063 |
| translation_version | 4.0.0 |
| last_synced | "2026-06-22T00:00:00.000Z" |
| status | current |
| description | 在编写规格前进行结构化 AI 辅助头脑风暴。
使用时机:功能规划、创意发想、问题定义。
关键字:brainstorm, persona, multi-critic, HMW, SCAMPER, 头脑风暴, 发想。
|
头脑风暴助手
语言: English | 简体中文
在编写规格前进行结构化发想。以 2024–2026 年 AI 辅助发想研究为基础,通过引导式头脑风暴,将模糊构想转化为可执行的功能提案。
实现: XSPEC-296 头脑风暴质量标准(BQS v1)—— brainstorm v4,叠加于
XSPEC-247 brainstorm v3(Multi-Persona Ensemble + Multi-Critic Convergence)。
v3 的核心改动: v3 把发散从「单一 AI 冲数量」改为 persona 集成(每个角色以思维链独立推理)×多样性透镜;把收敛从「单一 AI 评分 + 单一反驳」改为多评审面板 + 硬角色反驳(Devil's Advocate + Steelman)。这直接对应文献中最强的结论:多 persona 胜过单次 pass,而单一 LLM 评审既弱又易谄媚。
v4 的核心改动: v3 提供了强健的机制,却没有可判定 pass/fail 的质量闸。v4 在其上叠加一道时序化质量契约——头脑风暴质量标准(BQS v1)——且不移除任何 v3 行为。BQS 是四层 × 时间轴结构:第 0 层宣告 explore/exploit 配比;第 1 层(过程、leading、发散期全程可见)跑维度 D1–D4;第 2 层(产物、leading、收敛后仅施于 Top 3)跑 D5–D8 加 Seeds 栏与争议区;第 3 层是不受治理的 Judgment Override。第一原理:决策用 leading 信号、校准用 lagging 信号——两者是时间前后,而非对错取舍。 硬序列闸禁止 D5–D8 在发散期被揭示或评分。详见下方「BQS v1 — 质量契约」。
使用前先选模式
使用前套用以下客观触发条件。默认为完整 v3,路由规则是跳过阶段的快捷方式,而非额外障碍。
| 条件 | 推荐模式 | 命令 |
|---|
| 问题描述少于 20 字或主题显得模糊 | 完整 v3(默认) | /brainstorm [topic] |
| 战略性问题(职业、架构、商业模式) | 完整 v3 含反驳 | /brainstorm [topic] |
| 宿主支持并行子代理且你想要最大多样性 | 完整 v3 + 强化层 | /brainstorm --enhanced [topic] |
| 纯创意类(命名、标语、营销文案) | 精简版——跳过反驳 | /brainstorm --no-rebuttal [topic] |
| 时间受限或执行类(写代码、改文案) | 快速模式 | /brainstorm --quick [topic] |
| 本主题已有 SDD 规格 | 跳过预检 | /brainstorm --skip-preflight [topic] |
判断原则: 不确定适用哪一行时,直接用完整 v3。判断本身的认知成本高于直接跑完整流程。
工作流程
[模式选择] ─► PRE-FLIGHT ─► FRAME ─► DIVERGE ───────────► CONVERGE ──────────► OUTPUT
客观路由 防止锚定 定义问题 persona 集成+透镜 多评审面板+硬角色反驳 输出提案
▲ 第 0 层 意图 ▲ 第 1 层(D1–D4,leading) ▲ 第 2 层(D5–D8,Top 3) ▲ 第 3 层 override
BQS v1 — 质量契约
第一原理: 头脑风暴的产物是假说,不是答案。一个点子好不好在发想当下不可知,所以质量只能用 leading 信号(过程+认识论完整性)判;标准的正当性靠 lagging 信号(事后结果)校准。决策用 leading、校准用 lagging,两者是时间前后,不是对错取舍。(此处修正任何「只用 leading 不用 lagging」的绝对说法。)
BQS 是四层 × 时间轴契约。它是 v3 的叠加——所有 v3 旗标与机制都保留(见「向后兼容」)。
第 0 层 — 意图(开场宣告)
开场宣告本次 explore/exploit 配比 与赌注类型(渐进 vs barbell 长尾)。此层调节维度权重:偏 exploit 的工作阶段,D2(发散覆盖)低分是正确的、不扣分。
第 1 层 — 过程(发散期 leading,全程可见)
| 维度 | Oracle(怎么判 fail) |
|---|
| D1 框架纯度 | 问题内嵌特定方案或「像 X 给 Y」→fail;须 5-Whys 到根因 |
| D2 发散覆盖 | 存活想法跨 <3 独立 persona/透镜→fail(受第 0 层权重调节);连一轮零新增才算饱和 |
| D3 跨会话多样性 | 种子是竞品类比→fail;Top 全来自单一 lens→fail |
| D4 评估去偏 | 须 ≥3 评审 + 硬角色 Devil's Advocate + Steelman;pass 须在独立 context 执行,否则标 [degraded] 不得标 pass |
硬序列闸: D5–D8 禁止在发散期揭示或评分;CONVERGE 的 critic 不得在最后一个 persona 产完前被调用。
第 2 层 — 产物(收敛后 leading,仅施于 Top 3)
评判维度限缩在收敛后 × 仅 Top 3,绝不在发散期对全部想法当硬闸(否则回溯污染发散、扼杀无证据的未来想法、制造填表剧场)。
| 维度 | Oracle |
|---|
| D5 接地 | 「现状/外部事实」主张无 file:line/来源→fail;「未来/假说」免接地、标 [假说]。外部事实宣称为跨级地板(creative 级亦适用) |
| D6 净值 | 入选想法未答「解谁问题/我们真有吗/不做的代价」→fail;至少一个「不值得做」淘汰。挂 lagging 登记栏:此判断事后拿什么信号验证? |
| D7 可证伪 | 二态:[现可陈述证伪] 或 [需先做 X 才能定义证伪];后者转 next-step 喂 D8,不算 fail |
| D8 可行动 | 无 next-step 裁决(含「暂不做」)→fail |
| +Seeds 栏 | 杀想法时强制存「错在哪、指向什么真问题」;被杀 ≥1 则 Seeds ≥1(只检查非空) |
| +争议区 | critic 方差 > 阈值的想法分流呈现,不按 mean 排序淘汰(守 barbell 长尾) |
第 3 层 — 不可治理区(Judgment Override)
明文留一块 oracle 不进入的地:人类直觉「保留/毙掉」附一句理由即可,凌驾聚合分数、不需过任何维度。承认标准不完备,避免「为过维度而 brainstorm」。
结构规则
- Meta 停止规则: 该层维度全绿 且 再跑一轮后 Top 3 集合成员不变(看集合成员、不看内部排序)→停。硬上限 2 轮。取代模糊的「不翻决策」。
- 判官≠产生者: D2/D4/D5/D7 判定须独立视角;单 context 自评只能
[degraded],不得 pass。
- 校准回路(吃 lagging): v3 的三个工作阶段自评指标收编为此回路 lagging 端——Adoption Rate=D6 滞后验证、Diversity=D2/D3 滞后观测、Cognitive Load=成本约束;禁两套平行评估。
- BQS 自我演化(轻量): 版本化 + 证据清单 last-reviewed 逾期 flag;「定期对 BQS 自身 brainstorm」列可选。
- 最小充分原则: 套用该 tier 所需的最少维度 + Top-3 限缩——认知经济性的守门,不另设成本维度。
分级(绑 v3 既有客观触发,非自评)
| Tier(来自模式选择触发) | 套用维度 |
|---|
creative / --quick | D1–D3 + D5 外部事实地板 |
| default | D1–D5 + D8 |
| strategic / architecture / business | 全层 |
分级由客观模式选择触发表(字数、旗标、是否有规格)决定,而非发起者自评。
阶段 0:PRE-FLIGHT | 防止 AI 锚定
本阶段存在的原因: 在 AI 生成任何内容之前先写下自己的想法,能持续产出更多样的结果。在 AI 情境下这更重要,而非更不重要:设计固着研究显示,流畅、高保真的 AI 输出反而加深固着,而非缓解(Wadinambiarachchi 等,CHI 2024)。
在 AI 生成任何内容之前,用户完成三件事:
| 项目 | 提示 |
|---|
| 1 | 一句话描述问题 |
| 2 | 3 个初始想法(任意形式、不限质量) |
| 3 | 「我最不想要的解法类型」(可填 N/A) |
用户提交后,AI 读取全部三项输入再进入 FRAME。AI 的第一批 DIVERGE 输出必须探索用户未提及的方向,且不得重复用户已提交的想法。
反种子 guardrail(v3 新增): 不要接受或生成「像 X 但给 Y」的框架当种子(如「给医生用的 Slack」)。这类产品类比种子会把 LLM 锁进单一解空间、明显降低想法多样性。请捕捉底层问题,而非产品类比。
BQS 第 0 层 — 意图宣告(v4 新增): 在 FRAME 之前,宣告本次的 explore/exploit 配比 与赌注类型(渐进 vs barbell 长尾)。此宣告下游调节 D2 权重——偏 exploit 时低发散覆盖是正确的、不扣分。未宣告时默认:偏 explore。
旗标: --skip-preflight 跳过本阶段并显示一行警告:
⚠ Skipping Pre-flight may cause AI anchoring
阶段 1:FRAME | 定义问题
在生成想法之前,先清楚定义问题空间。
| 步骤 | 动作 |
|---|
| 1 | 用 5 Whys 厘清问题根因 |
| 2 | 重构为「How Might We」(HMW) 问题 |
| 3 | 识别利益相关者与约束条件 |
| 4 | 从代码库搜集脉络(如适用) |
阶段 2:DIVERGE | 发散思考(v3:persona 集成 + 多样性透镜)
v3 核心机制: persona 集成——每个 persona 以思维链在隔离状态下推理——再乘上多样性透镜。Meincke、Mollick、Terwiesch(2024)发现「思维链 + persona」的想法多样性高于所有受测的提示策略,接近人类团体。光冲数量是弱代理;结构性逼出不同视角才是真正的杠杆。
步骤 2a —— persona 集成
通过默认 persona 组生成想法。每个 persona 逐步推理(思维链),只从自己的视角产出 2–4 个想法。用户可用 --personas 增减或改名。
| 默认 persona | 它论证所依据的视角 |
|---|
| 领域专家 | 本领域的最佳实践要求什么? |
| 怀疑者 / 风险 | 哪里会坏?什么先失败? |
| 跨域类比者 | 生物 / 其他领域如何解决类似问题? |
| 成本 / 约束 | 最便宜、最小的可行解是什么? |
| 用户代言者 | 真实用户的感受与需求是什么? |
分支隔离: baseline 模式下,生成每个 persona 的想法时不让它看到其他 persona 的输出——这能防止 session 内锚定。等所有 persona 都产完后才一起呈现全部想法。(在强化层中,将 persona 作为并行隔离代理运行——见下方「强化层」。)
步骤 2b —— 多样性透镜
在 persona 组上至少套用一个透镜,以突破「显而易见答案区」。连接异域概念能可量测地提升原创性(Mehrotra、Parab、Gulwani,2024)。
| 透镜 | 提示模式 |
|---|
| 类比 / 跨域 | 「在 [生物 / 物流 / 游戏] 中找出一个解决类似问题的系统。我们能借鉴什么?」 |
| 假设反转 | 「列出所有人都假设必然成立的事,然后逐一反转。」 |
| 形态矩阵 | 「构建一个三轴矩阵(如 用户 × 触发 × 约束);填补罕见组合。」 |
用 --lens analogical|reversal|morphological 强制将某个透镜作为主要透镜。
步骤 2c —— 继续发散提示(辅助)
「好点子出现在后半段」(Nijstad)是人类群体现象,未在 LLM 上得到证实(LLM 多为达到高原 / 枯竭)。因此固定数量门槛降为辅助提示:若全组少于约 8 个相异想法,提示「继续——加一个还没用过的 persona 或透镜」。真正的门槛是多样性(覆盖了几个不同视角),而非数量。
此处生效 BQS 第 1 层(D1–D4,leading,全程可见): 发散期只对 D1(框架纯度)、D2(发散覆盖,依第 0 层加权)、D3(跨会话多样性)、D4(评估去偏) 评分与呈现。硬序列闸: 评判维度 D5–D8 在最后一个 persona 产完前不得揭示或评分——CONVERGE 的 critic 在发散完成前不被调用。
经典技法(仍保留)
| 技法 | 使用时机 |
|---|
| HMW 问题 | 默认起点 |
| SCAMPER | 改善现有功能 |
| 六顶思考帽 | 需要多角度(很适合当 persona) |
阶段 3:CONVERGE | 收敛(v3:多评审面板 + 硬角色反驳)
v3 核心机制: 多评审面板取代单一加权评分者。单一 LLM 是弱且有偏的评估者(Li 等,2025:LLM 强于生成 / 精炼、弱于评估——人类保留最终裁决权)。三个独立评审透镜各自对每个想法评分后聚合。
步骤 3a:多评审面板
运行三个独立评审,各自以自己的透镜对每个想法打 1–5 分。取平均聚合以降低单评审偏误。每位评审皆套用下方的加权公式。
| 评审透镜 | 它负责的加权标准 |
|---|
| 工程可行性 | 可行性 50% · 工作量 50% |
| 用户影响 | 影响 70% · 一致性 30% |
| 战略一致性 | 一致性 60% · 影响 40% |
各标准指引(1–5):可行性(5=轻而易举 … 1=几乎不可能);影响(5=变革性 … 1=可忽略);工作量(5=数小时 … 1=数个季度,反向计分,工作量越低分数越高);一致性(5=核心使命 … 1=偏离使命)。
可选——RICE / ICE(产品功能): 排序可发布功能时用 RICE =(Reach × Impact × Confidence)/ Effort 或较轻的 ICE = Impact × Confidence × Ease。Effort 交由工程师估、不要让 LLM 估(它没有代码库知识)。RICE 偏好渐进式胜利,别单独用于战略性押注。
步骤 3b:硬角色反驳轮
软性的「请批评一下」指令只会得到附和(谄媚)。v3 指派硬角色:对前三名想法各跑一个 Devil's Advocate(「你的任务是论证此案会失败」)与一个 Steelman(「说出反方最强而善意的版本」)。两者一起对韧性做压力测试,而非只是戳一下。
每个反对理由必须采用以下形式:「在 [具体情境] 下,此想法会失败,因为 [具体原因]。」模糊顾虑(「这可能有点难」)不接受。
用户必须对每个反对理由给出回应才能继续:
| 选项 | 动作 |
|---|
| (a) | 接受批评 → 提供修改版本 |
| (b) | 不同意 → 给出保留它的具体理由 |
| (c) | 批评成立 → 从排名中移除 |
旗标: --no-rebuttal 跳过此步骤;报告区段标注「Rebuttal: skipped」。
BQS D4 — 判官≠产生者: D4 唯有评审/Devil's Advocate 在独立 context 执行(--enhanced 隔离 agent 宿主)才可 pass。baseline 单 context 下,面板是同 context 自评,标 [degraded]、不得标 pass——诚实但非独立。不得把 baseline 跑当成 D4 pass 静默通过。
步骤 3c:BQS 第 2 层——对 Top 3 的产物闸
收敛后,仅对 Top 3 套用 D5–D8(绝不对全部发散想法)。对每个 Top-3 想法:
- D5 接地: 将每个主张分流为
[现状/外部事实](需 file:line 或来源,否则 fail)vs [未来/假说](免接地、标 [假说])。外部事实宣称为跨级地板——creative 级也须接地。
- D6 净值: 每个 Top-3 须答「解谁问题/我们真有吗/不做的代价」;至少一个淘汰为「不值得做」;挂 lagging 登记栏(事后哪个信号验证)。
- D7 可证伪(二态): 标
[现可陈述证伪] 或 [需先做 X 才能定义证伪]。后者转 next-step 喂 D8——不算 fail。
- D8 可行动: 每个存活想法需 next-step 裁决(含明确「暂不做」);无 → fail。
Meta 停止规则(BQS 结构规则 1): 当套用的维度全绿 且 再跑一轮后 Top 3 集合成员不变(看集合成员、非内部排序)→停。硬上限 2 轮。
阶段 4:OUTPUT | 输出提案
产生可直接对接 /requirement 或 /sdd 的头脑风暴报告。每个存活的想法标记 ✓ Passed rebuttal、用户回应的一行摘要、其来源 persona/透镜,以及聚合的评审分数。
输出格式
# Brainstorm Report: [Topic]
## Problem Statement
[Refined problem + root cause from FRAME]
## HMW Questions
1. How might we ...?
## Ideas Generated
| # | Idea | Persona | Lens | Critic-Feas | Critic-Impact | Critic-Align | Agg. Score |
|---|------|---------|------|-------------|---------------|--------------|-----------|
| 1 | ... | Skeptic | Reversal | 4.0 | 4.5 | 4.0 | 4.2 |
## Top 3 Recommendations (BQS Layer 2 applied)
1. **[Idea]** ✓ Passed rebuttal — [Why] — Persona: [..] — [User rebuttal response]
- D5 grounding: [current-state claims with file:line | future claims marked [hypothesis]]
- D6 net benefit: [whose problem / do we have it / cost of not doing] — lagging signal: [..]
- D7 falsifiability: [falsifiable now | need to do X first → next-step]
- D8 next-step: [action | defer]
## Contested Zone (high critic-variance ideas)
[Ideas whose critic variance exceeded threshold — surfaced, NOT eliminated by mean ranking (barbell long-tail)]
## Seeds (from killed ideas)
[For each killed idea: what was wrong, what real problem it points to. Non-empty if ≥1 idea was killed.]
## Judgment Override (Layer 3, ungoverned)
[Human keep/kill decisions that override the aggregate score, each with a one-line reason. Optional.]
## Diversity Note
[How many distinct lenses/personas the surviving ideas span — flag if all from one cluster]
## Discarded Ideas (with reasons)
| Idea | Reason |
## Next Steps
- [ ] Proceed to `/requirement` with top idea
- [ ] Proceed to `/sdd` if requirements are clear
BQS 输出新增(v4): Seeds 区(规则:被杀 ≥1 则非空)、争议区(高方差想法不按 mean 淘汰)、Judgment Override 通道(人类裁决凌驾聚合分)为 BQS 第 2/3 层所要求。Top-3 区块逐项记录 D5–D8 状态。
多样性崩塌防护
使用单一 LLM 发想会降低跨用户的想法多样性,即使每个个体都觉得自己更有创意(Anderson、Shah、Kreminski,2024;与广为引用的 Doshi & Hauser,《Science Advances》2024 同向)。防范方式:
- 绝不用竞品或产品类比(「像 X 但给 Y」)当种子。
- 改变透镜,而非只改措辞——换个说法 ≠ 多样化。
- 若存活的前三名全来自同一 persona/透镜,标示出来并在 OUTPUT 前再跑一个透镜。
强化层——并行 persona
多代理发想(独立代理相互对话 / 贡献)在感知质量与新颖度上胜过单代理(Quan 等,2025,MultiColleagues)。在支持并行子代理的宿主上(如 Claude Code 的 Agent/Workflow 工具),--enhanced 会把每个 persona——以及每个评审——作为并行、context 隔离的代理运行,然后合并并去重结果。
优雅降级: 此层为可选。在没有子代理的宿主上,--enhanced 会静默退回 baseline(单 context 模拟 persona)。本 skill 维持 scope: universal。
技法速览
| 技法 | 用途 |
|---|
| 5 Whys | 根因分析 |
| HMW | 问题重构 |
| persona 集成 | 强制视角多样性(v3 核心) |
| 多样性透镜 | 突破显而易见区(类比 / 反转 / 形态) |
| 多评审面板 | 降偏误评分(v3 核心) |
| Devil's Advocate + Steelman | 硬角色反驳 |
| SCAMPER / 六顶帽 | 经典发散(可当 persona) |
校准回路——lagging 信号(BQS)
这是同一道 BQS 质量回路的 lagging 端——不是第二套平行评估系统。 工作阶段中由 BQS 第 0–2 层做 leading 决策;这三个指标事后校准标准。禁止在 BQS 之外另跑一套自评。
每次工作阶段结束后记录三个指标(1–5 分),各自对应一个 BQS 维度作为其滞后验证:
| 指标 | 问题 | BQS 滞后角色 |
|---|
| 采用率 | 今天的想法我实际会用多少个? | D6 净值滞后验证 |
| 多样性 | 存活的想法是否跨越多个 persona/透镜? | D2/D3 滞后观测 |
| 认知负担 | 这次有多耗费心力?(5 = 毫不费力) | 成本约束 |
收集 3 次工作阶段的数据再下结论。完整的 A/B 实验协议见 guide.md。
旗标
| 旗标 | 效果 |
|---|
--intent explore|exploit|<比例> | 宣告 BQS 第 0 层 explore/exploit 意图(调节 D2 权重) |
--personas "a,b,c" | 覆写默认的 persona 组 |
--lens analogical|reversal|morphological | 强制指定主要的多样性透镜 |
--enhanced | 并行 persona/评审代理(不支持则退回) |
--skip-preflight | 跳过阶段 0,显示锚定警告 |
--no-rebuttal | 跳过 CONVERGE 的反驳轮,报告标注 skipped |
--quick | 3 想法快速模式;门槛与反驳均豁免 |
--technique scamper | 强制以 SCAMPER 为主要技法 |
使用方式
/brainstorm —— 启动交互式头脑风暴
/brainstorm "user retention" —— 针对特定主题进行头脑风暴
/brainstorm --enhanced "user retention" —— 并行 persona 集成(若宿主支持)
/brainstorm --personas "designer,economist,skeptic" "pricing" —— 自定义 persona
/brainstorm --lens analogical "onboarding" —— 强制使用类比透镜
/brainstorm --quick "reduce checkout friction" —— 快速 3 想法模式
/brainstorm --no-rebuttal "topic" —— 跳过反驳轮
下一步引导
/brainstorm 完成后,AI 助手应建议:
头脑风暴完成。建议下一步:
- 执行
/requirement 将最佳构想转为用户故事
- 执行
/sdd 直接建立规格(若需求已明确)⭐ 推荐
- 针对特定构想进行更深入的探索
参考
AI 代理行为
完整的 AI 行为定义请参阅对应的命令文档:/brainstorm