with one click
p7a-data-flywheel-builder
// 数据飞轮构建器。基于《AI Native 营销与增长》数据飞轮概念卡, 帮助产品团队评估和构建自增强的数据飞轮:使用→数据→模型→产品→更多用户→更多数据。
// 数据飞轮构建器。基于《AI Native 营销与增长》数据飞轮概念卡, 帮助产品团队评估和构建自增强的数据飞轮:使用→数据→模型→产品→更多用户→更多数据。
[HINT] Download the complete skill directory including SKILL.md and all related files
| name | p7a-data-flywheel-builder |
| description | 数据飞轮构建器。基于《AI Native 营销与增长》数据飞轮概念卡, 帮助产品团队评估和构建自增强的数据飞轮:使用→数据→模型→产品→更多用户→更多数据。 |
评估你的产品是否具备数据飞轮,以及如何让飞轮转得更快——使用→数据→模型→产品→更多用户→更多数据。
产品描述 + 当前数据收集状况 + 模型使用方式。
示例输入:
产品: AI 客服 SaaS
数据: 每月处理 10 万次对话
模型: 用 GPT-4 做意图识别和回复生成
问题: 数据没有回流到模型,每次都在调 API
评估问题:
评分标准:
1分: 只有基础使用数据(登录、点击)
2分: 覆盖核心使用路径数据
3分: 全触点、多维度行为数据
4分: 全触点 + 实时 + 多模态数据
5分: 全触点 + 实时 + 多模态 + 上下文数据
评估问题:
评分标准:
1分: 数据噪声大、无标注
2分: 数据基本准确、部分标注
3分: 数据准确、标注完整
4分: 数据准确 + 标注完整 + 实时更新
5分: 数据准确 + 标注完整 + 实时更新 + 质量自动检测
评估问题:
评分标准:
1分: 季度更新,人工操作
2分: 月度更新,部分自动化
3分: 周度更新,主要自动化
4分: 日度更新,全自动化
5分: 实时更新,自动训练+自动部署
评估问题:
评分标准:
1分: 模型输出与产品功能脱节
2分: 模型输出需要大量人工处理才能产品化
3分: 模型输出可以半自动产品化
4分: 模型输出可以自动产品化
5分: 模型输出自动产品化 + 效果自动验证
飞轮强度 = (数据收集广度 × 0.25) + (数据质量 × 0.25) + (反馈闭环速度 × 0.25) + (产品化能力 × 0.25)
5.0: 飞轮自转(TikTok/字节跳动级别)
4.0-4.9: 飞轮加速
3.0-3.9: 飞轮起步
2.0-2.9: 飞轮卡顿
1.0-1.9: 没有飞轮
data_flywheel_assessment:
input:
product: "产品名称"
current_data: "数据状况"
model_usage: "模型使用方式"
scores:
data_breadth:
score: 1-5
evidence: "证据"
improvement: "改进建议"
data_quality:
score: 1-5
evidence: "证据"
improvement: "改进建议"
feedback_speed:
score: 1-5
evidence: "证据"
improvement: "改进建议"
productization:
score: 1-5
evidence: "证据"
improvement: "改进建议"
flywheel_strength:
total: 1.0-5.0
level: "没有飞轮/飞轮卡顿/飞轮起步/飞轮加速/飞轮自转"
action_plan:
quick_wins: ["30天内可做的改进"]
medium_term: ["90天内的改进"]
long_term: ["6个月以上的改进"]
moat_assessment:
current_moat: "当前壁垒强度"
competitor_gap: "与竞争对手的差距"
time_to_parity: "追平所需时间"
| 要素 | 评分 | 改进建议 |
|---|---|---|
| 数据收集广度 | 2 | 增加用户满意度反馈、对话质量评分 |
| 数据质量 | 2 | 对历史对话做质量标注,建立标注规范 |
| 反馈闭环速度 | 1 | 最弱项——数据完全没回流,每次调 API |
| 产品化能力 | 3 | 模型输出直接用于回复,但无自动优化 |
飞轮强度: 2.0 — 飞轮卡顿
关键动作: 先建数据回流管道,让客服对话数据自动标注 → 微调专属模型 → 替代部分 API 调用
数据飞轮不是收集数据,而是让数据自动变成更好的产品。
数据飞轮的本质是一个自增强闭环:产品使用产生数据 → 数据训练模型 → 模型优化产品 → 更好的产品吸引更多用户 → 更多用户产生更多数据。 这个闭环一旦转起来,每一轮循环都会让系统变得更强,竞争对手要追赶就需要同时在数据量、模型能力和用户规模三个维度上同时超越。
数据飞轮的竞争不是线性的追赶赛,而是指数级的甩开赛。假设 A 公司和 B 公司在同一赛道竞争,A 的飞轮比 B 早转 6 个月。第一个月差距只有 4 个百分点,但 6 个月后差距扩大到 11 个百分点。用户体验感知从"还行"到"它好像真的懂我"的质变。
模型资产比数据资产更值得重视。如果数据是石油,模型就是炼油厂——同样的原油,不同的炼化工艺,产出的价值可能相差百倍。
三个乘数缺一不可:
字节跳动的推荐模型平均每两周完成一次重大迭代,每天进行上千次 A/B 测试。飞轮的壁垒不在于转了多少圈,而在于每一圈转得有多快。
好数据的三个维度——只有同时满足,才能驱动飞轮正向旋转:
| 维度 | 定义 | 失控后果 |
|---|---|---|
| 相关性 | 数据对模型的贡献度 | 低相关数据稀释高相关数据的信号 |
| 干净度 | 数据经过清洗、去重、去噪 | 噪音比例超过 20% 模型性能显著退化 |
| 及时性 | 数据反映用户当前偏好 | 推荐结果"慢半拍",体验"差一截" |
数据飞轮可以正向旋转,也可以反向旋转。 正向是越转越快的增长引擎,反向是越陷越深的死亡漩涡。
可复利增长的底层设施是一套完整的数据飞轮基础设施:
三个层次共同构成数据飞轮的"转子"——转子越精密,飞轮转得越稳、越快。
任务:梳理所有可产生数据的触点。
执行要点:
输出:数据源清单 + 相关性评估
任务:在不打扰用户体验的前提下,完整、及时地收集高相关性数据。
执行要点:
输出:数据收集方案 + 信号密度评估
任务:从原始数据到可用数据资产的管道。
执行要点:
输出:数据管道架构 + 质量控制流程
任务:将数据资产转化为模型能力。
执行要点:
输出:模型选型方案 + 自动化训练部署流程
任务:将模型输出转化为产品功能,确保闭环完整。
执行要点:
输出:产品闭环设计图
任务:持续监控飞轮运转状态。
关键指标:
输出:飞轮效率仪表盘 + 异常告警机制
场景描述:一家 AI 客服 SaaS 公司,每月处理 10 万次对话,使用 GPT-4 做意图识别和回复生成。但数据完全没有回流到模型,每次都在调外部 API,没有形成数据资产。飞轮强度评分仅为 2.0(飞轮卡顿)。
用户输入:
我们是 AI 客服 SaaS,每月处理 10 万次对话。用 GPT-4 做意图识别和回复生成,但数据没有回流到模型,每次都在调 API。想构建数据飞轮形成竞争壁垒。
执行流程:
输出结果:
data_flywheel_assessment:
input:
product: "AI 客服 SaaS"
current_data: "每月 10 万次对话,无数据回流"
model_usage: "GPT-4 API 调用,无自有模型"
scores:
data_breadth: { score: 2, improvement: "增加满意度反馈、质量评分、解决率" }
data_quality: { score: 2, improvement: "建立自动标注规范,历史对话质量标注" }
feedback_speed: { score: 1, improvement: "建立数据回流管道,周级模型更新" }
productization: { score: 3, improvement: "模型输出自动优化回复策略" }
flywheel_strength: { total: 2.0, level: "飞轮卡顿" }
action_plan:
quick_wins: ["30天内建立对话数据自动标注系统", "建立满意度反馈收集机制"]
medium_term: ["90天内完成第一版微调模型并上线", "建立 A/B 测试框架对比微调模型 vs GPT-4"]
long_term: ["6个月内实现日级模型迭代", "构建行业专属客服模型壁垒"]
moat_assessment:
current_moat: "弱——完全依赖外部 API,无数据资产"
time_to_parity: "若不启动飞轮建设,竞品可在 6 个月内追平"
场景描述:一款 AI 写作助手产品,日活 5 万,但 D30 留存仅 8%,AI 生成质量与竞品无明显差异。核心问题:只收集了"用户生成了什么",没有收集"用户修改了什么"和"用户最终用了什么"——飞轮缺关键燃料。
用户输入:
我们做了一个 AI 写作助手,日活 5 万。问题是留存很差,D30 才 8%,而且生成质量和竞品差不多,没有壁垒。怎么构建数据飞轮?
执行流程:
输出结果:
data_flywheel_assessment:
input:
product: "AI 写作助手"
current_data: "日活 5 万,只收集生成数据,未收集编辑反馈"
model_usage: "通用 LLM API,无偏好学习"
scores:
data_breadth: { score: 1, improvement: "增加编辑轨迹采集(修改/删除/重写/接受)" }
data_quality: { score: 2, improvement: "编辑行为去噪(过滤误操作),偏好标注质量审核" }
feedback_speed: { score: 2, improvement: "当日编辑数据 → 次日模型更新" }
productization: { score: 3, improvement: "基于偏好模型的个性化写作风格" }
flywheel_strength: { total: 2.0, level: "飞轮卡顿" }
data_flywheel_design:
data_pipeline: "编辑行为 → 偏好标注 → DPO 模型训练 → 生成策略更新 → 质量提升"
model_assets: ["用户偏好模型(DPO)", "写作风格迁移模型", "质量评估模型"]
flywheel_speed: "次日闭环(当日编辑数据 → 次日模型更新)"
quality_controls: ["编辑行为去噪", "偏好标注质量审核", "A/B 测试验证模型改进"]
action_plan:
quick_wins: ["2周内上线编辑行为采集系统", "定义编辑行为数据 schema"]
medium_term: ["6周内完成第一版 DPO 偏好模型训练", "编辑率目标下降 30%"]
long_term: ["构建用户个性化写作风格模型", "建立实时编辑反馈闭环"]
p7-marketing-growth(增长飞轮总体设计)p7b-intent-prediction-designer(数据飞轮为意图预测提供燃料)、p7c-predictive-retention-designer(数据飞轮为流失预测提供数据基础)p7d-marketing-productizer(营销产品化产生的数据反哺飞轮)