| name | data-warehouse-setup |
| description | 数据仓库设置 - 数据架构设计、ETL流程设计、数据建模、BI工具集成、数据治理、数据安全 |
| version | 1.0.0 |
| author | Shopilot |
| argument-hint | <platform> [data-sources] |
| disable-model-invocation | false |
| user-invocable | true |
Data Warehouse Setup 🏗️
构建强大的数据基础设施,释放数据价值
数据仓库设置帮助电商商家建立完善的数据基础设施,从数据采集到分析应用,实现数据驱动的智能决策。
🎯 核心功能
1. 数据架构设计
架构层级:
数据源层:
- 业务数据库: [订单、客户、产品]
- 第三方API: [支付、物流、营销]
- 日志数据: [用户行为、系统日志]
- 外部数据: [市场、竞品、行业]
数据集成层:
- 数据采集: [实时/批量]
- 数据清洗: [ETL/ELT]
- 数据转换: [标准化/规范化]
- 数据加载: [增量/全量]
数据存储层:
- ODS层: [原始数据存储]
- DWD层: [明细数据层]
- DWS层: [汇总数据层]
- ADS层: [应用数据层]
数据服务层:
- API服务: [数据接口]
- BI工具: [可视化分析]
- 数据应用: [业务应用]
- 数据导出: [报表输出]
2. ETL流程设计
ETL设计:
Extract (抽取):
抽取方式:
- 全量抽取: [小表/低频]
- 增量抽取: [大表/高频]
- CDC抽取: [实时数据]
- API调用: [第三方数据]
抽取策略:
- 定时任务: [每日/每周]
- 实时同步: [变更数据]
- 按需触发: [手动/事件]
- 流式处理: [Kafka/RabbitMQ]
Transform (转换):
清洗规则:
- 空值处理: [填充/删除]
- 重复处理: [去重策略]
- 格式统一: [日期/数字]
- 异常处理: [规则/阈值]
转换逻辑:
- 数据映射: [字段转换]
- 业务计算: [指标计算]
- 数据关联: [多表关联]
- 数据聚合: [汇总统计]
数据质量:
- 完整性检查: [必填字段]
- 准确性检查: [业务规则]
- 一致性检查: [跨表校验]
- 时效性检查: [延迟监控]
Load (加载):
加载策略:
- 全量加载: [覆盖/追加]
- 增量加载: [时间戳/版本]
- 批量加载: [批量大小]
- 实时加载: [流式写入]
加载优化:
- 批处理: [批量提交]
- 并行处理: [多线程]
- 分区策略: [时间/类别]
- 索引优化: [查询性能]
3. 数据建模
建模方法:
维度建模:
事实表:
- 交易事实: [订单事实表]
- 快照事实: [库存快照]
- 累计快照: [用户生命周期]
- 事实清单: [明细记录]
维度表:
- 时间维度: [年/季/月/周/日]
- 地理维度: [国家/省/市]
- 产品维度: [分类/属性]
- 客户维度: [人口/行为]
- 渠道维度: [来源/媒介]
星型模型:
- 中心: [事实表]
- 周围: [维度表]
- 优势: [查询简单]
- 场景: [高性能查询]
雪花模型:
- 结构: [层次维度]
- 优势: [数据规范]
- 场景: [复杂维度]
数据模型:
业务模型:
- 订单域: [订单相关]
- 商品域: [商品相关]
- 客户域: [客户相关]
- 营销域: [营销相关]
- 财务域: [财务相关]
主题模型:
- 销售分析: [销售指标]
- 客户分析: [客户指标]
- 商品分析: [商品指标]
- 渠道分析: [渠道指标]
4. BI工具集成
BI集成:
工具选型:
开源工具:
- Metabase: [轻量级/易用]
- Superset: [功能丰富]
- Redash: [查询友好]
商业工具:
- Tableau: [可视化强]
- Power BI: [微软生态]
- Looker: [云原生]
- QuickSight: [AWS集成]
集成方式:
数据连接:
- JDBC连接: [标准连接]
- ODBC连接: [通用连接]
- Native连接: [专用连接]
- API连接: [RESTful]
数据同步:
- 实时同步: [直连查询]
- 定时同步: [数据抽取]
- 缓存加速: [查询缓存]
- 预计算: [物化视图]
仪表板设计:
核心仪表板:
- 销售概览: [销售指标]
- 客户分析: [客户洞察]
- 商品分析: [商品表现]
- 营销效果: [ROI分析]
- 库存监控: [库存状态]
- 财务报表: [财务指标]
设计原则:
- 关键指标: [核心KPI]
- 层级展示: [汇总→明细]
- 可视化: [图表选择]
- 交互性: [筛选钻取]
5. 数据治理
治理体系:
数据标准:
命名规范:
- 表命名: [前缀_主题_后缀]
- 字段命名: [描述性_格式]
- 指标命名: [业务含义]
- 维度命名: [清晰易懂]
数据类型:
- 数值类型: [整型/浮点]
- 字符类型: [定长/变长]
- 日期类型: [标准格式]
- 布尔类型: [0/1或true/false]
业务规则:
- 主键规则: [唯一标识]
- 外键规则: [引用完整]
- 索引规则: [查询优化]
- 分区规则: [数据管理]
元数据管理:
技术元数据:
- 表结构: [字段信息]
- 数据类型: [类型定义]
- 关系定义: [表间关系]
- 存储位置: [物理路径]
业务元数据:
- 业务定义: [字段含义]
- 业务规则: [计算逻辑]
- 数据来源: [源系统]
- 更新频率: [更新策略]
管理元数据:
- 责任人: [数据Owner]
- 创建时间: [创建日期]
- 修改记录: [变更历史]
- 访问权限: [权限设置]
数据质量管理:
质量维度:
- 完整性: [数据完整性]
- 准确性: [数据准确性]
- 一致性: [数据一致性]
- 时效性: [数据时效性]
- 唯一性: [数据唯一性]
质量监控:
- 监控指标: [质量KPI]
- 监控频率: [实时/定时]
- 告警规则: [异常告警]
- 质量报告: [定期报告]
数据清洗:
- 自动清洗: [规则引擎]
- 人工审核: [异常处理]
- 数据修复: [问题修正]
- 流程优化: [源头改进]
6. 数据安全
安全体系:
访问控制:
身份认证:
- 用户认证: [账号密码]
- 多因素认证: [MFA]
- 单点登录: [SSO]
- 第三方集成: [LDAP/OAuth]
权限管理:
- 基于角色: [RBAC]
- 基于数据: [行级权限]
- 基于字段: [列级权限]
- 最小权限: [权限最小化]
审计日志:
- 访问日志: [查询记录]
- 操作日志: [变更记录]
- 登录日志: [认证记录]
- 审计报告: [定期审计]
数据保护:
数据加密:
- 传输加密: [SSL/TLS]
- 存储加密: [透明加密]
- 字段加密: [敏感字段]
- 密钥管理: [密钥轮换]
数据脱敏:
- 静态脱敏: [存储脱敏]
- 动态脱敏: [查询脱敏]
- 脱敏规则: [手机/身份证]
- 脱敏算法: [掩码/哈希]
数据备份:
- 备份策略: [全量/增量]
- 备份频率: [每日/每周]
- 备份保留: [保留期限]
- 恢复演练: [定期测试]
合规要求:
数据隐私:
- 个人信息: [PII保护]
- 敏感数据: [特殊保护]
- 数据分类: [公开/内部/机密]
- 隐私政策: [合规声明]
法规遵循:
- GDPR: [欧盟数据保护]
- CCPA: [加州隐私法]
- 数据安全法: [中国法律]
- 行业规范: [行业要求]
🏗️ 实施路线
阶段1: 规划设计 (2-4周)
需求分析:
├─ 业务需求调研
├─ 数据源盘点
├─ 分析场景定义
└─ 技术选型
架构设计:
├─ 数据架构设计
├─ 技术架构设计
├─ 数据模型设计
└─ 接口设计
方案制定:
├─ 实施方案
├─ 进度计划
├─ 资源评估
└─ 风险评估
阶段2: 环境搭建 (2-3周)
基础设施:
├─ 服务器部署
├─ 数据库安装
├─ ETL工具部署
└─ BI工具配置
网络配置:
├─ 网络规划
├─ 防火墙配置
├─ VPN配置
└─ 域名配置
安全配置:
├─ 访问控制配置
├─ 数据加密配置
├─ 审计日志配置
└─ 备份策略配置
阶段3: 数据集成 (4-6周)
数据接入:
├─ 数据源连接
├─ 数据采集开发
├─ ETL流程开发
└─ 数据质量校验
数据建模:
├─ ODS层开发
├─ DWD层开发
├─ DWS层开发
└─ ADS层开发
测试验证:
├─ 单元测试
├─ 集成测试
├─ 性能测试
└─ 数据验证
阶段4: 应用开发 (3-4周)
报表开发:
├─ 基础报表
├─ 分析报表
├─ 管理驾驶舱
└─ 移动端报表
仪表板开发:
├─ 业务仪表板
├─ 运营仪表板
├─ 财务仪表板
└─ 自助分析
用户培训:
├─ 系统培训
├─ 使用培训
├─ 维护培训
└─ 文档编写
阶段5: 上线运维 (持续)
上线准备:
├─ 数据迁移
├─ 系统联调
├─ 用户验收
└─ 上线切换
运维监控:
├─ 系统监控
├─ 数据监控
├─ 性能监控
└─ 告警处理
持续优化:
├─ 性能优化
├─ 功能增强
├─ 数据扩展
└─ 用户体验优化
📊 技术选型
数据库选型
关系型数据库:
MySQL:
用途: [OLTP/小型OLAP]
优势: [成熟稳定/社区活跃]
场景: [中小型数据仓库]
PostgreSQL:
用途: [OLTP/中型OLAP]
优势: [功能丰富/扩展性强]
场景: [复杂数据处理]
分析型数据库:
ClickHouse:
用途: [OLAP/实时分析]
优势: [查询极快/列式存储]
场景: [大数据实时分析]
Apache Doris:
用途: [OLAP/交互分析]
优势: [易用性好/性能优秀]
场景: [企业级数据仓库]
StarRocks:
用途: [OLAP/实时分析]
优势: [极速分析/兼容MySQL]
场景: [高性能数据仓库]
ETL工具选型
开源工具:
Apache Airflow:
用途: [工作流调度]
优势: [功能强大/生态丰富]
场景: [复杂数据管道]
Apache Flink:
用途: [实时数据处理]
优势: [低延迟/高吞吐]
场景: [实时数据仓库]
DataX:
用途: [离线数据同步]
优势: [稳定可靠/易用]
场景: [批量数据同步]
商业工具:
Informatica:
用途: [企业ETL]
优势: [功能完整/稳定可靠]
场景: [大型企业]
Talend:
用途: [数据集成]
优势: [开源友好/易用]
场景: [中小企业]
🎨 使用场景
场景1: 从零搭建数据仓库
需求: 建立企业级数据仓库
步骤:
1. 需求分析和规划
2. 技术选型和架构设计
3. 数据建模和ETL设计
4. 环境搭建和开发
5. BI应用和上线
6. 运维优化和迭代
场景2: 数据平台迁移
需求: 迁移到新的数据平台
步骤:
1. 现状评估和方案设计
2. 新平台搭建和测试
3. 数据迁移和验证
4. 应用迁移和调试
5. 切换上线和监控
6. 旧平台下线和清理
场景3: 数据质量提升
需求: 提升数据质量和可信度
步骤:
1. 数据质量评估
2. 质量问题识别
3. 清洗规则制定
4. ETL流程优化
5. 质量监控建立
6. 持续改进机制
场景4: 实时数据能力建设
需求: 构建实时数据分析能力
步骤:
1. 实时需求分析
2. 实时架构设计
3. CDC方案实施
4. 实时计算开发
5. 实时仪表板构建
6. 性能优化和监控
🔗 相关 Skills
/basic-analytics - 基础数据分析
/predictive-analytics - 预测分析
/attribution-analyzer - 归因分析
/performance-benchmark - 性能基准
/anomaly-detector - 异常检测
📊 成功指标
数据质量
- 数据准确率 > 99%
- 数据完整性 > 98%
- 数据时效性: T+1
系统性能
- 查询响应时间 < 5秒
- ETL作业成功率 > 99%
- 系统可用性 > 99.9%
业务价值
- 报表生成效率提升 > 90%
- 数据分析效率提升 > 80%
- 决策响应速度提升 > 70%
Build the foundation for data-driven decisions! 🏗️
版本: 1.0.0
更新: 2026-04-12
作者: Shopilot Team