| name | cloud-ops |
| description | 云运维技能。管理云资源申请、部署自动化、成本优化、监控告警和多云平台整合。当需要部署应用到云端、管理云资源、优化云成本或建立多云架构时使用此技能。 |
云运维技能
概述
提供跨云平台(GitHub Actions, Cloudflare, Vercel, Netlify, Deno Deploy,阿里云,腾讯云)的运维能力。涵盖免费资源申请、自动化部署、成本优化、健康监控和灾难恢复。目标是最大化免费资源利用,建立高可用、低成本的云架构。
何时使用此技能
- 资源申请:申请云平台免费额度、学生优惠、开发者计划
- 部署自动化:一键部署应用到多个云平台
- 成本优化:监控云资源使用,避免意外费用
- 监控告警:云服务健康检查、性能监控、故障告警
- 备份恢复:自动化备份策略、数据同步、灾难恢复
- 多云架构:跨云平台负载均衡、故障转移
- 安全合规:云安全配置、访问控制、合规检查
核心能力
1. 免费资源地图(2026年最新)
全球云平台:
- Cloudflare Pages:无限制带宽,10万次/天 Serverless 调用,500次构建/月,5人团队
- Vercel:100GB/月带宽,6000分钟/月构建,10万次/月 Serverless 调用,1人团队
- Netlify:100GB/月带宽,100分钟/月构建,12.5万次/月 Serverless 调用,1人团队
- Deno Deploy:10万次/月请求,无服务器函数部署
- GitHub Pages:完全免费(公共仓库),自动通过 Actions 构建
国内云平台:
- 阿里云:学生300元无门槛券,个人开发者38元/年轻量服务器,新用户12个月免费试用
- 腾讯云:学生优惠,新用户免费额度,大模型API免费Token
- 华为云:开发者空间180小时免费资源
- 七牛云:开源项目扶持计划
大模型API免费额度:
- 阿里云百炼:每个模型100万Token(3个月)
- 腾讯云混元:100万Token(1年有效期)
- 其他平台:通常提供10-100万Token的免费试用
2. 资源申请自动化
通用申请模板:
def apply_for_free_tier(platform, user_type='developer'):
"""
申请云平台免费资源
Args:
platform: 平台名称 ('cloudflare', 'vercel', 'netlify', 'aliyun', 'tencent')
user_type: 用户类型 ('student', 'developer', 'startup', 'open_source')
Returns:
申请指南和注意事项
"""
templates = {
'cloudflare': {
'student': "通过 GitHub Student Developer Pack 申请",
'developer': "直接注册,免费额度自动生效",
'open_source': "申请开源项目赞助计划"
},
'aliyun': {
'student': "1. 学生实名认证 2. 领取300元券 3. 选择轻量应用服务器",
'developer': "1. 新用户注册 2. 参与99计划 3. 申请5亿算力补贴"
},
}
3. 部署自动化
跨平台部署策略:
class MultiCloudDeployer:
"""多云部署器"""
def __init__(self):
self.deploy_targets = {
'static': ['cloudflare_pages', 'vercel', 'netlify', 'github_pages'],
'serverless': ['cloudflare_workers', 'vercel_functions', 'deno_deploy'],
'container': ['vercel', 'netlify', 'aliyun_container'],
'database': ['vercel_postgres', 'supabase', 'neon_tech']
}
def deploy_static_site(self, build_dir, target='all'):
"""
部署静态站点
Args:
build_dir: 构建目录
target: 部署目标 ('all', 'cloudflare', 'vercel', 'netlify')
"""
pass
4. 成本监控与优化
成本监控指标:
- 资源使用率:CPU、内存、存储、网络
- 费用预测:基于使用模式预测月度费用
- 浪费检测:闲置资源、未使用服务
- 预算告警:接近预算阈值时告警
优化策略:
- 自动缩容:低流量时段减少资源
- 冷存储:不常访问数据移到冷存储
- 缓存优化:增加缓存命中率,减少后端调用
- CDN 利用:最大化免费 CDN 资源
5. 健康监控与告警
监控维度:
- 可用性:服务响应时间、错误率
- 性能:API 延迟、页面加载时间
- 安全:异常访问、DDoS 攻击
- 业务:关键业务指标、用户行为
告警机制:
- 分级告警:INFO → WARNING → ERROR → CRITICAL
- 多渠道通知:邮件、Slack、Telegram、短信
- 自动修复:简单问题自动修复,复杂问题人工介入
6. 备份与灾难恢复
备份策略:
- 频率:实时同步、每日备份、每周归档
- 存储:跨地域、跨云平台存储
- 验证:定期恢复测试,确保备份可用
恢复流程:
- 故障检测:自动检测服务故障
- 影响评估:评估影响范围和优先级
- 恢复执行:自动或手动执行恢复
- 验证确认:验证服务恢复正常
- 事后分析:分析原因,改进流程
工作流决策树
选择云平台
-
项目类型是什么?
- 静态站点 → Cloudflare Pages(无带宽限制)
- Next.js 应用 → Vercel(优化最好)
- 简单静态站 → GitHub Pages(完全免费)
- Serverless API → Cloudflare Workers(10万次/天)
- 需要数据库 → Vercel Postgres 或 Supabase
-
用户分布在哪里?
- 全球用户 → Cloudflare(边缘网络最好)
- 主要在国内 → 阿里云/腾讯云 + Cloudflare 中国版
- 混合分布 → 多云部署,CDN 优化
-
预算是多少?
- 零预算 → 完全使用免费层
- 小额预算 → 按需付费 + 免费层组合
- 有预算 → 选择性价比最高方案
部署流程
- 本地测试:确保应用本地运行正常
- 选择平台:根据上述决策树选择
- 配置部署:创建部署配置文件
- 首次部署:部署到测试环境
- 验证测试:功能、性能、安全测试
- 生产部署:部署到生产环境
- 监控设置:配置监控告警
成本优化循环
- 监控:持续监控资源使用和费用
- 分析:识别浪费和优化机会
- 实施:实施优化措施
- 验证:验证优化效果
- 迭代:持续优化循环
最佳实践
安全最佳实践
- 最小权限:服务使用最小必要权限
- 密钥管理:使用环境变量或密钥管理服务
- 网络隔离:生产环境和开发环境隔离
- 日志审计:记录所有操作,便于审计
成本最佳实践
- 预算设置:为每个项目设置明确预算
- 费用告警:设置费用阈值告警
- 定期审查:每月审查费用,识别浪费
- 利用免费层:最大化免费资源使用
可靠性最佳实践
- 多区域部署:避免单点故障
- 自动备份:自动化备份关键数据
- 健康检查:定期检查服务健康状态
- 灾难恢复演练:定期进行恢复演练
性能最佳实践
- CDN 优化:使用全球 CDN 加速
- 缓存策略:合理设置缓存规则
- 代码优化:优化应用代码性能
- 资源优化:按需分配资源,避免浪费
脚本参考
scripts/cloud_resource_audit.py
云资源审计工具。功能:
- 扫描云账户,识别所有资源
- 分析资源使用率和费用
- 检测闲置资源和浪费
- 生成优化建议报告
scripts/multi_cloud_deploy.py
多云部署工具。功能:
- 支持同时部署到多个云平台
- 自动化配置和验证
- 部署状态监控和回滚
- 跨平台同步配置
scripts/cost_optimizer.py
成本优化工具。功能:
- 费用监控和预测
- 浪费资源自动清理
- 预算告警和通知
- 优化效果追踪
scripts/disaster_recovery.py
灾难恢复工具。功能:
- 自动化备份执行
- 恢复流程编排
- 恢复测试自动化
- 恢复文档生成
参考文档
详见 references/ 目录下的:
free_tier_comparison_2026.md:2026年各云平台免费层详细对比
deployment_guides.md:各平台部署指南和最佳实践
cost_optimization_strategies.md:成本优化策略和案例
security_best_practices.md:云安全最佳实践
disaster_recovery_plan.md:灾难恢复计划模板
模板和配置
assets/ 目录包含:
deployment_templates/:各平台部署配置文件模板
monitoring_configs/:监控告警配置模板
backup_scripts/:备份脚本模板
terraform_configs/:基础设施即代码配置
提示:使用此技能时,首先明确项目需求和约束,选择合适的云平台组合。对于关键业务,建议采用多云架构以提高可靠性。始终从免费层开始,按需升级。