| name | wechat-article-exporter |
| version | 1.0.0 |
| description | 微信公众号文章批量导出工具 - 支持Docker本地部署,实现三大场景的自动化工作流:法律研究和知识管理(每周批量下载法律公众号文章,导出Markdown到Obsidian)、竞品分析(下载竞品律所全部历史文章,导出Excel分析内容策略)、AI训练数据准备(批量下载特定领域文章,导出JSON用于模型微调)。支持Markdown、HTML、Excel、JSON四种格式导出 |
| allowed-tools | Read, Write, Edit, Bash, Glob, Grep |
| user-invocable | true |
| triggers | ["/wechat-article-exporter","下载公众号文章","导出微信文章","抓取公众号","wechat export","export wechat articles","下载微信文章","公众号文章导出","批量下载文章","微信文章采集","采集公众号","公众号文章下载","导出公众号","wechat article downloader","微信文章导出工具"] |
WeChat Article Exporter
微信公众号文章批量导出工具,支持自动化工作流和多格式导出。
🎯 核心功能
三大使用场景
场景1️⃣:法律研究和知识管理
- 每周批量下载法律公众号文章
- 导出为Markdown格式,方便编辑和整理
- 自动保存到Obsidian知识库
- 使用AI生成摘要和分类
场景2️⃣:竞品分析
- 下载竞品律所/律师的全部历史文章
- 导出为Excel格式,包含阅读量、评论等元数据
- 使用AI分析内容策略、高频关键词、爆款特征
- 分析发布时间分布和原创率
场景3️⃣:AI训练数据准备
- 批量下载特定领域公众号的完整文章库
- 导出为JSON格式,结构化数据
- 自动清洗和标注数据
- 分割训练集/验证集,用于微调Ollama模型
支持的导出格式
| 格式 | 文件扩展名 | 适用场景 | 优势 |
|---|
| Markdown | .md | 知识管理 | 便于编辑,适合Obsidian/Notion |
| HTML | .html | 存档备份 | 100%还原原文样式和排版 |
| Excel | .xlsx | 数据分析 | 包含阅读量、评论数等元数据 |
| JSON | .json | AI训练 | 结构化数据,便于程序处理 |
🚀 快速开始
前置要求
- ✅ Docker Desktop已安装并运行
- ✅ 微信账号(建议使用小号)
- ✅ 网络连接正常
Step 1:首次部署(自动)
当用户首次触发此Skill时,自动执行以下部署步骤:
docker pull ghcr.io/wechat-article/wechat-article-exporter:latest
docker run -d \
--name wechat-exporter \
-p 3000:3000 \
--restart unless-stopped \
ghcr.io/wechat-article/wechat-article-exporter:latest
sleep 5
curl http://localhost:3000/api/status
预期输出:
{
"status": "running",
"version": "latest"
}
Step 2:扫码登录
open http://localhost:3000
curl http://localhost:3000/api/qrcode
使用微信扫描二维码,确认登录。
Step 3:开始使用
服务部署完成后,即可开始下载文章。
📖 使用方法
基础用法
下载单个公众号文章
用户指令示例:
- "下载最高人民法院最近7天的文章"
- "导出海泰律师事务所的全部文章为Markdown"
- "抓取最高人民检察院上周的文章"
执行步骤:
curl "http://localhost:3000/api/search?keyword=最高人民法院"
curl "http://localhost:3000/api/articles?account_id=xxx&days=7"
curl -X POST http://localhost:3000/api/download \
-H "Content-Type: application/json" \
-d '{
"account_id": "xxx",
"format": "markdown",
"filters": {"days": 7, "original_only": true}
}'
批量下载多个公众号
用户指令示例:
- "批量下载最高法和最高检的文章"
- "下载以下公众号:最高人民法院、最高人民检察院、海泰律师事务所"
执行步骤:
python $SKILL_DIR/scripts/batch_download.py \
--accounts "最高人民法院,最高人民检察院,海泰律师事务所" \
--format markdown \
--output ./downloads/legal
高级用法
按场景使用
场景1:法律研究和知识管理
用户:下载最高人民法院最近一周的文章,保存为Markdown格式
AI执行:
- ✅ 检查Docker服务状态
- ✅ 搜索"最高人民法院"公众号
- ✅ 筛选最近7天的原创文章
- ✅ 下载并导出为Markdown格式
- ✅ 保存到指定目录
- ✅ 使用AI生成文章摘要
场景2:竞品分析
用户:分析竞品律所最近一年的文章策略
AI执行:
- ✅ 搜索竞品律所公众号
- ✅ 下载全部历史文章
- ✅ 导出为Excel格式
- ✅ 分析高频关键词
- ✅ 分析发布时间分布
- ✅ 识别爆款文章特征
场景3:AI训练数据准备
用户:准备建设工程领域的公众号文章用于AI训练
AI执行:
- ✅ 搜索建设工程相关公众号
- ✅ 批量下载完整文章库
- ✅ 导出为JSON格式
- ✅ 清洗数据(去除HTML、提取纯文本)
- ✅ 去重和过滤
- ✅ 分割训练集/验证集
🔧 配置选项
下载选项
| 参数 | 说明 | 默认值 |
|---|
--days | 最近N天,0表示全部 | 0 |
--original-only | 仅下载原创文章 | false |
--format | 导出格式 | markdown |
--output | 输出目录 | ./downloads |
--limit | 最大文章数 | 0(无限制) |
筛选条件
--days 7
--days 30
--original-only
--author "作者名"
--collection "合集名"
📂 输出文件
文件组织结构
downloads/
├── 最高人民法院/
│ ├── 2026-01-26-文章标题1.md
│ ├── 2026-01-26-文章标题2.md
│ └── manifest.json # 文章清单
├── 最高人民检察院/
│ ├── 2026-01-26-文章标题3.md
│ └── manifest.json
└── batch_report.json # 批量下载报告
文件格式说明
Markdown格式
---
title: 文章标题
date: 2026-01-26
author: 作者名
original: true
url: https://mp.weixin.qq.com/s/xxx
---
# 文章标题
文章正文内容...
Excel格式
包含以下列:
- 标题
- 发布时间
- 作者
- 阅读量
- 点赞量
- 原创标识
- 文章链接
JSON格式
{
"export_time": "2026-01-26T10:00:00Z",
"total": 15,
"articles": [
{
"title": "文章标题",
"url": "https://mp.weixin.qq.com/s/xxx",
"publish_time": "2026-01-26",
"author": "作者",
"read_count": 12345,
"content": "文章内容..."
}
]
}
⚠️ 注意事项
账号安全
- ⚠️ 建议使用微信小号:避免使用主账号
- ✅ 数据完全在本地:不会上传到第三方服务器
- ⚠️ Session有效期:约24小时,过期需重新扫码
频率控制
- ✅ 每次下载1-2个公众号:避免触发微信风控
- ✅ 下载间隔5-10分钟:给微信API缓冲时间
- ❌ 避免一次性下载过多:可能导致账号限制
版权合规
- ✅ 仅用于个人学习研究
- ✅ 版权归原作者所有
- ❌ 不得直接复制发布到其他平台
- ❌ 不得用于商业侵权
数据备份
- ✅ 下载后及时备份
- ✅ 定期归档历史数据
- ✅ 使用云盘或外部存储
🐛 故障排查
Docker相关
容器无法启动
lsof -i :3000
docker run -d --name wechat-exporter -p 3001:3000 ghcr.io/wechat-article/wechat-article-exporter:latest
docker logs wechat-exporter
服务无响应
docker restart wechat-exporter
curl http://localhost:3000/api/status
docker logs -f wechat-exporter
下载相关
扫码登录失败
- 检查网络连接
- 刷新页面重试
- 确认Docker服务正在运行
- 查看容器日志排查错误
下载失败
- 检查登录状态是否过期
- 减少单次下载数量
- 增加下载间隔时间
- 检查公众号名称是否正确
格式导出失败
- 确认选择的格式支持
- 检查磁盘空间
- 查看容器错误日志
📊 常见使用场景
场景1:每周自动下载
python $SKILL_DIR/scripts/schedule.py \
--weekly \
--accounts "最高人民法院,最高人民检察院" \
--format markdown
场景2:竞品对比分析
python $SKILL_DIR/scripts/analyze.py \
--accounts "竞品A,竞品B,竞品C" \
--format excel \
--analyze
场景3:AI数据准备
python $SKILL_DIR/scripts/prepare_training.py \
--category "建设工程" \
--format json \
--clean \
--split
💡 最佳实践
数据组织
knowledge-base/
├── legal-news/ # 法律资讯
│ ├── 2026-01/
│ │ ├── 最高法/
│ │ └── 最高检/
├── competitor-analysis/ # 竞品分析
│ ├── 竞品A.xlsx
│ └── 竞品B.xlsx
└── ai-training/ # AI训练数据
├── raw-data/
└── processed/
标签管理
在Markdown文件中添加YAML frontmatter:
---
title: 文章标题
date: 2026-01-26
tags: [法律资讯, 最高法, 司法解释]
category: 民法
---
定期维护
- 每周备份下载的数据
- 定期清理过期文章
- 更新公众号列表
- 检查Docker镜像更新
🔄 更新日志
v1.0.0 (2026-01-26)
- ✅ 初始版本发布
- ✅ 支持四种格式导出
- ✅ Docker本地部署
- ✅ 批量下载功能
- ✅ 数据清洗和处理
📞 技术支持
如遇问题,请检查:
- Docker服务是否运行
- 容器日志是否有错误
- 网络连接是否正常
- 微信登录是否有效
祝您使用愉快! 🎉