| name | se7en-doc-converter |
| description | 文档转写专家——将 PDF、Word、PPT 等文档转为 Markdown。
**触发场景**:上传文档、转写文档、导入文档、文档转 md、归档文档。
自动识别文档类型,转写为 .md 格式,支持自定义输出位置。
|
| version | 1.0.0 |
| user_invocable | true |
文档转写与归档
支持格式
| 格式 | 扩展名 | 处理方式 |
|---|
| PDF | .pdf | 提取文本,保留结构 |
| Word | .docx, .doc | 提取文本和格式 |
| PowerPoint | .pptx, .ppt | 按幻灯片提取,保留层级 |
| 纯文本 | .txt | 直接转换 |
处理流程
1. 识别文档
读取用户上传的文档,识别:
2. 内容转写
将文档内容转为 Markdown 格式:
- 保留标题层级(# ## ###)
- 保留列表、表格结构
- 图片标注为
[图片: 描述]
- PPT 按幻灯片分节,标注页码
3. 确定输出位置
询问用户确认输出路径:
文档转写完成,建议保存为 [建议文件名].md。
保存到哪里?(给个路径,或者我存到当前目录)
4. 写入文件
将转写内容写入确认的位置。
Markdown 转写规范
标题
# 一级标题(文档标题)
## 二级标题(章节)
### 三级标题(小节)
元信息(frontmatter)
---
title: 文档标题
source: 原文件名.pdf
converted: 2026-02-03
tags: [标签1, 标签2]
---
PPT 特殊处理
---
## 幻灯片 1: [标题]
[内容]
---
## 幻灯片 2: [标题]
[内容]
注意事项
- 大文件分割:超过 500 行考虑拆分为多个文件
- 图片处理:仅标注位置,不自动提取图片
- 编码处理:自动检测文件编码,优先 UTF-8