ワンクリックで
extract-to-markdown
从 PDF 和图片中提取内容为 Markdown 格式。用于将文档转换为 Markdown、从扫描文档中提取文字、处理技术文档,或将图片/PDF 内容数字化以便编辑和复用。
メニュー
从 PDF 和图片中提取内容为 Markdown 格式。用于将文档转换为 Markdown、从扫描文档中提取文字、处理技术文档,或将图片/PDF 内容数字化以便编辑和复用。
以某种写作风格重写任意文档。 当用户要求"仿照某篇文章风格重写"、"以 Daily Dose of DS 风格改写"、 "优化这篇博客让节奏更紧凑"、"把这个写得像 Avi Chawla 那样"、 "让这篇文章更有冲击力"、"用 hooks + 数据冲击的风格重写"时触发。 也适用于任何需要把"说明文风格"的文档转化为更有节奏感、 更有冲击力的风格的重写请求。用户可能需要先确认写作风格,确认后再执行重写。
从项目的 Markdown 文件中提取所有引用的外部网站链接,去重并按 A-Z 排序生成引用列表。禁止自动触发,该技能需要手动调用。
将数据可视化报告(如 Visual Capitalist、Our World in Data、行业研究报告)归档到 analytics.md。当用户分享数据报告、调查报告、行业研究链接时使用,自动提取关键数据点并按主题整理。
将 Product Hunt 发现的产品归档到 product-hunt.md。当用户分享带有 ?ref=producthunt 或其他产品发现来源的链接时使用。
资料深度分析工作流,帮助用户从上传的资料(文档、网页、视频、图片等)中提取深度洞见、发现矛盾、构建框架、识别风险。当用户需要深度分析资料、进行尽职调查、撰写综述、提取可执行计划时触发。包含10个分析模块,支持依赖驱动的灵活组合和 reAct 循环。
| name | extract-to-markdown |
| description | 从 PDF 和图片中提取内容为 Markdown 格式。用于将文档转换为 Markdown、从扫描文档中提取文字、处理技术文档,或将图片/PDF 内容数字化以便编辑和复用。 |
当前 SKILL 服务且仅服务于 /Users/lionad/Github/Lionad-Morotar/blog 博客项目,所有改动都应以该项目为基础。
将 PDF 文档和图片转换为结构化的 Markdown。本技能提供最佳工具推荐和工作流,实现准确提取并保留原有格式。
输入类型?
├── PDF(文本型或扫描型)
│ ├── 技术文档、学术论文 → Marker
│ └── 简单文本提取 → pdftotext (Poppler)
├── 图片(PNG、JPG 等)
│ ├── 带文字的截图 → Claude vision(直接读取)
│ ├── 扫描文档 → Tesseract OCR
│ └── 复杂布局图片 → PaddleOCR(中文支持)
└── 需要批量处理 → Marker(PDF)或 Tesseract(图片)
最适合技术文档、学术论文和复杂布局。保留结构、标题、表格和代码块。
# 单文件
marker single input.pdf --output_dir ./output
# 批量处理
marker --output_dir ./output ./pdfs/
# 指定页码范围
marker single input.pdf --output_dir ./output --page_range "0,5-10,20"
输出: Markdown 文件 + 提取的图片存放在子文件夹中
安装:
pip install marker-pdf
适用场景:
快速提取文本,不保留格式。
# 基础提取
pdftotext input.pdf output.txt
# 保留布局
pdftotext -layout input.pdf output.txt
安装:
# macOS
brew install poppler
# Ubuntu/Debian
apt-get install poppler-utils
适用场景:
对于截图和清晰的图片,Claude 可以直接读取,无需额外工具。
最适合:
开源 OCR 引擎,适合扫描文档。
# 单张图片
tesseract image.png output -l eng
# 多语言
tesseract image.png output -l eng+chi_sim
# 保留空白
tesseract image.png output --psm 6
安装:
# macOS
brew install tesseract
# Ubuntu/Debian
apt-get install tesseract-ocr
# 语言包
brew install tesseract-lang # macOS
apt-get install tesseract-ocr-chi-sim # 简体中文
页面分割模式(--psm):
| 模式 | 使用场景 |
|---|---|
| 3 | 默认,自动分割 |
| 6 | 单一均匀文本块 |
| 11 | 稀疏文本 - 尽可能找到更多文字 |
| 12 | 带 OSD 的稀疏文本 |
更适合中文文本和复杂布局。
# 安装
pip install paddleocr
# 命令行
paddleocr --image_dir image.png --use_angle_cls true --lang ch
# Python
from paddleocr import PaddleOCR
ocr = PaddleOCR(use_angle_cls=True, lang='ch')
result = ocr.ocr('image.png', cls=True)
适用场景:
移除页码和页眉:
^\d+$\n? # 独立数字(页码)
修复断句:
表格格式:
图片引用:
_page_X_Picture_Y.jpeg| 问题 | 解决方案 |
|---|---|
| Marker 转换慢 | 首次运行需下载模型;后续运行更快 |
| Tesseract 识别错误 | 尝试不同的 --psm 模式或图片预处理 |
| 复杂表格 | Marker 处理效果最佳;可能需要手动清理 |
| 中文文本 | 使用 PaddleOCR 或 Tesseract 配合 chi_sim 语言包 |
| 带图片的扫描 PDF | Marker 自动提取文字和图片 |
提取 Markdown 后,使用 LLM 进行润色: