ワンクリックでManusで任意のスキルを実行

始める

extract-to-markdown

从 PDF 和图片中提取内容为 Markdown 格式。用于将文档转换为 Markdown、从扫描文档中提取文字、处理技术文档，或将图片/PDF 内容数字化以便编辑和复用。

Manusで実行

スター42

フォーク2

更新日2026年3月25日 06:42

ソース

Lionad-Morotar

Lionad-Morotar/blog

GitHub リポジトリを開く Creator のリポジトリを見る

インストールコマンド

ダウンロード

Manusで実行

役立つ用途SOC

データ入力オペレーターオフィス・行政サポート職43-9021L4

ファイルエクスプローラー

4 ファイル

SKILL.md

readonly

name	extract-to-markdown
description	从 PDF 和图片中提取内容为 Markdown 格式。用于将文档转换为 Markdown、从扫描文档中提取文字、处理技术文档，或将图片/PDF 内容数字化以便编辑和复用。

当前 SKILL 服务且仅服务于 /Users/lionad/Github/Lionad-Morotar/blog 博客项目，所有改动都应以该项目为基础。

提取为 Markdown

概述

将 PDF 文档和图片转换为结构化的 Markdown。本技能提供最佳工具推荐和工作流，实现准确提取并保留原有格式。

快速决策树

输入类型？
├── PDF（文本型或扫描型）
│   ├── 技术文档、学术论文 → Marker
│   └── 简单文本提取 → pdftotext (Poppler)
├── 图片（PNG、JPG 等）
│   ├── 带文字的截图 → Claude vision（直接读取）
│   ├── 扫描文档 → Tesseract OCR
│   └── 复杂布局图片 → PaddleOCR（中文支持）
└── 需要批量处理 → Marker（PDF）或 Tesseract（图片）

PDF 提取

Marker（推荐）

最适合技术文档、学术论文和复杂布局。保留结构、标题、表格和代码块。

# 单文件
marker single input.pdf --output_dir ./output

# 批量处理
marker --output_dir ./output ./pdfs/

# 指定页码范围
marker single input.pdf --output_dir ./output --page_range "0,5-10,20"

输出： Markdown 文件 + 提取的图片存放在子文件夹中

安装：

pip install marker-pdf

适用场景：

多栏布局
含表格和图片的文档
学术论文
技术文档
需要保留文档结构

pdftotext（轻量级）

快速提取文本，不保留格式。

# 基础提取
pdftotext input.pdf output.txt

# 保留布局
pdftotext -layout input.pdf output.txt

安装：

# macOS
brew install poppler

# Ubuntu/Debian
apt-get install poppler-utils

适用场景：

简单文本提取
大批量处理
不需要格式
快速预览

图片提取

Claude Vision（截图）

对于截图和清晰的图片，Claude 可以直接读取，无需额外工具。

最适合：

UI 截图
文字清晰的图片
小片段
快速提取，无需配置

Tesseract OCR

开源 OCR 引擎，适合扫描文档。

# 单张图片
tesseract image.png output -l eng

# 多语言
tesseract image.png output -l eng+chi_sim

# 保留空白
tesseract image.png output --psm 6

安装：

# macOS
brew install tesseract

# Ubuntu/Debian
apt-get install tesseract-ocr

# 语言包
brew install tesseract-lang  # macOS
apt-get install tesseract-ocr-chi-sim  # 简体中文

页面分割模式（--psm）：

模式	使用场景
3	默认，自动分割
6	单一均匀文本块
11	稀疏文本 - 尽可能找到更多文字
12	带 OSD 的稀疏文本

PaddleOCR（中文支持）

更适合中文文本和复杂布局。

# 安装
pip install paddleocr

# 命令行
paddleocr --image_dir image.png --use_angle_cls true --lang ch

# Python
from paddleocr import PaddleOCR
ocr = PaddleOCR(use_angle_cls=True, lang='ch')
result = ocr.ocr('image.png', cls=True)

适用场景：

中文文档
复杂布局
多语言混合文档
亚洲语言识别准确率优于 Tesseract

后处理技巧

清理提取的 Markdown

移除页码和页眉：
```
^\d+$\n?  # 独立数字（页码）
```
修复断句：
- 查找行尾的连字符单词
- 连接跨页断开的句子
表格格式：
- Marker 能很好地保留表格
- 其他工具可考虑使用表格转换器
图片引用：
- Marker 提取图片为 _page_X_Picture_Y.jpeg
- 移动到合适的资源文件夹

质量检查清单

常见问题

问题	解决方案
Marker 转换慢	首次运行需下载模型；后续运行更快
Tesseract 识别错误	尝试不同的 --psm 模式或图片预处理
复杂表格	Marker 处理效果最佳；可能需要手动清理
中文文本	使用 PaddleOCR 或 Tesseract 配合 chi_sim 语言包
带图片的扫描 PDF	Marker 自动提取文字和图片

LLM 润色（ProofReading）

提取 Markdown 后，使用 LLM 进行润色：

检查并修正识别错误 - 修复 OCR 或转换过程中产生的文字错误
优化排版格式 - 统一标题层级、代码块、列表等 Markdown 格式
改善可读性 - 去除多余的换行、修复断句、优化段落结构
保留原文意图 - 润色时不改变原意，仅改善表达方式

参考资料

Marker 文档：高级选项和故障排查
OCR 对比：针对特定使用场景的详细工具对比

このリポジトリの他の Skills

同じリポジトリ

rewrite

Lionad-Morotar/blog

以某种写作风格重写任意文档。当用户要求"仿照某篇文章风格重写"、"以 Daily Dose of DS 风格改写"、 "优化这篇博客让节奏更紧凑"、"把这个写得像 Avi Chawla 那样"、 "让这篇文章更有冲击力"、"用 hooks + 数据冲击的风格重写"时触发。也适用于任何需要把"说明文风格"的文档转化为更有节奏感、更有冲击力的风格的重写请求。用户可能需要先确认写作风格，确认后再执行重写。

2026-06-0142

extract-references

Lionad-Morotar/blog

从项目的 Markdown 文件中提取所有引用的外部网站链接，去重并按 A-Z 排序生成引用列表。禁止自动触发，该技能需要手动调用。

2026-03-2542

save-to-analytics

Lionad-Morotar/blog

将数据可视化报告（如 Visual Capitalist、Our World in Data、行业研究报告）归档到 analytics.md。当用户分享数据报告、调查报告、行业研究链接时使用，自动提取关键数据点并按主题整理。

2026-03-2542

save-to-product-hunt

Lionad-Morotar/blog

将 Product Hunt 发现的产品归档到 product-hunt.md。当用户分享带有 ?ref=producthunt 或其他产品发现来源的链接时使用。

2026-03-2542

deep-insight-workflow

Lionad-Morotar/blog

资料深度分析工作流，帮助用户从上传的资料（文档、网页、视频、图片等）中提取深度洞见、发现矛盾、构建框架、识别风险。当用户需要深度分析资料、进行尽职调查、撰写综述、提取可执行计划时触发。包含10个分析模块，支持依赖驱动的灵活组合和 reAct 循环。

2026-02-2642

name	extract-to-markdown
description	从 PDF 和图片中提取内容为 Markdown 格式。用于将文档转换为 Markdown、从扫描文档中提取文字、处理技术文档，或将图片/PDF 内容数字化以便编辑和复用。

当前 SKILL 服务且仅服务于 /Users/lionad/Github/Lionad-Morotar/blog 博客项目，所有改动都应以该项目为基础。

提取为 Markdown

概述

将 PDF 文档和图片转换为结构化的 Markdown。本技能提供最佳工具推荐和工作流，实现准确提取并保留原有格式。

快速决策树

输入类型？
├── PDF（文本型或扫描型）
│   ├── 技术文档、学术论文 → Marker
│   └── 简单文本提取 → pdftotext (Poppler)
├── 图片（PNG、JPG 等）
│   ├── 带文字的截图 → Claude vision（直接读取）
│   ├── 扫描文档 → Tesseract OCR
│   └── 复杂布局图片 → PaddleOCR（中文支持）
└── 需要批量处理 → Marker（PDF）或 Tesseract（图片）

PDF 提取

Marker（推荐）

最适合技术文档、学术论文和复杂布局。保留结构、标题、表格和代码块。

# 单文件
marker single input.pdf --output_dir ./output

# 批量处理
marker --output_dir ./output ./pdfs/

# 指定页码范围
marker single input.pdf --output_dir ./output --page_range "0,5-10,20"

输出： Markdown 文件 + 提取的图片存放在子文件夹中

安装：

pip install marker-pdf

适用场景：

多栏布局
含表格和图片的文档
学术论文
技术文档
需要保留文档结构

pdftotext（轻量级）

快速提取文本，不保留格式。

# 基础提取
pdftotext input.pdf output.txt

# 保留布局
pdftotext -layout input.pdf output.txt

安装：

# macOS
brew install poppler

# Ubuntu/Debian
apt-get install poppler-utils

适用场景：

简单文本提取
大批量处理
不需要格式
快速预览

图片提取

Claude Vision（截图）

对于截图和清晰的图片，Claude 可以直接读取，无需额外工具。

最适合：

UI 截图
文字清晰的图片
小片段
快速提取，无需配置

Tesseract OCR

开源 OCR 引擎，适合扫描文档。

# 单张图片
tesseract image.png output -l eng

# 多语言
tesseract image.png output -l eng+chi_sim

# 保留空白
tesseract image.png output --psm 6

安装：

# macOS
brew install tesseract

# Ubuntu/Debian
apt-get install tesseract-ocr

# 语言包
brew install tesseract-lang  # macOS
apt-get install tesseract-ocr-chi-sim  # 简体中文

页面分割模式（--psm）：

模式	使用场景
3	默认，自动分割
6	单一均匀文本块
11	稀疏文本 - 尽可能找到更多文字
12	带 OSD 的稀疏文本

PaddleOCR（中文支持）

更适合中文文本和复杂布局。

# 安装
pip install paddleocr

# 命令行
paddleocr --image_dir image.png --use_angle_cls true --lang ch

# Python
from paddleocr import PaddleOCR
ocr = PaddleOCR(use_angle_cls=True, lang='ch')
result = ocr.ocr('image.png', cls=True)

适用场景：

中文文档
复杂布局
多语言混合文档
亚洲语言识别准确率优于 Tesseract

后处理技巧

清理提取的 Markdown

移除页码和页眉：
```
^\d+$\n?  # 独立数字（页码）
```
修复断句：
- 查找行尾的连字符单词
- 连接跨页断开的句子
表格格式：
- Marker 能很好地保留表格
- 其他工具可考虑使用表格转换器
图片引用：
- Marker 提取图片为 _page_X_Picture_Y.jpeg
- 移动到合适的资源文件夹

质量检查清单

常见问题

问题	解决方案
Marker 转换慢	首次运行需下载模型；后续运行更快
Tesseract 识别错误	尝试不同的 --psm 模式或图片预处理
复杂表格	Marker 处理效果最佳；可能需要手动清理
中文文本	使用 PaddleOCR 或 Tesseract 配合 chi_sim 语言包
带图片的扫描 PDF	Marker 自动提取文字和图片

LLM 润色（ProofReading）

提取 Markdown 后，使用 LLM 进行润色：

检查并修正识别错误 - 修复 OCR 或转换过程中产生的文字错误
优化排版格式 - 统一标题层级、代码块、列表等 Markdown 格式
改善可读性 - 去除多余的换行、修复断句、优化段落结构
保留原文意图 - 润色时不改变原意，仅改善表达方式

参考资料

Marker 文档：高级选项和故障排查
OCR 对比：针对特定使用场景的详细工具对比