Run any Skill in Manus with one click

opendataloader-pdf

PDF 数据提取工具。当用户提到"PDF 提取"、"PDF 转 Markdown"、"PDF 解析"、"提取 PDF 内容"、"PDF 转 JSON"、"RAG PDF"时使用。OpenDataLoader PDF 是目前基准测试第一的 PDF 解析器，支持本地模式（快速、确定）和混合 AI 模式（复杂表格、扫描件、公式），输出 Markdown、JSON（带边界框）、HTML。适用于需要从 PDF 提取结构化数据用于 RAG/LLM pipeline，或需要批量处理 PDF 文档的场景。

Run Skill in Manus

Overview

Install command

npx skills add https://github.com/chujianyun/skills --skill opendataloader-pdf

Copy and paste this command into Claude Code to install the skill

Source

chujianyun/skills

Stars621

Forks89

UpdatedMarch 19, 2026 at 09:54

SKILL.md

readonly

name	opendataloader-pdf
description	PDF 数据提取工具。当用户提到"PDF 提取"、"PDF 转 Markdown"、"PDF 解析"、"提取 PDF 内容"、"PDF 转 JSON"、"RAG PDF"时使用。OpenDataLoader PDF 是目前基准测试第一的 PDF 解析器，支持本地模式（快速、确定）和混合 AI 模式（复杂表格、扫描件、公式），输出 Markdown、JSON（带边界框）、HTML。适用于需要从 PDF 提取结构化数据用于 RAG/LLM pipeline，或需要批量处理 PDF 文档的场景。
updated_at	"2026-03-19T00:00:00.000Z"

OpenDataLoader PDF

PDF 解析器 · 基准测试第一 · RAG/LLM 数据提取利器

功能定位

核心能力：从任意 PDF 提取结构化数据（Markdown、JSON、HTML），带边界框坐标
技术亮点：XY-Cut++ 读取顺序、Bounding Box 定位、AI 混合模式处理复杂页面
基准成绩：综合 0.90（第一），表格 0.93，读取顺序 0.94（对标 Docling、Marker、MinerU 等）
许可证：Apache 2.0（核心功能免费）

适用场景

批量提取 PDF 为 Markdown / JSON / HTML 用于 RAG 或 LLM 训练
需要边界框坐标做源码溯源（哪个段落来自 PDF 第几页哪个位置）
复杂表格、扫描件、含公式的学术 PDF
PDF 无障碍化（Tagged PDF 生成，Q2 2026 免费开放）

安装

前提

Java 11+
Python 3.10+

pip install -U opendataloader-pdf

混合 AI 模式（复杂表格 / OCR / 公式）：

pip install "opendataloader-pdf[hybrid]"

快速使用

CLI（适合单文件或批量）

# 快速模式：输出 Markdown + JSON
opendataloader-pdf input.pdf output_dir/

# 指定格式
opendataloader-pdf input.pdf output_dir/ --format markdown,json,html

# 混合 AI 模式（复杂表格 / 扫描件）
opendataloader-pdf --hybrid docling-fast input.pdf output_dir/

# 混合模式 + OCR（扫描件）
opendataloader-pdf --hybrid docling-fast --force-ocr input.pdf output_dir/

# 混合模式 + 公式识别
opendataloader-pdf --hybrid docling-fast --hybrid-mode full input.pdf output_dir/

Python API

import opendataloader_pdf

# 批量处理（一次调用会启动 JVM，建议批量一次性传入）
opendataloader_pdf.convert(
    input_path=["file1.pdf", "file2.pdf", "folder/"],
    output_dir="output/",
    format="markdown,json"
)

模式选择指南

文档类型	模式	命令
标准数字 PDF	快速（默认）	`opendataloader-pdf file.pdf out/`
复杂/无线框表格	混合	`opendataloader-pdf --hybrid docling-fast file.pdf out/`
扫描件	混合 + OCR	同上 + `--force-ocr`
非英语扫描件	混合 + OCR	`--force-ocr --ocr-lang "ko,en"`
含数学公式	混合 + 公式	`--hybrid docling-fast --hybrid-mode full`
图表需要描述	混合 + 图片描述	`--enrich-picture-description --hybrid-mode full`

输出格式说明

Markdown

保留标题层级、表格结构、列表嵌套，适合直接用于 chunking。

JSON（带边界框）

{
  "pages": [{
    "page_number": 1,
    "elements": [{
      "type": "heading",
      "text": "...",
      "bbox": [x0, y0, x1, y1],
      "level": 1
    }, {
      "type": "table",
      "bbox": [x0, y0, x1, y1],
      "html": "..."
    }]
  }]
}

每个元素都有 bbox 坐标，方便做源码溯源。

HTML

保留布局结构，适合渲染或进一步处理。

Gotchas

每次 convert() 调用会启动一个新的 JVM 进程，所以批量文件建议一次传入，而不是循环多次调用
混合模式需要在后台启动服务器：opendataloader-pdf-hybrid --port 5002，然后客户端加 --hybrid docling-fast
--enrich-formula 或 --enrich-picture-description 必须在混合服务器和客户端都加 --hybrid-mode full，否则强化功能静默跳过
Java 选项修改后必须运行 npm run sync，它会重新生成 options.json 和所有 Python/Node.js 绑定

与其他工具的对比

引擎	综合分	表格	速度（秒/页）
opendataloader（混合）	0.90	0.93	0.43
docling	0.86	0.89	0.73
marker	0.83	0.81	53.93
mineru	0.82	0.87	5.96
pymupdf4llm	0.57	0.40	0.09

引用信息

PyPI：pip install opendataloader-pdf
npm：npm install @opendataloader/pdf
Maven：org.opendataloader:opendataloader-pdf-core
GitHub：https://github.com/opendataloader-project/opendataloader-pdf
基准测试：https://github.com/opendataloader-project/opendataloader-bench

More from this repository

same repository

local-audio-transcriber

chujianyun/skills

本地录音转文字工具。当用户发送已有录音、音频或视频文件，并希望把语音直接转成文字、会议逐字稿、采访文字稿、字幕 SRT/VTT 或 Markdown 记录时使用。Apple Silicon 优先用 MLX/Apple GPU 和 whisper-large-v3-turbo-q4，本地转写，不用于现场临时录音，也不默认调用云端语音识别服务。

2026-06-03621

alltuu-downloader

chujianyun/skills

喔图(alltuu.com)云摄影相册批量下载工具。当用户需要从 alltuu.com / m.alltuu.com 相册批量下载原图时使用此技能。支持下载原图（6720x4480 级别），自动处理签名URL，并发下载。适用于 alltuu.com/album/ 相册链接。

2026-05-10621

photoplus-downloader

chujianyun/skills

PhotoPlus相册批量下载原图工具。当用户需要从 photoplus.cn/live/ 相册批量下载原图时使用此技能。适用于 photoplus.cn 相册链接，支持多线程并发、自动跳过已下载文件。

2026-05-10621

remove-ai-flavor

chujianyun/skills

去除 AI 味道的文章风格优化技能。用于识别并改写文章、公众号稿、自媒体稿、口播稿、演讲稿、课程稿、产品文案中的 AI 痕迹、模板腔、资料味、翻译腔、空洞大词、过度金句、破折号滥用、bullet 堆叠、动不动加粗等问题；当用户说“去 AI 味”“去除 AI 痕迹”“不像 AI 写的”“更像人写的”“更自然”“别太机器味”“去掉模板感”“改得像公众号终稿”时使用。不用于事实核查、从零选题策划、论文转公众号、纯标题生成或追求 AI 检测器通过率。

2026-05-02621

agent-md-advisor

chujianyun/skills

AGENTS.md / CLAUDE.md 最佳实践顾问。用于用户询问 agents markdown、AGENTS.md、CLAUDE.md、Claude Code memory、AI coding agent 指令文件的格式、结构、最佳实践；也用于审查、诊断、重写、优化或从零创建 AGENTS.md、CLAUDE.md、CLAUDE.local.md、.claude/rules 等 agent 指令文件。不适用于通用 README 写作，除非目标是给 AI coding agent 提供项目上下文。

2026-04-29621

skill-optimizer

chujianyun/skills

审查并优化现有 skill 的触发语义、工作流、确认门槛、资源组织、安全边界与文档分层。当用户提到“优化 skill”“检查 skill 质量”“改进某个 skill”“重构技能说明”，或明确说明要优化哪些方面时使用。默认先审查并给计划，只有在用户明确确认开始修改后才实施。

2026-04-26621

Source

chujianyun

chujianyun/skills

View GitHub Repository View Creator Repositories

Install command

Download

Run Skill in Manus

Useful forSOC

Data ScientistsComputer and Mathematical Occupations15-2051L4

name	opendataloader-pdf
description	PDF 数据提取工具。当用户提到"PDF 提取"、"PDF 转 Markdown"、"PDF 解析"、"提取 PDF 内容"、"PDF 转 JSON"、"RAG PDF"时使用。OpenDataLoader PDF 是目前基准测试第一的 PDF 解析器，支持本地模式（快速、确定）和混合 AI 模式（复杂表格、扫描件、公式），输出 Markdown、JSON（带边界框）、HTML。适用于需要从 PDF 提取结构化数据用于 RAG/LLM pipeline，或需要批量处理 PDF 文档的场景。
updated_at	"2026-03-19T00:00:00.000Z"

OpenDataLoader PDF

PDF 解析器 · 基准测试第一 · RAG/LLM 数据提取利器

功能定位

核心能力：从任意 PDF 提取结构化数据（Markdown、JSON、HTML），带边界框坐标
技术亮点：XY-Cut++ 读取顺序、Bounding Box 定位、AI 混合模式处理复杂页面
基准成绩：综合 0.90（第一），表格 0.93，读取顺序 0.94（对标 Docling、Marker、MinerU 等）
许可证：Apache 2.0（核心功能免费）

适用场景

批量提取 PDF 为 Markdown / JSON / HTML 用于 RAG 或 LLM 训练
需要边界框坐标做源码溯源（哪个段落来自 PDF 第几页哪个位置）
复杂表格、扫描件、含公式的学术 PDF
PDF 无障碍化（Tagged PDF 生成，Q2 2026 免费开放）

安装

前提

Java 11+
Python 3.10+

pip install -U opendataloader-pdf

混合 AI 模式（复杂表格 / OCR / 公式）：

pip install "opendataloader-pdf[hybrid]"

快速使用

CLI（适合单文件或批量）

# 快速模式：输出 Markdown + JSON
opendataloader-pdf input.pdf output_dir/

# 指定格式
opendataloader-pdf input.pdf output_dir/ --format markdown,json,html

# 混合 AI 模式（复杂表格 / 扫描件）
opendataloader-pdf --hybrid docling-fast input.pdf output_dir/

# 混合模式 + OCR（扫描件）
opendataloader-pdf --hybrid docling-fast --force-ocr input.pdf output_dir/

# 混合模式 + 公式识别
opendataloader-pdf --hybrid docling-fast --hybrid-mode full input.pdf output_dir/

Python API

import opendataloader_pdf

# 批量处理（一次调用会启动 JVM，建议批量一次性传入）
opendataloader_pdf.convert(
    input_path=["file1.pdf", "file2.pdf", "folder/"],
    output_dir="output/",
    format="markdown,json"
)

模式选择指南

文档类型	模式	命令
标准数字 PDF	快速（默认）	`opendataloader-pdf file.pdf out/`
复杂/无线框表格	混合	`opendataloader-pdf --hybrid docling-fast file.pdf out/`
扫描件	混合 + OCR	同上 + `--force-ocr`
非英语扫描件	混合 + OCR	`--force-ocr --ocr-lang "ko,en"`
含数学公式	混合 + 公式	`--hybrid docling-fast --hybrid-mode full`
图表需要描述	混合 + 图片描述	`--enrich-picture-description --hybrid-mode full`

输出格式说明

Markdown

保留标题层级、表格结构、列表嵌套，适合直接用于 chunking。

JSON（带边界框）

{
  "pages": [{
    "page_number": 1,
    "elements": [{
      "type": "heading",
      "text": "...",
      "bbox": [x0, y0, x1, y1],
      "level": 1
    }, {
      "type": "table",
      "bbox": [x0, y0, x1, y1],
      "html": "..."
    }]
  }]
}

每个元素都有 bbox 坐标，方便做源码溯源。

HTML

保留布局结构，适合渲染或进一步处理。

Gotchas

每次 convert() 调用会启动一个新的 JVM 进程，所以批量文件建议一次传入，而不是循环多次调用
混合模式需要在后台启动服务器：opendataloader-pdf-hybrid --port 5002，然后客户端加 --hybrid docling-fast
--enrich-formula 或 --enrich-picture-description 必须在混合服务器和客户端都加 --hybrid-mode full，否则强化功能静默跳过
Java 选项修改后必须运行 npm run sync，它会重新生成 options.json 和所有 Python/Node.js 绑定

与其他工具的对比

引擎	综合分	表格	速度（秒/页）
opendataloader（混合）	0.90	0.93	0.43
docling	0.86	0.89	0.73
marker	0.83	0.81	53.93
mineru	0.82	0.87	5.96
pymupdf4llm	0.57	0.40	0.09

引用信息

PyPI：pip install opendataloader-pdf
npm：npm install @opendataloader/pdf
Maven：org.opendataloader:opendataloader-pdf-core
GitHub：https://github.com/opendataloader-project/opendataloader-pdf
基准测试：https://github.com/opendataloader-project/opendataloader-bench