con un clic
使用 MinerU 云 API 解析 PDF、Office、图片或 HTML 文档,并通过轮询或批量接口获取结果。
npx skills add https://github.com/xihuai18/skills --skill mineru-apiCopia y pega este comando en Claude Code para instalar la habilidad
使用 MinerU 云 API 解析 PDF、Office、图片或 HTML 文档,并通过轮询或批量接口获取结果。
npx skills add https://github.com/xihuai18/skills --skill mineru-apiCopia y pega este comando en Claude Code para instalar la habilidad
| name | mineru-api |
| description | 使用 MinerU 云 API 解析 PDF、Office、图片或 HTML 文档,并通过轮询或批量接口获取结果。 |
| license | MIT |
| compatibility | opencode |
| metadata | {"category":"documents","transport":"https","auth":"bearer-token"} |
task_id / batch_id、任务状态、full_zip_url 以及可交付 markdown优先不要用我:
真实调用前先确认:
docx / html / latex如果缺少 Token、输入 URL 或本地文件路径,先向用户索取,不要假设。
不要把 Token 写进仓库、SKILL.md、脚本源码或命令历史。
推荐顺序:
MINERU_API_TOKENMINERU_API_TOKEN_FILEskills/mineru-api/.env.mineru.local~/.config/mineru/token本仓库里最顺手的放法是 mineru-api/.env.mineru.local。
这是默认规则。 并行时重点不是“多发请求”,而是“避免重复提交、输出互相覆盖、轮询把 API 打爆”。
data_id./tmp/mineru/<run_id>/<data_id>/3-10 秒,并加一点 jitterPOST /extract/task/batchPOST /file-urls/batchfull_zip_url:不要重复提交,直接下载和清洗如果要和 playwright-cli 并行配合,默认这样分工:
playwright-cli worker 负责登录、找链接、下载文件data_id 和输出目录mineru-api worker 负责批量提交、轮询、下载 full_zip_urlassets/ 或 manifest.json如果已经在用 playwright-cli 的并行规范,可以用 playwright-cli/scripts/parallel_run_manifest.py 生成统一计划文件,再让浏览器 worker 使用 workers[*],让 MinerU worker 使用 documents[*]。
更多细节见:references/parallel-orchestration.md
POST https://mineru.net/api/v4/extract/taskdata.task_idGET https://mineru.net/api/v4/extract/task/{task_id} 轮询state=donefull_zip_urlPOST https://mineru.net/api/v4/file-urls/batchPUTbatch_idGET https://mineru.net/api/v4/extract-results/batch/{batch_id} 轮询POST https://mineru.net/api/v4/extract/task/batchbatch_idGET https://mineru.net/api/v4/extract-results/batch/{batch_id} 轮询优先使用 scripts/mineru_to_markdown.py 获取可交付 markdown。
它会:
full_zip_urlassets/ 和 manifest.json最常见用法:
export MINERU_API_TOKEN='your-token'
python skills/mineru-api/scripts/mineru_to_markdown.py \
--pdf ./paper.pdf \
--output ./out/paper
如果输入是公网 URL:
export MINERU_API_TOKEN='your-token'
python skills/mineru-api/scripts/mineru_to_markdown.py \
--url 'https://cdn-mineru.openxlab.org.cn/demo/example.pdf' \
--output ./out/example
如果你已经有结果 ZIP:
python skills/mineru-api/scripts/mineru_to_markdown.py \
--zip ./result.zip \
--output ./out/result
这个脚本更像“单文档处理器”,不是通用并行调度器;大批量任务应由外层协调器分配 data_id、提交任务、轮询结果,再逐个调用脚本清洗。
task_id 或 batch_idfull_zip_urlscripts/mineru_to_markdown.pydata_id、任务表、输出目录和轮询策略,再决定是单任务并发还是 batch API所有核心请求都需要:
Authorization: Bearer <TOKEN>
Content-Type: application/json
Accept: */*
常用接口:
POST https://mineru.net/api/v4/extract/taskGET https://mineru.net/api/v4/extract/task/{task_id}POST https://mineru.net/api/v4/file-urls/batchPOST https://mineru.net/api/v4/extract/task/batchGET https://mineru.net/api/v4/extract-results/batch/{batch_id}常用字段:
urlmodel_version: pipeline / vlm / MinerU-HTMLdata_idpage_rangescallback + seedfull_zip_urlA0202:Token 错误A0211:Token 过期-500 / -10002:请求体或 Content-Type 错误-60005:文件大小超限-60006:页数超限-60008:URL 读取超时-60018:每日解析额度达到上限mineru-api/references/parallel-orchestration.md - 需要任务表、目录树、轮询调优和分阶段编排时再读mineru-api/scripts/mineru_to_markdown.pyplaywright-cli 共享计划文件:playwright-cli/scripts/parallel_run_manifest.pypython -m unittest "mineru-api/tests/test_mineru_to_markdown.py" "mineru-api/tests/test_parallel_docs.py"
full_zip_url,下一步转到下载、解压和读取结果文件,不要继续重复轮询