一键导入
一键导入
| name | paper_reader |
| description | 解析并分析学术 PDF 论文 — 深度多模态提取文本与图表,支持结构化解析和视觉分析 |
当用户提出以下需求时使用此 Skill:
pip install -r requirements.txt当用户通过 paper-search MCP 工具搜索到论文后,使用此命令下载 PDF:
python skills/paper_reader/scripts/parse_pdf.py --action download --url "<arXiv_ID_or_URL>"
支持两种格式:
--url "2210.03629" → 自动拼接为 https://arxiv.org/pdf/2210.03629.pdf--url "https://arxiv.org/pdf/2210.03629.pdf"--filename "ReAct.pdf" 自定义文件名(默认从 arXiv ID 自动生成)PDF 文件保存到 data/ 目录。下载完成后,使用下方的深度解析命令分析论文。
一次性提取文本 + 章节结构 + 所有嵌入图片,是论文分析的最佳起点。
python skills/paper_reader/scripts/parse_pdf.py --action deep --pdf "<pdf_path>"
返回结构化 JSON,包含:
⚠️ Token 成本控制规则:
view_file 查看图片view_file 查看view_file 查看一张图片约消耗 500~1500 Vision Token设计原理:文本用文本提取(零 Vision 开销),图片只提取嵌入的 figure(不做全页渲染),最大化信息密度、最小化 token 消耗。
当用户想要快速了解论文各个章节时:
python skills/paper_reader/scripts/parse_pdf.py --action structure --pdf "<pdf_path>"
这将返回包含章节名称和字数的 JSON 数据。请将其格式化为表格形式呈现。
当用户需要论文的全部文本内容时:
python skills/paper_reader/scripts/parse_pdf.py --action text --pdf "<pdf_path>"
返回全文内容。可以将其用于知识抽取(传递给 add_paper_to_graph MCP 工具)。
当用户明确要求分析某个具体的图表时:
python skills/paper_reader/scripts/parse_pdf.py --action images --pdf "<pdf_path>" --page <page_num>
此命令会将提取出的图片保存到 data/scholarmind_images/ 并返回它们的文件路径。
图表分析触发条件(仅当以下情况之一成立时才使用 view_file 查看图片):
禁止触发的情况:
分析图片时,结合论文 text 中引用该图表的上下文段落(如 "As shown in Fig. 2...")能显著提升分析质量。
当页面包含复杂公式、矢量图或扫描版 PDF 时,才需要全页渲染:
python skills/paper_reader/scripts/parse_pdf.py --action render --pdf "<pdf_path>" --page <page_num> --dpi 200
将渲染后的页面保存到 data/scholarmind_images/ 并返回路径。请使用 view_file 查看渲染出的页面图片并进行分析。
python skills/paper_reader/scripts/parse_pdf.py --action metadata --pdf "<pdf_path>"
返回标题、作者、页数、文件大小以及该文档是否为扫描版 PDF。
始终以结构化的 Markdown 格式展示结果:
在分析完一篇论文后,主动建议下一步操作:
add_paper_to_graph MCP 工具,将 deep 解析的全文文本传入view_file 查看指定图片code-execution MCP 工具