원클릭으로 Manus에서 모든 스킬 실행

$pwd:

ocr-kb

Name: Ocr Kb
Author: TFboy1

// 使用多模态大模型逐页读取长文档图片，精确提取文本、LaTeX公式和独立科研配图。支持环境清理、断点恢复、全局编号管理、失败页标记与部分重跑。逐页生成DOCX并每两页核查质量。本 Skill 专用于 Pipeline A（OCR 管道），处理 PDF 输入。中间产物全部放在 resources/，最终交付物放在 outputs/。Pipeline B / C 定义在主 SKILL.md 中。

Manus에서 실행

$ git log --oneline --stat

stars:213

forks:14

updated:2026년 4월 8일 03:11

파일 탐색기

3 개 파일

SKILL.md

readonly

related-skills.json

같은 저장소

academic-paper-writer-pro.md

from "TFboy1/academic-paper-writer"

基于规范目录结构的学术论文排版助手。支持 PDF / .doc / .docx / .md 多种输入格式，自动选择 OCR 管道、重排版管道或 MD 直转管道。包含环境清理确认、断点恢复、智能配图裁剪、逐单元增量生成 DOCX、双单元质量核查、中间状态保存和 BibTeX 参考文献管理。所有中间文件放 resources/，最终产物放 outputs/。

2026-04-15213

content-generation.md

from "TFboy1/academic-paper-writer"

基于代码仓库、笔记、实验数据或论文要求，全自动智能撰写学术论文初稿的主线管线。强制分章逐批检索代码、分步输出，内置规避上下文超限机制和人工审核卡点，无缝衔接格式化引擎。内置严格的学术 Prompt 准则与多模态图表检索能力。

2026-04-14213

docx.md

from "TFboy1/academic-paper-writer"

Use this skill whenever the user wants to create, read, edit, or manipulate Word documents (.docx files). Triggers include: any mention of "Word doc", "word document", ".docx", or requests to produce professional documents with formatting like tables of contents, headings, page numbers, or letterheads. Also use when extracting or reorganizing content from .docx files, inserting or replacing images in documents, performing find-and-replace in Word files, working with tracked changes or comments, or converting content into a polished Word document. If the user asks for a "report", "memo", "letter", "template", or similar deliverable as a Word or .docx file, use this skill. Do NOT use for PDFs, spreadsheets, Google Docs, or general coding tasks unrelated to document generation.

2026-04-08213

package.json

"author": "TFboy1"

"repository": "TFboy1/academic-paper-writer"

GitHub 저장소 열기 Creator 저장소 보기

$ install --global

$ download --local

Manus에서 실행

$ useful --forSOC

기술 작가예술, 디자인, 엔터테인먼트, 스포츠, 미디어직27-3042L4

name	ocr_kb
description	使用多模态大模型逐页读取长文档图片，精确提取文本、LaTeX公式和独立科研配图。支持环境清理、断点恢复、全局编号管理、失败页标记与部分重跑。逐页生成DOCX并每两页核查质量。本 Skill 专用于 Pipeline A（OCR 管道），处理 PDF 输入。中间产物全部放在 resources/，最终交付物放在 outputs/。Pipeline B / C 定义在主 SKILL.md 中。
license	Proprietary. LICENSE.txt has complete terms

论文排版与整理完全工作流 (Iterative OCR & Typesetting Pipeline)

0. 目录规范 (Directory Convention)

所有中间文件和最终产物必须严格遵守以下目录结构，禁止在项目根目录下放置任何生成文件：

项目根目录/
├── resources/
│   ├── pages/          # 切分出的单页 PNG 图片
│   ├── figures/        # 从页面中裁剪出的独立科研配图（全局编号）
│   ├── md/             # 每页的 Markdown 提取结果 (page_1.md, page_2.md, ...)
│   ├── scripts/        # 所有 Python 辅助脚本（可跨任务复用，清理时不删除）
│   ├── compiled_paper.md  # 最终汇总的完整 Markdown
│   ├── config.json     # 任务配置（源 PDF、格式规范），整个任务期间不变
│   └── checkpoint.json # 运行时进度（当前页、计数器、失败页），随处理更新
├── outputs/
│   ├── <name>_checkpoint_p<N>.docx   # 核查点中间版本
│   └── <name>_final_<date>.docx      # 最终交付版本
├── ocr_kb/
│   └── SKILL.md        # 本文件
└── <source>.pdf        # 用户提供的原始 PDF

0.5 `resources/config.json` 规范 (Task Configuration)

在每次新任务启动时创建，整个任务期间不修改。续作时直接读取。所有管道共用同一 schema。

{
  "source_file": "2103.10360v2.pdf",
  "source_type": "pdf",
  "pipeline": "A",
  "format_style": "IEEE",
  "template_file": null,
  "total_units": 16,
  "unit_type": "page",
  "created_at": "2026-04-02T13:00:00+08:00"
}

字段	说明
`source_file`	用户指定的源文件名（PDF / DOC / DOCX / MD）
`source_type`	文件类型：`"pdf"` / `"doc"` / `"docx"` / `"md"`
`pipeline`	管道类型：`"A"`（OCR）/ `"B"`（重排版）/ `"C"`（MD 直转）
`format_style`	排版格式（IEEE / APA / 用户自定义 / ...）
`template_file`	用户提供的 `.docx` 模板路径，无则 `null`
`total_units`	总处理单元数（Pipeline A = 页数，Pipeline B/C = 章节数）
`unit_type`	进度单位：`"page"`（Pipeline A）/ `"section"`（Pipeline B/C）
`created_at`	任务创建时间

[!NOTE] Pipeline A 固定使用 source_type: "pdf", pipeline: "A", unit_type: "page"。

0.6 `resources/checkpoint.json` 规范 (Runtime Checkpoint)

在每完成一个单元（页或章节）的提取 + DOCX 追加后更新。**这是断点恢复的唯一依据。**所有管道共用同一 schema。

{
  "current_unit": 7,
  "unit_type": "page",
  "last_verified_unit": 6,
  "total_units": 16,
  "docx_path": "outputs/GLM_checkpoint_p6.docx",
  "global_figure_count": 4,
  "global_table_count": 2,
  "global_equation_count": 15,
  "needs_review": [3],
  "completed_units": [1, 2, 3, 4, 5, 6],
  "status": "suspended"
}

字段	说明
`current_unit`	下一个要处理的单元编号
`unit_type`	单元类型：`"page"`（Pipeline A）/ `"section"`（Pipeline B/C）
`last_verified_unit`	最后一个通过核查的单元编号
`total_units`	总单元数（从 config.json 同步）
`docx_path`	当前最新的 DOCX 中间版本路径
`global_figure_count`	全局配图计数器（只增不减）
`global_table_count`	全局表格计数器（只增不减）
`global_equation_count`	全局公式计数器（只增不减）
`needs_review`	标记为"需要复查"的单元编号列表
`completed_units`	已完成提取的单元编号列表
`status`	`"running"` / `"suspended"` / `"completed"`

更新时机（以 Pipeline A 为例，B/C 将"页"替换为"章节"）：

每完成一个单元：更新 current_unit、completed_units、计数器
每 2 个单元核查后：更新 last_verified_unit
核查发现问题：向 needs_review 添加单元编号
每 4 个单元悬挂前：设 status = "suspended"，保存 DOCX 中间版本
全部完成后：设 status = "completed"

Pipeline A 中间版本命名：使用 _checkpoint_p<N> 表示页码。Pipeline B/C 使用 _checkpoint_s<N> 表示章节。

0.7 脚本接口契约 (Script Contracts)

[!IMPORTANT] 以下脚本如果 resources/scripts/ 中已存在，直接复用，不要重新生成。仅在不存在时才创建，且必须严格遵守下列接口。

`split_pdf.py`

用法: python resources/scripts/split_pdf.py <pdf_path> <output_dir> [--dpi 300]
输入: PDF 文件路径，输出目录路径
输出: output_dir/page_1.png, page_2.png, ..., page_N.png
退出码: 0 成功，非 0 失败
stdout: 最后一行输出 "TOTAL_PAGES=N"

`extract_figures.py`

用法: python resources/scripts/extract_figures.py <page_image> <page_num> <coords_json> <output_dir> <start_index>
输入:
  - page_image: 单页 PNG 路径
  - page_num: 页码（用于日志）
  - coords_json: JSON 字符串，格式 [{"x0%": 10, "y0%": 30, "x1%": 90, "y1%": 70, "caption": "Figure N: ..."}]
  - output_dir: 输出目录
  - start_index: 全局起始编号（从 checkpoint.global_figure_count + 1 开始）
输出: output_dir/figure_<start_index>.png, figure_<start_index+1>.png, ...
退出码: 0 成功，非 0 失败
stdout: 最后一行输出 "FIGURES_EXTRACTED=K"

`generate_docx.py`

用法: python resources/scripts/generate_docx.py <compiled_md> <config_json> <output_path>
输入:
  - compiled_md: 汇总后的 Markdown 文件路径
  - config_json: 任务配置文件路径（读取 format_style 等信息）
  - output_path: 输出 DOCX 文件路径
输出: 指定路径的 .docx 文件
退出码: 0 成功，非 0 失败

`latex_to_omml.py`

用法: python ocr_kb/scripts/latex_to_omml.py <latex_string> [--inline]
输入:
  - latex_string: LaTeX 公式字符串（不含 $ 定界符）
  - --inline: 可选标志，输出行内 <m:oMath> 而非块级 <m:oMathPara>
输出: 标准输出打印完整的 OMML XML 片段
  - 无 --inline时: <m:oMathPara>...</m:oMathPara>
  - 有 --inline时: <m:oMath>...</m:oMath>
退出码: 0 成功，非 0 失败
stderr: 转换失败时输出错误信息（不支持的 LaTeX 命令等）
支持范围: 基础运算、分式(\frac)、上下标、根号(\sqrt)、
  希腊字母、求和/积分(\sum/\int)、矩阵(\matrix/\pmatrix)、
  常用数学符号(\leq/\geq/\neq/\approx/\infty 等)

[!NOTE] 此脚本位于 ocr_kb/scripts/（不在 resources/scripts/），因为它是 Skill 自带的工具而非任务生成的临时脚本。所有管道共用此脚本。

1. 逐页精读与追加写入 (Page-by-Page Extraction)

对于切分好的每一张单页图片（resources/pages/page_N.png），执行以下操作：

1.1 纯文本读取

一页一页地用视觉能力精读图片，将文字原汁原味提取出来。

[!CAUTION] 标题格式规范：切勿在文本中保留多余或错误的 Markdown 标题符号（如 #### 3.2.3）。最终生成 DOCX 时排版脚本会自动映射目标模板（如 IEEE 的罗马数字 I, II, A, B 等）。提取的 Markdown 必须使用极其干净的 # 层级（如 ## 代表一级标题，### 代表二级标题），绝对禁止原文档的旧编号或多余的 # 号残留在最终正文内。

1.2 公式转译

页面中的独立公式或行内公式（包括表格、图注中的单个数学符号如 $d_{model}$ ），必须全部读成标准 LaTeX 语法（行内使用 $ $ ，独立块使用 $$ $$）。每个独立公式递增 checkpoint.json 的 global_equation_count。

[!IMPORTANT] 此举是为了在最终生成 DOCX 时，确保 Python 脚本能通过正则表达式精准捕获这两类边界，并调用 latex_to_omml.py 将它们全部挂载为 Word 原生 OMML 公式（<m:oMath> 或 <m:oMathPara>）。切勿遗漏变量的包裹，否则它们只能渲染成普通文本。

1.3 插图识别与智能裁剪

[!IMPORTANT] 禁止直接把整页截图作为图片插入 Markdown。必须从页面中精确识别并裁剪出独立的科研配图。

具体流程：

识别：视觉读取当前页时，判断页面中是否存在独立的科研配图（Figure）或独立的表格图（Table 以图片形式呈现的）。
定位：确定配图在页面上的大致位置百分比坐标 (x0%, y0%, x1%, y1%)。
全局编号：从 checkpoint.json 读取 global_figure_count，本页新配图从 global_figure_count + 1 开始编号。裁剪完毕后更新 global_figure_count。表格同理使用 global_table_count。
裁剪：使用 resources/scripts/extract_figures.py 或 PyMuPDF 的 page.get_pixmap(clip=Rect(...)) 方法，按坐标从高分辨率页面渲染中裁剪出单独的配图，保存到 resources/figures/figure_N.png（N 为全局编号）。
引用：在 Markdown 中使用裁剪后的独立图片路径：
```
![Figure 4: 图注说明](resources/figures/figure_4.png)
```

1.4 写入

将当前页的提取结果写入 resources/md/page_N.md。

1.5 更新 Checkpoint

每写完一个 page_N.md 并追加到 DOCX 后，立即更新 checkpoint.json：

current_unit += 1
completed_units 添加当前页码
更新 global_figure_count / global_table_count / global_equation_count

2. 逐页 DOCX 生成与双页核查 (Incremental DOCX Generation)

[!IMPORTANT] 不再等到所有页面提取完毕后一次性生成 DOCX。每完成一页 MD 的提取，就立即将该页内容追加到正在构建的 DOCX 文件中。

2.1 单页流程

读一页图片 → 写 page_N.md → 将 page_N.md 内容追加到 DOCX → 更新 checkpoint.json

2.2 双页核查（每 2 页）

每完成 2 页的 DOCX 追加后，必须执行一次自检核查：

回顾刚追加的 2 页内容在 DOCX 中的排版效果（字体、公式、配图位置、标题层级）。
对照原始页面图片，确认没有信息丢失或格式错乱。
核查通过：在 checkpoint.json 中更新 last_verified_unit。
核查不通过：
- 在 checkpoint.json 的 needs_review 数组中记录问题页码。
- 尝试立即修复。如果修复成功，从 needs_review 中移除该页码。
- 如果无法修复，不阻塞后续页面处理，但在最终汇总前 needs_review 必须清零。

2.3 上下文极限保护

连续处理 4 页后，必须主动悬挂（suspend）：
1. 将 checkpoint.json 的 status 设为 "suspended"。
2. 保存当前 DOCX 中间版本到 outputs/（命名规则见 §2.4）。
3. 使用 notify_user 通知用户发送"继续"以刷新上下文窗口。
恢复后读取 checkpoint.json，从 current_unit 继续。

2.4 中间版本命名规则

类型	命名格式	示例
核查点中间版本	`outputs/<原文件名>_checkpoint_p<最后完成页码>.docx`	`outputs/GLM_checkpoint_p6.docx`
最终交付版本	`outputs/<原文件名>_final_<YYYYMMDD>.docx`	`outputs/GLM_final_20260402.docx`

[!NOTE] 每次保存新的核查点版本时，保留上一个版本不要删除，以便出问题时可以回退。

3. 最终排版定稿 (Final Typesetting)

3.1 needs_review 清零检查

在进入定稿之前，检查 checkpoint.json 的 needs_review：

不为空：列出所有待复查页码，逐页重新核查并修复。全部修复后才可继续。
为空：直接进入汇总。

3.2 汇总

将 resources/md/page_1.md ~ page_N.md 按顺序合并为 resources/compiled_paper.md。

3.3 生成最终 DOCX

使用 resources/scripts/generate_docx.py，按 config.json 中指定的格式规范生成最终排版文件，保存到 outputs/。

3.4 排版格式应用

排版参数从 config.json 的 format_params 读取（由主 SKILL.md §2.2 在启动时解析并写入）。

具体格式预设（IEEE / APA / 中国学位论文等）的完整参数表定义在主 SKILL.md §6 排版格式规范库中，本文件不再重复。

Pipeline A 的 DOCX 生成方式：使用 docx/SKILL.md 中的 docx-js 创建新文档，或使用 unpack-edit-pack 方式基于模板编辑。

关于图片、表格、页眉页脚、分栏、公式的排版细则，参见主 SKILL.md §5 通用排版细则。

3.5 更新 Checkpoint

设 checkpoint.json 的 status = "completed"，记录最终文件路径。

4. 执行口令指引 (Execution Triggers)

4.1 全新任务

用户发送 "按照某某格式排版这个 PDF" 时（主 SKILL.md 路由到 Pipeline A）：

清理确认：按主 SKILL.md §1.1 执行环境清理确认。
选定源文件：按主 SKILL.md §1.2 确认源 PDF 并选择 Pipeline A。
创建配置：写 resources/config.json（pipeline: "A", unit_type: "page"）。
切图：运行 resources/scripts/split_pdf.py。
建立进度：创建 resources/checkpoint.json（current_unit = 1, unit_type: "page"，所有计数器归零）。
逐页循环：按 §1 和 §2 执行。
汇总定稿：按 §3 执行。
输出报告：按主 SKILL.md §5 输出完成报告。

4.2 断点续作

用户发送 "继续" 时：

读取 resources/checkpoint.json。
从 current_unit 指定的页码继续逐页循环。
所有全局计数器从 checkpoint 恢复，不重置。

4.3 部分重跑

用户发送 "重跑第 N 页" 或 "rerun page N" 时：

读取 resources/checkpoint.json，确认第 N 页在 completed_units 中。
重新读取 resources/pages/page_N.png，重新执行 §1 的提取流程。
覆盖写入 resources/md/page_N.md。
注意：如果该页有配图，需要更新对应的 figure_*.png，但不改变全局编号——复用原编号。
从 needs_review 中移除 N（如果存在）。
重新生成最终 DOCX（重新执行 §3.2 ~ §3.3）。

4.4 批量重跑

用户发送 "重跑第 X-Y 页" 时：

按 §4.3 对范围内每一页逐一执行重跑。

5. 完成后结构化总结 (Completion Report)

[!IMPORTANT] 全部页面处理完毕并生成最终 DOCX 后，必须输出以下总结，不可省略。

【完成报告】
源文件：<config.source_file>
输入类型：<config.source_type>
处理管道：Pipeline <config.pipeline>
格式规范：<config.format_style>
总单元数：<checkpoint.total_units>（<config.unit_type>）
提取公式数：<checkpoint.global_equation_count>
裁剪配图数：<checkpoint.global_figure_count>
提取表格数：<checkpoint.global_table_count>
核查点版本数：<outputs/ 中 checkpoint 文件的数量>
最终文件：outputs/<最终文件名>.docx
遗留问题：<needs_review 中的单元编号 / 无>

ocr-kb

이 저장소의 다른 Skills

이 저장소의 다른 Skills

论文排版与整理完全工作流 (Iterative OCR & Typesetting Pipeline)

0. 目录规范 (Directory Convention)

0.5 resources/config.json 规范 (Task Configuration)

0.6 resources/checkpoint.json 规范 (Runtime Checkpoint)

0.7 脚本接口契约 (Script Contracts)

split_pdf.py

extract_figures.py

generate_docx.py

latex_to_omml.py

1. 逐页精读与追加写入 (Page-by-Page Extraction)

1.1 纯文本读取

1.2 公式转译

1.3 插图识别与智能裁剪

1.4 写入

1.5 更新 Checkpoint

2. 逐页 DOCX 生成与双页核查 (Incremental DOCX Generation)

2.1 单页流程

2.2 双页核查（每 2 页）

2.3 上下文极限保护

2.4 中间版本命名规则

3. 最终排版定稿 (Final Typesetting)

3.1 needs_review 清零检查

3.2 汇总

3.3 生成最终 DOCX

3.4 排版格式应用

3.5 更新 Checkpoint

4. 执行口令指引 (Execution Triggers)

4.1 全新任务

4.2 断点续作

4.3 部分重跑

4.4 批量重跑

5. 完成后结构化总结 (Completion Report)

论文排版与整理完全工作流 (Iterative OCR & Typesetting Pipeline)

0. 目录规范 (Directory Convention)

0.5 resources/config.json 规范 (Task Configuration)

0.6 resources/checkpoint.json 规范 (Runtime Checkpoint)

0.7 脚本接口契约 (Script Contracts)

split_pdf.py

extract_figures.py

generate_docx.py

latex_to_omml.py

1. 逐页精读与追加写入 (Page-by-Page Extraction)

1.1 纯文本读取

1.2 公式转译

1.3 插图识别与智能裁剪

1.4 写入

1.5 更新 Checkpoint

2. 逐页 DOCX 生成与双页核查 (Incremental DOCX Generation)

2.1 单页流程

2.2 双页核查（每 2 页）

2.3 上下文极限保护

2.4 中间版本命名规则

3. 最终排版定稿 (Final Typesetting)

3.1 needs_review 清零检查

3.2 汇总

3.3 生成最终 DOCX

3.4 排版格式应用

3.5 更新 Checkpoint

4. 执行口令指引 (Execution Triggers)

4.1 全新任务

4.2 断点续作

4.3 部分重跑

4.4 批量重跑

5. 完成后结构化总结 (Completion Report)

0.5 `resources/config.json` 规范 (Task Configuration)

0.6 `resources/checkpoint.json` 规范 (Runtime Checkpoint)

`split_pdf.py`

`extract_figures.py`

`generate_docx.py`

`latex_to_omml.py`

0.5 `resources/config.json` 规范 (Task Configuration)

0.6 `resources/checkpoint.json` 规范 (Runtime Checkpoint)

`split_pdf.py`

`extract_figures.py`

`generate_docx.py`

`latex_to_omml.py`