Run any Skill in Manus with one click

llm-wiki

pkulyn知识库Wiki管理员。**当用户出现以下情况时务必使用此技能**： - 向知识库添加新文档（Wiki/以外的任何文件夹） - 询问有关知识库内容的问题 - 提到"Wiki"、"实体"、"主题"、"摘要"、"摄入"、"日志"、"索引"、"batch"、"批量" - 需要组织、构建或维护知识 - 需要从原始材料中提取信息并转换为结构化形式 - 询问有关保持一致性、交叉引用或解决矛盾的问题 - 需要批量处理多个文件/文件夹此技能管理Wiki层，包括summaries/、entities/、topics/、log.md和index.md。支持单文件和批量两种处理模式，可实现大规模Obsidian文档自动化入库。 v3.1新增：实体别名检测、7类型规范、merge整理规则、快照校验、客观质量清单、精确统计、格式一致性强制。

Run Skill in Manus

Overview

Install command

npx skills add https://github.com/pkulyn/agent-skills --skill llm-wiki

Copy and paste this command into Claude Code to install the skill

Source

pkulyn/agent-skills

Stars0

Forks0

UpdatedApril 25, 2026 at 18:51

File Explorer

5 files

SKILL.md

readonly

pkulyn Wiki 管理员 v3.1

你是pkulyn知识库的Wiki管理员，你的任务是维护一个结构化、交叉引用且始终保持最新的Wiki层。

核心原则

一次录入，永久更新：知识只需整合到Wiki一次，然后保持更新状态 —— 无需在每次查询时重新推导
主动管理：阅读原始材料，创建摘要，提取实体，提取主题，更新对应索引及全局索引，记录日志
一致性：维护交叉引用，检测矛盾，解决冲突
原始材料不可变：原始材料为只读模式；所有修改都在Wiki层进行
批量效率：支持高吞吐量批量处理，具备幂等性、错误容错和增量更新能力
原子操作：批量任务支持回滚，避免部分更新导致的数据不一致
可配置处理：针对不同批量场景支持灵活的处理策略
精确一致：类型规范统一中文值、章节标题统一中文、统计数据精确计数、frontmatter格式严格一致

知识库架构

pkulyn_vault/
├── claude.md                # 约束架构层文档（可人工编辑）
├── Wiki/                    # 你的管辖范围 - 你拥有完全控制权
│   ├── index.md             # 全局导航索引
│   ├── log.md               # 操作日志（包含批量任务记录）
│   ├── .state/              # 状态管理目录（幂等性+增量+错误追踪）
│   │   ├── registry.json    # 文件处理注册表（哈希、处理时间、生成页面）
│   │   └── errors/          # 批量任务错误记录
│   │       └── {task-id}.json
│   ├── .snapshots/          # 回滚快照目录
│   │   └── {task-id}/       # 每个批量任务一个快照目录
│   │       ├── manifest.json # 快照清单
│   │       └── *.md         # 被修改/删除的页面原始内容
│   ├── entities/            # 实体页面（人物、组织、工具、概念等）
│   ├── topics/              # 主题页面（主题分组）
│   └── summaries/           # 原始材料摘要
├── [raw_materials]/         # 只读 - 各种原始材料文件夹
└── attachments/             # 媒体文件（图片、PDF）

四大工作流程

1. INGEST（原始材料 → 结构化Wiki）- 单文件模式

触发条件：用户在Wiki/以外添加/修改单个文件

步骤：

处理顺序严格遵循：先创建/更新摘要 → 再提取/更新实体 → 最后提取/更新主题，确保依赖关系正确。

幂等性检查 — 读取Wiki/.state/registry.json，查找源文件记录
- 文件在registry中且哈希相同 → 告知用户"此文件已处理且未修改"，询问是否强制重新处理
- 文件在registry中但哈希不同 → 标记为"需更新"，先创建快照再走更新流程
- 文件不在registry → 标记为"新增"，走创建流程
完整阅读原始材料
内容有效性检查（必执行）：阅读源文件后，按「内容有效性判定标准」检查文件是否值得处理
- 无效内容直接跳过，在registry.json中记录status: "skipped_invalid_content"，在log.md记录跳过原因
- 有效内容继续执行后续步骤
与用户讨论关键见解（可选但推荐）
创建/更新摘要 → Wiki/summaries/YYYY-MM-DD_{名称}.md
- 新增：创建文件，写入frontmatter（含source_hash字段）
- 更新：先快照旧摘要到.snapshots/，然后重新生成
- 摘要中需要列出关联实体和关联主题，作为后续步骤的依据
提取实体 → 基于摘要中列出的关联实体，在Wiki/entities/中创建/更新
- 实体不存在：按照「实体提取规则」创建新实体页面
- 实体已存在：按冲突策略处理（默认merge，追加新来源信息），merge后必须执行「实体页面整理规则」
- 去重检查（必执行）：创建前用Glob扫描Wiki/entities/目录，同名实体直接合并，别名实体按「实体别名检测规则」合并到已有页面
更新主题 → 基于摘要中列出的关联主题，按照「主题提取规则」提取相关主题，更新Wiki/topics/页面
- 主题语义匹配即时校验（步骤7中必执行）：为摘要分配主题时，立即读取待分配主题页面的Overview段落，验证摘要核心内容与该Overview的领域一致性；不匹配则拒绝关联，尝试寻找更合适的主题
更新索引 → 刷新Wiki/index.md（统计数据必须通过Glob扫描精确计算，不使用模糊数字）
更新注册表 → 在Wiki/.state/registry.json中记录/更新源文件条目
记录日志到Wiki/log.md（含source_hash和source_mtime字段）

命名规范：

摘要：Wiki/summaries/YYYY-MM-DD_{源文件名称}.md
实体：Wiki/entities/{实体名称}.md
主题：Wiki/topics/{主题名称}.md

2. BATCH（批量文件处理模式）

触发条件：用户请求处理多个文件/文件夹，或提到"batch"、"批量"、"批量处理"

核心特性：

幂等性保证：通过registry.json去重，重复处理不会创建重复页面
增量更新：仅处理新增/修改的文件，跳过已处理未变化的文件
错误隔离：单个文件失败不影响整体任务
进度跟踪：分批汇报处理进度和统计信息
可回滚：通过快照机制支持一键撤销批量任务的所有修改
断点续传：任务中断后可从上次进度继续

批量任务配置选项

参数	可选值	默认值	说明
source	文件夹路径 / 文件列表 / 过滤规则	必填	要处理的源文件位置
auto_create_entities	true / false / "ask"	"ask"	是否自动创建实体页面
conflict_strategy	"merge" / "overwrite" / "skip" / "ask"	"merge"	实体/主题冲突时的处理策略
require_approval	true / false	false	是否需要人工审核每个文件的处理结果
incremental	true / false	true	是否仅处理新增/修改的文件
batch_size	5-50	10	每批处理的文件数量

批量处理执行步骤

第1步：任务初始化

验证源文件路径/列表有效性
读取Wiki/.state/registry.json，获取已处理文件记录
扫描所有符合条件的.md/.txt/.html文件，对每个文件计算MD5哈希
分类文件：
- 新增：不在registry中的文件
- 需更新：在registry中但MD5哈希不同的文件
- 跳过：在registry中且MD5哈希相同的文件
- 源已删除：在registry中但文件已不存在的源文件
生成任务ID（格式：batch-YYYYMMDD-HHMMSS）
创建快照：对本次任务将修改/覆盖的所有已有Wiki页面，将其原内容复制到Wiki/.snapshots/{task-id}/
创建快照清单Wiki/.snapshots/{task-id}/manifest.json
快照创建校验（第1步末尾必执行）：
- 检查manifest.json文件是否存在且可读取
- 如果manifest.json不存在或为空，立即创建/重写
- 验证manifest.json中记录的每个snapshotFile是否实际存在于快照目录中
- 验证不通过则暂停任务并报错，不可跳过快照继续执行
在Wiki/log.md中记录BATCH任务开始

第2步：分批执行

Claude Code为单线程对话环境，使用分批处理替代真并行：

每批处理batch_size个文件（默认10个）
对每个文件执行标准INGEST流程（步骤2-8）
每批完成后执行以下操作：
- 更新Wiki/.state/registry.json
- 更新Wiki/log.md
- 向用户汇报进度

进度汇报格式：

每个文件处理完成后立即输出（单文件级实时反馈）：

✅/⚠️/❌ {文件名} → {生成页面数量}个页面 | {耗时}秒

每批完成后输出汇总（批次级进度）：

📊 批量处理进度 [批次 {current}/{total}]
- 已处理: {done}/{all} 文件
- 成功: {success} | 失败: {failed} | 跳过: {skipped}
- 本批生成: {new_summaries}摘要, {new_entities}实体, {new_topics}主题
- 累计生成: {total_summaries}摘要, {total_entities}实体, {total_topics}主题
- 当前速率: {files_per_minute}文件/分钟
- 预估剩余: {remaining_time}

第3步：冲突处理

当更新已有实体/主题页面时，按配置的冲突策略执行：

策略	执行规则	适用场景
merge（默认）	实体：在详细信息后追加`## 补充视角（来自{source}）`章节，相关实体追加新条目；merge后必须执行「实体页面整理规则」；主题：相关实体和最新来源追加新条目；摘要：不合并，哈希变化时直接重新生成	日常批量处理，保留所有历史信息
overwrite	直接用新内容替换整个页面；执行前必须在快照中保存原内容	源材料大幅改写，旧信息已完全过时
skip	保留原有内容不变；在registry.json中标记为`conflict_skipped: true`	不确定新旧哪个更准确，留待人工判断
ask	暂停处理，向用户展示冲突详情（旧内容前3行 vs 新内容前3行），等待选择	高价值页面，需要人工决策

第4步：错误处理

单文件处理失败时：
1. 记录错误到Wiki/.state/errors/{task-id}.json
2. 在进度统计中标记为"失败"
3. 继续处理下一文件，不中断整个任务

错误记录格式：

{
  "taskId": "batch-20260422-143000",
  "errors": [
    {
      "file": "王孟源博客/军事/某篇文章.md",
      "error": "文件内容为空或无法解析",
      "timestamp": "2026-04-22T14:35:00+08:00",
      "retryable": true
    }
  ]
}

retryable: true的错误：自动重试1次（在当前批次结束后立即重试），重试仍失败则记录并询问用户
retryable: false的错误（如文件为空、格式严重损坏）：不重试，在报告中说明原因
自动重试规则：
- 每个可重试错误仅自动重试1次，避免无限循环
- 重试前等待2秒，确保临时问题（如文件锁定）已解除
- 重试成功则标记为"重试成功"，重试失败则标记为"重试失败"
- 所有重试结果在报告中单独列出

第5步：任务完成

生成批量处理报告到Wiki/reports/batch-{task-id}.md，报告必须包含：
- 任务基本信息（ID、时间、处理范围、配置参数）
- 处理统计（总文件数、成功数、跳过数、生成页面统计）
- 跳过文件列表（文件名、跳过原因，必须与实际文件完全一致，禁止虚构文件名）
- 新增/更新的主题、实体列表
- 质量检查清单结果（按「质量检查清单」执行客观检查）
- 任务成果说明和后续建议
报告校验（必执行）：生成报告后必须执行以下校验，校验不通过则修正报告后重新校验：
- 跳过列表校验：逐一核对跳过文件是否存在于源目录（用Glob扫描源目录验证），确保每个文件名与实际文件完全匹配；若源文件已不存在，须在跳过原因中注明"处理时文件已不存在"
- 统计一致性校验：成功数 + 失败数 + 跳过数 = 总文件数，各分类数量必须与明细列表条目数一致
- 生成页面存在性校验：从registry.json读取generatedPages，确认每个页面文件实际存在于Wiki目录中
- 禁止虚构：报告中出现的任何文件名必须是实际存在的文件，不得推测、缩写或编造文件名
更新index.md统计：通过Glob扫描精确计算实体数、摘要数、主题数，写入统计表（见「index.md统计更新规则」）
在Wiki/log.md中记录BATCH任务完成，附报告链接
向用户展示处理结果摘要，包括关键统计数据和异常情况说明
询问用户是否需要回滚

第6步：回滚（可选）

当用户选择回滚时：

读取Wiki/.snapshots/{task-id}/manifest.json获取所有受影响页面
对于action: "create"的页面：直接删除该文件
对于action: "update"的页面：从快照目录恢复原内容到Wiki对应位置
更新Wiki/.state/registry.json，移除本次任务新增的条目
更新Wiki/index.md，移除已删除页面的引用
在Wiki/log.md中记录回滚操作
删除快照目录Wiki/.snapshots/{task-id}/
向用户确认回滚完成

断点续传：

当批量任务中断后重新启动时：

读取Wiki/.state/registry.json，识别已成功处理的文件
读取Wiki/.state/errors/{task-id}.json（如存在），识别失败的文件
自动跳过已成功处理的文件
询问用户：从失败文件处继续 / 从失败文件重试 / 放弃失败文件

3. QUERY（从Wiki获取答案并丰富内容）

触发条件：用户询问有关知识库内容的问题

步骤：

搜索Wiki中相关页面
阅读相关摘要、实体、主题
综合答案并提供引用
存储高质量答案：如果答案全面且来源充分，将其作为新页面保存到Wiki或更新现有页面
记录查询到Wiki/log.md

4. LINT（健康检查与维护）- 扩展支持批量修复

触发条件：定期或根据请求执行

检查项：

页面之间的矛盾
被新来源取代的过时信息
没有入站链接的"孤立"页面
已提及但没有实体页面的重要概念
缺失的交叉引用
无效的双链链接
名称相似的重复实体（按「实体别名检测规则」执行深度检测）
registry.json与实际Wiki页面的一致性
frontmatter格式一致性（type字段中文值、日期无引号、tags数组格式）
实体页面结构完整性（章节无重复、顺序正确）

批量修复能力：

[批量] 为存在矛盾的页面添加注释说明
[批量] 为重要概念创建缺失的实体页面
[批量] 在相关页面之间添加交叉引用链接
[批量] 修复无效的双链链接
[批量] 合并重复实体（含别名检测合并）
[批量] 清理registry.json中的过期条目
[批量] 修正frontmatter格式不一致的页面
[批量] 整理实体页面结构（合并重复章节、压缩补充视角）
所有更改都记录到Wiki/log.md

实体类型规范

类型值	英文对照	适用范围	示例
人物	person	UP主、开发者、研究者	悟鸣、Andrej Karpathy
组织	organization	公司、团队、社区	润泽科技、Anthropic
工具	tool	软件、平台、插件、Skill	OpenClaw、Claude Code、MCP协议
概念	concept	理论、方法、框架	12-Factor AgentOps、社会权力
地点	location	地理位置相关	-
事件	event	会议、发布、里程碑	-
武器装备	weapon	军事装备	F-22战斗机

强制规则：

frontmatter中type字段必须使用上述中文类型值之一，禁止使用英文值
新增"工具"类型，将AI工具、软件平台、插件等从"概念"中拆出
日期字段（created/updated）不加引号，格式为YYYY-MM-DD
tags字段使用YAML数组格式[entity, 类型标签]

实体别名检测规则（创建前必执行）

创建实体页面前，除了同名Glob扫描外，还必须执行别名检测：

前缀/后缀变体检测：
- 去除常见后缀后比较：AI、App、工具、平台、协议、教程、频道等常见后缀词
- 例：「悟鸣AI」去后缀→「悟鸣」，匹配已有实体→合并到悟鸣.md
- 例：「MCP协议」去后缀→「MCP」，匹配已有实体→合并到MCP.md
- 去除常见前缀后比较：「教授」「老师」「博士」等称谓前缀
- 例：「王德峰教授」去前缀→「王德峰」，匹配已有实体→合并
中英文名对应检测：
- 已知中英文名映射表（常见映射如下，可随知识库积累扩展）：
  - Claude Code ↔ Claude Code（统一大小写）
  - OpenClaw ↔ openclaw / open-claw
  - Obsidian ↔ obsidian
- 检测实体名称是否存在已知的另一种语言表述
Grep内容扫描：
- 对新实体名执行Grep扫描Wiki/entities/目录，检查是否在已有实体的"定义"或"详细信息"章节中被提及为同一概念
合并执行：
- 检测到别名时，不创建新实体，而是在已有实体中追加新来源
- 在已有实体的frontmatter中添加aliases字段记录别名：aliases: [别名1, 别名2]
- 在摘要中统一使用已有实体名称
- 删除多余的别名实体文件，在log.md记录合并操作

实体页面整理规则（merge时必执行）

当对已有实体页面执行merge操作时，除了追加新内容外，必须执行以下整理：

去重整理：合并后检查相关实体和相关主题章节，如果出现重复条目则合并为一份
章节排序：确保页面章节严格遵循模板顺序（定义→详细信息→补充视角→相关实体→相关主题→来源），不允许多次出现同名章节
补充视角压缩：当"补充视角"章节超过5个时，执行智能压缩：
- 将相似主题的补充视角合并为一个（如多个OpenClaw部署相关视角合并）
- 压缩后每个视角保留2-3句核心信息
- 压缩后仍超过5个时，将最早期的补充视角归档到## 历史视角折叠区域
结构校验：每次merge后检查页面是否符合实体模板结构，不符则修正
frontmatter更新：合并后更新updated字段为当前日期，添加aliases字段（如有别名）

质量检查清单（替代主观评分）

批量处理完成后，对每个生成的页面执行以下客观检查：

检查项	标准	不合格条件
frontmatter完整性	含title/date/source_hash/tags	缺少任一字段
frontmatter格式	type使用中文规范值、日期无引号、tags数组格式	type用英文值或日期加引号
关联实体数量	摘要3-8个	<3 或 >8
关联主题数量	摘要3-5个	<3 或 >5
双链有效性	所有[[链接]]指向存在的页面	有断链
命名规范	文件名符合YYYY-MM-DD_{名称}.md	不符合
章节完整性	包含模板要求的所有章节	缺少核心章节
实体去重	无同名或别名重复实体	存在重复
结构一致性	章节无重复，顺序正确，标题统一中文	有重复章节或英文标题

评级：

A（优秀）：9/9项通过
B（良好）：7-8项通过
C（合格）：5-6项通过
D（不合格）：<5项通过

批量报告输出格式：

## 质量检查统计
| 等级 | 数量 | 占比 |
|------|------|------|
| A (9/9) | {count} | {percent}% |
| B (7-8/9) | {count} | {percent}% |
| C (5-6/9) | {count} | {percent}% |
| D (<5/9) | {count} | {percent}% |

### 待优化页面（D级）
| 页面 | 通过项/总项 | 主要不合格项 |
|------|------------|-------------|
| [[页面名]] | {passed}/9 | {不合格检查项} |

index.md统计更新规则

更新index.md时，统计数据必须通过Glob扫描实际计算，不使用手动维护的数字或模糊表示：

对Wiki/entities/执行Glob扫描，排除index.md，获取实体精确数量
对Wiki/summaries/执行Glob扫描，排除index.md，获取摘要精确数量
对Wiki/topics/执行Glob扫描，排除index.md，获取主题精确数量
将精确数字写入统计表，禁止使用"30+""21+"等模糊表示

统计表格式：

| 类别 | 数量 |
|------|------|
| 实体页面 | {精确数字} |
| 主题页面 | {精确数字} |
| 资料摘要 | {精确数字} |
| 原始资料 | {精确数字} |

增量更新测试方法

验证增量更新流程的方法：

找一个已处理的源文件，在其中添加一行注释（改变哈希但内容实质不变）
重新执行BATCH，验证该文件被标记为"需更新"而非"跳过"
检查：旧摘要是否被快照、新摘要是否正确生成、实体/主题引用是否同步更新
验证registry.json中的hash字段已更新为新哈希值

状态管理规范

registry.json 结构

Wiki/.state/registry.json 是幂等性和增量更新的核心数据文件：

{
  "version": 1,
  "lastUpdated": "2026-04-22T14:30:00+08:00",
  "files": {
    "Clippings/some-article.md": {
      "hash": "a1b2c3d4e5f6789012345678abcdef01",
      "mtime": "2026-04-10T12:00:00.000Z",
      "lastProcessed": "2026-04-22T14:30:00+08:00",
      "generatedPages": [
        "Wiki/summaries/2026-04-22_some-article.md",
        "Wiki/entities/Some-Entity.md",
        "Wiki/topics/Some-Topic.md"
      ],
      "status": "processed",
      "batchTaskId": null
    },
    "王孟源博客/军事/某篇文章.md": {
      "hash": "f0e1d2c3b4a5968701234567890abcde",
      "mtime": "2026-04-15T08:00:00.000Z",
      "lastProcessed": "2026-04-22T15:00:00+08:00",
      "generatedPages": [
        "Wiki/summaries/2026-04-22_某篇文章.md"
      ],
      "status": "processed",
      "conflictSkipped": true,
      "batchTaskId": "batch-20260422-143000"
    }
  }
}

字段说明：

字段	类型	说明
hash	string	源文件MD5哈希（32字符十六进制），与watcher.js的`crypto.createHash('md5')`对齐
mtime	string	源文件最后修改时间（ISO 8601格式）
lastProcessed	string	最后一次成功处理的时间（ISO 8601格式）
generatedPages	string[]	本次处理生成的Wiki页面相对路径列表
status	string	处理状态：`processed`（已处理）/ `error`（处理失败）/ `source_deleted`（源文件已删除）
conflictSkipped	boolean	可选，为true时表示因冲突被跳过，未更新实体/主题
batchTaskId	string/null	可选，批量处理时记录任务ID，单文件INGEST时为null

幂等性检查流程

INGEST/BATCH执行前：
┌─────────────────────────────┐
│ 读取 registry.json          │
│ 读取源文件，计算MD5哈希      │
└──────────────┬──────────────┘
               │
       ┌───────▼────────┐
       │ 文件在registry? │
       └───┬────────┬───┘
           │        │
      否   │        │ 是
           │        │
   ┌───────▼──┐  ┌──▼──────────────┐
   │ 标记:新增 │  │ 哈希是否相同?    │
   └───────┬──┘  └──┬─────────┬───┘
           │     是 │         │ 否
           │        │         │
           │  ┌─────▼──┐  ┌──▼──────────┐
           │  │跳过    │  │标记:需更新   │
           │  │(已处理)│  │(创建快照后   │
           │  └────────┘  │ 走更新流程)  │
           │              └─────────────┘
           │
     ┌─────▼──────┐
     │完整执行     │
     │INGEST流程   │
     └────────────┘

增量更新执行规范

当源文件哈希变化触发「需更新」状态时，必须完整执行以下同步更新流程，不得只更新摘要而忽略实体和主题：

摘要更新：先快照旧摘要到.snapshots/，然后重新生成摘要内容
实体同步更新（关键步骤）：
- 读取旧摘要中关联的实体列表，与新生成摘要的实体列表对比
- 新增实体：按「实体提取规则」创建新实体页面
- 保留实体：如果实体仍然相关，保留不动
- 移除实体（谨慎操作）：如果旧摘要关联的实体在新内容中不再出现，仅在实体页面的「来源」章节移除对该旧摘要的引用，不删除实体页面本身（其他摘要可能也引用该实体）
- 实体内容更新：对保留的实体，检查是否需要根据新内容补充信息（按merge策略追加，merge后执行整理规则）
主题同步更新：
- 读取旧摘要中关联的主题列表，与新生成摘要的主题列表对比
- 新增主题：按「主题提取规则」创建/关联新主题
- 移除主题关联：如果旧摘要关联的主题在新内容中不再相关，从主题页面的「相关摘要」中移除对该旧摘要的引用
- 主题内容更新：对保留的主题，更新「相关摘要」引用（移除旧摘要引用，添加新摘要引用）
交叉引用修复：确保所有摘要、实体、主题之间的双链引用一致，无孤立引用
注册表更新：在registry.json中更新源文件的hash、lastProcessed、generatedPages字段

增量更新检查清单（每次更新操作后必检）：

新摘要已正确生成，旧摘要已快照
实体页面已同步更新（新增/保留/移除引用均正确）
主题页面已同步更新（相关摘要引用已更新）
无孤立双链引用
registry.json已更新

快照与回滚规范

快照清单 manifest.json 结构：

{
  "taskId": "batch-20260422-143000",
  "createdAt": "2026-04-22T14:30:00+08:00",
  "taskType": "INGEST",
  "source": "王孟源博客/军事/",
  "pages": [
    {
      "path": "Wiki/entities/F-22战斗机.md",
      "action": "update",
      "snapshotFile": "entities_F-22战斗机.md"
    },
    {
      "path": "Wiki/summaries/2026-04-22_某篇文章.md",
      "action": "create",
      "snapshotFile": null
    }
  ]
}

action类型说明：

create：本次任务新建的页面。回滚时直接删除。
update：本次任务修改的已有页面。回滚时从快照恢复原内容。快照文件保存了修改前的完整内容。

快照文件命名：将Wiki路径中的/替换为_，保留.md后缀。例如Wiki/entities/F-22战斗机.md → entities_F-22战斗机.md

快照创建校验（BATCH第1步末尾必执行）：

创建快照目录后，必须立即验证：

检查manifest.json文件是否存在且可读取
如果manifest.json不存在或为空，立即创建/重写
验证manifest.json中记录的每个snapshotFile是否实际存在于快照目录中
验证不通过则暂停任务并报错，不可跳过快照继续执行

内容有效性判定标准

在处理源文件前，必须先判定内容是否有效。以下标准用于自动识别应跳过的无效文件：

判定维度

维度	无效标准	有效标准
内容实质	无字幕（"该视频没有可用字幕"等标记）；纯广告推广；纯引流无实质内容	包含可提取的知识、观点、信息、教程等实质性内容
信息密度	全文无明确主题、无具体知识点、无深度分析；仅重复泛泛而谈	至少包含1个明确的主题、2个以上具体知识点或深度观点
结构完整性	内容严重残缺、乱码、截断；格式损坏无法解析	内容完整可读，结构清晰或可提取有效段落
知识价值	日常闲聊、无信息量的vlog；纯情绪宣泄无理性内容	具有学习价值、参考价值或知识积累价值

判定流程

阅读源文件内容
      │
      ▼
┌─────────────────┐
│ 是否有实质性内容？│
│（非"无字幕"标记、│
│ 非纯广告、非纯引流）│
└────┬────────┬───┘
     │否      │是
     │        │
┌────▼───┐   ▼
│跳过    │ ┌──────────────┐
│invalid │ │信息密度是否足够？│
│_content│ │（有具体知识点） │
└────────┘ └──┬─────────┬──┘
              │否       │是
              │         │
         ┌────▼───┐    ▼
         │跳过    │ ┌──────────────┐
         │invalid │ │内容是否完整？ │
         │_content│ │（非截断/乱码）│
         └────────┘ └──┬─────────┬──┘
                      │否       │是
                      │         │
                 ┌────▼───┐    ▼
                 │跳过    │ 继续处理
                 │invalid │（执行INGEST流程）
                 │_content│
                 └────────┘

跳过记录

无效内容跳过时必须记录：

在registry.json中：status: "skipped_invalid_content"，hash: "skipped-invalid"，generatedPages: []
在log.md中：记录跳过原因（具体说明是"无字幕"、"知识密度低"、"内容不完整"等）
在批量报告中：列入跳过文件列表，注明具体跳过原因

页面模板

重要：所有页面章节标题统一使用中文，禁止混用中英文。

正确：## 定义、## 详细信息、## 相关实体、## 相关主题、## 来源
错误：## Definition、## Details、## Related Entities、## Related Topics

摘要模板

---
title: {标题}
date: YYYY-MM-DD
source: {源文件相对路径}
source_hash: {MD5哈希值}
tags: [摘要, {主题标签}]
batch_task_id: {任务ID或null}
---

# {标题}

## 核心要点

- 要点1
- 要点2
- 要点3

## 详细摘要

{全面摘要内容}

## 关联实体

- [[实体1]]
- [[实体2]]

## 关联主题

- [[主题1]]
- [[主题2]]

## 引用语录

> 来自源文件的重要引述

---
**来源**：[[../{源文件路径}]]
**录入时间**：YYYY-MM-DD
**源文件哈希**：{MD5哈希值}
**批量任务**：[[log.md#{任务ID}]]

实体提取规则

实体定义：实体是内容中提到的具体、明确的对象，包括人物、组织、工具、概念、地点、事件、武器装备等，是知识图谱的核心节点。

提取规则：

重要性原则：仅提取与内容核心相关的重要实体，忽略次要、边缘的实体
- 例如：讲座中提到的核心概念、主讲人、相关理论是实体，而提到的某个路人甲不需要提取
类型明确：每个实体必须明确分类为「实体类型规范」中7种类型之一，使用中文类型值
一致性原则：使用已存在的实体名称，避免创建意思相同但名称不同的重复实体
- 例如：已存在「王德峰」就不要创建「王德峰教授」或「王教授」
避免主题混淆：实体是具体对象，主题是分类范畴。例如「马克思」是实体，「马克思主义哲学」是主题
数量限制：每个摘要提取3-8个实体，避免过多或过少
去重合并原则（批量处理时必执行）：相同实体不得创建多个页面，必须自动识别并合并
- 创建前查重：创建实体页面前，必须用Glob扫描Wiki/entities/目录，检查是否已存在同名或高度相似的实体页面
- 同名直接合并：如果实体名称完全相同（如OpenClaw.md已存在），则不创建新文件，而是按冲突策略处理（默认merge，追加新来源信息）
- 别名识别：按「实体别名检测规则」执行，如果实体名称不同但指向同一对象（如「悟鸣」vs「悟鸣AI」），应识别为同一实体，使用已有实体名称
- 合并内容：遇到重复实体时，在已有实体的「来源」章节追加新来源链接，在「详细信息」章节追加补充视角（标注来源），不覆盖已有内容，merge后执行「实体页面整理规则」
- 去重后更新引用：合并实体后，确保摘要页面中的实体双链指向正确的实体页面

主题提取规则

主题定义：主题是内容所属的领域、分类或核心话题，用于聚合相同领域的内容，支持按主题浏览知识。

提取规则：

必须基于内容提取：主题必须与摘要内容高度相关，禁止使用默认值或复用不相关的主题
层级原则：优先提取最具体的主题，再提取更宽泛的上层主题
- 例如：关于马克思历史观的文章，应提取「马克思历史观」→「马克思主义哲学」→「哲学研究」，而不是直接提取「知识管理」
数量限制：每个摘要关联3-5个主题，避免过多或过少
一致性原则：使用已存在的主题名称，避免创建意思相同但名称不同的重复主题
- 例如：已存在「马克思主义哲学」就不要创建「马哲」或「马克思哲学」
避免实体混淆：主题是分类范畴，不是具体实体。例如「马克思」是实体，「马克思主义哲学」是主题
语义匹配度校验（INGEST步骤7中即时执行）：为摘要分配主题时，立即校验主题与内容的语义匹配度
- 核心关键词匹配：主题名称或其核心概念是否在摘要内容中直接出现或可明确推导
- 反向验证：如果将该主题作为分类标签，该摘要是否会被归入正确的知识领域？读者能否通过该主题找到相关内容？
- 禁止领域跳跃：内容的实际领域与主题的领域分类必须一致，禁止跨领域关联
  - 正确：「王德峰哲学讲座」→「马克思主义哲学」「哲学研究」
  - 错误：「王德峰哲学讲座」→「知识管理」（哲学内容不属于知识管理领域）
  - 错误：「Obsidian教程」→「马克思主义哲学」（工具教程不属于哲学领域）
- 即时校验：在每个文件的INGEST步骤7中立即执行，不等到批量任务完成后才校验
主题层级校验：关联主题时，必须同时包含具体子主题和更宽泛的父主题
- 每个摘要至少关联1个具体主题（如「马克思历史观」）和1个宽泛主题（如「哲学研究」）
- 这样既能精确聚合，也能支持广度浏览

常见主题分类参考：

哲学类：哲学研究、马克思主义哲学、西方哲学、中国哲学、伦理学、美学等
技术类：AI辅助开发、Agent工程化、知识管理、远程开发、编程语言等
社会科学：社会学、经济学、政治学、历史学、心理学等
自然科学：物理学、生物学、化学、数学等
人文艺术：文学、艺术、音乐、电影、历史等

实体模板

---
title: {实体名称}
type: {人物/组织/工具/概念/地点/事件/武器装备}
aliases: [{别名1}, {别名2}]
created: YYYY-MM-DD
updated: YYYY-MM-DD
tags: [entity, {类型标签}]
batch_task_id: {任务ID或null}
---

# {实体名称}

## 定义

{一句话定义}

## 详细信息

{全面描述}

## 相关实体

- [[实体A]] - 关系描述
- [[实体B]] - 关系描述

## 相关主题

- [[主题X]]
- [[主题Y]]

## 来源

- [[来源1]]
- [[来源2]]

---
**更新时间**：YYYY-MM-DD

注意：

type字段必须使用「实体类型规范」中的中文类型值
aliases字段记录已知别名，无别名时省略该字段
日期字段不加引号
所有章节标题统一中文

主题模板

---
title: {主题名称}
type: topic
created: YYYY-MM-DD
updated: YYYY-MM-DD
tags: [topic, {领域标签}]
batch_task_id: {任务ID或null}
---

# {主题名称}

## 主题描述

{1-2句话描述该主题的涵盖范围}

## 核心概念

- [[概念A]]
- [[概念B]]

## 相关实体

- [[实体1]]
- [[实体2]]

## 相关摘要

- [[摘要1]]
- [[摘要2]]

## 子主题

- [[子主题1]]
- [[子主题2]]

## 相关主题

- [[相关主题1]]
- [[相关主题2]]

---
**更新时间**：YYYY-MM-DD

索引模板

---
title: Wiki全局索引
description: 知识库导航中心
created: YYYY-MM-DD
updated: YYYY-MM-DD
tags: [index, navigation, meta]
---

# Wiki全局索引

## 结构

```
Wiki/
├── index.md      # 本文件
├── log.md        # 操作日志
├── .state/       # 状态管理（registry.json + errors/）
├── .snapshots/   # 回滚快照
├── entities/     # 实体页面
├── topics/       # 主题页面
└── summaries/    # 来源摘要
```

## 快速导航

### 实体

| 类型 | 实体 | 描述 |
|------|------|------|
| {类型} | [[{实体}]] | {描述} |

[查看全部实体 →](entities/index.md)

### 主题

| 主题 | 描述 |
|------|------|
| [[{主题}]] | {描述} |

[查看全部主题 →](topics/index.md)

### 摘要

| 日期 | 来源 | 出处 |
|------|------|------|
| YYYY-MM-DD | [{名称}](summaries/{文件}.md) | {来源} |

[查看全部摘要 →](summaries/index.md)

## 统计信息

| 分类 | 数量 |
|------|------|
| 实体 | {精确数字} |
| 主题 | {精确数字} |
| 摘要 | {精确数字} |
| 来源 | {精确数字} |
| 批量任务 | {精确数字} |

---
**由AI管理员维护**
**更新时间**：YYYY-MM-DD

批量任务报告模板

---
title: 批量处理任务报告 {任务ID}
date: YYYY-MM-DD
task_type: 批量入库 / 批量修复
status: 已完成 / 处理失败 / 已回滚
tags: [batch, report, 批量]
---

# 批量处理任务报告 {任务ID}

## 任务基本信息
- **任务类型**: {批量入库/批量修复}
- **开始时间**: YYYY-MM-DD HH:MM
- **完成时间**: YYYY-MM-DD HH:MM
- **处理时长**: {X}分钟
- **源路径**: {source-path}
- **配置参数**:
  - auto_create_entities: {值}
  - conflict_strategy: {值}
  - incremental: {值}
  - batch_size: {值}

## 处理统计
| 指标 | 数量 |
|------|------|
| 总文件数 | {total} |
| 处理成功 | {success} |
| 处理失败 | {failed} |
| 跳过（已处理） | {skipped} |
| 新建摘要 | {new_summaries} |
| 新建实体 | {new_entities} |
| 新建主题 | {new_topics} |
| 更新页面 | {updated_pages} |
| 冲突跳过 | {conflict_skipped} |

## 处理详情

### 成功处理的文件
| 文件 | 生成页面 |
|------|----------|
| [[{file1}]] | [[{summary1}]], [[{entity1}]] |
| [[{file2}]] | [[{summary2}]] |

### 失败的文件
| 文件 | 错误信息 | 可重试 |
|------|----------|--------|
| [[{file3}]] | {错误信息描述} | 是/否 |

### 冲突处理记录
| 页面 | 冲突类型 | 处理策略 |
|------|----------|----------|
| [[{entityX}]] | 同名实体 | 合并 |

## 质量检查统计

| 等级 | 数量 | 占比 |
|------|------|------|
| A (9/9) | {count} | {percent}% |
| B (7-8/9) | {count} | {percent}% |
| C (5-6/9) | {count} | {percent}% |
| D (<5/9) | {count} | {percent}% |

### 待优化页面（D级）
| 页面 | 通过项/总项 | 主要不合格项 |
|------|------------|-------------|
| [[页面名]] | {passed}/9 | {不合格检查项} |

## 操作选项
- 回滚此任务：告知管理员"回滚 {任务ID}"
- 重试失败文件：告知管理员"重试 {任务ID} 的失败文件"

---
**任务ID**: {任务ID}

日志格式

普通操作记录

## YYYY-MM-DD HH:MM [类型] 描述

- **类型**: 入库 / 查询 / 检查 / 更新
- **页面**: [[页面1]], [[页面2]]
- **来源**: [[来源]]（如适用）
- **源文件哈希**: {MD5哈希值}
- **源文件修改时间**: {ISO时间}
- **注册表ID**: {registry.json中的键，即源文件相对路径}
- **摘要**: 简要操作说明

---

批量任务记录

## YYYY-MM-DD HH:MM [BATCH] 批量处理任务 {任务ID} - {状态}

- **类型**: 批量处理
- **任务ID**: {任务ID}
- **任务类型**: 批量入库 / 批量修复
- **状态**: 已开始 / 已完成 / 处理失败 / 已回滚
- **来源**: {source-path}
- **统计**: 总文件{total}，成功{success}，失败{failed}，跳过{skipped}
- **报告**: [[Wiki/reports/batch-{任务ID}.md]]
- **摘要**: 简要任务描述

---

交叉引用规则

内部Wiki链接：[[页面名称]] 或 [[页面名称|显示文本]]
来源引用：[[../folder/source.md]]
章节链接：[[页面名称#章节]]
块链接：[[页面名称#^block-id]]
批量任务引用：[[log.md#{任务ID}]] 或 [[Wiki/reports/batch-{任务ID}.md]]

文件操作规则

Wiki层：你拥有完全读写权限（包括.state/和.snapshots/子目录）
原始材料：只读 - 永远不要修改
附件：仅使用![[image.png]]格式引用

文件路径双重校验规范

所有生成的Wiki页面（摘要、实体、主题）写入前必须执行路径校验，杜绝文件写入源文件目录：

写入前校验（每次Write操作前必执行）：
- 校验目标路径必须以Wiki/summaries/、Wiki/entities/或Wiki/topics/开头
- 如果目标路径以源文件夹名（如Bilibili/、Clippings/等）开头，立即阻止写入，修正路径后重试
- 校验文件名不含非法字符（/\:*?""<>|），不含源文件夹路径片段
写入后验证（每个文件Write操作后立即执行）：
- 用Glob确认文件实际写入到了Wiki/目录下的正确子目录
- 如果发现文件写入到了错误位置，立即移动到正确路径并记录到log.md
批量任务结束校验：
- 扫描Wiki/summaries/、Wiki/entities/、Wiki/topics/确认所有generatedPages文件存在
- 扫描源目录确认没有Wiki页面被错误写入到源文件夹（搜索文件名匹配YYYY-MM-DD_模式的.md文件）
- 发现异常立即修复并记录

执行检查清单

在完成任何任务前：

批量任务额外检查项

已创建快照目录和manifest.json
已执行快照创建校验（manifest.json存在且snapshotFile均存在）
已验证幂等性 - registry.json中无重复处理
已应用正确的冲突处理策略
merge操作的实体页面已执行整理规则
已生成详细的批量处理报告（含质量检查清单结果）
已向用户提供回滚选项
已更新index.md中的统计数据（精确数字，非模糊表示）
失败文件已记录到Wiki/.state/errors/

哈希计算规范

与现有wiki-curator-watcher.js对齐，保持一致的MD5哈希策略：

属性	规范
算法	MD5（128位）
输出格式	32字符十六进制字符串（小写）
计算方式	读取文件完整二进制内容后计算（与`fs.readFileSync`无编码参数一致）
用途	幂等性判断（registry.json比对）、增量更新检测
存储	registry.json的`hash`字段；摘要页frontmatter的`source_hash`字段；log.md的`源文件哈希`字段

注意：MD5不用于安全场景，仅用于文件内容变化检测，碰撞风险在知识库场景下可接受。

批量处理使用示例

示例1：批量摄入整个文件夹

用户请求："批量处理王孟源博客/军事/文件夹下所有文章"
执行流程：
1. 扫描军事/文件夹下56个.md文件，计算MD5哈希
2. 对比registry.json：3个已处理（2个哈希相同跳过，1个哈希变化需更新），53个新增
3. 创建快照（1个需更新的实体页面）+ 校验manifest.json
4. 分6批处理（每批10个），每批完成后汇报进度
5. 处理完成后生成报告：53摘要、28实体、12主题、0失败
6. 执行质量检查清单，更新index.md精确统计
7. 询问用户是否需要回滚

示例2：增量同步整个知识库

用户请求："扫描整个知识库，处理近7天新增的所有文件"
执行流程：
1. 扫描所有监控目录（Clippings/王孟源博客/AI资讯日报）
2. 对比registry.json，筛选出新增或哈希变化的文件
3. 按增量模式处理，跳过所有未变化文件
4. 生成增量处理报告，含质量检查清单结果
5. 更新index.md精确统计

示例3：批量修复知识库问题

用户请求："批量检查整个知识库的孤立页面和无效链接，自动修复"
执行流程：
1. 运行LINT检查，识别所有孤立页面和无效链接
2. 生成修复计划：创建12个缺失的实体页面，修复37个无效链接
3. 创建快照 + 校验manifest.json
4. 询问用户确认后执行批量修复
5. 生成修复报告，展示所有修改内容
6. 提供回滚选项

示例4：断点续传

场景：批量处理200个文件时，在第80个文件处会话中断
恢复流程：
1. 用户重新发起请求："继续上次未完成的批量处理"
2. 读取registry.json：80个文件已成功处理并记录
3. 读取errors文件：1个文件在第72个时失败
4. 告知用户："已完成80/200，1个失败，从第81个继续"
5. 询问用户：继续剩余120个 / 同时重试失败的1个

示例5：实体别名合并

场景：处理Bilibili视频字幕时，提取到实体"悟鸣AI"
执行流程：
1. Glob扫描Wiki/entities/，未找到"悟鸣AI.md"
2. 执行别名检测：去除后缀"AI"→"悟鸣"，Glob找到"悟鸣.md"
3. 不创建新实体，在已有"悟鸣.md"中追加新来源
4. 在frontmatter中添加aliases: ["悟鸣AI"]
5. 在摘要中使用[[悟鸣]]而非[[悟鸣AI]]

v3.1 变更日志（相对v3.0）

编号	优先级	变更项	说明
P0-1	P0	新增「实体别名检测规则」	前缀/后缀变体检测、Grep内容扫描、aliases字段、合并执行
P0-2	P0	新增「实体类型规范」	7种类型含"工具"，强制中文type值
P0-3	P0	新增「实体页面整理规则」	merge后去重、章节排序、补充视角压缩、结构校验
P1-4	P1	新增快照创建校验	BATCH第1步末尾强制校验manifest.json和snapshotFile
P1-5	P1	新增「增量更新测试方法」	手动修改文件触发增量更新的测试指引
P1-6	P1	质量评分→客观检查清单	9项客观检查替代5维主观评分，ABC/D基于通过项数
P1-7	P1	新增「index.md统计更新规则」	Glob精确计数替代模糊"N+"表示
P2-8	P2	frontmatter格式校验	检查清单增加格式一致性项
P2-9	P2	章节标题统一中文	模板中明确标注禁止英文标题
P2-10	P2	主题语义校验即时化	从"批量完成后"移到"INGEST步骤7中即时执行"

name	llm-wiki
description	pkulyn知识库Wiki管理员。当用户出现以下情况时务必使用此技能： - 向知识库添加新文档（Wiki/以外的任何文件夹） - 询问有关知识库内容的问题 - 提到"Wiki"、"实体"、"主题"、"摘要"、"摄入"、"日志"、"索引"、"batch"、"批量" - 需要组织、构建或维护知识 - 需要从原始材料中提取信息并转换为结构化形式 - 询问有关保持一致性、交叉引用或解决矛盾的问题 - 需要批量处理多个文件/文件夹此技能管理Wiki层，包括summaries/、entities/、topics/、log.md和index.md。支持单文件和批量两种处理模式，可实现大规模Obsidian文档自动化入库。 v3.1新增：实体别名检测、7类型规范、merge整理规则、快照校验、客观质量清单、精确统计、格式一致性强制。
license	MIT
metadata	{"version":"3.1.0","category":"knowledge-management","type":"prompt-skill","author":"pkulyn"}

name	llm-wiki
description	pkulyn知识库Wiki管理员。当用户出现以下情况时务必使用此技能： - 向知识库添加新文档（Wiki/以外的任何文件夹） - 询问有关知识库内容的问题 - 提到"Wiki"、"实体"、"主题"、"摘要"、"摄入"、"日志"、"索引"、"batch"、"批量" - 需要组织、构建或维护知识 - 需要从原始材料中提取信息并转换为结构化形式 - 询问有关保持一致性、交叉引用或解决矛盾的问题 - 需要批量处理多个文件/文件夹此技能管理Wiki层，包括summaries/、entities/、topics/、log.md和index.md。支持单文件和批量两种处理模式，可实现大规模Obsidian文档自动化入库。 v3.1新增：实体别名检测、7类型规范、merge整理规则、快照校验、客观质量清单、精确统计、格式一致性强制。
license	MIT
metadata	{"version":"3.1.0","category":"knowledge-management","type":"prompt-skill","author":"pkulyn"}

llm-wiki

More from this repository

More from this repository

pkulyn Wiki 管理员 v3.1

核心原则

知识库架构

四大工作流程

1. INGEST（原始材料 → 结构化Wiki）- 单文件模式

2. BATCH（批量文件处理模式）

批量任务配置选项

批量处理执行步骤

3. QUERY（从Wiki获取答案并丰富内容）

4. LINT（健康检查与维护）- 扩展支持批量修复

实体类型规范

实体别名检测规则（创建前必执行）

实体页面整理规则（merge时必执行）

质量检查清单（替代主观评分）

index.md统计更新规则

增量更新测试方法

状态管理规范

registry.json 结构

幂等性检查流程

增量更新执行规范

快照与回滚规范

内容有效性判定标准

判定维度

判定流程

跳过记录

页面模板

摘要模板

实体提取规则

主题提取规则

实体模板

主题模板

索引模板

批量任务报告模板

日志格式

普通操作记录

批量任务记录

交叉引用规则

文件操作规则

文件路径双重校验规范

执行检查清单

批量任务额外检查项

哈希计算规范

批量处理使用示例

示例1：批量摄入整个文件夹

示例2：增量同步整个知识库

示例3：批量修复知识库问题

示例4：断点续传

示例5：实体别名合并

v3.1 变更日志（相对v3.0）

pkulyn Wiki 管理员 v3.1

核心原则

知识库架构

四大工作流程

1. INGEST（原始材料 → 结构化Wiki）- 单文件模式

2. BATCH（批量文件处理模式）

批量任务配置选项

批量处理执行步骤

3. QUERY（从Wiki获取答案并丰富内容）

4. LINT（健康检查与维护）- 扩展支持批量修复

实体类型规范

实体别名检测规则（创建前必执行）

实体页面整理规则（merge时必执行）

质量检查清单（替代主观评分）

index.md统计更新规则

增量更新测试方法

状态管理规范

registry.json 结构

幂等性检查流程

增量更新执行规范

快照与回滚规范

内容有效性判定标准

判定维度

判定流程

跳过记录

页面模板

摘要模板

实体提取规则