Run any Skill in Manus with one click

Get Started

$pwd:

laoli-shorts

Name: Laoli Shorts
Author: blueofsky

// 短视频制作管线 - 从选题到成片的完整工作流

Run Skill in Manus

$ git log --oneline --stat

stars:0

forks:0

updated:May 6, 2026 at 09:11

File Explorer

7 files

SKILL.md

readonly

package.json

"author": "blueofsky"

"repository": "blueofsky/laoli-recipe"

View GitHub Repository

$ install --globalskills.sh

$ download --local

Run Skill in Manus

[HINT] Download the complete skill directory including SKILL.md and all related files

Run any Skill with one click

name	laoli-shorts
version	2.15.0
description	短视频制作管线 - 从选题到成片的完整工作流
author	agent_created
triggers	["做个视频","制作短视频","新视频","shorts"]

短视频制作

核心理念：台词与画面同步设计，视觉指令为AI生图模型定制，不是导演笔记。

执行规则：每步完成后必须展示产出物，等待用户确认后再执行下一步。

进度管理：通过 Pipeline Hooks 机制自动管理，简洁透明。

进度管理

Pipeline Hooks 机制

采用类似切面编程的钩子机制，在管线执行的特定阶段自动触发：

钩子点	触发时机	执行内容
`@before_step(N)`	第N步开始前	检查进度，决定跳过/执行
`@after_step(N)`	第N步完成后	更新进度标记
`@on_confirm()`	用户确认后	将 ⏸ 改为 ✅
`@on_error()`	步骤失败时	标记 ⚠️ 并记录

进度跟踪文件

位置：<projects_dir>/[项目名]/文案/制作进度.md

# [项目名] · 制作进度

> 上次更新：{日期}

## 当前阶段
| 步骤 | 状态 | 完成时间 |
|------|------|----------|
| 第1步 选题大纲 | ✅ | 2026-05-09 |
| 第2步 视觉指令 | | |
| 第3步 分镜脚本 | | |
| 第4步 定妆照 | | |
| 第5步 分镜图 | | |
| 第6步 生成视频 | | |
| 第7步 配音 | | |
| 第8步 视频剪辑 | | |
| 第9步 提取台词 | | |
| 第10步 选取配乐 | | |
| 第11步 封面图 | | |
| 第12步 发布文稿 | | |

## 备注
- （可选：关键备注信息）

状态定义

✅ 完成（用户已确认）
⏸ 暂停（待用户确认）
⚠️ 需修复（步骤失败）
（空）未开始

钩子执行流程

启动 → @before_step(N) → 执行步骤 → @after_step(N) → 等待确认 → @on_confirm() → 下一步

素材管理：直接从项目目录读取，不重复记录 断点续做：可选功能，启动时检测进度文件询问是否继续 状态透明：通过进度文件一目了然

偏好设置

本步骤必须在管线启动前完成。若 EXTEND.md 不存在，禁止启动管线。

按以下优先级查找 EXTEND.md（第一个命中即生效）：

优先级	路径	作用域
1	`<workspace>/.laoli-recipe/laoli-shorts/EXTEND.md`	项目级（当前工作区优先）
2	`$HOME/.laoli-recipe/laoli-shorts/EXTEND.md`	用户级（所有工作区通用）

找到 → 读取并解析，获得 default_profile
未找到 → 执行首次设置流程（references/config/first-time-setup.md），通过 AskUserQuestion 收集偏好后保存 EXTEND.md，然后继续

⚠️ 在 EXTEND.md 创建或加载完成前，不得开始第1步。

EXTEND.md 字段说明见 references/config/preferences-schema.md。

方案配置

⚠️ 执行前必读：读取 references/profiles/<default_profile>（由 EXTEND.md 指定，默认为 history-oil.md），了解本方案的调性、受众、视觉风格、制作规范和风格铁律。所有台词创作必须遵守该文件中的"五条风格铁律"，所有 IMAGE PROMPT 末尾必须追加该文件中的风格后缀。

在 references/profiles/ 目录下放置不同方案的配置文件，并在 EXTEND.md 中切换 default_profile 即可让同一套管线适配不同方案。

制作管线

项目目录规范：每个选题创建一个独立项目文件夹，所有产出物按类型存放。项目根目录固定为 <workspace>/项目，下文用 <projects_dir> 代指。

<projects_dir>/[项目名]/
├── 文案/
│   ├── 制作进度.md    ← 进度跟踪文件
│   ├── 创作底本.md    ← 第1+2+3步产出（选题大纲→视觉指令→分镜脚本）
│   ├── 视频剪辑.md    ← 第8步产出
│   ├── 字幕文稿.txt  ← 第9步产出
│   ├── 配乐方案.md   ← 第10步产出
│   └── 发布文稿.md    ← 第12步产出（发布文案）
├── 素材/
│   ├── 图片/          ← 分镜图 + 第11步封面图
│   ├── 视频/          ← 生成视频（原始，不动）
│   │   ├── sync/      ← 第8步产出（变速对齐）
│   │   └── sync_crop/ ← 第8步产出（去水印+变速）
│   ├── 音频/          ← 配音文件
│   └── 参考/          ← 角色定妆照（不进剪映）
└── 成品/              ← 剪映工程+最终发布视频

按以下步骤顺序执行，每步完成后展示产出物，等待用户确认再继续。

⚠️ 第5步特别提醒：视频生成成本高，分镜图必须经人工确认无误后，才能执行第6步生成视频。

第1步：选题大纲

输入：用户给的主题，或基于方案定位的建议

输出：确定项目名后，创建 <projects_dir>/[项目名]/ 目录结构（含文案/、素材/图片/、素材/视频/、素材/音频/、素材/参考/、成品/），然后创建两个文件：

文案/创作底本.md：写入选题大纲
文案/制作进度.md：初始化进度文件

项目名（≤6字，用于文件夹命名，如"萨拉热窝"）
选题标题（≤15字，有悬念）
核心人物：(必填) 列出本集所有必须出现、且需要独立视觉设定的人物。格式：姓名1、姓名2、姓名3
核心冲突：一句话概括"谁在什么情况下面临什么抉择"
3秒钩子：开场用什么画面+台词瞬间抓住观众
节奏段划分：依据方案配置中的「强制节奏模板」，规划视频的情节与情绪段落。每个段落需注明其核心情绪与预设时长范围（如“约0-5秒”），以确保总时长符合方案要求。
选用的叙事引擎（主+辅）

规则：

必须有“抉择时刻”，不是事件流水账。
开场钩子必须可视觉化（不是抽象概念，是具体画面）。
情绪曲线必须有高点有低谷，不能平。
每个节奏段必须以方案定义的段落标题（如【暴击钩子】）作为每个节奏段的名称，后接该段的情节与情绪描述。

⚠️ 本步产出格式（严格执行）：

# [项目名]

## 选题大纲
- **选题标题**：
- **核心人物**：
- **核心冲突**：
- **3秒钩子**：
- **叙事引擎**：主___ + 辅___
- **节奏段**：
  1. [节奏段名称] [情绪] 一句话描述
  2. [节奏段名称] [情绪] 一句话描述
  ...

第2步：视觉执行指令

依赖：读取第1步的选题大纲，获取核心冲突（决定谁出场）、叙事引擎（影响角色设定方向）。

在编写分镜脚本之前，先定义本选题的核心角色和视觉风格。这一步解决两个核心问题：

多人同脸：AI生图每次独立生成，不同人物没有区分度。通过在核心角色设定中嵌入差异化视觉锚点来解决。
风格模糊：笼统的风格描述不等于精确的视觉定义，需要从方案配置中读取统一的风格后缀。

2a. 核心角色设定

根据上一步大纲中【核心人物】字段所列名单，为名单中的每一个角色生成**核心角色设定**。不得遗漏、不得合并、不得擅自增减名单中的任何角色。

角色设定要点：

每个角色必须有差异化的外貌描述：年龄差、体型差、肤色/发型/面部特征的明确区分
视觉锚点是关键——这是跨分镜识别同一角色的核心特征（如"鹰钩鼻+苍白面色""深色眼窝+凌乱黑发"）
角色数量控制在方案配置的角色数上限内（参见 references/profiles/<default_profile> 中的「制作规范」）
群众/配角无需在《核心角色设定》中创建独立条目，但需要在prompt中与主角做出外貌区分（如"different face from [角色ID]"）
角色描述同时用中英文：中文用于撰写第2步《核心角色设定》中的完整描述（供人审阅），英文则需提取关键特征并嵌入IMAGE PROMPT（供AI生图）。
定妆照提示词在第4步直接读取并使用，生成后保存为 素材/参考/ref_角色ID.jpg，第5步生成分镜图时作为角色参考图传入
文化特征前置：在描述外貌时，必须首先明确角色的种族、时代及地域特征。随后的具体面部、体型、发肤特征描述，应自然体现此背景，并与角色独特的视觉识别点（视觉锚点）结合。

定妆照提示词规范：参见方案配置（references/profiles/<default_profile>）中的「定妆照视觉要求」章节，获取定妆照的构图、背景、光影等约束。

定妆照提示词模板：

Portrait of a [age]-year-old [build] [cultural/ethnic descriptor, e.g., East Asian] [person] with [distinctive physical features that reflect the character's cultural background and visual identity, e.g., monolid eyes, sharp cheekbones], wearing [signature outfit], [signature accessories], half-body portrait from chest up, facing slightly left, dark solid background, [character's core气质 in English], [风格后缀], no text, no letters, no watermark, no background elements

示例（萨拉热窝选题·普林西普，风格后缀取自方案配置）：

- **普林西普 [角色ID: PRN01]**:
  - **年龄外貌**：19岁，**具有典型的巴尔干地区斯拉夫青年特征**，体型瘦削，深色眼窝，黑色凌乱短发，下巴尖削，面色苍白
  - **核心气质**：瘦弱但眼神偏执，像一只被逼到角落的困兽
  - **标志性服饰**：深色旧西装，领口微敞，袖口磨白
  - **视觉锚点**：深色眼窝+凌乱黑发+苍白尖下巴
  - **定妆照提示词**：Portrait of a 19-year-old gaunt **South Slavic** young man with deep dark eye sockets, messy black hair and pale sharp chin, wearing a worn dark suit with collar slightly open and frayed cuffs, half-body portrait from chest up, facing slightly left, dark solid background, intense paranoid eyes like a cornered animal, [风格后缀], no text, no letters, no watermark, no background elements

2b. 通用视觉准则

每个选题定义统一的视觉风格和背景时代。

风格后缀：从方案配置（references/profiles/<default_profile>）中的「视觉风格设定」章节读取，追加到每个 IMAGE PROMPT 末尾，不可省略。

⚠️ 不要自己编风格后缀——必须从方案配置逐字复制，确保跨分镜风格一致。

⚠️ 不要写笼统描述——如 oil painting texture 太笼统，产出颗粒粗、细节糊的结果。

⚠️ 本步产出格式（严格执行）

追加到：<projects_dir>/[项目名]/文案/创作底本.md（接在第1步内容之后）

## 视觉执行指令

### 核心角色设定
- **[角色名] [角色ID: XXX01]**:
  - **年龄外貌**：[具体年龄，具有XX地区/文化/时代背景的典型特征（如：东亚、地中海、南亚等），体型、面部特征、肤色、发型]
  - **核心气质**：[一句话概括此人给观者的第一印象]
  - **标志性服饰**：[时代服饰的具体描写，包括材质、颜色、配饰]
  - **视觉锚点**：[此角色最突出的1-2个视觉特征，用于跨分镜识别和写入IMAGE PROMPT]
  - **定妆照提示词**：[完整英文prompt]

### 通用视觉准则
- **统一风格**：从方案配置的「视觉风格设定」读取
- **背景时代**：[具体年代和地点]
- **视觉符号 (Callback)**：[本选题的反复出现的视觉隐喻，在关键节点重复出现]

第3步：编写分镜脚本

依赖：读取第1步的【节奏段】、3秒钩子；读取第2步的核心角色设定（视觉锚点写入 IMAGE PROMPT）、通用视觉准则（风格后缀追加到 IMAGE PROMPT）。

智能分镜规划与创作规则：

输入：你已获得第1步输出的“节奏段”列表（每个节奏段都包含名称和情节描述），以及第2步的“角色设定”与“视觉风格”。
核心任务：为每一个“节奏段”创作分镜脚本。节奏段与分镜不是1对1关系。你需要根据以下规则进行创作

拆分规划：根据该节奏段的情节密度、情绪转折点和视觉焦点变化，你必须根据其情节密度，将其规划为1个或多个‘分镜’（即可生成的视频单元），情节复杂的段落可能需要多个分镜，简单的段落可能只需一个。在最终输出分镜列表前，可简要说明拆分逻辑，例如：‘【观察眼·外部压力】段落（预设18秒）情节密集，拆分为3个分镜，总时长约18秒（8+8+2秒）。’
命名格式：每个分镜的标题格式必须为：## 分镜 N / [节奏段名]-[镜头描述]。其中，[节奏段名]必须直接使用第1步输出中对应的节奏段名称（如【暴击钩子】）。
时长约束：每个“分镜”的预设时长严禁超过方案中定义的「单镜头生成限制」（如8秒）。你需合理分配各分镜时长，确保该节奏段的总时长与预设范围基本吻合。
叙事连贯：跨分镜的台词需保持语言和情绪的连贯，形成完整的叙事流。金句和互动钩子需放在你设计的最具冲击力的分镜中。

输出：为你规划出的每一个分镜独立输出“台词”、“角色参考图”、“IMAGE PROMPT”和“VIDEO MOTION”。

对每个分镜，同时输出以下4项：

3a. 台词

台词创作需严格遵循所选方案中「制作规范」或「风格铁律」中对台词的特别要求。
每段1-3句话，总字数按方案配置中的台词总字数控制（参见 references/profiles/<default_profile> 中的「制作规范」）
必须包含感官细节（不说"他很愤怒"，而说"他指关节发白，死死攥着那封信"）
金句位置明确标注（★金句）
结尾段必须有互动钩子（直接向观众发问）

3b. 图片生成指令（IMAGE PROMPT）

格式规范：

[主体：引用第2步`核心角色设定`中的文化特征与视觉锚点] + [动作/状态] + [环境/背景] + [风格后缀] + [负向排除]

要点：

角色引用：每个出场的核心角色，在prompt中必须包含其文化/种族特征（如 East Asian, South Slavic 等）以及视觉锚点的英文描述，从第2步核心角色设定的定妆照提示词中直接引用或适配。
- 正确：a gaunt **South Slavic** young man with dark eye sockets, messy black hair and pale sharp chin (PRN01), gripping a pistol...
- 错误：a young man holding a sword...（缺少来自第2步核心角色设定文化与视觉识别信息）
多人场景差异化：当画面有多个角色时，每个角色的英文描述必须包含其独特的视觉锚点，且明确标注"different person"
具体胜过抽象：不写"一个宏伟的场景"，写"巴戎寺四张微笑石雕巨脸特写，金色晨曦从左侧照亮"
环境描写要丰富：光源方向、天气、时间、建筑风格、材质质感
禁用动态镜头语言：不写"镜头推进""航拍"——AI生图只能画静态画面
负向排除：排除不需要的元素（如 no modern buildings, no tourists）
- 默认加入：no text, no letters, no watermark（避免无关文字）
- 分镜需要文字时去掉：如果画面需要显示文字（如电报、报纸、招牌等），则从负向排除中移除 no text/no letters/no watermark
英文输出：IMAGE PROMPT 必须为英文

3c. 视频运动指令（VIDEO MOTION）

VIDEO MOTION 是图生视频（i2v）的 prompt，描述从分镜图出发的画面运动。视频生成必须基于分镜图（图生视频），以保证画面质量和角色一致性。

格式规范：

[camera movement] + [subject motion] + [environment motion] + [atmospheric elements]

要点：

从分镜图出发：prompt不需要重复描述画面静态内容（分镜图已提供视觉参考），只需描述运动和变化
只描述物理运动：不描述叙事含义，只描述画面怎么动
运动要克制：历史纪录片的节奏是慢的，运动幅度不宜过大
时长匹配：每段5-10秒，运动描述要匹配时长
英文输出：图生视频的 prompt 用英文效果更好

常用运动模式（参考）：

情绪段	推荐运动	示例
冲击/钩子	极慢推进+主体微动	subtle zoom in on the clenched fist, dust particles floating
压抑	水平缓移+环境静止	slow horizontal pan, flags gently swaying, civilians still
暗涌	固定+光影变化	flickering lamplight, smoke drifting, shadows moving
荒诞	缓移+意外元素	car slowly rolling to a stop, figure tensing
爆发	快速运动+混乱	rapid motion, people rushing, dust rising
雪崩	宏大缓移+变化积累	slow zoom out, shadows spreading across the map
余韵	极慢+环境细节	slow dim light shift, dust motes, subtle breathing

⚠️ 本步产出格式（严格执行）

追加到：<projects_dir>/[项目名]/文案/创作底本.md（接在第2步内容之后）

输出格式：请严格按照以下格式为你规划出的每一个分镜生成内容，分镜标题中的 [节奏段名]必须与第1步的输出严格对应。


## 分镜 N / [节奏段名]-[镜头描述]

**台词**：
> 具体台词内容（★金句标注）

**角色参考图**：
> 本分镜出场核心角色的定妆参考图，图生图时传入以提升角色一致性。多个用逗号分隔，格式：`ref_角色ID1.jpg, ref_角色ID2.jpg`
> 无核心角色出场时填 `无`

**IMAGE PROMPT**：
> 英文生图指令，一行写完（必须包含角色文化特征、视觉锚点+风格后缀）

**VIDEO MOTION**：
> 视频运动描述，一行写完

第4步：生成角色定妆照

调用：laoli-imagine skill

输入：第2步核心角色设定中的「定妆照提示词」
输出：竖屏9:16图片，保存到 素材/参考/ref_角色ID.jpg
数量：每个核心角色1张
生成顺序：按核心角色设定的角色顺序逐个生成

不需要定妆照的角色：群众/配角（无角色设定）

生成完毕后：图片质量检查（必须人工确认）

展示 素材/参考/ 下所有已生成图片，等待用户确认
检查项：
- 文化特征准确性：面部特征、发色等是否符合第2步核心角色设定定义的种族/地域背景。
- 基本质量（无硬伤）：无面部扭曲、畸形等多指等基础缺陷。
- 视觉锚点呈现：第2步核心角色设定中定义的标志性视觉锚点是否清晰、准确呈现。
- 风格一致性：画面质感是否符合方案配置的视觉风格。
发现问题：记录有问题的文件名，重新生成对应图片，重新检查
确认无误后：继续下一步

⚠️ 未通过检查前，禁止执行下一步。

第5步：生成分镜图

使用第3步输出的 IMAGE PROMPT 生成每段分镜图，生成完毕后必须进行图片质量检查，确认无误后方可继续。

调用：laoli-imagine skill

输入：第3步的 IMAGE PROMPT
角色参考图：按第3步每个分镜的「角色参考图」字段列表，传入对应的 素材/参考/ref_角色ID.jpg（第4步生成），提升角色一致性
输出：素材/图片/scene0x_描述.jpg，按命名规范生成

生成完毕后：图片质量检查（必须人工确认）

展示 素材/图片/ 下所有已生成图片，等待用户确认
检查项：
- 完整性校验：文件是否正常生成（存在且大小合理，非0KB）。
- 硬伤检测（崩坏）：角色面部是否扭曲、五官错位、多手指/畸形手等明显AI缺陷。
- 锚点一致性（跨镜）：角色与第2步核心角色设定中的视觉锚点是否一致（重点检查发色、脸型、标志性配饰）。
- 风格固化：风格后缀是否生效（画面质感是否符合方案配置中的视觉风格设定）。
- 历史/文化逻辑：道具/背景/服饰是否符合时代设定（避免“时代错位”的穿帮）。
- 角色区分度：画面中有多个角色时，不同人物的面孔是否有足够区分度，避免“克隆脸”（尤其注意背景群演）。
- 光影情绪匹配：画面整体亮度、色调是否符合分镜预期的情绪氛围（如压抑、紧张、高潮等）。
- 参考图还原度：使用了参考图生成的分镜，角色的五官、神韵是否与参考图高度一致。
- 叙事张力：画面是否准确传达了该分镜台词的核心情绪与戏剧张力。
- 构图与美感：画面有无明显瑕疵、穿模或不自然的构图截断。
发现问题：记录有问题的文件名，重新生成对应图片，重新检查
确认无误后：继续下一步

⚠️ 未通过检查前，禁止执行下一步。

第6步：生成视频

以第5步生成的分镜图为参考图，用图生视频（i2v）方式生成每段视频。

调用：laoli-videoize skill

输入：第5步的分镜图（作为参考图）+ 第3步输出的 VIDEO MOTION（运动描述）
输出：素材/视频/scene0x_描述.mp4
关键：必须使用图生视频（i2v），以分镜图为参考图，确保画面质量和角色一致性。不得使用纯文生视频。

第7步：生成配音

将第3步的台词逐段转换为音频，每段台词独立调用一次。

调用：laoli-tts skill

输入：
- text：第3步每条分镜的「台词」纯文本。注意：★符号及其后面的金句（画面字幕）整段都去掉，不配音
- output_directory：素材/音频/ 的绝对路径（即 <workspace>/项目/[项目名]/素材/音频/）
输出：素材/音频/scene0x_描述.mp3

第8步：视频剪辑

处理分镜视频：先对齐配音时长，再按需检查并去水印，输出处理报告。

输入：第6步的分镜视频（素材/视频/，原始文件不动）+ 第7步的配音（素材/音频/）

处理流程：

8a. 变速对齐

将所有分镜视频时长调整至与配音时长一致。

输入：素材/视频/scene0x_描述.mp4（原始）、素材/音频/scene0x_描述.mp3
系数计算：setpts = 音频时长 / 视频时长
处理方式：纯变速（setpts），不加补帧，去掉音频轨道（-an）
输出：素材/视频/sync/scene0x_描述.mp4（无声，所有分镜都有）

8b. 去水印（按需执行）

说明：如果分镜视频全部来自 AI 生成（第 6 步正确执行），则没有水印，直接跳过本步。仅在混入手工/外部视频素材时执行。

检查 sync/ 中的视频是否有平台水印（如 Veo），仅在确认有水印时执行裁剪。

检查方式：播放器预览 sync/ 中的视频，确认是否有平台水印
有水印时：按以下规格批量裁剪，输出到 sync_crop/
- 裁剪规格：底部裁剪约 70px，精确 9:16 比例（1040x1850，居中裁切）
- 参数：crop=1040:1850:20:0（宽 1040、高 1850，从 x=20 开始）
- 输出：素材/视频/sync_crop/scene0x_描述.mp4
无水印时：跳过本步，剪映直接使用 sync/ 中的文件

⚠️ 本步产出格式（严格执行）：

保存到 文案/视频剪辑.md

# 视频剪辑

| 分镜 | 视频原长 | 音频时长 | 系数 | 水印处理 | 剪映补帧 |
|:----|:-------:|:--------:|:----:|:---------|:--------:|
| scene01 | 8.0s | 8.1s | 1.0125 | 无 | 否 |
| scene04 | 8.0s | 10.5s | 1.3125 | 裁剪70px | 是 |
| sceneXX | x.xs | x.xs | x.xxxx | 裁剪70px/无 | 是/否 |

剪映补帧说明：放慢的分镜（系数<1.0）在剪映中对对应片段勾选AI补帧（本地模型）。

剪映导入指引：

无水印分镜 → 拖入 sync/ 中的文件
有水印分镜 → 拖入 sync_crop/ 中的文件

第9步：提取台词

从第3步的分镜脚本中逐段提取纯台词，格式化后输出为剪映可直接导入的文稿文件。

输入：第3步每个分镜的「台词」文本

处理规则：

逐分镜提取台词内容
去除★金句标注等非台词标记
格式化规范：
- 一句一换行（换行=分句信号）
- 无标点符号（句号、逗号、冒号、引号等全部移除，用换行代替）
- 保留书名号《》、引号「」等特殊标识（如船名「加利福尼亚人」）
保持分镜顺序输出

输出：保存到 <projects_dir>/[项目名]/文案/字幕文稿.txt

示例（静默频道项目）：

1912年4月14日深夜
泰坦尼克号最后的冰山警告淹没在一堆付费电报里
首席电报员杰克菲利普斯已连续工作了十几个小时
...

第10步：选取配乐

基于选题调性为视频选取贯穿全程的 BGM（纯音乐，一条到底）。提供三级策略，按优先级从高到低尝试。

输入：第1步选题大纲（核心情绪/视觉风格/节奏段划分）

10a. 关键词搜索（推荐优先）

根据选题调性与视觉风格，生成中英文搜索关键词，供用户在免版权平台搜索 BGM（如剪映素材库、YouTube Audio Library、Uppbeat 等）。

BGM 方向：基于选题大纲的核心情绪与视觉风格，推荐具体音乐风格和情绪关键词
示例：选题"泰坦尼克号最后的电报" → 历史叙事悬疑管弦 / historical narrative suspense orchestral

10b. 人工生成

如果搜索未找到合适 BGM，生成 MiniMax 官网音乐生成页面可用的 prompt 词，用户复制到 minimax.io/music 免费生成。

示例：管弦乐, 悬疑叙事节奏, 低音提琴与钢琴交替, 适合历史纪录片BGM

10c. 自动生成（按需执行）

如果上述方式均不满足，经用户确认后，调用 laoli-bgm skill 基于 MiniMax API 生成 BGM。

调用：laoli-bgm skill
prompt：基于选题大纲生成音乐描述
输出目录：<projects_dir>/[项目名]/素材/音频/

输出：

10a/10b → 将关键词/prompt 保存到 <projects_dir>/[项目名]/文案/配乐方案.md
10c → 生成 素材/音频/bgm.mp3，同时将描述关键词存档到 文案/配乐方案.md

产出确认：展示 BGM 搜索结果或播放生成的音频，等待用户确认。不满意则调整策略重新尝试。

第11步：生成封面图

基于选题核心视觉意象设计并生成视频封面图。

输入：第1步选题大纲（选题标题/核心冲突/视觉符号）

设计要点：

封面必须预留标题文字空间（通常上方1/3做深色渐变或留黑）
画面聚焦选题核心视觉符号（如电报桌、耳机、摩尔斯纸带、煤油灯等）
风格与视频统一，保持方案配置的视觉风格
竖版3:4比例（视频号封面标准比例）

调用：laoli-imagine skill

输出：素材/图片/封面_项目名.jpg

产出确认：展示封面图，等待用户确认。不满意则调整prompt重新生成。

第12步：设计发布文稿

基于视频内容和后期规格，设计视频号发布文案（标题+描述）。

输入：第1步选题大纲（选题标题/核心冲突/金句）+ 第3步分镜脚本（台词金句）

发布标题规则：

长度控制在6-16个字符
允许使用符号：书名号《》、引号""、冒号：、加号+、问号？
如需分隔，优先用空格代替逗号

描述结构：必须包含以下三部分：

【钩子】：开场吸引注意的一句话
【资料来源】：历史/事实依据（如脚本中有证据锚点）
【热门标签】：一组相关的热门标签

输出格式：

# 发布材料草稿

## 1. 发布标题
**标题**：[6-16字的发布标题]

## 2. 视频描述
[emoji] [钩子文案]

**资料来源**: [历史/事实依据]

[热门标签]

输出：保存到 <projects_dir>/[项目名]/文案/发布文稿.md

产出确认：展示发布文稿，等待用户确认后结束管线。

name	laoli-shorts
version	2.15.0
description	短视频制作管线 - 从选题到成片的完整工作流
author	agent_created
triggers	["做个视频","制作短视频","新视频","shorts"]

短视频制作

核心理念：台词与画面同步设计，视觉指令为AI生图模型定制，不是导演笔记。

执行规则：每步完成后必须展示产出物，等待用户确认后再执行下一步。

进度管理：通过 Pipeline Hooks 机制自动管理，简洁透明。

进度管理

Pipeline Hooks 机制

采用类似切面编程的钩子机制，在管线执行的特定阶段自动触发：

钩子点	触发时机	执行内容
`@before_step(N)`	第N步开始前	检查进度，决定跳过/执行
`@after_step(N)`	第N步完成后	更新进度标记
`@on_confirm()`	用户确认后	将 ⏸ 改为 ✅
`@on_error()`	步骤失败时	标记 ⚠️ 并记录

进度跟踪文件

位置：<projects_dir>/[项目名]/文案/制作进度.md

# [项目名] · 制作进度

> 上次更新：{日期}

## 当前阶段
| 步骤 | 状态 | 完成时间 |
|------|------|----------|
| 第1步 选题大纲 | ✅ | 2026-05-09 |
| 第2步 视觉指令 | | |
| 第3步 分镜脚本 | | |
| 第4步 定妆照 | | |
| 第5步 分镜图 | | |
| 第6步 生成视频 | | |
| 第7步 配音 | | |
| 第8步 视频剪辑 | | |
| 第9步 提取台词 | | |
| 第10步 选取配乐 | | |
| 第11步 封面图 | | |
| 第12步 发布文稿 | | |

## 备注
- （可选：关键备注信息）

状态定义

✅ 完成（用户已确认）
⏸ 暂停（待用户确认）
⚠️ 需修复（步骤失败）
（空）未开始

钩子执行流程

启动 → @before_step(N) → 执行步骤 → @after_step(N) → 等待确认 → @on_confirm() → 下一步

素材管理：直接从项目目录读取，不重复记录 断点续做：可选功能，启动时检测进度文件询问是否继续 状态透明：通过进度文件一目了然

偏好设置

本步骤必须在管线启动前完成。若 EXTEND.md 不存在，禁止启动管线。

按以下优先级查找 EXTEND.md（第一个命中即生效）：

优先级	路径	作用域
1	`<workspace>/.laoli-recipe/laoli-shorts/EXTEND.md`	项目级（当前工作区优先）
2	`$HOME/.laoli-recipe/laoli-shorts/EXTEND.md`	用户级（所有工作区通用）

找到 → 读取并解析，获得 default_profile
未找到 → 执行首次设置流程（references/config/first-time-setup.md），通过 AskUserQuestion 收集偏好后保存 EXTEND.md，然后继续

⚠️ 在 EXTEND.md 创建或加载完成前，不得开始第1步。

EXTEND.md 字段说明见 references/config/preferences-schema.md。

方案配置

⚠️ 执行前必读：读取 references/profiles/<default_profile>（由 EXTEND.md 指定，默认为 history-oil.md），了解本方案的调性、受众、视觉风格、制作规范和风格铁律。所有台词创作必须遵守该文件中的"五条风格铁律"，所有 IMAGE PROMPT 末尾必须追加该文件中的风格后缀。

在 references/profiles/ 目录下放置不同方案的配置文件，并在 EXTEND.md 中切换 default_profile 即可让同一套管线适配不同方案。

制作管线

项目目录规范：每个选题创建一个独立项目文件夹，所有产出物按类型存放。项目根目录固定为 <workspace>/项目，下文用 <projects_dir> 代指。

<projects_dir>/[项目名]/
├── 文案/
│   ├── 制作进度.md    ← 进度跟踪文件
│   ├── 创作底本.md    ← 第1+2+3步产出（选题大纲→视觉指令→分镜脚本）
│   ├── 视频剪辑.md    ← 第8步产出
│   ├── 字幕文稿.txt  ← 第9步产出
│   ├── 配乐方案.md   ← 第10步产出
│   └── 发布文稿.md    ← 第12步产出（发布文案）
├── 素材/
│   ├── 图片/          ← 分镜图 + 第11步封面图
│   ├── 视频/          ← 生成视频（原始，不动）
│   │   ├── sync/      ← 第8步产出（变速对齐）
│   │   └── sync_crop/ ← 第8步产出（去水印+变速）
│   ├── 音频/          ← 配音文件
│   └── 参考/          ← 角色定妆照（不进剪映）
└── 成品/              ← 剪映工程+最终发布视频

按以下步骤顺序执行，每步完成后展示产出物，等待用户确认再继续。

⚠️ 第5步特别提醒：视频生成成本高，分镜图必须经人工确认无误后，才能执行第6步生成视频。

第1步：选题大纲

输入：用户给的主题，或基于方案定位的建议

文案/创作底本.md：写入选题大纲
文案/制作进度.md：初始化进度文件

项目名（≤6字，用于文件夹命名，如"萨拉热窝"）
选题标题（≤15字，有悬念）
核心人物：(必填) 列出本集所有必须出现、且需要独立视觉设定的人物。格式：姓名1、姓名2、姓名3
核心冲突：一句话概括"谁在什么情况下面临什么抉择"
3秒钩子：开场用什么画面+台词瞬间抓住观众
节奏段划分：依据方案配置中的「强制节奏模板」，规划视频的情节与情绪段落。每个段落需注明其核心情绪与预设时长范围（如“约0-5秒”），以确保总时长符合方案要求。
选用的叙事引擎（主+辅）

规则：

必须有“抉择时刻”，不是事件流水账。
开场钩子必须可视觉化（不是抽象概念，是具体画面）。
情绪曲线必须有高点有低谷，不能平。
每个节奏段必须以方案定义的段落标题（如【暴击钩子】）作为每个节奏段的名称，后接该段的情节与情绪描述。

⚠️ 本步产出格式（严格执行）：

# [项目名]

## 选题大纲
- **选题标题**：
- **核心人物**：
- **核心冲突**：
- **3秒钩子**：
- **叙事引擎**：主___ + 辅___
- **节奏段**：
  1. [节奏段名称] [情绪] 一句话描述
  2. [节奏段名称] [情绪] 一句话描述
  ...

第2步：视觉执行指令

依赖：读取第1步的选题大纲，获取核心冲突（决定谁出场）、叙事引擎（影响角色设定方向）。

在编写分镜脚本之前，先定义本选题的核心角色和视觉风格。这一步解决两个核心问题：

多人同脸：AI生图每次独立生成，不同人物没有区分度。通过在核心角色设定中嵌入差异化视觉锚点来解决。
风格模糊：笼统的风格描述不等于精确的视觉定义，需要从方案配置中读取统一的风格后缀。

2a. 核心角色设定

角色设定要点：

每个角色必须有差异化的外貌描述：年龄差、体型差、肤色/发型/面部特征的明确区分
视觉锚点是关键——这是跨分镜识别同一角色的核心特征（如"鹰钩鼻+苍白面色""深色眼窝+凌乱黑发"）
角色数量控制在方案配置的角色数上限内（参见 references/profiles/<default_profile> 中的「制作规范」）
群众/配角无需在《核心角色设定》中创建独立条目，但需要在prompt中与主角做出外貌区分（如"different face from [角色ID]"）
角色描述同时用中英文：中文用于撰写第2步《核心角色设定》中的完整描述（供人审阅），英文则需提取关键特征并嵌入IMAGE PROMPT（供AI生图）。
定妆照提示词在第4步直接读取并使用，生成后保存为 素材/参考/ref_角色ID.jpg，第5步生成分镜图时作为角色参考图传入
文化特征前置：在描述外貌时，必须首先明确角色的种族、时代及地域特征。随后的具体面部、体型、发肤特征描述，应自然体现此背景，并与角色独特的视觉识别点（视觉锚点）结合。

定妆照提示词规范：参见方案配置（references/profiles/<default_profile>）中的「定妆照视觉要求」章节，获取定妆照的构图、背景、光影等约束。

定妆照提示词模板：

Portrait of a [age]-year-old [build] [cultural/ethnic descriptor, e.g., East Asian] [person] with [distinctive physical features that reflect the character's cultural background and visual identity, e.g., monolid eyes, sharp cheekbones], wearing [signature outfit], [signature accessories], half-body portrait from chest up, facing slightly left, dark solid background, [character's core气质 in English], [风格后缀], no text, no letters, no watermark, no background elements

示例（萨拉热窝选题·普林西普，风格后缀取自方案配置）：

- **普林西普 [角色ID: PRN01]**:
  - **年龄外貌**：19岁，**具有典型的巴尔干地区斯拉夫青年特征**，体型瘦削，深色眼窝，黑色凌乱短发，下巴尖削，面色苍白
  - **核心气质**：瘦弱但眼神偏执，像一只被逼到角落的困兽
  - **标志性服饰**：深色旧西装，领口微敞，袖口磨白
  - **视觉锚点**：深色眼窝+凌乱黑发+苍白尖下巴
  - **定妆照提示词**：Portrait of a 19-year-old gaunt **South Slavic** young man with deep dark eye sockets, messy black hair and pale sharp chin, wearing a worn dark suit with collar slightly open and frayed cuffs, half-body portrait from chest up, facing slightly left, dark solid background, intense paranoid eyes like a cornered animal, [风格后缀], no text, no letters, no watermark, no background elements

2b. 通用视觉准则

每个选题定义统一的视觉风格和背景时代。

风格后缀：从方案配置（references/profiles/<default_profile>）中的「视觉风格设定」章节读取，追加到每个 IMAGE PROMPT 末尾，不可省略。

⚠️ 不要自己编风格后缀——必须从方案配置逐字复制，确保跨分镜风格一致。

⚠️ 不要写笼统描述——如 oil painting texture 太笼统，产出颗粒粗、细节糊的结果。

⚠️ 本步产出格式（严格执行）

追加到：<projects_dir>/[项目名]/文案/创作底本.md（接在第1步内容之后）

## 视觉执行指令

### 核心角色设定
- **[角色名] [角色ID: XXX01]**:
  - **年龄外貌**：[具体年龄，具有XX地区/文化/时代背景的典型特征（如：东亚、地中海、南亚等），体型、面部特征、肤色、发型]
  - **核心气质**：[一句话概括此人给观者的第一印象]
  - **标志性服饰**：[时代服饰的具体描写，包括材质、颜色、配饰]
  - **视觉锚点**：[此角色最突出的1-2个视觉特征，用于跨分镜识别和写入IMAGE PROMPT]
  - **定妆照提示词**：[完整英文prompt]

### 通用视觉准则
- **统一风格**：从方案配置的「视觉风格设定」读取
- **背景时代**：[具体年代和地点]
- **视觉符号 (Callback)**：[本选题的反复出现的视觉隐喻，在关键节点重复出现]

第3步：编写分镜脚本

依赖：读取第1步的【节奏段】、3秒钩子；读取第2步的核心角色设定（视觉锚点写入 IMAGE PROMPT）、通用视觉准则（风格后缀追加到 IMAGE PROMPT）。

智能分镜规划与创作规则：

输入：你已获得第1步输出的“节奏段”列表（每个节奏段都包含名称和情节描述），以及第2步的“角色设定”与“视觉风格”。
核心任务：为每一个“节奏段”创作分镜脚本。节奏段与分镜不是1对1关系。你需要根据以下规则进行创作

拆分规划：根据该节奏段的情节密度、情绪转折点和视觉焦点变化，你必须根据其情节密度，将其规划为1个或多个‘分镜’（即可生成的视频单元），情节复杂的段落可能需要多个分镜，简单的段落可能只需一个。在最终输出分镜列表前，可简要说明拆分逻辑，例如：‘【观察眼·外部压力】段落（预设18秒）情节密集，拆分为3个分镜，总时长约18秒（8+8+2秒）。’
命名格式：每个分镜的标题格式必须为：## 分镜 N / [节奏段名]-[镜头描述]。其中，[节奏段名]必须直接使用第1步输出中对应的节奏段名称（如【暴击钩子】）。
时长约束：每个“分镜”的预设时长严禁超过方案中定义的「单镜头生成限制」（如8秒）。你需合理分配各分镜时长，确保该节奏段的总时长与预设范围基本吻合。
叙事连贯：跨分镜的台词需保持语言和情绪的连贯，形成完整的叙事流。金句和互动钩子需放在你设计的最具冲击力的分镜中。

输出：为你规划出的每一个分镜独立输出“台词”、“角色参考图”、“IMAGE PROMPT”和“VIDEO MOTION”。

对每个分镜，同时输出以下4项：

3a. 台词

台词创作需严格遵循所选方案中「制作规范」或「风格铁律」中对台词的特别要求。
每段1-3句话，总字数按方案配置中的台词总字数控制（参见 references/profiles/<default_profile> 中的「制作规范」）
必须包含感官细节（不说"他很愤怒"，而说"他指关节发白，死死攥着那封信"）
金句位置明确标注（★金句）
结尾段必须有互动钩子（直接向观众发问）

3b. 图片生成指令（IMAGE PROMPT）

格式规范：

[主体：引用第2步`核心角色设定`中的文化特征与视觉锚点] + [动作/状态] + [环境/背景] + [风格后缀] + [负向排除]

要点：

角色引用：每个出场的核心角色，在prompt中必须包含其文化/种族特征（如 East Asian, South Slavic 等）以及视觉锚点的英文描述，从第2步核心角色设定的定妆照提示词中直接引用或适配。
- 正确：a gaunt **South Slavic** young man with dark eye sockets, messy black hair and pale sharp chin (PRN01), gripping a pistol...
- 错误：a young man holding a sword...（缺少来自第2步核心角色设定文化与视觉识别信息）
多人场景差异化：当画面有多个角色时，每个角色的英文描述必须包含其独特的视觉锚点，且明确标注"different person"
具体胜过抽象：不写"一个宏伟的场景"，写"巴戎寺四张微笑石雕巨脸特写，金色晨曦从左侧照亮"
环境描写要丰富：光源方向、天气、时间、建筑风格、材质质感
禁用动态镜头语言：不写"镜头推进""航拍"——AI生图只能画静态画面
负向排除：排除不需要的元素（如 no modern buildings, no tourists）
- 默认加入：no text, no letters, no watermark（避免无关文字）
- 分镜需要文字时去掉：如果画面需要显示文字（如电报、报纸、招牌等），则从负向排除中移除 no text/no letters/no watermark
英文输出：IMAGE PROMPT 必须为英文

3c. 视频运动指令（VIDEO MOTION）

VIDEO MOTION 是图生视频（i2v）的 prompt，描述从分镜图出发的画面运动。视频生成必须基于分镜图（图生视频），以保证画面质量和角色一致性。

格式规范：

[camera movement] + [subject motion] + [environment motion] + [atmospheric elements]

要点：

从分镜图出发：prompt不需要重复描述画面静态内容（分镜图已提供视觉参考），只需描述运动和变化
只描述物理运动：不描述叙事含义，只描述画面怎么动
运动要克制：历史纪录片的节奏是慢的，运动幅度不宜过大
时长匹配：每段5-10秒，运动描述要匹配时长
英文输出：图生视频的 prompt 用英文效果更好

常用运动模式（参考）：

情绪段	推荐运动	示例
冲击/钩子	极慢推进+主体微动	subtle zoom in on the clenched fist, dust particles floating
压抑	水平缓移+环境静止	slow horizontal pan, flags gently swaying, civilians still
暗涌	固定+光影变化	flickering lamplight, smoke drifting, shadows moving
荒诞	缓移+意外元素	car slowly rolling to a stop, figure tensing
爆发	快速运动+混乱	rapid motion, people rushing, dust rising
雪崩	宏大缓移+变化积累	slow zoom out, shadows spreading across the map
余韵	极慢+环境细节	slow dim light shift, dust motes, subtle breathing

⚠️ 本步产出格式（严格执行）

追加到：<projects_dir>/[项目名]/文案/创作底本.md（接在第2步内容之后）

输出格式：请严格按照以下格式为你规划出的每一个分镜生成内容，分镜标题中的 [节奏段名]必须与第1步的输出严格对应。


## 分镜 N / [节奏段名]-[镜头描述]

**台词**：
> 具体台词内容（★金句标注）

**角色参考图**：
> 本分镜出场核心角色的定妆参考图，图生图时传入以提升角色一致性。多个用逗号分隔，格式：`ref_角色ID1.jpg, ref_角色ID2.jpg`
> 无核心角色出场时填 `无`

**IMAGE PROMPT**：
> 英文生图指令，一行写完（必须包含角色文化特征、视觉锚点+风格后缀）

**VIDEO MOTION**：
> 视频运动描述，一行写完

第4步：生成角色定妆照

调用：laoli-imagine skill

输入：第2步核心角色设定中的「定妆照提示词」
输出：竖屏9:16图片，保存到 素材/参考/ref_角色ID.jpg
数量：每个核心角色1张
生成顺序：按核心角色设定的角色顺序逐个生成

不需要定妆照的角色：群众/配角（无角色设定）

生成完毕后：图片质量检查（必须人工确认）

展示 素材/参考/ 下所有已生成图片，等待用户确认
检查项：
- 文化特征准确性：面部特征、发色等是否符合第2步核心角色设定定义的种族/地域背景。
- 基本质量（无硬伤）：无面部扭曲、畸形等多指等基础缺陷。
- 视觉锚点呈现：第2步核心角色设定中定义的标志性视觉锚点是否清晰、准确呈现。
- 风格一致性：画面质感是否符合方案配置的视觉风格。
发现问题：记录有问题的文件名，重新生成对应图片，重新检查
确认无误后：继续下一步

⚠️ 未通过检查前，禁止执行下一步。

第5步：生成分镜图

使用第3步输出的 IMAGE PROMPT 生成每段分镜图，生成完毕后必须进行图片质量检查，确认无误后方可继续。

调用：laoli-imagine skill

输入：第3步的 IMAGE PROMPT
角色参考图：按第3步每个分镜的「角色参考图」字段列表，传入对应的 素材/参考/ref_角色ID.jpg（第4步生成），提升角色一致性
输出：素材/图片/scene0x_描述.jpg，按命名规范生成

生成完毕后：图片质量检查（必须人工确认）

展示 素材/图片/ 下所有已生成图片，等待用户确认
检查项：
- 完整性校验：文件是否正常生成（存在且大小合理，非0KB）。
- 硬伤检测（崩坏）：角色面部是否扭曲、五官错位、多手指/畸形手等明显AI缺陷。
- 锚点一致性（跨镜）：角色与第2步核心角色设定中的视觉锚点是否一致（重点检查发色、脸型、标志性配饰）。
- 风格固化：风格后缀是否生效（画面质感是否符合方案配置中的视觉风格设定）。
- 历史/文化逻辑：道具/背景/服饰是否符合时代设定（避免“时代错位”的穿帮）。
- 角色区分度：画面中有多个角色时，不同人物的面孔是否有足够区分度，避免“克隆脸”（尤其注意背景群演）。
- 光影情绪匹配：画面整体亮度、色调是否符合分镜预期的情绪氛围（如压抑、紧张、高潮等）。
- 参考图还原度：使用了参考图生成的分镜，角色的五官、神韵是否与参考图高度一致。
- 叙事张力：画面是否准确传达了该分镜台词的核心情绪与戏剧张力。
- 构图与美感：画面有无明显瑕疵、穿模或不自然的构图截断。
发现问题：记录有问题的文件名，重新生成对应图片，重新检查
确认无误后：继续下一步

⚠️ 未通过检查前，禁止执行下一步。

第6步：生成视频

以第5步生成的分镜图为参考图，用图生视频（i2v）方式生成每段视频。

调用：laoli-videoize skill

输入：第5步的分镜图（作为参考图）+ 第3步输出的 VIDEO MOTION（运动描述）
输出：素材/视频/scene0x_描述.mp4
关键：必须使用图生视频（i2v），以分镜图为参考图，确保画面质量和角色一致性。不得使用纯文生视频。

第7步：生成配音

将第3步的台词逐段转换为音频，每段台词独立调用一次。

调用：laoli-tts skill

输入：
- text：第3步每条分镜的「台词」纯文本。注意：★符号及其后面的金句（画面字幕）整段都去掉，不配音
- output_directory：素材/音频/ 的绝对路径（即 <workspace>/项目/[项目名]/素材/音频/）
输出：素材/音频/scene0x_描述.mp3

第8步：视频剪辑

处理分镜视频：先对齐配音时长，再按需检查并去水印，输出处理报告。

输入：第6步的分镜视频（素材/视频/，原始文件不动）+ 第7步的配音（素材/音频/）

处理流程：

8a. 变速对齐

将所有分镜视频时长调整至与配音时长一致。

输入：素材/视频/scene0x_描述.mp4（原始）、素材/音频/scene0x_描述.mp3
系数计算：setpts = 音频时长 / 视频时长
处理方式：纯变速（setpts），不加补帧，去掉音频轨道（-an）
输出：素材/视频/sync/scene0x_描述.mp4（无声，所有分镜都有）

8b. 去水印（按需执行）

说明：如果分镜视频全部来自 AI 生成（第 6 步正确执行），则没有水印，直接跳过本步。仅在混入手工/外部视频素材时执行。

检查 sync/ 中的视频是否有平台水印（如 Veo），仅在确认有水印时执行裁剪。

检查方式：播放器预览 sync/ 中的视频，确认是否有平台水印
有水印时：按以下规格批量裁剪，输出到 sync_crop/
- 裁剪规格：底部裁剪约 70px，精确 9:16 比例（1040x1850，居中裁切）
- 参数：crop=1040:1850:20:0（宽 1040、高 1850，从 x=20 开始）
- 输出：素材/视频/sync_crop/scene0x_描述.mp4
无水印时：跳过本步，剪映直接使用 sync/ 中的文件

⚠️ 本步产出格式（严格执行）：

保存到 文案/视频剪辑.md

# 视频剪辑

| 分镜 | 视频原长 | 音频时长 | 系数 | 水印处理 | 剪映补帧 |
|:----|:-------:|:--------:|:----:|:---------|:--------:|
| scene01 | 8.0s | 8.1s | 1.0125 | 无 | 否 |
| scene04 | 8.0s | 10.5s | 1.3125 | 裁剪70px | 是 |
| sceneXX | x.xs | x.xs | x.xxxx | 裁剪70px/无 | 是/否 |

剪映补帧说明：放慢的分镜（系数<1.0）在剪映中对对应片段勾选AI补帧（本地模型）。

剪映导入指引：

无水印分镜 → 拖入 sync/ 中的文件
有水印分镜 → 拖入 sync_crop/ 中的文件

第9步：提取台词

从第3步的分镜脚本中逐段提取纯台词，格式化后输出为剪映可直接导入的文稿文件。

输入：第3步每个分镜的「台词」文本

处理规则：

逐分镜提取台词内容
去除★金句标注等非台词标记
格式化规范：
- 一句一换行（换行=分句信号）
- 无标点符号（句号、逗号、冒号、引号等全部移除，用换行代替）
- 保留书名号《》、引号「」等特殊标识（如船名「加利福尼亚人」）
保持分镜顺序输出

输出：保存到 <projects_dir>/[项目名]/文案/字幕文稿.txt

示例（静默频道项目）：

1912年4月14日深夜
泰坦尼克号最后的冰山警告淹没在一堆付费电报里
首席电报员杰克菲利普斯已连续工作了十几个小时
...

第10步：选取配乐

基于选题调性为视频选取贯穿全程的 BGM（纯音乐，一条到底）。提供三级策略，按优先级从高到低尝试。

输入：第1步选题大纲（核心情绪/视觉风格/节奏段划分）

10a. 关键词搜索（推荐优先）

根据选题调性与视觉风格，生成中英文搜索关键词，供用户在免版权平台搜索 BGM（如剪映素材库、YouTube Audio Library、Uppbeat 等）。

BGM 方向：基于选题大纲的核心情绪与视觉风格，推荐具体音乐风格和情绪关键词
示例：选题"泰坦尼克号最后的电报" → 历史叙事悬疑管弦 / historical narrative suspense orchestral

10b. 人工生成

如果搜索未找到合适 BGM，生成 MiniMax 官网音乐生成页面可用的 prompt 词，用户复制到 minimax.io/music 免费生成。

示例：管弦乐, 悬疑叙事节奏, 低音提琴与钢琴交替, 适合历史纪录片BGM

10c. 自动生成（按需执行）

如果上述方式均不满足，经用户确认后，调用 laoli-bgm skill 基于 MiniMax API 生成 BGM。

调用：laoli-bgm skill
prompt：基于选题大纲生成音乐描述
输出目录：<projects_dir>/[项目名]/素材/音频/

输出：

10a/10b → 将关键词/prompt 保存到 <projects_dir>/[项目名]/文案/配乐方案.md
10c → 生成 素材/音频/bgm.mp3，同时将描述关键词存档到 文案/配乐方案.md

产出确认：展示 BGM 搜索结果或播放生成的音频，等待用户确认。不满意则调整策略重新尝试。

第11步：生成封面图

基于选题核心视觉意象设计并生成视频封面图。

输入：第1步选题大纲（选题标题/核心冲突/视觉符号）

设计要点：

封面必须预留标题文字空间（通常上方1/3做深色渐变或留黑）
画面聚焦选题核心视觉符号（如电报桌、耳机、摩尔斯纸带、煤油灯等）
风格与视频统一，保持方案配置的视觉风格
竖版3:4比例（视频号封面标准比例）

调用：laoli-imagine skill

输出：素材/图片/封面_项目名.jpg

产出确认：展示封面图，等待用户确认。不满意则调整prompt重新生成。

第12步：设计发布文稿

基于视频内容和后期规格，设计视频号发布文案（标题+描述）。

输入：第1步选题大纲（选题标题/核心冲突/金句）+ 第3步分镜脚本（台词金句）

发布标题规则：

长度控制在6-16个字符
允许使用符号：书名号《》、引号""、冒号：、加号+、问号？
如需分隔，优先用空格代替逗号

描述结构：必须包含以下三部分：

【钩子】：开场吸引注意的一句话
【资料来源】：历史/事实依据（如脚本中有证据锚点）
【热门标签】：一组相关的热门标签

输出格式：

# 发布材料草稿

## 1. 发布标题
**标题**：[6-16字的发布标题]

## 2. 视频描述
[emoji] [钩子文案]

**资料来源**: [历史/事实依据]

[热门标签]

输出：保存到 <projects_dir>/[项目名]/文案/发布文稿.md

产出确认：展示发布文稿，等待用户确认后结束管线。