Run any Skill in Manus with one click

scene-video-generator

根据分镜描述生成视频片段。支持多个 AI 视频生成后端：即梦 Jimeng、Kling 可灵、Runway、Pika、Vidu。输入场景描述+可选的数字人口播，输出视频片段。触发词：AI视频、生成视频、分镜视频、scene video、text to video、图生视频。

Run Skill in Manus

Overview

Install command

npx skills add https://github.com/npc-live/clawfirm --skill scene-video-generator

Copy and paste this command into Claude Code to install the skill

Source

npc-live/clawfirm

Stars157

Forks13

UpdatedApril 2, 2026 at 02:28

File Explorer

3 files

SKILL.md

readonly

name	scene-video-generator
version	1.0.0
description	根据分镜描述生成视频片段。支持多个 AI 视频生成后端：即梦 Jimeng、Kling 可灵、Runway、Pika、Vidu。输入场景描述+可选的数字人口播，输出视频片段。触发词：AI视频、生成视频、分镜视频、scene video、text to video、图生视频。

分镜视频生成

功能

将分镜描述转换为 AI 场景视频（不含数字人）：

纯 AI 生成场景
图生视频（从参考图扩展）

⚠️ 与 digital-avatar 的分工

需求	用哪个 skill
数字人口播视频	→ `digital-avatar`
纯 AI 场景（无人/路人/产品展示等）	→ `scene-video-generator`（本 skill）

数字人相关的视频生成请用 digital-avatar skill，确保后端一致性。

支持的后端

后端	特点	时长限制	适用场景
Jimeng 即梦	国内，快，中文理解好	5s	国内平台
Kling 可灵	国内，质量高	5-10s	高质量需求
Runway	国际，Gen-3 质量顶级	5-10s	高端制作
Pika	快速，风格化强	3-5s	风格化内容
Vidu	国内，性价比高	4-8s	一般需求

默认使用 Jimeng（如已配置）。

输入参数

参数	必填	说明
backend	-	jimeng / kling / runway / pika / vidu
prompt	✓	场景描述（英文效果更好）
duration	-	目标时长（秒）
aspect_ratio	-	16:9 / 9:16 / 1:1
reference_image	-	参考图（图生视频）
style	-	realistic / anime / cinematic
motion	-	low / medium / high
seed	-	随机种子（复现用）

输出格式

video:
  id: "scene_001"
  backend: kling
  url: "https://..."
  duration: 5.0
  resolution: "1920x1080"
  aspect_ratio: "16:9"
  prompt: "原始 prompt"
  seed: 12345
  status: completed

工作流程

流程 A：纯 AI 生成

输入: prompt + 参数
  ↓
翻译/优化 prompt（如需要）
  ↓
调用后端 API
  ↓
等待渲染（30s-3min）
  ↓
输出: 视频 URL

流程 B：图生视频

输入: reference_image + prompt
  ↓
上传参考图
  ↓
调用 image-to-video API
  ↓
输出: 视频 URL

💡 需要数字人口播？ 请使用 digital-avatar skill。

Prompt 优化技巧

结构

[主体] + [动作] + [场景] + [镜头] + [风格]

示例

原始：女生在办公室看电脑

优化：A young professional woman sitting at a modern office desk, 
looking at computer screen with focused expression, 
soft natural lighting from window, 
medium shot, shallow depth of field, 
cinematic color grading

镜头术语

中文	英文	说明
特写	close-up	脸部/细节
中景	medium shot	半身
全景	wide shot	全身+环境
跟拍	tracking shot	跟随移动
推镜	dolly in	推进
拉镜	dolly out	拉远

详见 references/prompt-guide.md

使用示例

生成场景

用户：生成一个5秒的视频，内容是：一个人在咖啡厅用笔记本工作

执行：
1. 优化 prompt
2. 调用 Kling API
3. 等待渲染
4. 返回视频 URL

批量生成分镜

用户：根据这个分镜列表生成视频 [附 YAML]

执行：
1. 解析分镜列表
2. 逐个生成（或并行）
3. 返回视频列表

与上下游对接

上游输入：

video-script-generator 的 scenes[].shot_description（非口播场景）

下游输出：

video-stitcher 消费视频片段

并行 skill：

digital-avatar 负责口播场景视频
本 skill 负责 AI 场景视频
两者输出都汇入 video-stitcher

注意事项

不同后端对 prompt 长度有限制（通常 500 字符内）
复杂动作/多人场景效果不稳定
建议先小批量测试再批量生成
保存 seed 以便复现满意的结果
渲染时间可能较长，使用异步处理

More from this repository

same repository

social-distribute

npc-live/clawfirm

一键多平台视频分发。读取各平台 content-rules，一次 LLM 调用生成全平台文案，再用 browser_shortcut 并行填表。支持：抖音、TikTok、B站、小红书、YouTube、LinkedIn、微信视频号。触发词：分发、发布、distribute、多平台发布、一键发布、social distribute。

2026-05-31157

cover-gen

npc-live/clawfirm

社交媒体封面生成 + 视频首帧插入。从视频成片提取关键帧，按各平台规格 AI 生成封面，最终将封面作为视频第一帧（0.1秒）合成到视频中。底层使用 media_gen (Gemini/OpenAI) + FFmpeg。触发词：封面、cover、生成封面、封面制作、首帧、cover gen、thumbnail、视频封面。

2026-05-31157

copywriting-base

npc-live/clawfirm

跨平台通用文案基座。提供标题公式、Hook 开场、正文结构框架（AIDA/PAS/BAB）、CTA 话术模板、病毒传播因子分析、中英双语写作规范。被各平台 skill 引用作为文案原子能力。触发词：文案、标题、Hook、CTA、病毒传播、copywriting、viral copy。

2026-05-21157

bilibili

npc-live/clawfirm

B站内容创作全套。包括中视频/短视频文案风格（二次元+技术混搭）、横屏16:9格式规范、分区选择策略、一键三连引导、弹幕文化适配、稿件审核规则、创作者激励机制。建议配合 copywriting-base 使用以获取通用文案能力。触发词：B站、bilibili、哔哩哔哩、一键三连、投币。

2026-05-20157

douyin

npc-live/clawfirm

抖音内容创作全套。包括短视频文案（前3秒定生死）、竖屏格式规范、话题标签策略、严格审核规避（机审+人审）、完播率优化、五级流量池机制。建议配合 copywriting-base 使用以获取通用文案能力。触发词：抖音、Douyin、TikTok、短视频、抖音运营。

2026-05-17157

xiaohongshu

npc-live/clawfirm

小红书内容创作全套。包括种草文案风格、图文/视频格式规范、标题优化、标签策略、审核规避（禁用词+限流规则）、CES 算法适配、最佳发布时间。建议配合 copywriting-base 使用以获取通用文案能力。触发词：小红书、RED、种草、笔记、小红书文案、小红书运营。

2026-05-17157

Source

npc-live

npc-live/clawfirm

View GitHub Repository View Creator Repositories

Install command

Download

Run Skill in Manus

Useful forSOC

Film and Video EditorsArts, Design, Entertainment, Sports, and Media Occupations27-4032L4

name	scene-video-generator
version	1.0.0
description	根据分镜描述生成视频片段。支持多个 AI 视频生成后端：即梦 Jimeng、Kling 可灵、Runway、Pika、Vidu。输入场景描述+可选的数字人口播，输出视频片段。触发词：AI视频、生成视频、分镜视频、scene video、text to video、图生视频。

分镜视频生成

功能

将分镜描述转换为 AI 场景视频（不含数字人）：

纯 AI 生成场景
图生视频（从参考图扩展）

⚠️ 与 digital-avatar 的分工

需求	用哪个 skill
数字人口播视频	→ `digital-avatar`
纯 AI 场景（无人/路人/产品展示等）	→ `scene-video-generator`（本 skill）

数字人相关的视频生成请用 digital-avatar skill，确保后端一致性。

支持的后端

后端	特点	时长限制	适用场景
Jimeng 即梦	国内，快，中文理解好	5s	国内平台
Kling 可灵	国内，质量高	5-10s	高质量需求
Runway	国际，Gen-3 质量顶级	5-10s	高端制作
Pika	快速，风格化强	3-5s	风格化内容
Vidu	国内，性价比高	4-8s	一般需求

默认使用 Jimeng（如已配置）。

输入参数

参数	必填	说明
backend	-	jimeng / kling / runway / pika / vidu
prompt	✓	场景描述（英文效果更好）
duration	-	目标时长（秒）
aspect_ratio	-	16:9 / 9:16 / 1:1
reference_image	-	参考图（图生视频）
style	-	realistic / anime / cinematic
motion	-	low / medium / high
seed	-	随机种子（复现用）

输出格式

video:
  id: "scene_001"
  backend: kling
  url: "https://..."
  duration: 5.0
  resolution: "1920x1080"
  aspect_ratio: "16:9"
  prompt: "原始 prompt"
  seed: 12345
  status: completed

工作流程

流程 A：纯 AI 生成

输入: prompt + 参数
  ↓
翻译/优化 prompt（如需要）
  ↓
调用后端 API
  ↓
等待渲染（30s-3min）
  ↓
输出: 视频 URL

流程 B：图生视频

输入: reference_image + prompt
  ↓
上传参考图
  ↓
调用 image-to-video API
  ↓
输出: 视频 URL

💡 需要数字人口播？ 请使用 digital-avatar skill。

Prompt 优化技巧

结构

[主体] + [动作] + [场景] + [镜头] + [风格]

示例

原始：女生在办公室看电脑

优化：A young professional woman sitting at a modern office desk, 
looking at computer screen with focused expression, 
soft natural lighting from window, 
medium shot, shallow depth of field, 
cinematic color grading

镜头术语

中文	英文	说明
特写	close-up	脸部/细节
中景	medium shot	半身
全景	wide shot	全身+环境
跟拍	tracking shot	跟随移动
推镜	dolly in	推进
拉镜	dolly out	拉远

详见 references/prompt-guide.md

使用示例

生成场景

用户：生成一个5秒的视频，内容是：一个人在咖啡厅用笔记本工作

执行：
1. 优化 prompt
2. 调用 Kling API
3. 等待渲染
4. 返回视频 URL

批量生成分镜

用户：根据这个分镜列表生成视频 [附 YAML]

执行：
1. 解析分镜列表
2. 逐个生成（或并行）
3. 返回视频列表

与上下游对接

上游输入：

video-script-generator 的 scenes[].shot_description（非口播场景）

下游输出：

video-stitcher 消费视频片段

并行 skill：

digital-avatar 负责口播场景视频
本 skill 负责 AI 场景视频
两者输出都汇入 video-stitcher

注意事项

不同后端对 prompt 长度有限制（通常 500 字符内）
复杂动作/多人场景效果不稳定
建议先小批量测试再批量生成
保存 seed 以便复现满意的结果
渲染时间可能较长，使用异步处理