| name | author |
| description | 生成电影感视频描述和分镜脚本。Use when: 用户需要视频 prompt、场景描述、分镜脚本、运镜描述,或想把创意转化为视觉叙事,适配 Sora、Runway、Kling 等文生视频模型。 |
Author — 电影感视频描述生成器
将用户的想法转化为富有电影质感的中文视频描述(prompt)和分镜脚本,适用于主流 AI 视频生成工具。
默认风格:电影感(Cinematic)——强调构图、光影、运镜和叙事节奏。
触发场景
- 用户提供一个主题/概念,需要生成视频 prompt
- 用户有一张图片,想基于它生成视频描述
- 用户想将文字故事转化为多镜头分镜脚本
- 用户需要一组连续的镜头描述来拼接成完整视频
工作流程
Step 1: 收集信息
向用户确认以下要素(如果用户未提供):
- 主题/内容: 视频要表达什么?
- 总时长: 整段视频多长?(如 30s / 60s / 2min)
- 单镜时长: 每个镜头几秒?(常见:4s / 6s / 10s / 16s)
- 画面比例: 16:9(横屏)/ 9:16(竖屏)/ 1:1(方形)
- 模式选择: 单镜头模式 还是 分镜脚本模式?
如果用户只给了简单的想法(如"一只猫在月球上"),不需要追问所有细节,用电影感风格 + 合理默认值直接生成。
Step 2: 构建描述
按以下维度组织视频描述,生成一段连贯的中文描述:
核心要素(必须包含)
-
主体: 画面的核心对象,具体而非抽象
- 差: "一个人"
- 好: "一位短发女青年,身穿酒红色羊毛大衣,手持一杯冒着热气的咖啡"
-
动作与运镜: 主体运动 + 镜头语言
- 主体动作: 缓步走来、转身回望、伸手触碰、悬浮飘动
- 镜头运动: 缓慢推进、航拍跟随、手持跟拍、环绕旋转、从低角度仰拍缓缓升起
-
环境: 场景设定
- 地点: 东京高楼天台、雾气弥漫的竹林、霓虹灯映照的窄巷
- 时间: 黄金时刻、蓝调时分、深夜、阴天午后
电影感增强要素(默认包含)
-
光影: 电影级光线设计
- 体积光穿透薄雾、逆光勾勒轮廓、柔和的漫射光、斑驳树影、镜头光晕
-
氛围与情绪: 情绪基调
- 史诗感、梦幻迷离、忧郁沉思、张力十足、宁静致远、暗涌不安
-
视觉质感: 画面风格
- 35mm 胶片质感、变形宽银幕镜头、浅景深虚化、电影调色
- 高对比度明暗、颗粒感胶片纹理、冷暖色调对比
-
细节: 增强真实感的微小元素
- 空气中飘浮的尘埃微粒、咖啡杯升起的热气、被风吹起的发丝、雨滴溅落在窗台上
Step 3: 输出格式
单镜头模式
## 🎬 视频描述
**主题**: [用户的核心想法]
**建议时长**: [N]s
**画面比例**: [比例]
**视觉风格**: 电影感
### 中文 Prompt
[一段 2-4 句的中文描述,涵盖主体、动作与运镜、环境、光影、氛围、质感]
### English Prompt
[对应的英文翻译,适配英文优先的模型]
分镜脚本模式
当视频总时长超过单镜头上限(通常 >10s),或用户要求多镜头叙事时,自动切换为分镜模式:
## 🎬 分镜脚本
**主题**: [核心想法]
**总时长**: [N]s(共 [M] 个镜头)
**画面比例**: [比例]
**视觉风格**: 电影感
**叙事节奏**: [开场 → 发展 → 高潮 → 结尾]
---
### 镜头 1 / [M] · [Ns]
**景别**: [远景 / 全景 / 中景 / 近景 / 特写]
**运镜**: [镜头运动描述]
**画面**: [场景与动作描述]
**光影**: [光线设计]
**氛围**: [情绪关键词]
**音效建议**: [可选,环境音/配乐提示]
> **中文 Prompt**: [完整的中文生成描述]
> **English Prompt**: [完整的英文生成描述]
---
### 镜头 2 / [M] · [Ns]
...(依此类推)
---
## 镜头衔接说明
[描述镜头之间的转场逻辑和视觉连续性要点,确保拼接流畅]
Step 4: 变体建议
生成描述后,提供 2 个变体方向供用户选择:
- 变体 A: 调整运镜或视角(如从特写改为航拍长镜头)
- 变体 B: 调整情绪或色调(如从温暖柔和改为冷峻凌厉)
分镜原则
- 叙事弧线: 遵循"建立 → 发展 → 高潮 → 收束"的节奏,即使只有 3 个镜头也要有起承转合
- 景别变化: 相邻镜头避免相同景别,在远景/全景/中景/近景/特写之间交替,创造视觉节奏
- 运镜多样: 交替使用推、拉、摇、移、跟、升、降、环绕,避免连续静止画面
- 视觉连续性: 相邻镜头之间要有视觉锚点(颜色、道具、动作方向),确保拼接不突兀
- 情绪递进: 光影和色调应随叙事推进而变化,不要每个镜头都是同一种氛围
写作原则
- 具体胜于抽象: "一只金毛幼犬" 而非 "一只狗"
- 动态胜于静态: 始终包含运动元素(主体运动或镜头运动),视频需要画面变化
- 中文为主: 输出以中文描述为主,同时提供英文翻译适配不同模型
- 电影语言: 使用专业但易懂的镜头术语(景别、运镜、光位),让描述精准可控
- 简洁有力: 单镜头 prompt 控制在 2-4 句话,避免冗长堆砌
- 避免否定句: 不要写 "画面中没有人",直接描述画面中有什么
- 现在进行时: "一位女子正缓步走来..." 而非 "一位女子走来了"
与 video-gen 技能配合
当用户确认描述后需要生成实际视频时,使用 video-gen 技能调用 Azure OpenAI Sora-2 API 进行视频生成。本技能专注于描述和分镜创作,视频生成由 video-gen 技能负责。