| name | podcast-creator |
| description | 播客与音频内容创作专家。专注于生成纯音频内容(播客、有声书、广播剧等),包含脚本创作、音色设计确认、批量合成、BGM选择、拼接与混音的完整工作流。 |
播客与音频内容创作
概述
本技能用于生成纯音频内容(只有声音,不需要画面),适用场景包括:
- 多人对话播客(主持人+嘉宾对话)
- 独白播客(单人讲述)
- 有声书(单人朗读或多角色演绎)
- 广播剧(多角色剧情演绎)
- 音频故事、语音教程等
核心工作流程
分步执行,关键步骤需用户确认后再继续。
第 1 步:脚本创作(必须)
理解用户需求:主题、时长、风格、场景类型(多人对话 / 独白 / 有声书),生成完整音频脚本:
- 多人对话:主持人 + 嘉宾的对话内容,标注每段对话的角色
- 独白:单人讲述的完整文本,按段落分段
- 有声书:章节内容,可能包含旁白 + 角色对话
脚本格式示例见 references/script_format.md。
输出脚本后,等待用户确认脚本内容是否满意,再进入下一步。
第 2 步:音色设计与确认(必须 - 交互确认)
根据脚本确定需要几个音色:
- 多人对话 → 为每个角色设计独特音色(如:主持人-女声、嘉宾-男声)
- 独白 → 设计一个音色
音色来源选择:
- 用户上传了参考音频 → 使用
qwen_voice_cloning 工具
- 无参考音频 → 使用
qwen_voice_design 工具通过文字描述生成音色
生成音色样本(重要!):
- 为每个角色生成一小段测试音频(使用脚本的第一句话)
- 例如:主持人音色样本:"大家好,欢迎来到今天的节目"
- 例如:嘉宾音色样本:"很高兴能来到这里"
询问用户确认:
- 展示所有音色样本
- 明确询问:"以上是为各角色生成的音色样本,请您试听一下,音色是否满意?如果需要调整,请告诉我您的要求。"
- 必须等待用户明确同意("可以"、"没问题"、"满意"等)后,才能继续下一步
- 如果用户要求调整,重新生成音色样本直到用户满意
第 3 步:批量音频合成(用户确认音色后执行)
只有在用户确认音色 OK 后,才开始批量合成。
工具选择:使用 qwen_voice_cloning 工具进行批量合成,传入音色样本的 audio_url 作为 reference_audio。
保持音色一致性:
- 多人对话:每个角色使用各自的
reference_audio
- 独白:所有段落使用相同的
reference_audio
按脚本顺序,为每段对话 / 段落生成完整音频,并按顺序记录所有音频片段路径。
第 4 步:背景音乐选择(可选)
使用 select_background_music 工具,根据主题和风格选择 BGM。
场景描述示例:
- "欢快的开场" / "科技感电子音乐" / "轻松聊天背景" / "深沉专业讨论"
可询问用户是否需要 BGM,或根据内容风格自动匹配。
第 5 步:音频拼接
使用 concatenate_audio 工具将所有语音片段按脚本顺序拼接。
参数建议:
crossfade_duration: 200ms(音频间淡入淡出)
silence_duration: 1200ms(对话间隔,让对话更自然从容)
第 6 步:混音输出
使用 mix_audio_with_bgm 工具将人声与 BGM 混合。
参数建议:
bgm_volume: -26dB(背景音量约 5%,确保人声绝对清晰)
intro_duration: 3-5 秒(BGM 开场原声播放时长)
normalize: True(音量归一化)
BGM 效果:先以原声播放开场,然后平滑过渡到 5% 背景音量,最终输出完整音频文件。
执行原则
- 交互式确认:音色设计后必须让用户确认,确认后才能批量合成
- 先样本后批量:先生成音色样本确认,避免批量合成后发现音色不满意
- 音色一致性:同一角色的所有对话必须使用完全相同的音色参数
- 灵活音色来源:支持用户上传参考音频,也支持 AI 文字描述生成
- 友好提示:每个关键步骤都用自然语言告知用户当前进度
- 不要跳过音色确认步骤:这是避免返工的关键
参考资料
- 脚本格式示例:references/script_format.md
- 完整流程示例:references/workflow_example.md