تشغيل أي مهارة في Manus بنقرة واحدة

ابدأ الآن

podcast-creator

播客与音频内容创作专家。专注于生成纯音频内容（播客、有声书、广播剧等），包含脚本创作、音色设计确认、批量合成、BGM选择、拼接与混音的完整工作流。

تشغيل في Manus

نظرة عامة

أمر التثبيت

npx skills add https://github.com/hirogoing/PolyStudio --skill podcast-creator

انسخ والصق هذا الأمر في Claude Code لتثبيت المهارة

المصدر

hirogoing/PolyStudio

النجوم٥٥

التفرعات٣١

آخر تحديث٩ أبريل ٢٠٢٦ في ٠٦:٤١

مستكشف الملفات

3 ملفات

SKILL.md

readonly

name	podcast-creator
description	播客与音频内容创作专家。专注于生成纯音频内容（播客、有声书、广播剧等），包含脚本创作、音色设计确认、批量合成、BGM选择、拼接与混音的完整工作流。

播客与音频内容创作

概述

本技能用于生成纯音频内容（只有声音，不需要画面），适用场景包括：

多人对话播客（主持人+嘉宾对话）
独白播客（单人讲述）
有声书（单人朗读或多角色演绎）
广播剧（多角色剧情演绎）
音频故事、语音教程等

核心工作流程

分步执行，关键步骤需用户确认后再继续。

第 1 步：脚本创作（必须）

理解用户需求：主题、时长、风格、场景类型（多人对话 / 独白 / 有声书），生成完整音频脚本：

多人对话：主持人 + 嘉宾的对话内容，标注每段对话的角色
独白：单人讲述的完整文本，按段落分段
有声书：章节内容，可能包含旁白 + 角色对话

脚本格式示例见 references/script_format.md。

输出脚本后，等待用户确认脚本内容是否满意，再进入下一步。

第 2 步：音色设计与确认（必须 - 交互确认）

根据脚本确定需要几个音色：

多人对话 → 为每个角色设计独特音色（如：主持人-女声、嘉宾-男声）
独白 → 设计一个音色

音色来源选择：

用户上传了参考音频 → 使用 qwen_voice_cloning 工具
无参考音频 → 使用 qwen_voice_design 工具通过文字描述生成音色

生成音色样本（重要！）：

为每个角色生成一小段测试音频（使用脚本的第一句话）
例如：主持人音色样本："大家好，欢迎来到今天的节目"
例如：嘉宾音色样本："很高兴能来到这里"

询问用户确认：

展示所有音色样本
明确询问："以上是为各角色生成的音色样本，请您试听一下，音色是否满意？如果需要调整，请告诉我您的要求。"
必须等待用户明确同意（"可以"、"没问题"、"满意"等）后，才能继续下一步
如果用户要求调整，重新生成音色样本直到用户满意

第 3 步：批量音频合成（用户确认音色后执行）

只有在用户确认音色 OK 后，才开始批量合成。

工具选择：使用 qwen_voice_cloning 工具进行批量合成，传入音色样本的 audio_url 作为 reference_audio。

保持音色一致性：

多人对话：每个角色使用各自的 reference_audio
独白：所有段落使用相同的 reference_audio

按脚本顺序，为每段对话 / 段落生成完整音频，并按顺序记录所有音频片段路径。

第 4 步：背景音乐选择（可选）

使用 select_background_music 工具，根据主题和风格选择 BGM。

场景描述示例：

"欢快的开场" / "科技感电子音乐" / "轻松聊天背景" / "深沉专业讨论"

可询问用户是否需要 BGM，或根据内容风格自动匹配。

第 5 步：音频拼接

使用 concatenate_audio 工具将所有语音片段按脚本顺序拼接。

参数建议：

crossfade_duration: 200ms（音频间淡入淡出）
silence_duration: 1200ms（对话间隔，让对话更自然从容）

第 6 步：混音输出

使用 mix_audio_with_bgm 工具将人声与 BGM 混合。

参数建议：

bgm_volume: -26dB（背景音量约 5%，确保人声绝对清晰）
intro_duration: 3-5 秒（BGM 开场原声播放时长）
normalize: True（音量归一化）

BGM 效果：先以原声播放开场，然后平滑过渡到 5% 背景音量，最终输出完整音频文件。

执行原则

交互式确认：音色设计后必须让用户确认，确认后才能批量合成
先样本后批量：先生成音色样本确认，避免批量合成后发现音色不满意
音色一致性：同一角色的所有对话必须使用完全相同的音色参数
灵活音色来源：支持用户上传参考音频，也支持 AI 文字描述生成
友好提示：每个关键步骤都用自然语言告知用户当前进度
不要跳过音色确认步骤：这是避免返工的关键

参考资料

脚本格式示例：references/script_format.md
完整流程示例：references/workflow_example.md

المزيد من هذا المستودع

نفس المستودع

polystudio-client

hirogoing/PolyStudio

通过 PolyStudio 平台的 AI Agent 进行多模态内容创作。覆盖场景包括：AI 图片生成、AI 视频生成、AI 音频生成、3D 模型生成、多模态内容编辑、画布（Canvas）项目管理。当用户提到 PolyStudio、需要调用 PolyStudio 生成图片/视频/音频/3D 模型、或需要与 PolyStudio 画布对话时应触发。关键判断：只要需要通过外部 Agent 驱动 PolyStudio 完成任何 AI 创作任务，都必须触发此技能。

2026-05-0255

paper-writing

hirogoing/PolyStudio

论文写作专家。专注于提供从选题、文献综述、结构规划到最终排版的全流程论文写作支持。适用于学术论文、学位论文、研究报告等各类学术写作场景。

2026-04-0955

video-creator

hirogoing/PolyStudio

长视频生成专家。适用于需要生成有画面的视频内容，且时长超过单个片段限制（4-12秒）的场景。包含分镜脚本创作、图片序列生成、视频片段生成、拼接的完整工作流。支持角色一致性保持。

2026-04-0955

virtual-anchor

hirogoing/PolyStudio

虚拟人视频生成专家。适用于将图片+音频合成为口型同步的虚拟人视频，包含角色形象生成、人脸检测、虚拟人合成的完整工作流。

2026-04-0955

xiaohongshu-copywriter

hirogoing/PolyStudio

小红书文案创作专家。专注于生成高质量的小红书种草笔记、干货攻略、生活方式分享等各类内容。适用于品牌方、KOC/KOL、自媒体创作者需要创作小红书内容的场景。

2026-04-0255

skill-creator

hirogoing/PolyStudio

Guide for creating effective skills. This skill should be used when users want to create a new skill (or update an existing skill) that extends Claude's capabilities with specialized knowledge, workflows, or tool integrations.

2026-04-0255

المصدر

hirogoing

hirogoing/PolyStudio

فتح مستودع GitHub عرض مستودعات المنشئ

أمر التثبيت

تنزيل

تشغيل في Manus

مفيد لـSOC

فنيو هندسة الصوتالفنون والتصميم والترفيه والرياضة والإعلام27-4014L4

name	podcast-creator
description	播客与音频内容创作专家。专注于生成纯音频内容（播客、有声书、广播剧等），包含脚本创作、音色设计确认、批量合成、BGM选择、拼接与混音的完整工作流。

播客与音频内容创作

概述

本技能用于生成纯音频内容（只有声音，不需要画面），适用场景包括：

多人对话播客（主持人+嘉宾对话）
独白播客（单人讲述）
有声书（单人朗读或多角色演绎）
广播剧（多角色剧情演绎）
音频故事、语音教程等

核心工作流程

分步执行，关键步骤需用户确认后再继续。

第 1 步：脚本创作（必须）

理解用户需求：主题、时长、风格、场景类型（多人对话 / 独白 / 有声书），生成完整音频脚本：

多人对话：主持人 + 嘉宾的对话内容，标注每段对话的角色
独白：单人讲述的完整文本，按段落分段
有声书：章节内容，可能包含旁白 + 角色对话

脚本格式示例见 references/script_format.md。

输出脚本后，等待用户确认脚本内容是否满意，再进入下一步。

第 2 步：音色设计与确认（必须 - 交互确认）

根据脚本确定需要几个音色：

多人对话 → 为每个角色设计独特音色（如：主持人-女声、嘉宾-男声）
独白 → 设计一个音色

音色来源选择：

用户上传了参考音频 → 使用 qwen_voice_cloning 工具
无参考音频 → 使用 qwen_voice_design 工具通过文字描述生成音色

生成音色样本（重要！）：

为每个角色生成一小段测试音频（使用脚本的第一句话）
例如：主持人音色样本："大家好，欢迎来到今天的节目"
例如：嘉宾音色样本："很高兴能来到这里"

询问用户确认：

展示所有音色样本
明确询问："以上是为各角色生成的音色样本，请您试听一下，音色是否满意？如果需要调整，请告诉我您的要求。"
必须等待用户明确同意（"可以"、"没问题"、"满意"等）后，才能继续下一步
如果用户要求调整，重新生成音色样本直到用户满意

第 3 步：批量音频合成（用户确认音色后执行）

只有在用户确认音色 OK 后，才开始批量合成。

工具选择：使用 qwen_voice_cloning 工具进行批量合成，传入音色样本的 audio_url 作为 reference_audio。

保持音色一致性：

多人对话：每个角色使用各自的 reference_audio
独白：所有段落使用相同的 reference_audio

按脚本顺序，为每段对话 / 段落生成完整音频，并按顺序记录所有音频片段路径。

第 4 步：背景音乐选择（可选）

使用 select_background_music 工具，根据主题和风格选择 BGM。

场景描述示例：

"欢快的开场" / "科技感电子音乐" / "轻松聊天背景" / "深沉专业讨论"

可询问用户是否需要 BGM，或根据内容风格自动匹配。

第 5 步：音频拼接

使用 concatenate_audio 工具将所有语音片段按脚本顺序拼接。

参数建议：

crossfade_duration: 200ms（音频间淡入淡出）
silence_duration: 1200ms（对话间隔，让对话更自然从容）

第 6 步：混音输出

使用 mix_audio_with_bgm 工具将人声与 BGM 混合。

参数建议：

bgm_volume: -26dB（背景音量约 5%，确保人声绝对清晰）
intro_duration: 3-5 秒（BGM 开场原声播放时长）
normalize: True（音量归一化）

BGM 效果：先以原声播放开场，然后平滑过渡到 5% 背景音量，最终输出完整音频文件。

执行原则

交互式确认：音色设计后必须让用户确认，确认后才能批量合成
先样本后批量：先生成音色样本确认，避免批量合成后发现音色不满意
音色一致性：同一角色的所有对话必须使用完全相同的音色参数
灵活音色来源：支持用户上传参考音频，也支持 AI 文字描述生成
友好提示：每个关键步骤都用自然语言告知用户当前进度
不要跳过音色确认步骤：这是避免返工的关键

参考资料

脚本格式示例：references/script_format.md
完整流程示例：references/workflow_example.md