Run any Skill in Manus with one click

ai-media-generator

為使用者產生高品質的 AI 生圖、生影片、生音樂提示詞，並在需要時透過瀏覽器自動化實際送到目標平台。涵蓋 OiiOii、Kling 3.0/O-series、Seedance 2.0 pro、Suno v5.5、Seedream 5.0/4.0、Vidu Q3、Midjourney V8.1、Flux 1.1 Pro / Kontext、Runway Gen-4.5 / Aleph、Google Veo 3.1、Ideogram 3、Nano Banana Pro、Stable Diffusion 3.5（⚠️ OpenAI Sora 2 已於 2026-04-26 停運，API 撐到 2026-09-24，預設改推 Runway/Veo/Kling）。只要使用者提到「AI 生圖」「AI 影片」「AI 音樂」「做 MV」「做 storyboard」「寫 prompt 給 XXX」「我想用 Kling/Suno/Midjourney/Runway/Veo...」「幫我操作 OiiOii / 即夢 / 可靈」「txt2img / img2video / 文生圖 / 文生影片 / 圖生影片」「角色一致性」「多鏡頭分鏡」「運鏡」「結果有瑕疵 / 不夠精緻 / 怎麼修」，或任何跟上述平台或影像/影片/音樂生成工作流相關的任務，都要用這個 skill。即使他們沒講明平台，只要任務是要餵給某個生成模型的 prompt，就用這個 skill 幫他們選對的平台、寫對的格式。

Run Skill in Manus

Stars9

Forks2

UpdatedJune 8, 2026 at 04:55

Source

gabrielmoreira

gabrielmoreira/agent-skills-mirror

View GitHub Repository View Creator Repositories

Install command

Download

Run Skill in Manus

File Explorer

45 files

SKILL.md

readonly

AI Media Generator

幫使用者把想法變成高品質的 AI 生成內容 (圖片、影片、音樂)，核心工作是 寫對每個平台的 prompt 以及 必要時自動操作網站。

🤖 Auto-Pilot Mode (超傻瓜一句話到成品)

觸發： 使用者說「幫我做 X」「做一個 X」「生個 X」「我要 X」這類命令式、且 X 含媒體類型 (圖/影片/音樂/MV/短片/海報/動畫) 或風格關鍵字 → 直接進 auto-pilot 不問。

流程 (見 templates/auto-pilot.md 完整版)：

Intent Parser — 一句話拆 9 slot (媒體/長度/畫面比/主題/風格/角色/場景/音訊/語言)
Fill Defaults — 沒講的用預設 (video 預設 10s 16:9；動漫預設 Shinkai+Ghibli；電影預設 Deakins DP…)
Platform Decider — 按 references/selector.md + quick pick 矩陣自動選
Script + Storyboard Auto-gen — 自動寫 logline + 角色卡 + 分鏡
Prompt Crafting — 強制套語彙庫 (見下方硬規則)
Preview + Go — 30-秒 override 視窗，使用者回「go/確認/OK」才執行；無回 + 需花錢 → 停；無回 + 免費 → 30 秒後自動繼續
Execution + Report — 按 automation/click-protocol.md + site-profiles/ 協議操作

Auto-Pilot 必停的 checkpoint (不代做)：

⛔ 付費 paywall / 升級提示
⛔ 送出前最終一次確認
⛔ 下載 / 分享 / 公開發布
⛔ 敏感內容 (真人照片疑似裸露/暴力/政治人物)
⛔ click-protocol.md 定義的「irreversible action」

Auto-Pilot 禁止行為：

❌ 幫 Claude 已知的事問使用者 (「你要幾秒的影片？」— 10s 預設就好)
❌ 一次拋多選項 — 選 1 個最佳 commit，讓使用者在 Preview 階段才決定改不改
❌ 寫純 generic 填詞 prompt (beautiful / masterpiece / detailed) — 違反下方硬規則（注意：cinematic / 4K / 8K 在新一代模型如 Seedance 2.0 是有效 token，看平台分流）
❌ 代付款

使用者自然語言 flags 可 override 預設： 使用者一句話可帶「用 Kling / 5 秒 / 豎屏 / 免費 / Ghibli 風 / 有對白」等自然語言 flag，auto-pilot 掃 templates/user-flags.md 對照表自動套用。使用者不懂術語也 OK — 「做個抖音」「可愛一點」「夢幻」都有對應翻譯。

⚡ Token-Efficient Mode (大專案必讀)： 本 skill 30+ 檔 / 7000+ 行，全量讀會爆 context。Auto-Pilot 預設套 templates/token-efficient-mode.md 的 7 層策略 (lazy load / grep / 子代理 / preset 跳過 / cache polling)。一般任務目標 ~25-40k tokens，不是 100k+。豪華模式 (全量讀) 只在 benchmark / 學 skill / 陌生平台探索時啟用。

🔴 硬規則 (Mandatory)

Meta 優先序（2026-04-21 實戰鐵律）

Prompt 寫對一次 ≫ 操作快 10 次。

根因：寫錯 prompt → 重做 → 等 8-10 分鐘。操作 25 秒 vs 5 分鐘差距（~4.5 分鐘），遠遠小於「一次 prompt 失敗」成本（~10 分鐘等待 + token 浪費）。所以速度優化的真正優先序：

第一優先：查平台簽名 + 寫對 prompt → references/community-prompt-patterns.md（跨 X/Threads/Reddit/小紅書/Bilibili 社群驗證，單一 source of truth）
第二優先：單次提交極速化 → automation/site-profiles/
第三優先：等待不 polling → Bash run_in_background:true + sleep 400

順序反了 = 浪費 40+ 分鐘做 4-5 次嘗試才生出可用的。

Prompt 必備語彙

每次產 image / video / music prompt，都必須從 skill 進階語彙庫挑 token — 不是選配，是必做。

流程：

最優先查：references/community-prompt-patterns.md — 按目標模型查簽名 token + 長度甜蜜點 + 禁忌（⚠️ 平台吃不同 token，Seedance/Wan 吃導演名 = 災難）
決定任務類型 (攝影感/電影感/廣告/時尚/MV/VFX/社群短片)
挑對應 reference 檔讀：
- 電影/攝影類 → cinematic-direction.md 必讀
- 廣告/時尚/MV/品牌 → commercial-direction.md
- 特效/物理/大氣 → vfx-effects.md
- 原生音訊 (Veo/Sora/Vidu Q3) → sound-design.md
- 多鏡/剪接/節奏 → editing-transitions.md
快速路徑：先查 preset-packs.md 找最近的 preset，換占位符即可
每個 prompt 至少嵌入 5-8 個高訊號 token，從下列層挑（看平台分流）：
- 導演/DP 名 (Deakins、Lubezki、Hoytema、王家衛、新海誠…) — ✅ MJ/Sora 2/Veo；❌ Flux/Nano Banana Pro/Seedance/Wan
- 鏡頭/焦段 (Panavision anamorphic / 85mm / C-Series 等) — 通吃
- 底片/感光 (Kodak Vision3 500T / Cinestill 800T 等) — ✅ Flux/MJ；❌ Seedance
- 光比/燈光 (Rembrandt / 4:1 contrast / volumetric god rays 等) — 通吃
- 色彩分級 (teal-orange / bleach bypass / A24 indie 等) — 通吃
- 構圖/景別 (rule of thirds / medium close-up 等) — 通吃
- VFX/大氣 (halation / Tyndall effect / particles 等) — 通吃
- (Veo/Sora) 音訊三層 (Dialogue / SFX / Soundtrack)

禁用模式（通用 + 平台特定）

通用原則： 寧可 5 個具體 token，不要 20 個泛詞。 但 generic 與否看平台。

真正全平台垃圾（任何時候都別用）：

beautiful / masterpiece / detailed / high quality / professional（這幾個從沒在新一代模型有實證效果）
--no blur 等 flag-style 負面 prompt（多數模型不吃，用自然語言 no blur 反而 OK）

⚠️ 平台特定（注意「2026-04-21 vs 2026-05-18 推翻」— 模型升級會改變斷言）：

⚠️ cinematic / 4K / 8K / 35mm-50mm-85mm — 舊版 Seedance 1.0 弱，Seedance 2.0 大量吃（v1.1.0 修正）。Kling / Sora 2 / Veo 3.1 / MJ v7 / Flux 全吃。
❌ Seedance 2.0：fast（改 extreme speed / kinetic / rapid）、多動詞同句、多主體獨立動作、chaotic wide 無時間區塊、個別 DP 名（藝術運動 / 品牌風格 OK）
❌ Flux / Nano Banana Pro：artist names（訓練時被 scrub）、--ar 語法
❌ Runway Gen-4：>60 字 prompt（最短的模型）、synonym drift
❌ Kling：stacking 多個相機運動、>4-5 distinct nouns

先查 community-prompt-patterns.md — 該檔每個模型都有「禁忌」section，且註明 cross-platform 推翻歷史。

驗證自檢

Prompt 寫完問自己：

查過 community-prompt-patterns.md 目標模型章節？
Token 符合該平台簽名（不是隨手亂塞）？
避開該平台禁忌？
長度在甜蜜點（不過長不過短）？

4 題都過 → 送。缺一題回去改。

核心原則

先問清楚「要什麼」，再決定「用哪個」。同一個想法送到不同模型，prompt 寫法完全不同。先釐清：
- 媒體類型：靜態圖 / 影片 / 音樂 / 複合 (MV、分鏡動畫)
- 用途：社群貼文 / 廣告 / 電影感短片 / 角色一致性專案 / 文字海報
- 手上資源：有沒有參考圖、首尾幀、角色圖、歌詞
- 預算/可用性：免費網站 / 付費會員 / API 金鑰
讀對應的 reference 檔。本 skill 的知識是分散式的。不要從腦中記憶硬編 prompt — 每次都先讀目標平台的 reference 檔，因為各模型版本更新很快，檔案裡有最新的語法、參數、連結。
中英混寫時有規則：主體名詞、運鏡術語、模型參數用英文；情感描述、文化元素 (漢服、水墨、國風)、旁白/歌詞用中文。Seedream 與 Kling 的中文支援最好；Midjourney、Flux、Runway、Veo 英文效果明顯較佳。
Prompt 長度。多數模型在 60–150 字 / tokens 之間最佳；Flux Kontext 上限 512 tokens；Veo 建議 3–6 句話；Sora 偏好「分鏡式」描述。reference 檔有每個模型的具體上限。
輸出格式。除非使用者明說只要 prompt 本文，否則給他們：
- 一個 可複製的 prompt 區塊 (通常英文)
- 一段 繁中說明：這個 prompt 為什麼這樣寫、哪些 token 可以換掉、預期輸出會長怎樣
- 一組 建議參數 (aspect ratio、時長、model variant、seed 等)
- 如果有平台特殊語法 (tag、metatag、參考圖槽位)，把它結構化呈現

工作流

Step 1 — 選平台

如果使用者已指定平台 (「用 Kling」「幫我寫 Suno prompt」)，直接跳 Step 2。

否則讀 references/selector.md 按「媒體類型 × 用途 × 資源」選出 1–2 個最佳候選平台，並把推薦理由用 2–3 句話告訴使用者。如果落差很大 (例如「免費 vs 付費最佳」)，給使用者選擇。

Step 2 — 讀對應的 reference 檔

根據選定平台，一定要 讀對應檔案，不要憑記憶寫 prompt：

🧭 不確定選哪個模型？先讀 references/model-picker.md — OiiOii 全模型 + 各平台「選誰 / 招牌 prompt 技巧」總表 + 30 秒決策樹。使用者嫌「不熟模型」「該用哪個」時必讀。

影片 (Video)

Kling 3.0 / O-series（V3 畫質 / Omni 參考驅動 / O1 首尾幀，三者不同）→ references/kling.md
Seedance 2.0 pro / 1.0 Pro / Lite（OiiOii 影片旗艦，@AssetName 標記）→ references/seedance.md
Vidu Q3 Mix/Ref/Pro（動漫 + 多角色一致，@tag 多參 + HEX 鎖色）→ references/vidu.md
Runway Gen-4.5 / Aleph / Act-Two → references/runway.md
Google Veo 3.1 + 🆕 Gemini Omni（Google 雙旗艦：4K 畫質線 + 對話編輯線，I/O 2026 發表）→ references/veo.md
Hailuo 2.3（角色表演）/ Wan 2.7·2.6（複雜場景/對白）/ HappyHorse（敘事音畫）→ 見 references/model-picker.md
⚠️ OpenAI Sora 2 → references/sora.md（已停運 — app 2026-04-26 關，API 2026-09-24 關。讀此檔只為了解替代方案；新任務改用 Veo/Gemini Omni/Runway/Kling）

圖片 (Image)

Seedream 5.0 / 4.0 → references/seedream.md
Midjourney V8.1 / niji 7（⚠️ --oref 為 V7-only） → references/midjourney.md
Flux 1.1 Pro / Kontext → references/flux.md
Ideogram 3 → references/ideogram.md
Stable Diffusion 3.5 / SDXL → references/stable-diffusion.md

音樂 (Music)

Suno v5.5（Personas 已改名 Voices） → references/suno.md

複合 / 多智能體

OiiOii.ai → references/oiioii.md

跨平台共通

鏡頭語言 (影片類都適用) → references/camera-language.md

進階導演 / VFX / 音效 / 剪接級別 prompt 設計 (當使用者要「電影級」「廣告級」「奢侈品級」「完整影視團隊」時必讀)

電影導演 / 攝影指導 / 底片 / 燈光 / 構圖 / meta tokens → references/cinematic-direction.md
廣告 / 時尚 / MV 導演 / 品牌調性 / 社群短影音 → references/commercial-direction.md
VFX 總監 / 大氣 / 物理 / 特效 recipes → references/vfx-effects.md
音效設計 (對白 / SFX / Foley / 配樂) → references/sound-design.md — Veo 3.1 / Vidu Q3 原生音訊必讀
剪接 / 轉場 / 節奏 (match cut / whip pan / J-L cut / ASL 律動) → references/editing-transitions.md — 多鏡故事、storyboard、MV 必讀
🎬 概念先行 Prompting (prompt 沒主題/畫面很空/效果差/不知道在拍什麼) → references/concept-first-prompting.md — 使用者嫌「prompt 沒主題」「有些畫面不知道在幹嘛」「影片效果差」時必讀。治「技術詞堆疊但空洞」：先定一句話 concept → 3-beat 敘事弧 → 每個鏡頭做存在性測試 → 才加技術詞。含 6 個產品廣告概念框架
🔧 反瑕疵品質控制 (結果爛了/有瑕疵/不夠精緻怎麼修) → references/quality-control.md — 使用者嫌結果有瑕疵、產品變形、塑膠感、閃爍、文字鬼影、動得很假時必讀。系統化分類 7 類瑕疵 + 對症修法（鎖時間/鎖物理/鎖主體）+ 平台物理強弱速查
🧭 模型選擇大全 (該用哪個模型 / 不熟各家模型) → references/model-picker.md — OiiOii 全模型 + Gemini Omni / Kling O-series / Vidu / Hailuo / Wan / Seedance 各家「最強情境 + 招牌 prompt 技巧 + 何時選」+ 命名混淆對照（Gemini Omni vs Kling Omni）

這三個進階檔是 語彙庫，不是流程手冊。使用方式：

先照平台的 reference (kling.md / flux.md 等) 確定該平台的 prompt 結構
再從進階檔挑 5-8 個高質量 token 填進結構裡
不要整段 copy — 挑對情緒、對平台、對故事的那幾個詞

一個人身高不同，鏡頭焦段/燈光/底片的「關鍵詞組合」就不同。「超級資深影視導演」的 prompt = 四層堆疊 [導演/DP] + [鏡頭/底片] + [燈光/色調] + [動作/構圖]，每層挑最契合的 1-2 個 token。

Step 3 — 根據任務類型參考 template

快速：抽一個現成 preset 套用 (30 個電影/廣告/MV/VFX/短影音 preset) → templates/preset-packs.md
複雜多步驟任務 (> 15s 影片 / 多角色一致 / 品牌包 / 專輯 / MV 一條龍) → templates/advanced-recipes.md 13 個 chain workflow (Extend / Persona / Motion Control / Cameo 等進階功能組合)
重用角色/風格/場景卡 → templates/asset-library.md
多鏡頭 / 分鏡故事片 → templates/storyboard.md
音樂影片 / MV → templates/music-video.md
常用負面提示詞 → templates/negative-bank.md
社群多版本 / 預算 flag / 平台 flag / 風格 flag → templates/user-flags.md
大專案省 token → templates/token-efficient-mode.md

preset-packs.md 的用法： 使用者要「Wes Anderson 風」「Nike 廣告感」「賽博龐克雨夜」「水下夢境」等明確風格時，先到 preset-packs.md 找最近的 preset，換占位符即可，不用每次從零組 prompt。若使用者要的風格不在 preset 裡，再從 cinematic-direction.md / commercial-direction.md / vfx-effects.md 現場組。

Step 4 — 組出 prompt 並輸出

依 reference 檔給的公式組出 prompt。每個平台有自己的 order、特殊符號、tag — 嚴格按 reference 檔的格式寫。

輸出格式：可複製的 prompt 區塊 + negative + 參數 + 繁中 why (每個 token 為什麼選)。完整範例見 preset-packs.md 的 30 個 preset，每個都是 ready-to-use 格式。

Step 5 (選配) — 瀏覽器自動化執行

如果使用者要求「幫我直接做」「幫我貼上去按產生」「操作 OiiOii/Kling/Suno」等，這套檔要讀：

1. 通用 click 協議 (所有網站都要遵循)

automation/click-protocol.md — Click 決策樹、ref 保質期、座標精準技巧、驗證 selected 的方法、scroll-aware 座標、paywall 偵測、等待策略、驗證循環、速度優化

2. 網站特定 profile (該站的 UI 地圖 + 座標 + 陷阱)

automation/site-profiles/ — 每個網站一份深度 profile
- ✅ oiioii.md — 完整驗證 Phase 1-3E (止於付費牆)
- ✅ flow.md — 完整驗證 Phase 1-6 (Veo 3.1 Fast/Quality/Lite)
- ✅ kling.md — 完整驗證 Phase 1-7 (Kling 3.0 + credits + Fast-Track)
- ⏳ 其他平台 (Suno / Runway / MJ 等) 待操作時補
- 📝 _template.md — 新網站 profile 模板

3. 高層流程速查 (每站登入與主流程概述)

automation/browser-guide.md

送出前必做的安全檢查 (見 click-protocol.md 詳細)：

確認使用者已登入目標站 (絕不代輸入密碼)
把即將輸入的 prompt 完整貼給使用者，等確認再送
首次操作某站 → screenshot 對照 site-profile，UI 改版就更新 profile
送出前 screenshot (before)，送出後 screenshot (after)，比對 UI 變化確認真送出
撞到 paywall / modal / 非預期彈窗 → 立刻停下問使用者，不代付款

reliability 核心原則 (來自 OiiOii demo 踩坑紀錄)：

不信任記憶中的座標 — 5 秒前的 screenshot 可能已過期，click 前必須剛截圖
ref 很短命 — find 完立刻 click，中間不插其他 tool call
selected state 看填底色，不是粉色 ring (那是 hover)
click 沒中別亂重試 — 先 screenshot 診斷 (paywall？disabled？座標偏？)
Polling 不要 < 60s 也不要 > 3min — 互動 UI 60-90s，純背後等待 3-5min

⚡ Chain workflow 強制節省 (來自 Suno 5 首歌 chain 慘痛教訓 2026-04-20)： 連跑多任務 (做 5 首歌、5 張圖、多支影片) 時：

中間禁 screenshot — 只第 1 task 後 + 全部完成各 1 張 (浪費點 #1)
中間禁 TodoWrite — chain 完成後一次性更新即可 (浪費點 #2)
clear field 用 1-click — 點 trash icon 或 ctrl+a 覆寫，禁用 triple-click + Ctrl+A + Delete 三步走
內容寫標準長度 — Suno 歌詞 ~25 行 / Veo prompt ~80 字 / MJ keyword 30-50 字 / Seedream 80-120 字，超寫不加分
平台有 Series Mode/Multi-Shot/Multi-Reference → 用內建批次 不要 N 次 chain (Suno Persona / Kling Multi-Shot / Seedream Series / MJ omni-ref / Vidu Q3 multi-entity)

檢測標準： 5 task chain 應 ≤ 36 tool calls + ≤ 1.5k token + < 5 分鐘。違反任一就要修。詳見 click-protocol.md §「Token + 時間最佳化」。

關鍵品質檢查 (在交付 prompt 前跑一遍)

常見反模式

拿 Midjourney 的 --ar 16:9 --s 250 語法餵 Flux / Kling / Sora — 只會被當成雜訊。每個平台有自己的參數欄位。
在 Suno Lyrics 欄寫 "Verse:" — 會被當成歌詞唱出來。要寫 [Verse]。
Seedream 叫它寫文字時用單引號或不加引號 — 官方建議用雙引號包住要顯示的字："Seedream 5"。
Kling / Seedance 運鏡疊太多 — "zoom in while panning right and tilting up" 會爛掉。一次一到兩個運鏡。
Vidu ref2v 時 prompt 又重複描述參考圖的外觀 — 會互相打架。描述「動作與互動」就好。
SD 3.5 用 (word:1.3) 權重語法 — 3.5 不吃這個，改用自然語言。SDXL 才吃。

關於「萬用」的邊界

此 skill 設計為 prompt engineering + 瀏覽器自動化雙層。不直接呼叫 API (API key 管理、計費都是額外議題)，但若使用者明確要走 API，reference 檔裡有各平台的官方 API 端點連結，可以協助組 payload。

版本資訊

平台知識最後校準：2026-06（v1.5.0 全平台 reference 升級 + WebSearch 驗證）。 各 reference 檔末尾有官方文件連結 — 若要執行會花錢/產生後果的操作前，優先拿 reference 連結當最終依據，因為版本/定價變動快。

2026-06 重大變動（已驗證）：

🔴 OpenAI Sora 2 停運 — app/web 2026-04-26 已關，API 2026-09-24 關，資料永久刪除。新任務勿用，改 Runway Gen-4.5 / Veo 3.1 / Kling 3.0。
🆕 Runway Gen-4.5（2025-12-01）— Video Arena 榜首 1247 Elo，勝 Veo 3 / Sora 2 Pro，物理最強。
🆕 Midjourney V8.1（2026-04-30）— 原生 2K HD、快 3-5×；⚠️ --oref Omni Reference 為 V7-only，V8 不支援。
🆕 Suno v5.5（2026-03）— Personas 改名 Voices + Custom Models + Suno Studio DAW。
🆕 Kling 3.0 / O-series、Seedream 5.0 Lite、Vidu Q3、Ideogram 3.0 為各家當前主力。
🆕 Google Gemini Omni（I/O 2026, 2026-05-19）— any-to-any 多模態影片「影片版 Nano Banana」，對話式編輯，Flash 版已上 Flow PRO。Google 影片變雙旗艦（Veo 3.1 + Gemini Omni）。⚠️ ≠ Kling 3.0 Omni（同名不同家）。
各模型「最強情境 + 招牌 prompt 技巧」見 references/model-picker.md；「prompt 沒主題/畫面空/效果差」見 references/concept-first-prompting.md。

各模型「禁忌 / 版本推翻歷史」見 references/community-prompt-patterns.md；結果有瑕疵的修法見 references/quality-control.md。

ai-media-generator

More from this repository

AI Media Generator

🤖 Auto-Pilot Mode (超傻瓜一句話到成品)

🔴 硬規則 (Mandatory)

Meta 優先序（2026-04-21 實戰鐵律）

Prompt 必備語彙

禁用模式（通用 + 平台特定）

驗證自檢

核心原則

工作流

Step 1 — 選平台

Step 2 — 讀對應的 reference 檔

Step 3 — 根據任務類型參考 template

Step 4 — 組出 prompt 並輸出

Step 5 (選配) — 瀏覽器自動化執行

關鍵品質檢查 (在交付 prompt 前跑一遍)

常見反模式

關於「萬用」的邊界

版本資訊

AI Media Generator

🤖 Auto-Pilot Mode (超傻瓜一句話到成品)

🔴 硬規則 (Mandatory)

Meta 優先序（2026-04-21 實戰鐵律）

Prompt 必備語彙

禁用模式（通用 + 平台特定）

驗證自檢

核心原則

工作流

Step 1 — 選平台

Step 2 — 讀對應的 reference 檔

Step 3 — 根據任務類型參考 template

Step 4 — 組出 prompt 並輸出

Step 5 (選配) — 瀏覽器自動化執行

關鍵品質檢查 (在交付 prompt 前跑一遍)

常見反模式

關於「萬用」的邊界

版本資訊

More from this repository