원클릭으로 Manus에서 모든 스킬 실행

$pwd:

image-generation

Name: Image Generation
Author: zts212653

// AI 图片生成：原生 tool call（Codex/Antigravity）或浏览器自动化（Gemini/ChatGPT）。 Use when: 需要 AI 生成概念图、UI 参考、像素画素材、完整 PPT 页面、复杂架构图、信息图或视觉 mock。 Not for: 已有图片的展示（用 media_gallery rich block）、硬要求可编辑/native text 的 PPT/图表（用 PPT/HTML 管线）。 Output: 生成图片自动发布，或作为完整视觉 mock / 图像素材进入后续交付。

Manus에서 실행

$ git log --oneline --stat

stars:865

forks:314

updated:2026년 5월 30일 14:23

SKILL.md

readonly

related-skills.json

같은 저장소

ppt-forge.md

from "zts212653/clowder-ai"

PPT 制作全链路：内容分析 → 分页规划 → 低保真 MD → imagegen 精美图。架构猫写低保真 MD（ASCII art 结构图 + 视觉指引），imagegen 猫逐页出精美图。 Use when: 做 PPT、做演示文稿、做 slide、帮朋友做 PPT、画架构图、画技术蓝图。 Not for: 纯代码开发（用 worktree/tdd）、纯文档写作（直接写）。 Output: 低保真 MD + AI 原生精美图（raster PNG）。

2026-05-30865

receive-review.md

from "zts212653/clowder-ai"

处理 reviewer 反馈：Red→Green 修复 + 技术论证（禁止表演性同意）。 Use when: 收到 review 结果、reviewer 提了 P1/P2、需要处理反馈。 Not for: 发 review 请求（用 request-review）、自检（用 quality-gate）。 Output: 逐项修复确认 + reviewer 放行。

2026-05-30865

request-review.md

from "zts212653/clowder-ai"

向跨家族 peer-reviewer 发送 review 请求（含五件套）。 Use when: 自检通过后准备请其他猫 review。 Not for: 收到 review 结果（用 receive-review）、自检（用 quality-gate）。 Output: Review 请求信（存档到 review-notes/）。

2026-05-30865

worktree.md

from "zts212653/clowder-ai"

创建 Git worktree 隔离开发环境，含 Redis 6398 安全配置。 Use when: 开始任何代码修改、新功能开发、bug fix。 Not for: 纯文档修改（≤5 行）、不涉及代码的讨论。 Output: 隔离的 worktree + 正确的 Redis/环境配置。

2026-05-30865

hyperfocus-brake.md

from "zts212653/clowder-ai"

铲屎官健康提醒：三猫撒娇打断 hyperfocus。 Use when: hook 触发提醒、用户输入 /hyperfocus-brake。 Not for: 正常工作流程、非铲屎官用户。 Output: 三猫温柔提醒 + typed check-in。

2026-05-28865

thread-orchestration.md

from "zts212653/clowder-ai"

大任务的主动拆解与多 thread 并行编排。 Use when: 任务涉及 2+ 个独立可交付子任务，需要不同猫参与、不同 thread 并行推进。 Not for: 单一任务（直接做）、已有 thread 之间的被动协调（用 cross-thread-sync）、单 session 内 subagent 并行（CLI 内置能力）。 Output: 子 thread 创建 + 选猫 + 各 thread 交付 + 主 thread 汇聚报告。

2026-05-28865

package.json

"author": "zts212653"

"repository": "zts212653/clowder-ai"

GitHub 저장소 열기 Creator 저장소 보기

$ install --global

$ download --local

Manus에서 실행

$ useful --forSOC

소프트웨어 개발자컴퓨터 및 수학직15-1252L4

name

image-generation

description

AI 图片生成：原生 tool call（Codex/Antigravity）或浏览器自动化（Gemini/ChatGPT）。 Use when: 需要 AI 生成概念图、UI 参考、像素画素材、完整 PPT 页面、复杂架构图、信息图或视觉 mock。 Not for: 已有图片的展示（用 media_gallery rich block）、硬要求可编辑/native text 的 PPT/图表（用 PPT/HTML 管线）。 Output: 生成图片自动发布，或作为完整视觉 mock / 图像素材进入后续交付。

AI 图片生成 Skill

用途：生成 AI 图片——优先原生 tool call，降级浏览器自动化适用猫猫：所有猫

何时使用

需要为 feature 生成概念图、UI 参考图、像素画素材
铲屎官要求生成特定风格的图片
需要批量生成多个变体
需要直接生成完整 PPT/slide 页面、复杂架构图、企业信息图、封面或高密视觉 mock
用户明确说“不需要可编辑”“内部 mock”“直接生成完整页面”

Codex 原生能力校准：不要低估 imagegen

Codex image_gen 不只是“概念图/素材生成器”。当前实测能力可以直接生成完整高保真 raster 页面，包括：

企业 PPT / slide 页面：高密度模块、标题、图标、流程链路、判断框、页脚
复杂架构图 / 信息图：多分区、多节点、多箭头、多层级视觉组织
品牌风格 mock：如华为风格的红白黑企业战略页、发布会封面、白皮书页
UI / poster / cover：需要强视觉完成度、但不要求 native editability 的图像产物

默认判断：当用户要的是“好看、完整、像最终稿”的视觉 mock，且不要求可编辑，先走整页 imagegen。不要先手写 SVG/HTML 去拼格子、排文字、合成素材。

Codex SVG 复发熔断闸

对 Codex / Maine Coon尤其重要：命中以下任一条件时，禁止先写 SVG/HTML/Canvas/脚本合成：

用户要“架构设计图 / 架构图 / PPT 页面 / 华为风 / 白底红黑 / 精美图 / 最终稿”
已有低保真草图、ASCII 蓝图或设计规格，用户要生成“精美版 / 设计图 / 图片”
用户没有明确要求“可编辑文字 / native PPT 元素 / SVG 源文件 / HTML 文件”

执行顺序：

先调用原生 imagegen 生成整页 raster。
只用 prompt 迭代 1-2 次修风格、层级、文字密度。
只有 imagegen 已失败，或用户明确要求可编辑 / native text / SVG 源文件，才允许降级 SVG/HTML/PPT。
若准备写 SVG/HTML，必须先写出 SVG override reason：指向已失败的 imagegen 产物，或引用用户的显式可编辑要求。

以下理由不合格，不能覆盖 imagegen-first：中文文字更可控 / 布局更可控 / 先画 SVG 再转 PNG / 架构图需要精确。

Full-page raster first

当用户说“不需要可编辑”“只要精美 mock”“直接生成完整 PPT 页面”时，按这个顺序：

整页直出：用一个完整 prompt 描述页面比例、风格、版式、文案、信息密度、图标、图表、负面约束，直接生成完整页面。
视觉评估：先看整体风格、信息密度、层级、可读性。若大方向对，用 prompt 迭代，而不是立刻拆成 SVG/合成管线。
参考图辅助：如果有低保真草图或同风格样张，把它当 reference / layout guide，但仍让 imagegen 生成整页最终图。多页交付（如 10 页 PPT 套图）时，第一页定稿后作为后续每页的 reference image / style anchor，让整套保持同一视觉系统。
失败才降级：连续 1-2 次整页直出都无法保住结构、文字或品牌风格时，再考虑 HTML/PPT/SVG/hybrid。

什么时候才写 SVG / HTML / hybrid

硬要求可编辑文字、native chart、PPT 元素可改
硬要求像素级对齐、可复用组件、可导出真实代码
需要用真实商标/logo/精确法律文本，且图片模型容易画错
imagegen 已经尝试过整页直出但无法达到验收线

低保真蓝图是辅助 imagegen 理解布局，不是默认替代 imagegen 的最终渲染管线。不要为了“可控”牺牲用户真正要的视觉完成度。

路径选择（先问自己有没有原生能力）

你有内置图片生成 tool 吗？
├─ 是（Codex / Antigravity）→ 用原生 tool call（§ 原生路径）
│   优势：快、自动发布到气泡、无需浏览器
│
├─ 否（Claude / 其他）→ 能 shell out 到有能力的 CLI 吗？
│   ├─ 是 → 借用（§ 跨引擎借用）
│   └─ 否 → 浏览器自动化（§ 浏览器路径）
│
└─ 需要特定风格控制 / inpainting / 局部编辑？
    └─ 是 → 即使有原生能力也走浏览器路径

支持平台

路径	平台	工具	产物位置	F172 自动发布
原生	Codex CLI	内置 `image_gen` tool call	`~/.codex/generated_images/<sessionId>/`	✅ scanner 自动拾取
原生	Antigravity	内置 `generate_image` tool call	`~/.gemini/antigravity/brain/<cascadeId>/`	✅ GENERATE_IMAGE step 自动拾取
浏览器	Gemini Web	Chrome MCP 自动化	本地下载目录	需手动 `publishGeneratedImage()`
浏览器	ChatGPT Web	Chrome MCP 自动化	本地下载目录	需手动 `publishGeneratedImage()`

原生路径（优先）

Codex CLI — `image_gen` tool call

谁能用：Codex CLI 主执行猫（内置）

用法：直接在当前 invocation 里调用内置 image_gen tool。这是一个 native tool call，不是 shell 命令，也不是再开一个 codex exec 子进程。

❌ 错误：codex exec --image <参考图>     ← 这是 nested CLI session，当前气泡不会展示
✅ 正确：使用内置 image_gen tool call    ← 图片自动落到当前 session 的 generated_images/

有参考图时：参考图必须在当前对话上下文里（用户上传、上一步生成、或已被 view_image 打开）再调用 image_gen，并在 prompt 里说明它是 reference image / edit target / style reference。如果当前 tool surface 无法把本地参考图接进 native image_gen，停下来报告能力缺口；不要退回到 codex exec --image 冒充原生路径。

产物流转：

image_gen tool call
  → 图片生成到 ~/.codex/generated_images/<当前 sessionId>/<filename>.png
  → invocation 结束后 F172 scanner 自动扫描
  → publishGeneratedImage() 发布到 /uploads/
  → 自动生成 media_gallery 富块 → 气泡内展示 ✓

关键：不需要手动下载、不需要手动 cp、不需要手动发富块。全自动。

Antigravity — `generate_image` tool call

谁能用：对应猫（Antigravity 内置）

用法：直接在对话中调用内置 generate_image tool。

产物流转：

generate_image tool call
  → CORTEX_STEP_TYPE_GENERATE_IMAGE step
  → 图片生成到 ~/.gemini/antigravity/brain/<cascadeId>/<imageName>_<unixMs>.<ext>
  → F172 brain scanner 自动拾取
  → publishGeneratedImage() 发布到 /uploads/
  → 自动生成 media_gallery 富块 → 气泡内展示 ✓

跨引擎借用（实验性）

没有原生图片生成能力的猫（如 Claude）可以通过 shell out 借用其他引擎的 CLI：

# 前提：codex CLI 在 PATH 中且已配置
codex exec "生成一张猫咖全景图，手绘水彩风格"

注意：跨引擎借用目前只适合离线资产生成。它会创建另一个 Codex session，产物通常不会被当前猫的 F172 scanner 自动拾取，也不会自动出现在当前气泡里。需要气泡内展示时，优先把球权交给有原生能力的猫，或显式走 artifact promotion / rich block 路径。

浏览器路径（降级 / 需要风格控制时使用）

Gemini 画图（浏览器）

1. 导航到 gemini.google.com/app
2. 工具 → 制作图片（或直接点首页快捷按钮）
3. execCommand 注入 prompt 到 .ql-editor
4. 点击发送（蓝色箭头）
5. 等待生成（~15-30秒）
6. 点击图片 → 灯箱模式
7. 点击 "下载完整尺寸的图片" 按钮
8. 文件保存为 Gemini_Generated_Image_{hash}.png

Gemini 特有：

有风格选择器（单色、色块、绚彩、哥特风黏土等）
可先选风格再输入 prompt
图片右下角有 Gemini ✦ 水印

ChatGPT 画图（浏览器）

1. 导航到 chatgpt.com/images（或左侧栏 → 图片）
2. execCommand 注入 prompt 到 #prompt-textarea
3. 按 Enter 发送
4. 等待生成（~10-20秒）
5. 方式 A：点击图片 → 灯箱 → 右上角 "保存" 按钮
6. 方式 B：hover 图片 → 点击 "下载此图片" 按钮
7. 文件保存为 ChatGPT Image {日期} {时间}.png

ChatGPT 特有：

有「选择区域」局部编辑（inpainting）
灯箱模式有「描述编辑」输入框可以文字修改图片
有风格预设（漫画风潮、繁花之驱、鎏金塑像等）
图片页面 URL: chatgpt.com/images

DOM 选择器速查

Gemini

元素	选择器
输入框	`.ql-editor[contenteditable="true"]`
工具按钮	`button "工具"`
制作图片	工具菜单中 `"制作图片"`
发送	输入框右侧蓝色箭头
灯箱下载	`button "下载完整尺寸的图片"`
灯箱分享	`button "分享图片"`
灯箱复制	`button "复制图片"`
灯箱关闭	`button "关闭"`

ChatGPT

元素	选择器
输入框	`#prompt-textarea`
图片页面	`chatgpt.com/images`
发送	Enter 键或发送按钮
下载（hover）	`button "下载此图片"`
灯箱保存	右上角「保存」按钮（`button` 含下载图标）
灯箱编辑输入	`dialog` 内 `textbox`（描述编辑）
选择区域	右上角「选择区域」按钮
灯箱关闭	`button "关闭"`

下载文件命名

平台	格式	示例
Gemini	`Gemini_Generated_Image_{hash}.png`	`Gemini_Generated_Image_2kvjb12kvjb12kvj.png`
ChatGPT	`ChatGPT Image {年}年{月}月{日}日 {HH_MM_SS}.png`	`ChatGPT Image 2026年3月10日 07_14_32.png`

Common Mistakes

错误	后果	修复
低估 Codex `image_gen`，把它当素材器	绕去写 SVG/HTML，页面僵硬、对齐差、审美差	视觉 mock 默认先整页 raster 直出
用户说“直接生成完整 PPT 页面”，仍拆成图标资产 + 手工合成	信息堆叠、文字错位、整体不像最终稿	用完整页面 prompt 直接生成，再按视觉反馈迭代
过度追求 native text / 可编辑性	违背“不需要可编辑”的目标，产物变丑	先确认交付目标：raster mock 走 imagegen，editable deck 走 PPT/HTML
为了避免文字风险生成无字图	用户期待的是完整页面，结果变成空背景/素材	PPT mock 要含标题、标签、数据和结构；文字失败再降级
用 SVG 画复杂企业页但没有设计系统和排版能力	格子、文字、图标互相打架	让 imagegen 承担视觉完成度；SVG 只做必要的精确结构或 reference

注意事项

通用

优先原生 tool call：有内置 image_gen / generate_image 的猫，必须用原生路径。浏览器路径只在需要风格选择器、inpainting、局部编辑时使用
F172 自动发布：原生路径产物由 scanner 自动拾取 → publishGeneratedImage() → /uploads/ 稳定 URL + media_gallery 富块。零手动操作
禁止 CLI 命令替代 tool call：codex exec --image 不等于内置 image_gen tool call。--image 是 nested CLI 的输入附件，不是当前 invocation 的 native reference-image 通道；前者的产物不会被当前气泡的 F172 scanner 自动发布

浏览器路径专用

Gemini 制作图片模式会粘滞：和 Deep Research 一样，选了制作图片后输入框保持该模式
ChatGPT 图片页面是独立入口：/images 和普通对话 / 是分开的
两个平台都支持 execCommand 注入
Gemini 图片更大（~7MB PNG），ChatGPT 图片更小（~1MB PNG）
浏览器路径归档：下载后的图片通过 publishGeneratedImage() 发布到 /uploads/（F172 共享发布合约）。发布后自动获得 /uploads/... 稳定 URL + media_gallery 富块

image-generation

이 저장소의 다른 Skills

이 저장소의 다른 Skills

AI 图片生成 Skill

何时使用

Codex 原生能力校准：不要低估 imagegen

Codex SVG 复发熔断闸

Full-page raster first

什么时候才写 SVG / HTML / hybrid

路径选择（先问自己有没有原生能力）

支持平台

原生路径（优先）

Codex CLI — image_gen tool call

Antigravity — generate_image tool call

跨引擎借用（实验性）

浏览器路径（降级 / 需要风格控制时使用）

Gemini 画图（浏览器）

ChatGPT 画图（浏览器）

DOM 选择器速查

Gemini

ChatGPT

下载文件命名

Common Mistakes

注意事项

通用

浏览器路径专用

AI 图片生成 Skill

何时使用

Codex 原生能力校准：不要低估 imagegen

Codex SVG 复发熔断闸

Full-page raster first

什么时候才写 SVG / HTML / hybrid

路径选择（先问自己有没有原生能力）

支持平台

原生路径（优先）

Codex CLI — image_gen tool call

Antigravity — generate_image tool call

跨引擎借用（实验性）

浏览器路径（降级 / 需要风格控制时使用）

Gemini 画图（浏览器）

ChatGPT 画图（浏览器）

DOM 选择器速查

Gemini

ChatGPT

下载文件命名

Common Mistakes

注意事项

通用

浏览器路径专用

Codex CLI — `image_gen` tool call

Antigravity — `generate_image` tool call

Codex CLI — `image_gen` tool call

Antigravity — `generate_image` tool call