一键在 Manus 中运行任何 Skill

image-to-prompt

将图片或文本描述转换为完整 AI 绘画提示词。当用户想要根据参考图、照片或文字描述生成适用于各种 AI 绘画工具（Midjourney、Stable Diffusion、FLUX、DALL-E 等）的专业提示词时使用。适用于：上传图片并请求生成提示词、将照片转化为特定艺术风格、根据文字描述构建结构化提示词、需要系统化的提示词构建框架。

在 Manus 中运行

星标7

分支1

更新时间2026年5月9日 14:11

来源

Lionad-Morotar

Lionad-Morotar/local-tools

打开 GitHub 仓库查看创作者相关仓库

安装命令

下载

在 Manus 中运行

适用职业SOC

特效艺术家和动画师艺术、设计、娱乐、体育与媒体类职业27-1014L4

文件资源管理器

5 个文件

SKILL.md

readonly

同仓库更多 Skills

同仓库

gen-image

Lionad-Morotar/local-tools

通常在 web-search 没有办法解决用户需求时，调用此技能，创造或生成全新图片。

2026-05-097

proof-reading-execute

Lionad-Morotar/local-tools

修复语音输入，然后执行

2026-05-097

proof-reading

Lionad-Morotar/local-tools

修复语病，使句子更通顺

2026-05-097

local-config

Lionad-Morotar/local-tools

修改我的本地应用配置

2026-05-097

record-daily-bugs

Lionad-Morotar/local-tools

记录有意思的 bug 到博客某文件中

2026-05-097

create-skill-project

Lionad-Morotar/local-tools

创建新的 Claude Skill 项目，初始化 GitHub 仓库、本地 submodule 和软链接。用于将现有 skill 或新 skill 按照标准项目结构组织，支持 Git 版本管理和本地开发。使用场景：(1) 创建新的 skill 项目并推送到 GitHub (2) 将现有 skill 重构为标准项目结构 (3) 初始化 submodule 和软链接以便本地开发。

2026-05-097

name

image-to-prompt

description

Image to Prompt - 图片/文本转 AI 绘画提示词

将用户输入（图片或文字）转换为高质量、结构化的 AI 绘画提示词。

工作步骤

创建一个任务清单，执行以下两个任务：

处理输入
细致分析
生成输出

图片输入

图片来源判断：

路径/网址输入（如 /path/to/image.png 或 https://example.com/image.jpg）
- 使用图片分析工具（mcp__zai-mcp-server__analyze_image）提取详细视觉信息
- 基于分析结果构建提示词
直接粘贴输入（用户将图片粘贴到对话中）
- 使用模型自身的视觉能力直接分析对话中的图片
- 详细描述图片内容（无需调用外部工具）

分析维度（根据图片内容灵活调整，复杂图片可扩充至最多4k个分析维度）：

1. 核心视觉层 (Core Visual Layer)
Subject：
具象维度：识别人物/物体/生物的数量、姿态、动作、表情、服饰及物理特征。
抽象维度：若无具体主体，描述其形态（如流体、几何体）、运动态势（如旋转、爆炸、静止）及视觉聚合点。
Composition：
空间布局：分析画面布局（向心、三分法/Rules of thirds、黄金分割/Golden ratio）、焦点位置、对称性/非对称性。
视线引导：线条流向、层次感（前景/中景/背景）、画幅比例及其带来的视觉影响。
Color：
基础参数：主色调、配色方案（如互补色/Complementary、同类色/Analogous）、对比度、饱和度。
色彩心理：色彩传递的温度（冷/暖）、重量感及情感联想。
Light：
物理属性：光源方向（顶光/Top light、侧光/Side light、逆光/Backlight）、光线质感（柔光/Soft light、硬光/Hard light、漫反射/Diffused）。
氛围营造：明暗调性（High-key/Low-key）、阴影的形态与深浅、环境光感。
2. 风格与技法层 (Style & Technique Layer)
Style：
流派定位：艺术流派（如印象派/Impressionism、极简主义/Minimalism、赛博朋克/Cyberpunk）、时代感、文化特征。
视觉语言：摄影风格（如黑色电影/Film noir、纪实摄影/Documentary）或绘画技法（如厚涂/Impasto、水墨/Ink wash）。
Technical Details：
质感与纹理：材质表面（光滑/Glossy、粗糙/Rough）、颗粒感/噪点（Grain）、笔触痕迹。
特殊效果：光学瑕疵模拟（如色散/Chromatic aberration、暗角/Vignette）、动态模糊（Motion blur）、景深/虚化（Bokeh/Depth of field）、光晕（Bloom）。
3. 认知与叙事层 (Cognitive & Narrative Layer)
Micro-Details：
捕捉容易被忽略的微小元素（如背景中的隐藏物体、微小的文字信息、材质的细微破损）。
Emotion & Atmosphere：
整体基调：画面传递的第一直觉（如压抑、欢快、神秘、宁静）。
深层情感：分析画面元素如何引发特定的心理反应（如焦虑、孤独、希望）。
Semiotics & Metaphor：
叙事暗示：画面仿佛在讲述什么故事？捕捉的是哪个瞬间（发生前/发生后）？
象征意义：分析图像中的符号（如”镜子”代表内省，”风暴”代表混乱）及其文化互文性。
Synesthesia：
描述观看图像时引发的非视觉联想（如听觉上的噪音/寂静、触觉上的冷热/刺痛感）。

分析示例（浓雾中的电线杆）：

### **1. 核心视觉层 (Core Visual Layer)**

*   **Subject**：
    *   **具象维度**：画面中有三个主要的垂直结构——**木质电线杆**。前景的一根最为显著，略微向右倾斜，顶端带有横臂和变压器状物体，几根断裂或松弛的电线垂落下来。背景中还有两根较模糊的电线杆，呈线性排列延伸至远处。在画面右侧中景处，有一个极为渺小的**人形剪影**，似乎是一个穿着深色衣服的人孤独伫立。
    *   **抽象维度**：电线杆构成了强烈的**垂直线条**，与地面的水平线形成交错，但在浓雾的侵蚀下，这些线条显得脆弱且不完整。垂落的电线形成了无力的曲线，暗示着重力与废弃。

*   **Composition**：
    *   **空间布局**：采用**Deep depth of field**构图，利用透视原理将视线引向远方。前景巨大的倾斜电线杆占据了左侧主导地位，与右侧远处的微小人物形成**大小对比**和**视觉平衡**。
    *   **视线引导**：电线杆的排列形成了一条隐形的对角线引导线，将观众的视线从左前方向右后方牵引，最终消失在迷雾中。
    *   **画幅比例**：竖构图增强了画面的压抑感和纵深感，强调了天空（雾气）的沉重。

*   **Color**：
    *   **基础参数**：**极低饱和度**，接近单色画。主色调为灰绿色（Sage Green/Grey）和暗褐色（Sepia/Dark Brown）。
    *   **色彩心理**：这种暗淡、浑浊的色调传递出**寒冷、潮湿、陈旧**和**死寂**的感觉。缺乏暖色调，完全剥夺了画面的生机与希望感。

*   **Light**：
    *   **物理属性**：**极度柔和的漫反射光**（Soft/Diffused light）。由于浓雾的存在，光源方向不可辨认，光线平坦且均匀，没有强烈的阴影。
    *   **氛围营造**：属于**Low-key**摄影，整体亮度偏低。雾气作为一种介质，散射了光线，导致物体边缘模糊，营造出一种梦境般或末日后的朦胧感。

### **2. 风格与技法层 (Style & Technique Layer)**

*   **Style**：
    *   **流派定位**：
        *   **Southern Gothic**：荒凉的田野、废弃的工业设施，透露出一种衰败和不安。
        *   **Liminal Space**：这是一个过渡性的场所，既非起点也非终点，充满了不确定性和诡异的熟悉感。
        *   **Silent Hill Aesthetic**：浓雾、废弃设施和孤独的人影是该风格的标志性元素。
    *   **视觉语言**：具有强烈的**Cinematic**电影感，像是一部悬疑片或恐怖片的定场镜头。

*   **Technical Details**：
    *   **质感与纹理**：画面叠加了明显的**Film Grain**，增加了粗糙的质感，模拟了老旧照片或高感光度底片的效果。这种噪点不是瑕疵，而是增强了”真实感”和”纪实感”。
    *   **特殊效果**：**Atmospheric perspective**被运用到了极致，雾气随着距离增加而变浓，使得远处的物体逐渐溶解在背景中。

### **3. 认知与叙事层 (Cognitive & Narrative Layer)**

*   **Micro-Details**：
    *   **垂落的电线**：这不仅是物理细节，更是**功能失效**的标志。电线本应紧绷传递能量，这里的垂落意味着断联、废弃和文明的退场。
    *   **倾斜的角度**：前景电线杆不仅破旧，而且是歪斜的，暗示了地基的不稳或曾遭受过外力的撞击/风暴，处于一种摇摇欲坠的临界状态。

*   **Emotion & Atmosphere**：
    *   **整体基调**：**Isolation**、**Desolation**、**Mystery**。
    *   **深层情感**：这种迷雾中的静止画面容易引发**存在主义焦虑**。那个渺小的人影面对巨大的、废弃的工业遗迹，强化了人类在自然或不可知力量面前的渺小与无力。

*   **Semiotics & Metaphor**：
    *   **电线杆**：通常象征着沟通、连接和现代文明。在这里，它们是断裂和废弃的，象征着**沟通的失败**或**文明的遗迹**。
    *   **迷雾**：象征着**未知**、**迷失**和**隔离**。它遮蔽了视野，让人看不清前路，也看不清来路。
    *   **孤独的观察者**：那个微小的人影可以被看作是观众的**Avatar**，迷失在这个充满迷雾的异世界中。

*   **Synesthesia**：
    *   **听觉**：看着这张图，仿佛能听到**风吹过枯草的沙沙声**，或者远处沉闷的**低频嗡嗡声**，亦或是**绝对的死寂**（耳鸣般的安静）。
    *   **触觉**：能感受到**潮湿粘腻的空气**粘在皮肤上，以及刺骨的**阴冷**。
    *   **嗅觉**：空气中似乎弥漫着**潮湿泥土**、**腐烂植被**和**生锈金属**的气味。

**总结**：
这张图像是一幅极具表现力的**反乌托邦风景画**。它通过**迷雾**这一核心元素，成功地将现实世界异化，利用**废弃的工业符号**（破损的电线杆）和**孤独的人影**，构建了一个关于**遗忘、断联和孤独**的视觉叙事。它不仅仅是在展示一个场景，更是在唤起一种深入骨髓的寒意和对未知的敬畏。

分析示例结束。

分析后构建提示词：

整合上述分析结果
如用户指定目标风格，优先采用该风格描述
生成提示词

文本输入

解析描述中的核心视觉元素
识别隐含风格倾向（如"梦幻"暗示柔和光线）
补充合理的细节使提示词完整

混合输入（用户同时给了图片可提示词）

你需仔细识别用户具体意图，例如用户可能想：

基于图片描述生成新的提示词
合并图片与文本描述，创建更丰富的提示词

细致分析

具体而非笼统：不说"beautiful lighting"，而是"golden hour side lighting casting long shadows"
分层描述：从整体构图 → 主体细节 → 背景环境
风格一致：确保风格、色彩、光影描述相互协调
避免过度堆砌：质量词适度原则

风格定义技巧

参考艺术家/作品

当需要精准定义风格时，可引用：

艺术家：in the style of [Artist Name] 或风格混合（如：Katsuhiro Otomo meets Moebius）
艺术作品：参考具体作品的美学特征（如：Blade Runner 2049 cinematography aesthetic）
流派/运动：Art Nouveau, De Stijl, Ukiyo-e, Bauhaus

原则：1-2 个参考足够，过多会混淆风格。优先选择与用户意图最直接相关的参考。

镜头与摄影参数

写实或摄影风格可添加：

镜头类型：wide-angle lens, 85mm portrait lens, fisheye, macro
光圈/景深：shallow depth of field, f/1.8, bokeh background
构图术语：Dutch angle, worm's eye view, bird's eye view, rule of thirds
胶片/设备：shot on Kodak Portra 400, Hasselblad medium format, vintage Polaroid

原则：仅当摄影感是风格核心时使用，插画/概念艺术类无需强行添加。

负面提示词（Negative Prompt）

当生成写实类或需要排除特定元素时，建议添加负面提示词：

通用排除：low quality, blurry, distorted, deformed, ugly, duplicate, watermark, signature
人像排除：bad anatomy, extra limbs, missing fingers, mutated hands, poorly drawn face
风格排除：根据目标风格排除相反特征（如写实风格排除cartoon, anime, illustration）

原则：负面提示词仅在用户明确要求或风格需要时添加，通常 3-5 个足够，过多会稀释效果。

权重与强调

需要强化或弱化特定元素时：

强调：(keyword) 或 (keyword:1.2) 增加权重
弱化：[keyword] 或 (keyword:0.8) 减少权重
避免过度：权重范围 0.5-1.5 为宜，过高会导致扭曲

应用时机：当描述中包含多个元素需要区分主次，或某些词容易被忽略时使用。

画幅比例建议

根据构图意图推荐比例：

1:1 — 头像、图标、对称构图
16:9 / 2:1 — 风景、全景、电影感
9:16 — 全身人像、竖版海报
4:3 — 插画、文档配图
21:9 — 超宽 cinematic

原则：比例服务于构图意图，宽画幅强化延伸感，方画幅聚焦中心，竖画幅强化纵深感，推荐一种画幅即可。

每个请求默认只输出中文版本，专业术语后标注英文（如：赛博朋克(Cyberpunk)、景深(Depth of field)）。仅在用户明确要求英文版本时才输出英文版本。直接输出对应提示词（plaintext\n<提示词>\n）即可。

中文版本的专业术语后标注英文，如：

艺术风格（如：赛博朋克(Cyberpunk)、巴洛克(Baroque)）
技术术语（如：景深(Depth of field)、三分法(Rule of thirds)）
材质/纹理（如：厚涂(Impasto)、丝网印刷(Screen printing)）

提示词参考

Banana（默认）：不写负面提示词；提示词总数在 1000 字左右，参考banana 提示词示例
Qwen-Image：提示词在 500 字左右，参考qwen-image 提示词示例
Midjourney：添加 --ar [比例]、--stylize [值]、--v 6 等参数
SD/FLUX：添加负面提示词（negative prompt）
DALL-E：描述更加自然语言化

其他要求

总的来说，提示词不应超过2000字