Skip to main content
在 Manus 中运行任何 Skill
一键导入

multimodal-llm

Vision, audio, video generation, and multimodal LLM integration patterns. Use when processing images, transcribing audio, generating speech, generating AI video (Kling v3, Sora 2, Veo 3.1 std/lite/fast, Runway Gen-4.5 via `gen4_turbo`), or building multimodal AI pipelines.

星标189
分支15
更新时间2026年6月13日 20:40
文件资源管理器
13 个文件
SKILL.md
readonly