Exécutez n'importe quel Skill dans Manus
en un clic

Exécutez n'importe quel Skill dans Manus en un clic

Commencer

demucs-vocal

Étoiles0

Forks0

Mis à jour11 février 2026 à 15:48

AI 音频分离工具，基于 Meta Demucs (Hybrid Transformer)，支持人声/伴奏分离、多音轨分离

Installation

Installer avec Codex ou Claude Copiez ce prompt, collez-le dans Codex, Claude ou un autre assistant, puis laissez-le vérifier la page du skill et l'installer pour vous.

Exécuter dans Manus

Source

Birdywen

Birdywen/genspark-agent

Ouvrir le dépôt GitHub Voir les dépôts du créateur

Téléchargement

Exécuter dans Manus

Métiers associésSOC

Basé sur la classification professionnelle SOC

Techniciens en ingénierie du sonArts, design, divertissement, sports et médias·SOC 27-4014

SKILL.md

readonly

name	demucs-vocal
description	AI 音频分离工具，基于 Meta Demucs (Hybrid Transformer)，支持人声/伴奏分离、多音轨分离

Demucs Vocal Separation Skill

基于 Meta 的 Hybrid Transformer Demucs 模型，高质量分离音频中的人声和伴奏。

环境要求

Python 3.11（3.14 不兼容）
虚拟环境路径：/private/tmp/demucs_env

首次安装

# 创建虚拟环境（必须用 Python 3.11）
python3.11 -m venv /private/tmp/demucs_env

# 安装 demucs 和依赖
/private/tmp/demucs_env/bin/pip install --upgrade pip
/private/tmp/demucs_env/bin/pip install demucs torchcodec

注意: 首次安装需要下载 PyTorch (~80MB)，建议后台执行 (nohup ... &)。 torchcodec 是必须的，否则保存文件时会报 ImportError。

使用方法

人声/伴奏分离（最常用）

/private/tmp/demucs_env/bin/python3 -m demucs --two-stems vocals -o /private/tmp/demucs_output "输入音频.mp3"

输出：

vocals.wav — 纯人声
no_vocals.wav — 纯伴奏

输出目录结构：/private/tmp/demucs_output/htdemucs/文件名/

完整四轨分离

/private/tmp/demucs_env/bin/python3 -m demucs -o /private/tmp/demucs_output "输入音频.mp3"

输出四个轨道：

vocals.wav — 人声
drums.wav — 鼓
bass.wav — 贝斯
other.wav — 其他乐器

使用其他模型

# 默认模型 htdemucs（推荐）
/private/tmp/demucs_env/bin/python3 -m demucs -n htdemucs "输入音频.mp3"

# 旧模型 mdx_extra_q（某些场景可能更好）
/private/tmp/demucs_env/bin/python3 -m demucs -n mdx_extra_q "输入音频.mp3"

# 精细模型 htdemucs_ft（更慢但可能更好）
/private/tmp/demucs_env/bin/python3 -m demucs -n htdemucs_ft "输入音频.mp3"

指定输出格式为 MP3

/private/tmp/demucs_env/bin/python3 -m demucs --two-stems vocals --mp3 -o /private/tmp/demucs_output "输入音频.mp3"

执行建议

处理一首 3-4 分钟的歌大约需要 2 分钟（Apple Silicon）
首次运行会下载模型文件 (~80MB)，之后会缓存在 ~/.cache/torch/hub/checkpoints/
建议用 nohup ... & 后台执行，用 ps -p PID 检查状态
日志用 tail -1 logfile 查看进度百分比

后续处理（人声转乐器）

分离出人声后，可以进一步做音色转换：

方案 A：MIDI 中转

用 basic-pitch 把人声转 MIDI
用 fluidsynth + SoundFont 渲染成目标乐器

# 安装
/private/tmp/demucs_env/bin/pip install basic-pitch
brew install fluid-synth

# 人声转 MIDI（需要在 Python 中调用）
from basic_pitch.inference import predict_and_save, Model
predict_and_save(
    audio_path_list=['vocals.wav'],
    output_directory='./midi_output',
    save_midi=True,
    sonify_midi=False,
    save_model_outputs=False,
    save_notes=False,
    model_or_model_path=Model.ICASSP_2022,  # 检查可用模型: dir(Model)
)

# MIDI 渲染为乐器
fluidsynth -ni soundfont.sf2 vocals_basic_pitch.mid -F output_flute.wav

本机可用的 SoundFont 文件：

/Users/yay/Documents/capella-soundfonts/GeneralUser GS 1.471/GeneralUser GS v1.471.sf2
/Users/yay/Documents/Sion Software/VST Plugins/VintageDreamsWaves-v2.sf2

方案 B：DDSP 音色转换

Google Magenta DDSP — 直接转换音色，保留表现力
需要额外安装 ddsp 包

方案 C：在线工具

Google Tone Transfer (https://sites.research.google/tonetransfer)

混合最终结果

# 把转换后的乐器声和原始伴奏混合
ffmpeg -i instrument_track.wav -i no_vocals.wav -filter_complex amix=inputs=2:duration=longest output_final.wav

Plus depuis ce dépôt

même dépôt

api-server

Birdywen/genspark-agent

API Server - DeepSeek/Kimi 多模型 Agent，131个MCP工具，支持 tool calling 自动循环

2026-02-210

opus-video

Birdywen/genspark-agent

AI 视频全自动生产线 - opus.pro 视频生成 + OpusClip 字幕/元数据 + Genspark 高质量缩略图 + viaSocket → YouTube，全程零成本

2026-02-200

cloudflare-pages

Birdywen/genspark-agent

Cloudflare Pages 静态网站部署，支持命令行一键部署、API 部署、项目管理

2026-02-200

genspark-image

Birdywen/genspark-agent

Genspark AI 图片生成器 - 基于 nano-banana-pro 模型，支持任意比例、带文字渲染、自动上传公开托管，可用于缩略图/封面/社交媒体/插图等场景

2026-02-200

supabase

Birdywen/genspark-agent

Supabase 后端即服务 (BaaS)，提供 PostgreSQL 数据库、身份认证、实时订阅、存储等，免费套餐适合小项目

2026-02-200

wechat-cli

Birdywen/genspark-agent

微信桌面版命令行控制工具，通过 macOS Accessibility API 读取聊天列表、消息内容，搜索联系人，发送消息

2026-02-200

name	demucs-vocal
description	AI 音频分离工具，基于 Meta Demucs (Hybrid Transformer)，支持人声/伴奏分离、多音轨分离

Demucs Vocal Separation Skill

基于 Meta 的 Hybrid Transformer Demucs 模型，高质量分离音频中的人声和伴奏。

环境要求

Python 3.11（3.14 不兼容）
虚拟环境路径：/private/tmp/demucs_env

首次安装

# 创建虚拟环境（必须用 Python 3.11）
python3.11 -m venv /private/tmp/demucs_env

# 安装 demucs 和依赖
/private/tmp/demucs_env/bin/pip install --upgrade pip
/private/tmp/demucs_env/bin/pip install demucs torchcodec

注意: 首次安装需要下载 PyTorch (~80MB)，建议后台执行 (nohup ... &)。 torchcodec 是必须的，否则保存文件时会报 ImportError。

使用方法

人声/伴奏分离（最常用）

/private/tmp/demucs_env/bin/python3 -m demucs --two-stems vocals -o /private/tmp/demucs_output "输入音频.mp3"

输出：

vocals.wav — 纯人声
no_vocals.wav — 纯伴奏

输出目录结构：/private/tmp/demucs_output/htdemucs/文件名/

完整四轨分离

/private/tmp/demucs_env/bin/python3 -m demucs -o /private/tmp/demucs_output "输入音频.mp3"

输出四个轨道：

vocals.wav — 人声
drums.wav — 鼓
bass.wav — 贝斯
other.wav — 其他乐器

使用其他模型

# 默认模型 htdemucs（推荐）
/private/tmp/demucs_env/bin/python3 -m demucs -n htdemucs "输入音频.mp3"

# 旧模型 mdx_extra_q（某些场景可能更好）
/private/tmp/demucs_env/bin/python3 -m demucs -n mdx_extra_q "输入音频.mp3"

# 精细模型 htdemucs_ft（更慢但可能更好）
/private/tmp/demucs_env/bin/python3 -m demucs -n htdemucs_ft "输入音频.mp3"

指定输出格式为 MP3

/private/tmp/demucs_env/bin/python3 -m demucs --two-stems vocals --mp3 -o /private/tmp/demucs_output "输入音频.mp3"

执行建议

处理一首 3-4 分钟的歌大约需要 2 分钟（Apple Silicon）
首次运行会下载模型文件 (~80MB)，之后会缓存在 ~/.cache/torch/hub/checkpoints/
建议用 nohup ... & 后台执行，用 ps -p PID 检查状态
日志用 tail -1 logfile 查看进度百分比

后续处理（人声转乐器）

分离出人声后，可以进一步做音色转换：

方案 A：MIDI 中转

用 basic-pitch 把人声转 MIDI
用 fluidsynth + SoundFont 渲染成目标乐器

# 安装
/private/tmp/demucs_env/bin/pip install basic-pitch
brew install fluid-synth

# 人声转 MIDI（需要在 Python 中调用）
from basic_pitch.inference import predict_and_save, Model
predict_and_save(
    audio_path_list=['vocals.wav'],
    output_directory='./midi_output',
    save_midi=True,
    sonify_midi=False,
    save_model_outputs=False,
    save_notes=False,
    model_or_model_path=Model.ICASSP_2022,  # 检查可用模型: dir(Model)
)

# MIDI 渲染为乐器
fluidsynth -ni soundfont.sf2 vocals_basic_pitch.mid -F output_flute.wav

本机可用的 SoundFont 文件：

/Users/yay/Documents/capella-soundfonts/GeneralUser GS 1.471/GeneralUser GS v1.471.sf2
/Users/yay/Documents/Sion Software/VST Plugins/VintageDreamsWaves-v2.sf2

方案 B：DDSP 音色转换

Google Magenta DDSP — 直接转换音色，保留表现力
需要额外安装 ddsp 包

方案 C：在线工具

Google Tone Transfer (https://sites.research.google/tonetransfer)

混合最终结果

# 把转换后的乐器声和原始伴奏混合
ffmpeg -i instrument_track.wav -i no_vocals.wav -filter_complex amix=inputs=2:duration=longest output_final.wav