一键导入
model-production
Style-Bert-VITS2 の音声素材 ingest から dataset prepare、training、model promotion、evaluation までの制作手順
用 Codex 或 Claude 帮你安装 复制这段 Prompt,粘贴到 Codex、Claude 或其他助手里,让它检查 Skill 页面并帮你完成安装。
菜单
Style-Bert-VITS2 の音声素材 ingest から dataset prepare、training、model promotion、evaluation までの制作手順
用 Codex 或 Claude 帮你安装 复制这段 Prompt,粘贴到 Codex、Claude 或其他助手里,让它检查 Skill 页面并帮你完成安装。
基于 SOC 职业分类
| name | model-production |
| description | Style-Bert-VITS2 の音声素材 ingest から dataset prepare、training、model promotion、evaluation までの制作手順 |
このスキルは、音声ファイルまたは音声ディレクトリから Style-Bert-VITS2 (SBV2) の学習モデルを作成する制作 workflow をガイドします。TTS 再生や声色選択は voice skill、制作系操作の開始前後チェックは sbv2-model-ops skill を使います。
音声素材からモデルを作る標準順は次の通りです。
datasets ingest: 音声素材を bridge 管理 workspace にコピーし、dataset manifest を作るdatasets prepare: SBV2 の slice / transcription を実行し、resolved dataset_root/<modelName>/raw と esd.list を作るtraining plan: 学習 stage と出力先を確認するtraining run: resample、preprocess_text、bert_gen、style_gen、train_ms を job として実行するmodels candidates: 昇格できる候補ディレクトリを確認するmodels promote: candidate を resolved assets_root/<modelName> に昇格し、SBV2 からロード可能にするevaluation run: 昇格後モデルの試聴用 sample と評価 manifest を作るevaluation note: 人間の試聴結果を evaluation manifest に記録するmodelName は pipeline 全体のキーです。SBV2 の単一話者 workflow に合わせ、別の speaker name や project name は通常入力として持ちません。
slice、transcription、preprocess、training の詳細 option は通常 agent surface では指定しません。datasets prepare と training run は bridge の既定値を使い、必要になった場合は別 issue の advanced surface として扱います。
保存先は SBV2 の configs/paths.yml、次に configs/default_paths.yml、最後に SBV2 既定値から解決します。Data/<modelName> と model_assets/<modelName> は既定例であり、実際の dataset_root / assets_root が変わっている環境では CLI の pathRoles と表示された path を正としてください。
bridge state:
ingest copy、manifest、job log、summary 用。SBV2 FastAPI からはロードされません。
SBV2 dataset:
resolved dataset_root/<modelName>。slice/transcribe/preprocess/training 用です。
SBV2 loadable model:
resolved assets_root/<modelName>。/models/info と /voice が使う runtime model です。
datasets ingest、datasets prepare、training run、evaluation run、models promote は artifact 作成、音声素材の永続化、長時間/GPU処理を伴います。開始前にユーザーへ次を提示して確認してください。
SBV2 の制作処理を開始します。
入力: <source path または manifest / candidate>
bridge state: <ingest workspace または job output/log>
SBV2 dataset: <resolved dataset_root>/<modelName>
SBV2 loadable model: <resolved assets_root>/<modelName>
job log: <jobs path>
処理: <ingest/prepare/training/evaluation/promote と stage>
既存出力への上書きは行いません。開始してよいですか。
ユーザー確認なしに、既存の resolved dataset_root/<modelName>、resolved assets_root/<modelName>、checkpoint、job artifact を上書きまたは削除しないでください。生成モデル、評価音声、入力音声の公開、共有、外部 upload、外部送信も行いません。
datasets prepare、training run、evaluation run は、ユーザーが同期実行を明示しない限り OpenClaw sub-agent / background task へ委譲します。親 session は plan、ユーザー確認、起動結果だけ扱い、実行中の poll loop は持ちません。
起動直後に親へ返す ID は OpenClaw runId / childSessionKey、または plugin runtime に渡した sessionKey と返却された runId です。sbv2-bridge jobId は起動時に必ず存在するものとして扱わず、完了後の job manifest ID として扱います。詳しい委譲ルールと失敗時の切り分けは sbv2-model-ops skill に従ってください。
まず音声素材を bridge workspace に取り込みます。
sbv2-bridge datasets ingest \
--model-name my_voice \
--source /path/to/audio-or-directory \
--language ja \
--no-use-jp-extra \
--json
JP-Extra は英語・中国語発話をできなくするため、英語、中国語、多言語発話を残したいモデルでは --no-use-jp-extra を明示してください。日本語専用モデルで日本語品質を優先する場合だけ --use-jp-extra を使います。
sbv2-bridge datasets ingest \
--model-name my_japanese_voice \
--source /path/to/audio-or-directory \
--language ja \
--use-jp-extra \
--json
--source は音声ファイルまたはディレクトリです。ディレクトリ直下に複数のサブディレクトリがある場合、その相対構造は style group として manifest に記録されます。
出力の dataset.manifestPath を後続工程で使います。pathRoles.bridgeState は一時 workspace、pathRoles.sbv2Dataset は SBV2 の学習 dataset、pathRoles.sbv2LoadableModel は最終的に FastAPI が読む model assets です。
datasets prepare は SBV2 root で slice / transcription を呼び、SBV2 が学習に使う dataset を作ります。
sbv2-bridge datasets prepare \
--manifest /path/to/manifest.json \
--json
既存の resolved dataset_root/<modelName>/raw、resolved dataset_root/<modelName>/esd.list、resolved assets_root/<modelName> がある場合は上書きせず失敗します。失敗時は下の Job 確認に従って、OpenClaw task と bridge job manifest のどちらを確認できる状態かを切り分けてください。
先に plan で stage、出力先、衝突リスクを確認します。
sbv2-bridge training plan \
--manifest /path/to/manifest.json \
--json
問題なければ学習を開始します。ユーザーが同期実行を明示しない限り、このコマンドは OpenClaw sub-agent / background task に委譲してください。
sbv2-bridge training run \
--manifest /path/to/manifest.json \
--json
stage を限定する場合は --stage resample --stage preprocess-text のように指定します。通常は全 stage を実行します。既存の resolved dataset_root/<modelName>/models や resolved assets_root/<modelName> は上書きしません。
長時間処理の実行中は OpenClaw task ledger を確認します。
openclaw tasks show <runId|childSessionKey|sessionKey>
完了後、bridge jobId が生成されていれば job status と log を確認します。
sbv2-bridge jobs status <jobId>
sbv2-bridge jobs log <jobId> --tail 80
bridge jobId が無い失敗では、OpenClaw runId、実行 command、cwd、stdout/stderr、入力 manifest / model path を確認します。次に summary.json、dataset manifest、CLI の pathRoles、既存出力との衝突、SBV2 script や pretrained directory、GPU/依存関係を確認します。
候補一覧を確認します。
sbv2-bridge models candidates \
--model-name my_voice \
--json
学習済み candidate を resolved assets_root/<modelName> に昇格します。実行時は model name の明示確認が必要です。
sbv2-bridge models promote \
--model-name my_voice \
--source /path/to/candidate-directory \
--confirm-model-name my_voice \
--base-url http://127.0.0.1:5000 \
--json
evaluation run は SBV2 からロード可能な resolved assets_root/<modelName> を合成対象にします。学習直後の candidate directory を直接評価せず、先に models promote で resolved assets_root/<modelName> へ昇格してください。
昇格後モデルは、固定テスト文セットで sample WAV と評価 manifest を作ります。ユーザーが同期実行を明示しない限り、このコマンドは OpenClaw sub-agent / background task に委譲してください。
sbv2-bridge evaluation run \
--model-name my_voice \
--base-url http://127.0.0.1:5000 \
--json
人間の試聴結果は evaluation manifest に記録します。
sbv2-bridge evaluation note \
--evaluation /path/to/evaluation.json \
--case ja-short \
--decision hold \
--message "語尾が少し不安定"
reject または reject recommendation がある model は OpenClaw の既定 voice に採用しません。問題がない場合だけ、OpenClaw provider config の defaultModelName / defaultSpeakerName / defaultStyle を更新します。