From 1cfcfd96eb7d44f44fa80d4b97b39e7b28513876 Mon Sep 17 00:00:00 2001 From: koide Date: Tue, 24 Feb 2026 01:22:30 +0000 Subject: [PATCH] =?UTF-8?q?Update:=20VibeVoice=20ASR=E8=A8=98=E4=BA=8B?= =?UTF-8?q?=E3=82=92=E3=83=AF=E3=83=B3=E3=83=A9=E3=82=A4=E3=83=8A=E3=83=BC?= =?UTF-8?q?=E5=BD=A2=E5=BC=8F=E3=81=AB=E6=9B=B4=E6=96=B0?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs-tech/dgx-spark-vibevoice-asr/index.md | 68 ++++++++++++---------- 1 file changed, 37 insertions(+), 31 deletions(-) diff --git a/docs-tech/dgx-spark-vibevoice-asr/index.md b/docs-tech/dgx-spark-vibevoice-asr/index.md index 54b7ab2..9272df7 100644 --- a/docs-tech/dgx-spark-vibevoice-asr/index.md +++ b/docs-tech/dgx-spark-vibevoice-asr/index.md @@ -39,20 +39,40 @@ VibeVoice は Microsoft が開発したオープンソースの音声認識モ - **Docker** — NVIDIA Container Toolkit 導入済み - **VRAM** — 約 8GB 以上 -## クイックスタート - -### 1. リポジトリをクローン +## ワンライナーでセットアップ ```bash -cd ~ -git clone https://github.com/YOUR_REPO/vibevoice-asr.git -cd vibevoice-asr +curl -sL https://docs.techswan.online/scripts/vibevoice-asr/setup.sh | bash -s build +``` + +これだけでダウンロード・ビルドが完了します。 + +### その他のオプション + +```bash +# ダウンロードのみ +curl -sL https://docs.techswan.online/scripts/vibevoice-asr/setup.sh | bash + +# ダウンロード・ビルド・Gradioデモ起動まで一気に +curl -sL https://docs.techswan.online/scripts/vibevoice-asr/setup.sh | bash -s demo + +# 両方のサービスを起動(Gradio + Realtime ASR) +curl -sL https://docs.techswan.online/scripts/vibevoice-asr/setup.sh | bash -s serve +``` + +## 手動セットアップ + +### 1. ファイルをダウンロード + +```bash +curl -sL https://docs.techswan.online/scripts/vibevoice-asr/setup.sh | bash +cd ~/vibevoice-asr ``` ### 2. Docker イメージをビルド ```bash -./setup.sh build +docker build -t vibevoice-asr:dgx-spark . ``` ビルドには数分かかります(NGC PyTorch コンテナベース)。 @@ -62,7 +82,9 @@ cd vibevoice-asr **バッチ ASR(Gradio UI)のみ:** ```bash -./setup.sh demo +docker run --gpus all --ipc=host --network=host \ + -v "$HOME/.cache/huggingface:/root/.cache/huggingface" \ + vibevoice-asr:dgx-spark ``` → `http://localhost:7860` でアクセス @@ -70,7 +92,10 @@ cd vibevoice-asr **リアルタイム ASR のみ:** ```bash -./setup.sh realtime +docker run --gpus all --ipc=host --network=host \ + -v "$HOME/.cache/huggingface:/root/.cache/huggingface" \ + vibevoice-asr:dgx-spark \ + python -m realtime.server --host 0.0.0.0 --port 8000 ``` → WebSocket: `ws://localhost:8000/ws/asr/{session_id}` @@ -79,7 +104,9 @@ cd vibevoice-asr **両方を同時起動:** ```bash -./setup.sh serve +docker run --gpus all --ipc=host --network=host \ + -v "$HOME/.cache/huggingface:/root/.cache/huggingface" \ + vibevoice-asr:dgx-spark ./run_all.sh ``` ## 使い方 @@ -182,27 +209,6 @@ function sendAudio(pcmData) { | `--max-sessions` | `10` | 最大同時接続数 | | `--no-preload` | - | モデルの事前ロードを無効化 | -## Docker 手動実行 - -### バッチ ASR - -```bash -docker run --gpus all -p 7860:7860 vibevoice-asr:dgx-spark -``` - -### リアルタイム ASR - -```bash -docker run --gpus all -p 8000:8000 vibevoice-asr:dgx-spark \ - python -m realtime.server --host 0.0.0.0 --port 8000 -``` - -### 両方同時 - -```bash -docker run --gpus all -p 7860:7860 -p 8000:8000 vibevoice-asr:dgx-spark ./run_all.sh -``` - ## トラブルシューティング ### GPU メモリ不足