diff --git a/docs-tech/dgx-spark-vibevoice-asr/index.md b/docs-tech/dgx-spark-vibevoice-asr/index.md index 54b7ab2..9272df7 100644 --- a/docs-tech/dgx-spark-vibevoice-asr/index.md +++ b/docs-tech/dgx-spark-vibevoice-asr/index.md @@ -39,20 +39,40 @@ VibeVoice は Microsoft が開発したオープンソースの音声認識モ - **Docker** — NVIDIA Container Toolkit 導入済み - **VRAM** — 約 8GB 以上 -## クイックスタート - -### 1. リポジトリをクローン +## ワンライナーでセットアップ ```bash -cd ~ -git clone https://github.com/YOUR_REPO/vibevoice-asr.git -cd vibevoice-asr +curl -sL https://docs.techswan.online/scripts/vibevoice-asr/setup.sh | bash -s build +``` + +これだけでダウンロード・ビルドが完了します。 + +### その他のオプション + +```bash +# ダウンロードのみ +curl -sL https://docs.techswan.online/scripts/vibevoice-asr/setup.sh | bash + +# ダウンロード・ビルド・Gradioデモ起動まで一気に +curl -sL https://docs.techswan.online/scripts/vibevoice-asr/setup.sh | bash -s demo + +# 両方のサービスを起動(Gradio + Realtime ASR) +curl -sL https://docs.techswan.online/scripts/vibevoice-asr/setup.sh | bash -s serve +``` + +## 手動セットアップ + +### 1. ファイルをダウンロード + +```bash +curl -sL https://docs.techswan.online/scripts/vibevoice-asr/setup.sh | bash +cd ~/vibevoice-asr ``` ### 2. Docker イメージをビルド ```bash -./setup.sh build +docker build -t vibevoice-asr:dgx-spark . ``` ビルドには数分かかります(NGC PyTorch コンテナベース)。 @@ -62,7 +82,9 @@ cd vibevoice-asr **バッチ ASR(Gradio UI)のみ:** ```bash -./setup.sh demo +docker run --gpus all --ipc=host --network=host \ + -v "$HOME/.cache/huggingface:/root/.cache/huggingface" \ + vibevoice-asr:dgx-spark ``` → `http://localhost:7860` でアクセス @@ -70,7 +92,10 @@ cd vibevoice-asr **リアルタイム ASR のみ:** ```bash -./setup.sh realtime +docker run --gpus all --ipc=host --network=host \ + -v "$HOME/.cache/huggingface:/root/.cache/huggingface" \ + vibevoice-asr:dgx-spark \ + python -m realtime.server --host 0.0.0.0 --port 8000 ``` → WebSocket: `ws://localhost:8000/ws/asr/{session_id}` @@ -79,7 +104,9 @@ cd vibevoice-asr **両方を同時起動:** ```bash -./setup.sh serve +docker run --gpus all --ipc=host --network=host \ + -v "$HOME/.cache/huggingface:/root/.cache/huggingface" \ + vibevoice-asr:dgx-spark ./run_all.sh ``` ## 使い方 @@ -182,27 +209,6 @@ function sendAudio(pcmData) { | `--max-sessions` | `10` | 最大同時接続数 | | `--no-preload` | - | モデルの事前ロードを無効化 | -## Docker 手動実行 - -### バッチ ASR - -```bash -docker run --gpus all -p 7860:7860 vibevoice-asr:dgx-spark -``` - -### リアルタイム ASR - -```bash -docker run --gpus all -p 8000:8000 vibevoice-asr:dgx-spark \ - python -m realtime.server --host 0.0.0.0 --port 8000 -``` - -### 両方同時 - -```bash -docker run --gpus all -p 7860:7860 -p 8000:8000 vibevoice-asr:dgx-spark ./run_all.sh -``` - ## トラブルシューティング ### GPU メモリ不足