Add: DGX Spark VibeVoice ASR セットアップガイド

2026-02-24 01:06:01 +00:00 · 2026-02-24 01:06:01 +00:00 · 2d753f114f
commit 2d753f114f
parent 6d5178a6ea
1 changed files with 247 additions and 0 deletions
--- a/docs-tech/dgx-spark-vibevoice-asr/index.md
+++ b/docs-tech/dgx-spark-vibevoice-asr/index.md
@ -0,0 +1,247 @@
+---
+sidebar_position: 8
+title: DGX SparkでVibeVoice ASRを動かす — リアルタイム日本語音声認識
+description: Microsoft VibeVoice ASRをDGX Spark環境でDockerベースで動かし、バッチ処理とリアルタイム音声認識を実現する方法
+hide_table_of_contents: false
+displayed_sidebar: null
+---
+
+# DGX Spark で VibeVoice ASR を動かす — リアルタイム日本語音声認識
+
+## はじめに
+
+Microsoft の **VibeVoice ASR** を DGX Spark 環境で動作させるための Docker ベースのセットアップ手順です。
+
+### VibeVoice ASR とは
+
+VibeVoice は Microsoft が開発したオープンソースの音声認識モデルで、以下の特徴があります：
+
+- **高精度な日本語認識** — 日本語を含む多言語対応
+- **話者分離（Diarization）** — 複数話者を区別
+- **タイムスタンプ** — 発話区間を正確に記録
+- **ストリーミング対応** — リアルタイム音声認識
+
+### 本セットアップの機能
+
+| 機能 | 説明 | ポート |
+|------|------|--------|
+| **バッチASR (Gradio)** | ファイルアップロード・マイク録音からの認識 | 7860 |
+| **リアルタイムASR** | WebSocket によるストリーミング認識 | 8000 |
+
+追加で以下をサポート：
+- MKV/MP4 動画ファイルからの音声抽出
+- 話者分離（Speaker Diarization）
+- タイムスタンプ付き出力
+
+## 必要環境
+
+- **NVIDIA GPU** — CUDA 13.1 対応（DGX Spark / Blackwell GB10）
+- **Docker** — NVIDIA Container Toolkit 導入済み
+- **VRAM** — 約 8GB 以上
+
+## クイックスタート
+
+### 1. リポジトリをクローン
+
+```bash
+cd ~
+git clone https://github.com/YOUR_REPO/vibevoice-asr.git
+cd vibevoice-asr
+```
+
+### 2. Docker イメージをビルド
+
+```bash
+./setup.sh build
+```
+
+ビルドには数分かかります（NGC PyTorch コンテナベース）。
+
+### 3. サービスを起動
+
+**バッチ ASR（Gradio UI）のみ：**
+
+```bash
+./setup.sh demo
+```
+
+→ `http://localhost:7860` でアクセス
+
+**リアルタイム ASR のみ：**
+
+```bash
+./setup.sh realtime
+```
+
+→ WebSocket: `ws://localhost:8000/ws/asr/{session_id}`  
+→ テストクライアント: `http://localhost:8000/static/realtime_client.html`
+
+**両方を同時起動：**
+
+```bash
+./setup.sh serve
+```
+
+## 使い方
+
+### Gradio UI（バッチ処理）
+
+1. ブラウザで `http://<DGX_SPARK_IP>:7860` にアクセス
+2. 「Upload Audio」でファイルをアップロード、または「Record」でマイク録音
+3. 「Transcribe」をクリック
+4. 認識結果（テキスト、話者、タイムスタンプ）が表示される
+
+対応フォーマット：WAV, MP3, M4A, FLAC, OGG, MKV, MP4
+
+### リアルタイム ASR（WebSocket）
+
+ブラウザからマイク入力をストリーミングで認識：
+
+```javascript
+const ws = new WebSocket('ws://localhost:8000/ws/asr/demo');
+
+ws.onopen = () => {
+  console.log('Connected');
+  startAudioCapture();
+};
+
+ws.onmessage = (event) => {
+  const data = JSON.parse(event.data);
+  if (data.type === 'final_result') {
+    console.log('認識結果:', data.text);
+  } else if (data.type === 'partial_result') {
+    console.log('認識中:', data.text);
+  }
+};
+
+// 音声送信 (16kHz, 16-bit PCM)
+function sendAudio(pcmData) {
+  ws.send(pcmData.buffer);
+}
+```
+
+## WebSocket プロトコル
+
+### クライアント → サーバー
+
+| 種類 | 形式 | 内容 |
+|------|------|------|
+| 音声データ | Binary | PCM 16-bit, 16kHz, モノラル |
+| 設定変更 | JSON | `{"type": "config", "config": {...}}` |
+| 停止 | JSON | `{"type": "stop"}` |
+
+### サーバー → クライアント
+
+| type | 説明 |
+|------|------|
+| `status` | 接続状態の通知 |
+| `partial_result` | 認識中の中間結果 |
+| `final_result` | 確定した認識結果（タイムスタンプ・話者ID付き） |
+| `vad_event` | 発話開始/終了イベント |
+| `error` | エラー通知 |
+
+### レスポンス例
+
+```json
+{
+  "type": "final_result",
+  "text": "こんにちは、今日の天気はいいですね。",
+  "is_final": true,
+  "segments": [
+    {
+      "start_time": 0.5,
+      "end_time": 3.2,
+      "speaker_id": "SPEAKER_00",
+      "text": "こんにちは、今日の天気はいいですね。"
+    }
+  ],
+  "latency_ms": 850
+}
+```
+
+## 設定オプション
+
+### 環境変数
+
+| 変数 | デフォルト | 説明 |
+|------|------------|------|
+| `VIBEVOICE_HOST` | `0.0.0.0` | バインドするホスト |
+| `VIBEVOICE_PORT` | `8000` | ポート番号 |
+| `VIBEVOICE_MODEL_PATH` | `microsoft/VibeVoice-ASR` | モデルパス |
+| `VIBEVOICE_DEVICE` | `cuda` | デバイス (cuda/cpu) |
+| `VIBEVOICE_MAX_SESSIONS` | `10` | 最大同時接続数 |
+
+### コマンドラインオプション
+
+| オプション | デフォルト | 説明 |
+|------------|------------|------|
+| `--host` | `0.0.0.0` | バインドするホスト |
+| `--port` | `8000` | ポート番号 |
+| `--model-path` | `microsoft/VibeVoice-ASR` | モデルパス |
+| `--device` | `cuda` | デバイス |
+| `--max-sessions` | `10` | 最大同時接続数 |
+| `--no-preload` | - | モデルの事前ロードを無効化 |
+
+## Docker 手動実行
+
+### バッチ ASR
+
+```bash
+docker run --gpus all -p 7860:7860 vibevoice-asr:dgx-spark
+```
+
+### リアルタイム ASR
+
+```bash
+docker run --gpus all -p 8000:8000 vibevoice-asr:dgx-spark \
+    python -m realtime.server --host 0.0.0.0 --port 8000
+```
+
+### 両方同時
+
+```bash
+docker run --gpus all -p 7860:7860 -p 8000:8000 vibevoice-asr:dgx-spark ./run_all.sh
+```
+
+## トラブルシューティング
+
+### GPU メモリ不足
+
+モデルは約 8GB 以上の VRAM を必要とします。メモリ不足の場合：
+
+```bash
+docker run --gpus all \
+    -e PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
+    -p 8000:8000 vibevoice-asr:dgx-spark \
+    python -m realtime.server
+```
+
+### WebSocket 接続エラー
+
+1. ファイアウォールでポート 8000 が開いているか確認
+2. CORS の問題がある場合は同一オリジンからアクセス
+3. `wss://` (HTTPS) 環境では別途 TLS 設定が必要
+
+### マイクが認識されない
+
+ブラウザでマイクへのアクセス許可を確認してください。HTTPS または `localhost` からのアクセスが必要です。
+
+## 性能の目安
+
+| 項目 | 数値 |
+|------|------|
+| モデルサイズ | 約 8GB VRAM |
+| 初回ロード | 10-20 秒 |
+| リアルタイム遅延 | 150-850 ms |
+| 対応サンプルレート | 16kHz |
+
+## 参考リンク
+
+- [microsoft/VibeVoice](https://github.com/microsoft/VibeVoice) — 公式リポジトリ
+- [NGC PyTorch Container](https://catalog.ngc.nvidia.com/orgs/nvidia/containers/pytorch) — ベースイメージ
+- [DGX Spark セットアップガイド](https://docs.nvidia.com/dgx/) — NVIDIA 公式ドキュメント
+
+## ライセンス
+
+VibeVoice ASR は Microsoft 社のオープンソースプロジェクトです。  
+ライセンスについては [microsoft/VibeVoice](https://github.com/microsoft/VibeVoice) を参照してください。