Add: DGX Spark デュアル構成ガイド

2026-02-19 04:14:35 +00:00 · 2026-02-19 04:14:35 +00:00 · 7141ad7f5a
commit 7141ad7f5a
parent 27cb274105
3 changed files with 450 additions and 1 deletions
--- a/docs/dgx-spark-dual/index.md
+++ b/docs/dgx-spark-dual/index.md
@ -0,0 +1,444 @@
 ---
 sidebar_position: 3
 title: DGX Spark デュアル構成ガイド
 description: 2台のDGX Sparkを接続して256GBメモリ環境を構築する方法を初心者向けに解説
 ---
 # DGX Spark デュアル構成ガイド
 2台のDGX Sparkを接続して、**256GBの巨大メモリ環境**を構築する方法を解説します。
 ## はじめに
 ### この記事で学べること
 - 2台のDGX Sparkを接続する方法
 - ネットワーク設定の仕組み
 - vLLMクラスターの起動方法
 ### 対象読者
 - DGX Sparkを2台持っている方
 - 70B〜405Bの大規模モデルを動かしたい方
 - Linuxの基本操作ができる方
 ### 前提条件
 - DGX Spark × 2台
 - QSFPケーブル × 1本
 - 両方のマシンに同じユーザー名でログインできる
 ---
 ## なぜデュアル構成が必要？
 DGX Spark 1台のメモリは **128GB** です。
 | 構成 | メモリ | 動かせるモデル |
 |------|--------|---------------|
 | 単体 | 128GB | 〜70B（量子化時） |
 | **デュアル** | **256GB** | 〜405B |
 **Llama-3.3-70B** や **MiniMax-M2.5-172B** など、大きなモデルを動かすにはデュアル構成が必要です。
 ---
 ## 全体像
 まず、完成形のイメージを掴みましょう。
 ```
 ┌─────────────────────┐                         ┌─────────────────────┐
 │                     │                         │                     │
 │   DGX Spark 1       │                         │   DGX Spark 2       │
 │   （ヘッドノード）    │                         │   （ワーカーノード）  │
 │                     │                         │                     │
 │  ┌───────────────┐  │      QSFPケーブル       │  ┌───────────────┐  │
 │  │ 192.168.100.10│◄─┼─────────────────────────┼─►│ 192.168.100.11│  │
 │  │   (QSFP)      │  │       200Gbps          │  │   (QSFP)      │  │
 │  └───────────────┘  │                         │  └───────────────┘  │
 │                     │                         │                     │
 │  ┌───────────────┐  │                         │  ┌───────────────┐  │
 │  │  10.0.0.10    │  │      通常のLAN          │  │  10.0.0.11    │  │
 │  │   (eth0)      │◄─┼─────────────────────────┼─►│   (eth0)      │  │
 │  └───────────────┘  │                         │  └───────────────┘  │
 │                     │                         │                     │
 └─────────────────────┘                         └─────────────────────┘
         │
         │ API (ポート8000)
         ▼
    クライアント
 ```
 **ポイント**：
 - **QSFPケーブル**：2台のSparkを直接つなぐ超高速回線（200Gbps）
 - **通常LAN**：普段使っているネットワーク（SSH接続、API公開用）
 ---
 ## 手順1：物理接続
 ### ケーブルを差す
 両方のDGX Sparkの **QSFPポート** にケーブルを差すだけ！
 ```
     DGX Spark 1                DGX Spark 2
    ┌───────────┐              ┌───────────┐
    │  [QSFP]───┼──────────────┼───[QSFP]  │
    │           │  ケーブル1本  │           │
    └───────────┘              └───────────┘
 ```
 :::tip QSFPポートの場所
 背面にある大きめのポートです。LANケーブルより太いケーブルが刺さります。
 :::
 ### 接続確認
 どちらかのマシンで以下を実行：
 ```bash
 ibdev2netdev
 ```
 出力例：
 ```
 mlx5_0 port 1 ==> enp1s0f1np1 (Up)    ← ✅ Upになっていれば接続OK
 mlx5_1 port 1 ==> enp1s0f0np0 (Down)
 ```
 :::warning Upにならない場合
 - ケーブルがしっかり刺さっているか確認
 - 両方のマシンでコマンドを実行して確認
 :::
 ---
 ## 手順2：ネットワーク設定
 QSFPポートには **IPアドレスが自動で割り当てられません**。手動で設定が必要です。
 ### 設計を決める
 | マシン | QSFPのIP | 役割 |
 |--------|---------|------|
 | Spark 1 | 192.168.100.10 | ヘッドノード |
 | Spark 2 | 192.168.100.11 | ワーカーノード |
 :::tip IPアドレスの決め方
 `192.168.100.x` は例です。既存のネットワークと被らなければOK。
 :::
 ### Spark 1 で設定
 ```bash
 # 一時的に設定（再起動で消える）
 sudo ip addr add 192.168.100.10/24 dev enp1s0f1np1
 sudo ip link set enp1s0f1np1 up
 ```
 ### Spark 2 で設定
 ```bash
 # 一時的に設定（再起動で消える）
 sudo ip addr add 192.168.100.11/24 dev enp1s0f1np1
 sudo ip link set enp1s0f1np1 up
 ```
 ### 疎通確認
 Spark 1 から Spark 2 に ping：
 ```bash
 ping 192.168.100.11
 ```
 ```
 PING 192.168.100.11 (192.168.100.11) 56(84) bytes of data.
 64 bytes from 192.168.100.11: icmp_seq=1 ttl=64 time=0.123 ms  ← ✅ 成功！
 ```
 ### 永続化（再起動しても消えないように）
 設定を永続化するには、netplanファイルを作成します。
 **Spark 1：**
 ```bash
 sudo tee /etc/netplan/99-qsfp.yaml << 'EOF'
 network:
  version: 2
  ethernets:
    enp1s0f1np1:
      addresses:
        - 192.168.100.10/24
 EOF
 sudo netplan apply
 ```
 **Spark 2：**
 ```bash
 sudo tee /etc/netplan/99-qsfp.yaml << 'EOF'
 network:
  version: 2
  ethernets:
    enp1s0f1np1:
      addresses:
        - 192.168.100.11/24
 EOF
 sudo netplan apply
 ```
 ---
 ## 手順3：SSH設定
 2台のマシン間で **パスワードなしでSSH接続** できるようにします。
 ### なぜ必要？
 vLLMクラスターが内部で自動的にSSH接続を使うためです。
 ### Spark 1 → Spark 2
 Spark 1 で実行：
 ```bash
 # 鍵がなければ作成
 ssh-keygen -t ed25519 -N "" -f ~/.ssh/id_ed25519
 # Spark 2 に公開鍵をコピー
 ssh-copy-id $USER@192.168.100.11
 ```
 確認：
 ```bash
 ssh 192.168.100.11 "hostname"
 ```
 パスワードなしで `spark2`（ホスト名）が表示されればOK！
 ### Spark 2 → Spark 1
 Spark 2 で実行：
 ```bash
 ssh-keygen -t ed25519 -N "" -f ~/.ssh/id_ed25519
 ssh-copy-id $USER@192.168.100.10
 ```
 確認：
 ```bash
 ssh 192.168.100.10 "hostname"
 ```
 ---
 ## 手順4：vLLMクラスター起動
 いよいよ本番！2台を1つのクラスターとして動かします。
 ### 4-1. 両方のマシンで準備
 **両方のマシンで実行：**
 ```bash
 # vLLMイメージを取得
 docker pull nvcr.io/nvidia/vllm:25.11-py3
 # クラスター起動スクリプトを取得
 wget https://raw.githubusercontent.com/vllm-project/vllm/refs/heads/main/examples/online_serving/run_cluster.sh
 chmod +x run_cluster.sh
 ```
 ### 4-2. ヘッドノード起動（Spark 1）
 Spark 1 で実行：
 ```bash
 # 環境変数を設定
 export VLLM_IMAGE=nvcr.io/nvidia/vllm:25.11-py3
 export MN_IF_NAME=enp1s0f1np1
 export VLLM_HOST_IP=192.168.100.10
 # ヘッドノードとして起動
 bash run_cluster.sh $VLLM_IMAGE $VLLM_HOST_IP --head ~/.cache/huggingface \
  -e VLLM_HOST_IP=$VLLM_HOST_IP \
  -e NCCL_SOCKET_IFNAME=$MN_IF_NAME \
  -e GLOO_SOCKET_IFNAME=$MN_IF_NAME \
  -e RAY_memory_monitor_refresh_ms=0
 ```
 :::tip 起動を待つ
 `Ray runtime started.` と表示されるまで待ちます（1〜2分）
 :::
 ### 4-3. ワーカーノード起動（Spark 2）
 Spark 2 で実行：
 ```bash
 # 環境変数を設定
 export VLLM_IMAGE=nvcr.io/nvidia/vllm:25.11-py3
 export MN_IF_NAME=enp1s0f1np1
 export VLLM_HOST_IP=192.168.100.11
 export HEAD_NODE_IP=192.168.100.10  # ← Spark 1 のIP
 # ワーカーノードとして起動
 bash run_cluster.sh $VLLM_IMAGE $HEAD_NODE_IP --worker ~/.cache/huggingface \
  -e VLLM_HOST_IP=$VLLM_HOST_IP \
  -e NCCL_SOCKET_IFNAME=$MN_IF_NAME \
  -e GLOO_SOCKET_IFNAME=$MN_IF_NAME \
  -e RAY_memory_monitor_refresh_ms=0
 ```
 ### 4-4. クラスター確認
 Spark 1 で実行：
 ```bash
 # コンテナ名を取得
 export VLLM_CONTAINER=$(docker ps --format '{{.Names}}' | grep -E '^node-[0-9]+$')
 # Rayクラスターの状態を確認
 docker exec $VLLM_CONTAINER ray status
 ```
 期待する出力：
 ```
 Healthy:
 2 node(s)  ← ✅ 2ノードになっていれば成功！
 ```
 ---
 ## 手順5：モデルを起動
 クラスターができたら、大規模モデルを起動します。
 ### MiniMax-M2.5-172B を起動する例
 Spark 1（ヘッドノード）で実行：
 ```bash
 docker exec -it $VLLM_CONTAINER /bin/bash -c '
  vllm serve MiniMax-AI/MiniMax-M2.5-REAP-172B-A10B \
    --tensor-parallel-size 2 \
    --trust-remote-code \
    --max-model-len 8192 \
    --host 0.0.0.0 \
    --port 8000'
 ```
 | オプション | 意味 |
 |-----------|------|
 | `--tensor-parallel-size 2` | 2台のGPUに分散 |
 | `--host 0.0.0.0` | 外部からアクセス可能に |
 | `--max-model-len 8192` | 最大コンテキスト長 |
 :::warning 起動に時間がかかります
 モデルのダウンロード（初回のみ）と読み込みで **10〜30分** かかることがあります。
 :::
 ---
 ## 手順6：動作確認
 ### APIにリクエストを送る
 別のターミナル（または別のPC）から：
 ```bash
 curl http://<Spark1のIP>:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "MiniMax-AI/MiniMax-M2.5-REAP-172B-A10B",
    "messages": [{"role": "user", "content": "こんにちは！"}]
  }'
 ```
 レスポンスが返ってくれば成功！🎉
 ---
 ## ワンライナーで簡単セットアップ
 上記の手順を自動化するスクリプトを用意しています。
 ```bash
 # フルセットアップ
 curl -sL https://docs.techswan.online/scripts/dgx-spark-setup.sh | bash -s -- all
 ```
 | コマンド | 内容 |
 |----------|------|
 | `network` | QSFPのIP設定 |
 | `ssh` | SSH鍵配布 |
 | `docker` | Docker権限設定 |
 | `vllm-pull` | vLLMイメージ取得 |
 | `cluster` | クラスター起動 |
 | `all` | 全部実行 |
 ---
 ## トラブルシューティング
 ### pingが通らない
 **症状**：`ping 192.168.100.11` がタイムアウト
 **対処**：
 1. ケーブルが正しく接続されているか確認
 2. `ibdev2netdev` で `Up` になっているか確認
 3. IPアドレスが正しく設定されているか確認：
   ```bash
   ip addr show enp1s0f1np1
   ```
 ### Rayクラスターが1ノードのまま
 **症状**：`ray status` で `1 node(s)` と表示される
 **対処**：
 1. ワーカーノードでSSH接続テスト
 2. ワーカー側のコンテナログを確認：
   ```bash
   docker logs $(docker ps -q)
   ```
 ### vLLMがOOMで落ちる
 **症状**：Out of Memory エラー
 **対処**：
 ```bash
 # max-model-len を小さくする
 vllm serve <model> --tensor-parallel-size 2 --max-model-len 4096
 ```
 ---
 ## まとめ
 | 手順 | 内容 |
 |------|------|
 | 1 | QSFPケーブルで2台を接続 |
 | 2 | QSFPポートにIPアドレスを設定 |
 | 3 | パスワードなしSSHを設定 |
 | 4 | vLLMクラスターを起動 |
 | 5 | 大規模モデルを起動 |
 これで **256GB環境** が手に入りました！🎉
 ---
 ## 参考リンク
 - [NVIDIA DGX Spark Playbooks](https://build.nvidia.com/spark/)
 - [vLLM ドキュメント](https://docs.vllm.ai/)
 - [DGX SparkでMiniMax-M2.5を動かす](/dgx-spark-minimax/)
 ---
 *この記事は2026年2月時点の情報です。最新情報は公式ドキュメントをご確認ください。*
--- a/docs/index.md
+++ b/docs/index.md
@ -13,14 +13,18 @@ AI・インフラ・開発の技術メモ
 ### DGX Spark
 - [DGX SparkでMiniMax-M2.5-REAP-172Bを動かす](/dgx-spark-minimax/)
 - [DGX Spark デュアル構成ガイド](/dgx-spark-dual/) 🆕
 ## スクリプト
 記事で紹介しているスクリプトはダウンロードして使用できます。
 ```bash
-# DGX Spark セットアップ
+# DGX Spark セットアップ（デュアル構成）
 curl -sL https://docs.techswan.online/scripts/dgx-spark-setup.sh | bash -s -- all
 # モデル起動
 curl -sL https://docs.techswan.online/scripts/dgx-spark-serve.sh | bash -s -- minimax-m25
 ```
 ## リンク
--- a/sidebars.ts
+++ b/sidebars.ts
@ -7,6 +7,7 @@ const sidebars: SidebarsConfig = {
      label: 'DGX Spark',
      items: [
        'dgx-spark-minimax/index',
        'dgx-spark-dual/index',
      ],
    },
  ],