Add: DGX SparkでQwen3-Coder-Next（80B MoE）を動かす

2026-02-19 11:31:37 +00:00 · 2026-02-19 11:31:37 +00:00 · fd7fe6f991
commit fd7fe6f991
parent 436cebe365
3 changed files with 308 additions and 0 deletions
--- a/docs-tech/dgx-spark-qwen3-coder-next/index.md
+++ b/docs-tech/dgx-spark-qwen3-coder-next/index.md
@ -0,0 +1,236 @@
 ---
 sidebar_position: 3
 title: DGX SparkでQwen3-Coder-Next（80B MoE）を動かす
 description: NVIDIA DGX Sparkの128GB統合メモリでQwen3-Coder-Next（80B MoE）をFP8量子化で動かす方法を解説
 hide_table_of_contents: false
 displayed_sidebar: null
 ---
 # DGX SparkでQwen3-Coder-Nextを動かす
 ## はじめに
 **DGX Spark**はNVIDIAのデスクトップAIワークステーション。Grace Blackwell（GB10）アーキテクチャで、**128GB統合メモリ**を持つ。この記事では、最新の**Qwen3-Coder-Next**（80B-A3B MoE）をDGX Spark単体で動かす方法を解説する。
 ### 対象読者
 - DGX Sparkを持っている
 - 大規模LLMをローカルで動かしたい
 - コーディング用のAIモデルを探している
 ### Qwen3-Coder-Nextとは
 Qwen3-Coder-Nextは2026年2月にリリースされたMixture of Experts（MoE）コーディングモデル：
 | 項目 | 値 |
 |-----|-----|
 | 総パラメータ | 80B（800億） |
 | アクティブパラメータ | 3B（30億） |
 | アーキテクチャ | Mamba + Transformer ハイブリッド |
 | コンテキスト長 | 最大1M tokens |
 MoE構造により、80Bパラメータでありながら推論時は3Bしかアクティブにならないため、効率的。
 ## ワンライナーでセットアップ
 ```bash
 curl -sL https://docs.techswan.online/scripts/dgx-spark-qwen3-coder.sh | bash
 ```
 :::tip 初回起動
 モデルダウンロード（約45GB）+ ロードで15-20分かかる。`docker logs -f qwen3-coder-next-fp8` で進捗確認。
 :::
 ## 重要：コンテナ選定
 :::danger NGCコンテナ必須
 DGX Sparkでは必ずNGC公式コンテナを使う。pipインストールや野良ビルドは、ドライバー互換性問題を引き起こす。
 :::
 ```bash
 # ❌ やってはいけない
 pip install vllm
 # ✅ 正解：NGC公式コンテナ
 docker pull nvcr.io/nvidia/vllm:25.11-py3
 ```
 ## 量子化の選択
 ### BF16は無理
 80BモデルをBF16（16bit）で動かすには約160GBのメモリが必要。DGX Sparkの128GBでは足りない。
 ```
 torch.OutOfMemoryError: CUDA out of memory.
 GPU 0 has a total capacity of 119.64 GiB of which 994.07 MiB is free.
 ```
 ### FP8を使う
 **FP8版**（`Qwen/Qwen3-Coder-Next-FP8`）を使えば、約45GBで収まる。
 | 量子化 | メモリ | DGX Spark単体 |
 |--------|--------|--------------|
 | BF16 | ~160GB | ❌ |
 | FP8 | ~45GB | ✅ |
 | NVFP4 | ~25GB | ✅ |
 ## 手動セットアップ
 ### 起動コマンド
 ```bash title="Qwen3-Coder-Next-FP8 起動"
 docker run -d --name qwen3-coder-next-fp8 \
  --gpus all \
  -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --ipc=host \
  nvcr.io/nvidia/vllm:25.11-py3 \
  vllm serve Qwen/Qwen3-Coder-Next-FP8 \
  --max-model-len 32768 \
  --max-num-seqs 32 \
  --gpu-memory-utilization 0.85 \
  --trust-remote-code
 ```
 ### パラメータ解説
 | パラメータ | 値 | 説明 |
 |-----------|-----|------|
 | `--gpus all` | - | 全GPU使用 |
 | `--ipc=host` | - | 共有メモリ設定（必須） |
 | `--max-model-len` | 32768 | 最大コンテキスト長 |
 | `--max-num-seqs` | 32 | 同時リクエスト数 |
 | `--gpu-memory-utilization` | 0.85 | GPUメモリ使用率 |
 | `--trust-remote-code` | - | カスタムコード許可 |
 ## 起動ログの確認
 ### 正常な起動シーケンス
 ```bash
 docker logs -f qwen3-coder-next-fp8
 ```
 1. **モデルダウンロード**（初回のみ、約45GB）
 2. **Safetensorsロード**（40シャード、約10分）
 3. **KVキャッシュ確保**
 4. **CUDAグラフキャプチャ**
 5. **API起動完了**
 ```
 INFO: Application startup complete.
 ```
 ### 進捗確認
 ```bash
 # ダウンロード進捗
 du -sh ~/.cache/huggingface/hub/models--Qwen--Qwen3-Coder-Next-FP8
 # ロード進捗（ログに表示）
 Loading safetensors checkpoint shards: 62% Completed | 25/40
 ```
 ## 推論テスト
 ### ヘルスチェック
 ```bash
 curl http://localhost:8000/health
 ```
 ### チャット
 ```bash
 curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-Coder-Next-FP8",
    "messages": [
      {"role": "user", "content": "Pythonでフィボナッチ数列を生成する関数を書いて"}
    ],
    "max_tokens": 500
  }'
 ```
 ## トラブルシューティング
 ### OOM（メモリ不足）
 :::warning 症状
 ```
 CUDA out of memory. Tried to allocate X GiB.
 ```
 :::
 **対処:**
 1. FP8/NVFP4量子化版を使う
 2. `--max-model-len`を減らす（32768 → 16384）
 3. `--gpu-memory-utilization`を減らす（0.85 → 0.75）
 4. 他のプロセスを停止
 ### メモリリーク
 **症状:** OOM後に空きメモリが減ったまま
 **対処:**
 ```bash
 # 全コンテナ停止
 docker stop $(docker ps -q)
 # メモリ確認
 free -h
 ```
 ### gpu-memory-utilizationエラー
 **症状:**
 ```
 ValueError: Free memory on device (94.25/119.64 GiB) is less than desired GPU memory utilization
 ```
 **対処:**
 ```bash
 # 他のプロセスがGPUを使用中
 # 全コンテナを停止してからリトライ
 docker stop $(docker ps -q)
 ```
 ## スペック情報
 ### 起動後のメモリ使用量
 ```
 Mem: 119Gi total, 84Gi used, 21Gi free
 ```
 ### KVキャッシュ
 ```
 Available KV cache memory: 26.23 GiB
 GPU KV cache size: 286,144 tokens
 Maximum concurrency for 32,768 tokens per request: 32.91x
 ```
 ## まとめ
 DGX SparkでQwen3-Coder-Next（80B MoE）を動かすポイント：
 1. **NGC公式コンテナ**を使う（`nvcr.io/nvidia/vllm:25.11-py3`）
 2. **FP8量子化版**を使う（BF16は128GBに収まらない）
 3. **初回起動は時間がかかる**（ダウンロード + ロードで15-20分）
 4. **メモリ競合に注意**（他のプロセスがGPUを使っているとOOM）
 FP8で45GB程度なので、32Kコンテキストで余裕をもって動作する。コーディング用途に最適！
 ## 参考リンク
 - [Qwen3-Coder-Next HuggingFace](https://huggingface.co/Qwen/Qwen3-Coder-Next-FP8)
 - [DGX Spark Playbooks](https://build.nvidia.com/spark/)
 - [vLLM Documentation](https://docs.vllm.ai/)
 ---
 *この記事は2026年2月時点の情報です。*
--- a/docs-tech/index.md
+++ b/docs-tech/index.md
@ -10,5 +10,6 @@ slug: /
 ## DGX Spark
 - [Qwen3-Coder-Next（80B MoE）を動かす](/tech/dgx-spark-qwen3-coder-next) - FP8量子化で単体起動
 - [デュアル構成ガイド](/tech/dgx-spark-dual) - 2台接続で256GB環境を構築
 - [MiniMax-M2.5-REAP-172Bを動かす](/tech/dgx-spark-minimax) - 172Bモデルを動かす
--- a/static/scripts/dgx-spark-qwen3-coder.sh
+++ b/static/scripts/dgx-spark-qwen3-coder.sh
@ -0,0 +1,71 @@
 #!/bin/bash
 # DGX Spark - Qwen3-Coder-Next-FP8 起動スクリプト
 # https://docs.techswan.online/tech/dgx-spark-qwen3-coder-next/
 set -e
 CONTAINER_NAME="qwen3-coder-next-fp8"
 IMAGE="nvcr.io/nvidia/vllm:25.11-py3"
 MODEL="Qwen/Qwen3-Coder-Next-FP8"
 PORT="${PORT:-8000}"
 MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
 MAX_NUM_SEQS="${MAX_NUM_SEQS:-32}"
 GPU_MEM_UTIL="${GPU_MEM_UTIL:-0.85}"
 echo "=== DGX Spark - Qwen3-Coder-Next-FP8 起動スクリプト ==="
 echo ""
 # 既存コンテナ確認
 if docker ps -a --format '{{.Names}}' | grep -q "^${CONTAINER_NAME}$"; then
    echo "⚠️  既存コンテナを停止・削除..."
    docker stop "$CONTAINER_NAME" 2>/dev/null || true
    docker rm "$CONTAINER_NAME" 2>/dev/null || true
 fi
 # イメージ確認・取得
 if ! docker images --format '{{.Repository}}:{{.Tag}}' | grep -q "^${IMAGE}$"; then
    echo "📦 NGC vLLMイメージを取得中..."
    docker pull "$IMAGE"
 fi
 echo ""
 echo "🚀 コンテナ起動..."
 echo "   Model: $MODEL"
 echo "   Port: $PORT"
 echo "   Max Context: $MAX_MODEL_LEN"
 echo "   GPU Memory: ${GPU_MEM_UTIL}%"
 echo ""
 docker run -d --name "$CONTAINER_NAME" \
    --gpus all \
    -p "${PORT}:8000" \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --ipc=host \
    "$IMAGE" \
    vllm serve "$MODEL" \
    --max-model-len "$MAX_MODEL_LEN" \
    --max-num-seqs "$MAX_NUM_SEQS" \
    --gpu-memory-utilization "$GPU_MEM_UTIL" \
    --trust-remote-code
 echo ""
 echo "✅ コンテナ起動しました！"
 echo ""
 echo "📋 ログ確認:"
 echo "   docker logs -f $CONTAINER_NAME"
 echo ""
 echo "🔍 起動確認（Application startup complete が出るまで待つ）:"
 echo "   初回起動は15-20分かかります（モデルダウンロード + ロード）"
 echo ""
 echo "🧪 テスト:"
 echo "   curl http://localhost:${PORT}/health"
 echo ""
 echo "💬 チャット:"
 cat << 'CURL_EXAMPLE'
   curl http://localhost:8000/v1/chat/completions \
     -H "Content-Type: application/json" \
     -d '{
       "model": "Qwen/Qwen3-Coder-Next-FP8",
       "messages": [{"role": "user", "content": "Hello!"}]
     }'
 CURL_EXAMPLE