Refactor: 記事をディレクトリ構成に変更、セットアップスクリプト追加

2026-02-19 01:33:04 +00:00 · 2026-02-19 01:33:04 +00:00 · 24ea3f3e25
commit 24ea3f3e25
parent 30761d2e4f
3 changed files with 487 additions and 0 deletions
--- a/dgx-spark-minimax-m25-reap.md
+++ b/dgx-spark-minimax-m25-reap.md
--- a/dgx-spark-minimax/scripts/dgx-spark-serve.sh
+++ b/dgx-spark-minimax/scripts/dgx-spark-serve.sh
@ -0,0 +1,144 @@
 #!/bin/bash
 #
 # DGX Spark vLLM モデル起動スクリプト
 # Usage: ./dgx-spark-serve.sh [model] [options...]
 #
 set -euo pipefail
 # Colors
 RED='\033[0;31m'
 GREEN='\033[0;32m'
 YELLOW='\033[1;33m'
 BLUE='\033[0;34m'
 NC='\033[0m'
 log_info()  { echo -e "${BLUE}[INFO]${NC} $1"; }
 log_ok()    { echo -e "${GREEN}[OK]${NC} $1"; }
 log_warn()  { echo -e "${YELLOW}[WARN]${NC} $1"; }
 log_error() { echo -e "${RED}[ERROR]${NC} $1"; }
 # デフォルト設定
 DEFAULT_TP_SIZE=2
 DEFAULT_MAX_MODEL_LEN=65536
 DEFAULT_GPU_MEM_UTIL=0.90
 DEFAULT_HOST="0.0.0.0"
 DEFAULT_PORT=8000
 # プリセットモデル
 declare -A MODEL_PRESETS=(
    ["minimax-m25"]="cerebras/MiniMax-M2.5-REAP-172B-A10B --tool-call-parser minimax_m2 --reasoning-parser minimax_m2_append_think --enable-auto-tool-choice"
    ["minimax-m2"]="cerebras/MiniMax-M2-REAP-172B-A10B --tool-call-parser minimax_m2 --reasoning-parser minimax_m2_append_think --enable-auto-tool-choice"
    ["llama-70b"]="nvidia/Llama-3.3-70B-Instruct-NVFP4"
    ["qwen-32b"]="nvidia/Qwen3-32B-NVFP4"
    ["gpt-oss-120b"]="openai/gpt-oss-120b"
 )
 show_presets() {
    echo "利用可能なプリセット:"
    for key in "${!MODEL_PRESETS[@]}"; do
        echo "  $key"
    done
 }
 find_container() {
    docker ps --format '{{.Names}}' | grep -E '^node-[0-9]+$' | head -1
 }
 main() {
    local model="${1:-}"
    shift || true
    if [[ -z "$model" || "$model" == "help" || "$model" == "--help" ]]; then
        cat << 'EOF'
 DGX Spark vLLM モデル起動スクリプト
 Usage:
  dgx-spark-serve.sh <model|preset> [options...]
 Presets:
  minimax-m25   MiniMax-M2.5-REAP-172B (推奨)
  minimax-m2    MiniMax-M2-REAP-172B
  llama-70b     Llama-3.3-70B-Instruct-NVFP4
  qwen-32b      Qwen3-32B-NVFP4
  gpt-oss-120b  GPT-OSS-120B
 Options (vllm serveに渡される):
  --tensor-parallel-size N  テンソル並列数 (default: 2)
  --max-model-len N         最大コンテキスト長 (default: 65536)
  --host IP                 APIホスト (default: 0.0.0.0)
  --port N                  APIポート (default: 8000)
 Examples:
  # プリセット使用
  ./dgx-spark-serve.sh minimax-m25
  # カスタムモデル
  ./dgx-spark-serve.sh my-org/my-model --max-model-len 32768
  # メモリ節約モード
  ./dgx-spark-serve.sh minimax-m25 --max-model-len 16384 --max-num-seqs 32
 EOF
        echo ""
        show_presets
        exit 0
    fi
    # コンテナ確認
    local container
    container=$(find_container)
    if [[ -z "$container" ]]; then
        log_error "vLLMコンテナが見つかりません"
        log_info "先に 'dgx-spark-setup.sh cluster' でクラスターを起動してください"
        exit 1
    fi
    log_ok "コンテナ検出: $container"
    # プリセット展開
    local model_args=""
    if [[ -n "${MODEL_PRESETS[$model]:-}" ]]; then
        model_args="${MODEL_PRESETS[$model]}"
        log_info "プリセット使用: $model"
        model=$(echo "$model_args" | awk '{print $1}')
        model_args=$(echo "$model_args" | cut -d' ' -f2-)
    fi
    # デフォルトオプション構築
    local has_tp=false has_len=false has_host=false has_port=false has_trust=false
    for arg in "$@"; do
        case "$arg" in
            --tensor-parallel-size*) has_tp=true ;;
            --max-model-len*) has_len=true ;;
            --host*) has_host=true ;;
            --port*) has_port=true ;;
            --trust-remote-code*) has_trust=true ;;
        esac
    done
    local defaults=""
    $has_tp    || defaults+=" --tensor-parallel-size $DEFAULT_TP_SIZE"
    $has_len   || defaults+=" --max-model-len $DEFAULT_MAX_MODEL_LEN"
    $has_host  || defaults+=" --host $DEFAULT_HOST"
    $has_port  || defaults+=" --port $DEFAULT_PORT"
    $has_trust || defaults+=" --trust-remote-code"
    defaults+=" --gpu-memory-utilization $DEFAULT_GPU_MEM_UTIL"
    # コマンド構築
    local cmd="vllm serve $model $model_args $defaults $*"
    log_info "起動コマンド:"
    echo "  $cmd"
    echo ""
    read -rp "実行しますか？ [Y/n]: " confirm
    if [[ "${confirm,,}" == "n" ]]; then
        log_warn "キャンセルしました"
        exit 0
    fi
    log_info "モデルを起動中..."
    docker exec -it "$container" /bin/bash -c "$cmd"
 }
 main "$@"
--- a/dgx-spark-minimax/scripts/dgx-spark-setup.sh
+++ b/dgx-spark-minimax/scripts/dgx-spark-setup.sh
@ -0,0 +1,343 @@
 #!/bin/bash
 #
 # DGX Spark デュアル構成セットアップスクリプト
 # Usage: curl -sL <url> | bash -s -- [command]
 #
 # Commands:
 #   network    - QSFPインターフェースのIP設定
 #   ssh        - 対向ノードへのSSH鍵配布
 #   docker     - Docker権限設定
 #   vllm-pull  - vLLMイメージ取得
 #   cluster    - vLLMクラスター起動
 #   all        - 全セットアップ実行
 #
 set -euo pipefail
 # Colors
 RED='\033[0;31m'
 GREEN='\033[0;32m'
 YELLOW='\033[1;33m'
 BLUE='\033[0;34m'
 NC='\033[0m'
 log_info()  { echo -e "${BLUE}[INFO]${NC} $1"; }
 log_ok()    { echo -e "${GREEN}[OK]${NC} $1"; }
 log_warn()  { echo -e "${YELLOW}[WARN]${NC} $1"; }
 log_error() { echo -e "${RED}[ERROR]${NC} $1"; }
 # QSFPインターフェース検出
 detect_qsfp_interface() {
    local iface
    iface=$(ibdev2netdev 2>/dev/null | grep "(Up)" | awk '{print $5}' | head -1)
    if [[ -z "$iface" ]]; then
        # フォールバック: enp1s0f で始まるインターフェースを探す
        iface=$(ip link show | grep -oP 'enp1s0f[0-9]+np[0-9]+' | head -1)
    fi
    echo "$iface"
 }
 # 現在のIPアドレス取得
 get_current_ip() {
    local iface=$1
    ip -4 addr show "$iface" 2>/dev/null | grep -oP '(?<=inet\s)\d+(\.\d+){3}' | head -1
 }
 # ネットワーク設定
 cmd_network() {
    log_info "QSFPインターフェースを検出中..."
    local iface
    iface=$(detect_qsfp_interface)
    if [[ -z "$iface" ]]; then
        log_error "QSFPインターフェースが見つかりません"
        log_info "ibdev2netdev の出力を確認してください"
        exit 1
    fi
    log_ok "検出: $iface"
    # 現在のIP確認
    local current_ip
    current_ip=$(get_current_ip "$iface")
    if [[ -n "$current_ip" ]]; then
        log_info "現在のIP: $current_ip"
        read -rp "このIPを使用しますか？ [Y/n]: " use_current
        if [[ "${use_current,,}" != "n" ]]; then
            log_ok "設定完了: $iface = $current_ip"
            return 0
        fi
    fi
    # IP入力
    echo ""
    log_info "このノードのIPアドレスを設定します"
    log_info "例: Node 1 = 192.168.100.10, Node 2 = 192.168.100.11"
    read -rp "IPアドレス (例: 192.168.100.10): " new_ip
    read -rp "サブネットマスク [24]: " subnet
    subnet=${subnet:-24}
    # 設定適用
    log_info "IPアドレスを設定中..."
    sudo ip addr flush dev "$iface" 2>/dev/null || true
    sudo ip addr add "${new_ip}/${subnet}" dev "$iface"
    sudo ip link set "$iface" up
    log_ok "設定完了: $iface = $new_ip/$subnet"
    # 永続化確認
    read -rp "netplanで永続化しますか？ [Y/n]: " persist
    if [[ "${persist,,}" != "n" ]]; then
        local netplan_file="/etc/netplan/99-dgx-spark-qsfp.yaml"
        log_info "netplan設定を作成中..."
        sudo tee "$netplan_file" > /dev/null << EOF
 network:
  version: 2
  ethernets:
    ${iface}:
      addresses:
        - ${new_ip}/${subnet}
 EOF
        sudo netplan apply
        log_ok "永続化完了: $netplan_file"
    fi
    # 環境変数出力
    echo ""
    log_info "以下の環境変数をエクスポートしてください:"
    echo "export MN_IF_NAME=$iface"
    echo "export VLLM_HOST_IP=$new_ip"
 }
 # SSH鍵配布
 cmd_ssh() {
    log_info "SSH鍵の設定を開始します"
    # 鍵がなければ生成
    if [[ ! -f ~/.ssh/id_ed25519 ]]; then
        log_info "SSH鍵を生成中..."
        ssh-keygen -t ed25519 -N "" -f ~/.ssh/id_ed25519
        log_ok "鍵生成完了"
    else
        log_ok "既存の鍵を使用: ~/.ssh/id_ed25519"
    fi
    # 対向ノードのIP入力
    read -rp "対向ノードのIPアドレス: " remote_ip
    read -rp "対向ノードのユーザー名 [$USER]: " remote_user
    remote_user=${remote_user:-$USER}
    log_info "対向ノードに公開鍵を配布中..."
    log_warn "パスワードを求められます"
    ssh-copy-id "${remote_user}@${remote_ip}"
    log_ok "SSH鍵配布完了"
    # 疎通確認
    log_info "接続テスト中..."
    if ssh -o BatchMode=yes -o ConnectTimeout=5 "${remote_user}@${remote_ip}" "echo OK" &>/dev/null; then
        log_ok "パスワードなしSSH接続成功"
    else
        log_error "接続に失敗しました"
        exit 1
    fi
 }
 # Docker権限設定
 cmd_docker() {
    log_info "Docker権限を設定中..."
    if groups | grep -q docker; then
        log_ok "既にdockerグループに所属しています"
    else
        sudo groupadd docker 2>/dev/null || true
        sudo usermod -aG docker "$USER"
        log_ok "dockerグループに追加しました"
        log_warn "変更を反映するには再ログインするか 'newgrp docker' を実行してください"
    fi
    # NVIDIA Container Toolkit確認
    if docker run --rm --gpus all nvidia/cuda:13.0.1-devel-ubuntu24.04 nvidia-smi &>/dev/null; then
        log_ok "NVIDIA Container Toolkit正常動作"
    else
        log_error "GPU付きコンテナが起動できません"
        log_info "NVIDIA Container Toolkitをインストールしてください"
        exit 1
    fi
 }
 # vLLMイメージ取得
 cmd_vllm_pull() {
    local image="nvcr.io/nvidia/vllm:25.11-py3"
    log_info "vLLMイメージを取得中..."
    log_info "Image: $image"
    docker pull "$image"
    log_ok "取得完了"
    echo ""
    echo "export VLLM_IMAGE=$image"
 }
 # vLLMクラスター起動
 cmd_cluster() {
    log_info "vLLMクラスターを起動します"
    # 環境変数確認
    if [[ -z "${VLLM_IMAGE:-}" ]]; then
        export VLLM_IMAGE="nvcr.io/nvidia/vllm:25.11-py3"
        log_warn "VLLM_IMAGE未設定、デフォルト使用: $VLLM_IMAGE"
    fi
    if [[ -z "${VLLM_HOST_IP:-}" ]]; then
        local iface
        iface=$(detect_qsfp_interface)
        if [[ -n "$iface" ]]; then
            VLLM_HOST_IP=$(get_current_ip "$iface")
        fi
        if [[ -z "${VLLM_HOST_IP:-}" ]]; then
            read -rp "このノードのクラスター通信用IP: " VLLM_HOST_IP
        fi
    fi
    if [[ -z "${MN_IF_NAME:-}" ]]; then
        MN_IF_NAME=$(detect_qsfp_interface)
    fi
    log_info "設定:"
    echo "  VLLM_IMAGE:   $VLLM_IMAGE"
    echo "  VLLM_HOST_IP: $VLLM_HOST_IP"
    echo "  MN_IF_NAME:   $MN_IF_NAME"
    echo ""
    # ノードタイプ選択
    echo "このノードの役割を選択してください:"
    echo "  1) ヘッドノード (Node 1)"
    echo "  2) ワーカーノード (Node 2)"
    read -rp "選択 [1/2]: " node_type
    # run_cluster.sh取得
    if [[ ! -f ./run_cluster.sh ]]; then
        log_info "run_cluster.sh をダウンロード中..."
        wget -q https://raw.githubusercontent.com/vllm-project/vllm/refs/heads/main/examples/online_serving/run_cluster.sh
        chmod +x run_cluster.sh
    fi
    local head_ip
    if [[ "$node_type" == "1" ]]; then
        head_ip="$VLLM_HOST_IP"
        log_info "ヘッドノードとして起動中..."
        bash run_cluster.sh "$VLLM_IMAGE" "$head_ip" --head ~/.cache/huggingface \
            -e VLLM_HOST_IP="$VLLM_HOST_IP" \
            -e UCX_NET_DEVICES="$MN_IF_NAME" \
            -e NCCL_SOCKET_IFNAME="$MN_IF_NAME" \
            -e OMPI_MCA_btl_tcp_if_include="$MN_IF_NAME" \
            -e GLOO_SOCKET_IFNAME="$MN_IF_NAME" \
            -e TP_SOCKET_IFNAME="$MN_IF_NAME" \
            -e RAY_memory_monitor_refresh_ms=0 \
            -e MASTER_ADDR="$head_ip"
    else
        read -rp "ヘッドノード(Node 1)のIP: " head_ip
        log_info "ワーカーノードとして起動中..."
        bash run_cluster.sh "$VLLM_IMAGE" "$head_ip" --worker ~/.cache/huggingface \
            -e VLLM_HOST_IP="$VLLM_HOST_IP" \
            -e UCX_NET_DEVICES="$MN_IF_NAME" \
            -e NCCL_SOCKET_IFNAME="$MN_IF_NAME" \
            -e OMPI_MCA_btl_tcp_if_include="$MN_IF_NAME" \
            -e GLOO_SOCKET_IFNAME="$MN_IF_NAME" \
            -e TP_SOCKET_IFNAME="$MN_IF_NAME" \
            -e RAY_memory_monitor_refresh_ms=0 \
            -e MASTER_ADDR="$head_ip"
    fi
 }
 # 全セットアップ
 cmd_all() {
    log_info "=== DGX Spark デュアル構成 フルセットアップ ==="
    echo ""
    cmd_docker
    echo ""
    cmd_network
    echo ""
    read -rp "対向ノードへのSSH鍵配布を行いますか？ [Y/n]: " do_ssh
    if [[ "${do_ssh,,}" != "n" ]]; then
        cmd_ssh
        echo ""
    fi
    cmd_vllm_pull
    echo ""
    log_ok "セットアップ完了！"
    echo ""
    log_info "次のステップ:"
    echo "  1. 対向ノードでも同じスクリプトを実行"
    echo "  2. 両ノードで 'dgx-spark-setup.sh cluster' を実行"
    echo "  3. ヘッドノードでモデルを起動"
 }
 # ヘルプ
 cmd_help() {
    cat << 'EOF'
 DGX Spark デュアル構成セットアップスクリプト
 Usage:
  dgx-spark-setup.sh <command>
 Commands:
  network    QSFPインターフェースのIP設定
  ssh        対向ノードへのSSH鍵配布
  docker     Docker権限設定
  vllm-pull  vLLMイメージ取得
  cluster    vLLMクラスター起動
  all        全セットアップ実行（推奨）
 Examples:
  # フルセットアップ
  ./dgx-spark-setup.sh all
  # ネットワークのみ設定
  ./dgx-spark-setup.sh network
  # クラスター起動
  export VLLM_HOST_IP=192.168.100.10
  export MN_IF_NAME=enp1s0f1np1
  ./dgx-spark-setup.sh cluster
 ワンライナー実行:
  curl -sL https://example.com/dgx-spark-setup.sh | bash -s -- all
 EOF
 }
 # メイン
 main() {
    local cmd="${1:-help}"
    case "$cmd" in
        network)   cmd_network ;;
        ssh)       cmd_ssh ;;
        docker)    cmd_docker ;;
        vllm-pull) cmd_vllm_pull ;;
        cluster)   cmd_cluster ;;
        all)       cmd_all ;;
        help|--help|-h) cmd_help ;;
        *)
            log_error "Unknown command: $cmd"
            cmd_help
            exit 1
            ;;
    esac
 }
 main "$@"