Refactor: 記事をディレクトリ構成に変更、セットアップスクリプト追加

This commit is contained in:
koide 2026-02-19 01:33:04 +00:00
parent 30761d2e4f
commit 24ea3f3e25
3 changed files with 487 additions and 0 deletions

View File

@ -0,0 +1,144 @@
#!/bin/bash
#
# DGX Spark vLLM モデル起動スクリプト
# Usage: ./dgx-spark-serve.sh [model] [options...]
#
set -euo pipefail
# Colors
RED='\033[0;31m'
GREEN='\033[0;32m'
YELLOW='\033[1;33m'
BLUE='\033[0;34m'
NC='\033[0m'
log_info() { echo -e "${BLUE}[INFO]${NC} $1"; }
log_ok() { echo -e "${GREEN}[OK]${NC} $1"; }
log_warn() { echo -e "${YELLOW}[WARN]${NC} $1"; }
log_error() { echo -e "${RED}[ERROR]${NC} $1"; }
# デフォルト設定
DEFAULT_TP_SIZE=2
DEFAULT_MAX_MODEL_LEN=65536
DEFAULT_GPU_MEM_UTIL=0.90
DEFAULT_HOST="0.0.0.0"
DEFAULT_PORT=8000
# プリセットモデル
declare -A MODEL_PRESETS=(
["minimax-m25"]="cerebras/MiniMax-M2.5-REAP-172B-A10B --tool-call-parser minimax_m2 --reasoning-parser minimax_m2_append_think --enable-auto-tool-choice"
["minimax-m2"]="cerebras/MiniMax-M2-REAP-172B-A10B --tool-call-parser minimax_m2 --reasoning-parser minimax_m2_append_think --enable-auto-tool-choice"
["llama-70b"]="nvidia/Llama-3.3-70B-Instruct-NVFP4"
["qwen-32b"]="nvidia/Qwen3-32B-NVFP4"
["gpt-oss-120b"]="openai/gpt-oss-120b"
)
show_presets() {
echo "利用可能なプリセット:"
for key in "${!MODEL_PRESETS[@]}"; do
echo " $key"
done
}
find_container() {
docker ps --format '{{.Names}}' | grep -E '^node-[0-9]+$' | head -1
}
main() {
local model="${1:-}"
shift || true
if [[ -z "$model" || "$model" == "help" || "$model" == "--help" ]]; then
cat << 'EOF'
DGX Spark vLLM モデル起動スクリプト
Usage:
dgx-spark-serve.sh <model|preset> [options...]
Presets:
minimax-m25 MiniMax-M2.5-REAP-172B (推奨)
minimax-m2 MiniMax-M2-REAP-172B
llama-70b Llama-3.3-70B-Instruct-NVFP4
qwen-32b Qwen3-32B-NVFP4
gpt-oss-120b GPT-OSS-120B
Options (vllm serveに渡される):
--tensor-parallel-size N テンソル並列数 (default: 2)
--max-model-len N 最大コンテキスト長 (default: 65536)
--host IP APIホスト (default: 0.0.0.0)
--port N APIポート (default: 8000)
Examples:
# プリセット使用
./dgx-spark-serve.sh minimax-m25
# カスタムモデル
./dgx-spark-serve.sh my-org/my-model --max-model-len 32768
# メモリ節約モード
./dgx-spark-serve.sh minimax-m25 --max-model-len 16384 --max-num-seqs 32
EOF
echo ""
show_presets
exit 0
fi
# コンテナ確認
local container
container=$(find_container)
if [[ -z "$container" ]]; then
log_error "vLLMコンテナが見つかりません"
log_info "先に 'dgx-spark-setup.sh cluster' でクラスターを起動してください"
exit 1
fi
log_ok "コンテナ検出: $container"
# プリセット展開
local model_args=""
if [[ -n "${MODEL_PRESETS[$model]:-}" ]]; then
model_args="${MODEL_PRESETS[$model]}"
log_info "プリセット使用: $model"
model=$(echo "$model_args" | awk '{print $1}')
model_args=$(echo "$model_args" | cut -d' ' -f2-)
fi
# デフォルトオプション構築
local has_tp=false has_len=false has_host=false has_port=false has_trust=false
for arg in "$@"; do
case "$arg" in
--tensor-parallel-size*) has_tp=true ;;
--max-model-len*) has_len=true ;;
--host*) has_host=true ;;
--port*) has_port=true ;;
--trust-remote-code*) has_trust=true ;;
esac
done
local defaults=""
$has_tp || defaults+=" --tensor-parallel-size $DEFAULT_TP_SIZE"
$has_len || defaults+=" --max-model-len $DEFAULT_MAX_MODEL_LEN"
$has_host || defaults+=" --host $DEFAULT_HOST"
$has_port || defaults+=" --port $DEFAULT_PORT"
$has_trust || defaults+=" --trust-remote-code"
defaults+=" --gpu-memory-utilization $DEFAULT_GPU_MEM_UTIL"
# コマンド構築
local cmd="vllm serve $model $model_args $defaults $*"
log_info "起動コマンド:"
echo " $cmd"
echo ""
read -rp "実行しますか? [Y/n]: " confirm
if [[ "${confirm,,}" == "n" ]]; then
log_warn "キャンセルしました"
exit 0
fi
log_info "モデルを起動中..."
docker exec -it "$container" /bin/bash -c "$cmd"
}
main "$@"

View File

@ -0,0 +1,343 @@
#!/bin/bash
#
# DGX Spark デュアル構成セットアップスクリプト
# Usage: curl -sL <url> | bash -s -- [command]
#
# Commands:
# network - QSFPインターフェースのIP設定
# ssh - 対向ードへのSSH鍵配布
# docker - Docker権限設定
# vllm-pull - vLLMイメージ取得
# cluster - vLLMクラスター起動
# all - 全セットアップ実行
#
set -euo pipefail
# Colors
RED='\033[0;31m'
GREEN='\033[0;32m'
YELLOW='\033[1;33m'
BLUE='\033[0;34m'
NC='\033[0m'
log_info() { echo -e "${BLUE}[INFO]${NC} $1"; }
log_ok() { echo -e "${GREEN}[OK]${NC} $1"; }
log_warn() { echo -e "${YELLOW}[WARN]${NC} $1"; }
log_error() { echo -e "${RED}[ERROR]${NC} $1"; }
# QSFPインターフェース検出
detect_qsfp_interface() {
local iface
iface=$(ibdev2netdev 2>/dev/null | grep "(Up)" | awk '{print $5}' | head -1)
if [[ -z "$iface" ]]; then
# フォールバック: enp1s0f で始まるインターフェースを探す
iface=$(ip link show | grep -oP 'enp1s0f[0-9]+np[0-9]+' | head -1)
fi
echo "$iface"
}
# 現在のIPアドレス取得
get_current_ip() {
local iface=$1
ip -4 addr show "$iface" 2>/dev/null | grep -oP '(?<=inet\s)\d+(\.\d+){3}' | head -1
}
# ネットワーク設定
cmd_network() {
log_info "QSFPインターフェースを検出中..."
local iface
iface=$(detect_qsfp_interface)
if [[ -z "$iface" ]]; then
log_error "QSFPインターフェースが見つかりません"
log_info "ibdev2netdev の出力を確認してください"
exit 1
fi
log_ok "検出: $iface"
# 現在のIP確認
local current_ip
current_ip=$(get_current_ip "$iface")
if [[ -n "$current_ip" ]]; then
log_info "現在のIP: $current_ip"
read -rp "このIPを使用しますか [Y/n]: " use_current
if [[ "${use_current,,}" != "n" ]]; then
log_ok "設定完了: $iface = $current_ip"
return 0
fi
fi
# IP入力
echo ""
log_info "このードのIPアドレスを設定します"
log_info "例: Node 1 = 192.168.100.10, Node 2 = 192.168.100.11"
read -rp "IPアドレス (例: 192.168.100.10): " new_ip
read -rp "サブネットマスク [24]: " subnet
subnet=${subnet:-24}
# 設定適用
log_info "IPアドレスを設定中..."
sudo ip addr flush dev "$iface" 2>/dev/null || true
sudo ip addr add "${new_ip}/${subnet}" dev "$iface"
sudo ip link set "$iface" up
log_ok "設定完了: $iface = $new_ip/$subnet"
# 永続化確認
read -rp "netplanで永続化しますか [Y/n]: " persist
if [[ "${persist,,}" != "n" ]]; then
local netplan_file="/etc/netplan/99-dgx-spark-qsfp.yaml"
log_info "netplan設定を作成中..."
sudo tee "$netplan_file" > /dev/null << EOF
network:
version: 2
ethernets:
${iface}:
addresses:
- ${new_ip}/${subnet}
EOF
sudo netplan apply
log_ok "永続化完了: $netplan_file"
fi
# 環境変数出力
echo ""
log_info "以下の環境変数をエクスポートしてください:"
echo "export MN_IF_NAME=$iface"
echo "export VLLM_HOST_IP=$new_ip"
}
# SSH鍵配布
cmd_ssh() {
log_info "SSH鍵の設定を開始します"
# 鍵がなければ生成
if [[ ! -f ~/.ssh/id_ed25519 ]]; then
log_info "SSH鍵を生成中..."
ssh-keygen -t ed25519 -N "" -f ~/.ssh/id_ed25519
log_ok "鍵生成完了"
else
log_ok "既存の鍵を使用: ~/.ssh/id_ed25519"
fi
# 対向ードのIP入力
read -rp "対向ードのIPアドレス: " remote_ip
read -rp "対向ノードのユーザー名 [$USER]: " remote_user
remote_user=${remote_user:-$USER}
log_info "対向ノードに公開鍵を配布中..."
log_warn "パスワードを求められます"
ssh-copy-id "${remote_user}@${remote_ip}"
log_ok "SSH鍵配布完了"
# 疎通確認
log_info "接続テスト中..."
if ssh -o BatchMode=yes -o ConnectTimeout=5 "${remote_user}@${remote_ip}" "echo OK" &>/dev/null; then
log_ok "パスワードなしSSH接続成功"
else
log_error "接続に失敗しました"
exit 1
fi
}
# Docker権限設定
cmd_docker() {
log_info "Docker権限を設定中..."
if groups | grep -q docker; then
log_ok "既にdockerグループに所属しています"
else
sudo groupadd docker 2>/dev/null || true
sudo usermod -aG docker "$USER"
log_ok "dockerグループに追加しました"
log_warn "変更を反映するには再ログインするか 'newgrp docker' を実行してください"
fi
# NVIDIA Container Toolkit確認
if docker run --rm --gpus all nvidia/cuda:13.0.1-devel-ubuntu24.04 nvidia-smi &>/dev/null; then
log_ok "NVIDIA Container Toolkit正常動作"
else
log_error "GPU付きコンテナが起動できません"
log_info "NVIDIA Container Toolkitをインストールしてください"
exit 1
fi
}
# vLLMイメージ取得
cmd_vllm_pull() {
local image="nvcr.io/nvidia/vllm:25.11-py3"
log_info "vLLMイメージを取得中..."
log_info "Image: $image"
docker pull "$image"
log_ok "取得完了"
echo ""
echo "export VLLM_IMAGE=$image"
}
# vLLMクラスター起動
cmd_cluster() {
log_info "vLLMクラスターを起動します"
# 環境変数確認
if [[ -z "${VLLM_IMAGE:-}" ]]; then
export VLLM_IMAGE="nvcr.io/nvidia/vllm:25.11-py3"
log_warn "VLLM_IMAGE未設定、デフォルト使用: $VLLM_IMAGE"
fi
if [[ -z "${VLLM_HOST_IP:-}" ]]; then
local iface
iface=$(detect_qsfp_interface)
if [[ -n "$iface" ]]; then
VLLM_HOST_IP=$(get_current_ip "$iface")
fi
if [[ -z "${VLLM_HOST_IP:-}" ]]; then
read -rp "このードのクラスター通信用IP: " VLLM_HOST_IP
fi
fi
if [[ -z "${MN_IF_NAME:-}" ]]; then
MN_IF_NAME=$(detect_qsfp_interface)
fi
log_info "設定:"
echo " VLLM_IMAGE: $VLLM_IMAGE"
echo " VLLM_HOST_IP: $VLLM_HOST_IP"
echo " MN_IF_NAME: $MN_IF_NAME"
echo ""
# ノードタイプ選択
echo "このノードの役割を選択してください:"
echo " 1) ヘッドノード (Node 1)"
echo " 2) ワーカーノード (Node 2)"
read -rp "選択 [1/2]: " node_type
# run_cluster.sh取得
if [[ ! -f ./run_cluster.sh ]]; then
log_info "run_cluster.sh をダウンロード中..."
wget -q https://raw.githubusercontent.com/vllm-project/vllm/refs/heads/main/examples/online_serving/run_cluster.sh
chmod +x run_cluster.sh
fi
local head_ip
if [[ "$node_type" == "1" ]]; then
head_ip="$VLLM_HOST_IP"
log_info "ヘッドノードとして起動中..."
bash run_cluster.sh "$VLLM_IMAGE" "$head_ip" --head ~/.cache/huggingface \
-e VLLM_HOST_IP="$VLLM_HOST_IP" \
-e UCX_NET_DEVICES="$MN_IF_NAME" \
-e NCCL_SOCKET_IFNAME="$MN_IF_NAME" \
-e OMPI_MCA_btl_tcp_if_include="$MN_IF_NAME" \
-e GLOO_SOCKET_IFNAME="$MN_IF_NAME" \
-e TP_SOCKET_IFNAME="$MN_IF_NAME" \
-e RAY_memory_monitor_refresh_ms=0 \
-e MASTER_ADDR="$head_ip"
else
read -rp "ヘッドノード(Node 1)のIP: " head_ip
log_info "ワーカーノードとして起動中..."
bash run_cluster.sh "$VLLM_IMAGE" "$head_ip" --worker ~/.cache/huggingface \
-e VLLM_HOST_IP="$VLLM_HOST_IP" \
-e UCX_NET_DEVICES="$MN_IF_NAME" \
-e NCCL_SOCKET_IFNAME="$MN_IF_NAME" \
-e OMPI_MCA_btl_tcp_if_include="$MN_IF_NAME" \
-e GLOO_SOCKET_IFNAME="$MN_IF_NAME" \
-e TP_SOCKET_IFNAME="$MN_IF_NAME" \
-e RAY_memory_monitor_refresh_ms=0 \
-e MASTER_ADDR="$head_ip"
fi
}
# 全セットアップ
cmd_all() {
log_info "=== DGX Spark デュアル構成 フルセットアップ ==="
echo ""
cmd_docker
echo ""
cmd_network
echo ""
read -rp "対向ードへのSSH鍵配布を行いますか [Y/n]: " do_ssh
if [[ "${do_ssh,,}" != "n" ]]; then
cmd_ssh
echo ""
fi
cmd_vllm_pull
echo ""
log_ok "セットアップ完了!"
echo ""
log_info "次のステップ:"
echo " 1. 対向ノードでも同じスクリプトを実行"
echo " 2. 両ノードで 'dgx-spark-setup.sh cluster' を実行"
echo " 3. ヘッドノードでモデルを起動"
}
# ヘルプ
cmd_help() {
cat << 'EOF'
DGX Spark デュアル構成セットアップスクリプト
Usage:
dgx-spark-setup.sh <command>
Commands:
network QSFPインターフェースのIP設定
ssh 対向ードへのSSH鍵配布
docker Docker権限設定
vllm-pull vLLMイメージ取得
cluster vLLMクラスター起動
all 全セットアップ実行(推奨)
Examples:
# フルセットアップ
./dgx-spark-setup.sh all
# ネットワークのみ設定
./dgx-spark-setup.sh network
# クラスター起動
export VLLM_HOST_IP=192.168.100.10
export MN_IF_NAME=enp1s0f1np1
./dgx-spark-setup.sh cluster
ワンライナー実行:
curl -sL https://example.com/dgx-spark-setup.sh | bash -s -- all
EOF
}
# メイン
main() {
local cmd="${1:-help}"
case "$cmd" in
network) cmd_network ;;
ssh) cmd_ssh ;;
docker) cmd_docker ;;
vllm-pull) cmd_vllm_pull ;;
cluster) cmd_cluster ;;
all) cmd_all ;;
help|--help|-h) cmd_help ;;
*)
log_error "Unknown command: $cmd"
cmd_help
exit 1
;;
esac
}
main "$@"