koide/note-articles

Fork 0

koide 5c7bfa0d14

Deploy Docusaurus Site / deploy (push) Successful in 28s

Details

Update: 文体をカジュアルに + 重複修正

2026-02-28 00:15:37 +00:00

6.6 KiB

Raw Blame History

sidebar_position, title

sidebar_position	title
2	Ollama がローカルAIのハブとしてめちゃ最強な件

Ollama がローカルAIのハブとしてめちゃ最強な件

はじめに

ローカルLLM触ってる人なら一度は使ったことあるよね、Ollama。最初は「ローカルでLLM動かすツール」ってだけだったんだけど、2026年に入ってからの進化がヤバい。気づいたらローカルAIエコシステム全体の「ハブ」になってた。

しかも最近は ollama launch で Claude Code とか Codex CLI、OpenCode、OpenClaw みたいなAIコーディングエージェントまで一発起動できるようになった。

ollama launch claude-code
ollama launch codex
ollama launch opencode
ollama launch openclaw

もうLLM動かすだけのツールじゃなくて、AIツール全般のランチャー兼パッケージマネージャーなんだよね。

この記事では、Ollamaがどうやって「ローカルAIのDocker」みたいな存在に進化したのかをまとめてみる。

Ollama の現在地

モデル配信プラットフォーム

ollama pull qwen3:30b-a3b
ollama pull gpt-oss:120b

HuggingFaceのGGUFも直接いける：

ollama pull hf.co/mmnga-o/Qwen3-Swallow-30B-A3B-RL-v0.2-gguf:Q5_K_M

量子化の選択、ダウンロード、キャッシュ管理まで全部やってくれる。Docker Hubからイメージ引っ張ってくるのと同じノリ。

クラウドモデルも使える

Ollama 0.17からは cloud タグでクラウドモデルも扱えるようになった：

モデル	説明
`kimi-k2.5:cloud`	マルチモーダル推論
`minimax-m2.5:cloud`	高速コーディング
`glm-5:cloud`	推論・コード生成

ローカルとクラウドを 同じインターフェース で扱えるのがめちゃ強い。アプリ側はOllamaのAPI叩くだけで、裏がローカルGPUなのかクラウドなのか意識しなくていい。

OpenAI互換API

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen3:30b-a3b", "messages": [{"role": "user", "content": "Hello"}]}'

OpenAI SDKがそのまま使える。既存アプリの base_url を localhost:11434/v1 に変えるだけでローカルLLMに切り替わる。これが地味にデカい。

アプリランチャー

Ollama 0.17の目玉。ollama launch でAIアプリを直接起動できる：

ollama launch openclaw

これだけで：

未インストールなら自動インストール
セキュリティ通知の表示
モデル選択画面
Gateway起動 + TUI表示

完全に AIエージェントのパッケージマネージャー になってる。

なぜ Ollama が勝ってるのか

1. 圧倒的にシンプル

# インストール
curl -fsSL https://ollama.com/install.sh | sh

# モデル動かす
ollama run qwen3:30b-a3b

2コマンドで動く。llama.cppのビルドもPythonの仮想環境もいらない。この手軽さは正義。

2. Modelfile でカスタマイズ

FROM hf.co/mmnga-o/Qwen3-Swallow-30B-A3B-RL-v0.2-gguf:Q5_K_M

TEMPLATE """
{{- if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}
{{- range .Messages }}
{{- if eq .Role "user" }}<|im_start|>user
{{ .Content }}<|im_end|>
{{- else if eq .Role "assistant" }}<|im_start|>assistant
{{ .Content }}<|im_end|>
{{- end }}
{{- end }}<|im_start|>assistant
"""

PARAMETER stop <|im_end|>
PARAMETER num_ctx 32768

Dockerfileっぽい宣言的な設定。テンプレートもパラメータもサクッとカスタマイズできる。

3. エコシステムがすごい

Ollamaをバックエンドに使うツールがめちゃくちゃ増えてる：

OpenClaw — AIエージェント（メッセージング統合）
Open WebUI — ChatGPT風のWeb UI
Continue — VSCode/JetBrains向けAIコーディング
Aider — ターミナルベースのAIコーディング
LangChain / LlamaIndex — LLMアプリフレームワーク

全部 OLLAMA_HOST=localhost:11434 で繋がる。統一感がすごい。

4. マルチGPU・リモートサーバー対応

# リモートサーバーのOllamaを使う
OLLAMA_HOST=http://dgx-spark:11434 ollama run gpt-oss:120b

自宅のGPUサーバーにOllama立てて、手元のノートPCから叩く。これだけでプライベートLLM APIサーバーの出来上がり。最高。

Docker との類似性

Ollamaの進化を見てると、Dockerの歴史と重なる部分が多いんだよね：

Docker	Ollama
Docker Hub	Ollama Library
`docker pull`	`ollama pull`
`docker run`	`ollama run`
Dockerfile	Modelfile
Docker Compose	`ollama launch`（アプリ起動）
コンテナレジストリ	HuggingFace GGUF連携

Dockerが「アプリのデプロイを民主化」したように、Ollamaは「LLMの利用を民主化」してる。この対比、結構しっくりくると思う。

実際の運用例

自分の環境だと、NVIDIA DGX Spark上でOllama動かして複数モデル管理してる：

qwen3-swallow-30b    21 GB   ← 日本語特化
gpt-oss-swallow-20b  16 GB   ← バイリンガル
qwen3:30b-a3b        18 GB   ← 汎用
gpt-oss:120b         65 GB   ← 大規模推論

これをOpenClawのエージェントバックエンドにして、Discord経由で日常的に使ってる。モデルの追加・削除・切り替えがコマンド一発で済むの、ほんと楽。

まとめ

Ollamaはもう「ローカルLLM動かすツール」じゃない。

モデル配信 — pull一発でモデル取得
API標準化 — OpenAI互換で既存エコシステムと接続
クラウド統合 — ローカルとクラウドを透過的に扱える
アプリランチャー — AIエージェントの起動・管理まで
カスタマイズ — Modelfileで宣言的にモデル定義

ローカルAIの「Docker」として、インフラの中心に座りつつある。これからLLM触り始める人も、もう使いこなしてる人も、Ollamaを起点にするのが一番効率いいと思う。

参考リンク

この記事は2026年2月時点の情報です。

6.6 KiB Raw Blame History Unescape Escape