koide/note-articles

Fork 0

koide 8c109a1d9a

Deploy Docusaurus Site / deploy (push) Successful in 28s

Details

Add: OGPバナー画像自動生成 (node-canvas) + 全記事一括生成

2026-02-28 01:03:39 +00:00

8.4 KiB

Raw Blame History

sidebar_position, title, image

sidebar_position	title	image
2	Ollama がローカルAIのハブとしてめちゃ最強な件	./banner.png

Ollama がローカルAIのハブとしてめちゃ最強な件

はじめに

ローカルLLM触ってる人なら一度は使ったことあるよね、Ollama。最初は「ローカルでLLM動かすツール」ってだけだったんだけど、2026年に入ってからの進化がヤバい。気づいたらローカルAIエコシステム全体の「ハブ」になってた。

しかも最近は ollama launch で Claude Code とか Codex CLI、OpenCode、OpenClaw みたいなAIコーディングエージェントまで一発起動できるようになった。

ollama launch claude-code
ollama launch codex
ollama launch opencode
ollama launch openclaw

もうLLM動かすだけのツールじゃなくて、AIツール全般のランチャー兼パッケージマネージャーなんだよね。

この記事では、Ollamaがどうやって「ローカルAIのDocker」みたいな存在に進化したのかをまとめてみる。

Ollama の現在地

モデル配信プラットフォーム

ollama pull qwen3:30b-a3b
ollama pull gpt-oss:120b

HuggingFaceのGGUFも直接いける：

ollama pull hf.co/mmnga-o/Qwen3-Swallow-30B-A3B-RL-v0.2-gguf:Q5_K_M

量子化の選択、ダウンロード、キャッシュ管理まで全部やってくれる。Docker Hubからイメージ引っ張ってくるのと同じノリ。

クラウドモデルも使える

Ollama 0.17からは cloud タグでクラウドモデルも扱えるようになった：

モデル	説明
`kimi-k2.5:cloud`	マルチモーダル推論
`minimax-m2.5:cloud`	高速コーディング
`glm-5:cloud`	推論・コード生成

ローカルとクラウドを 同じインターフェース で扱えるのがめちゃ強い。アプリ側はOllamaのAPI叩くだけで、裏がローカルGPUなのかクラウドなのか意識しなくていい。

OpenAI互換API

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen3:30b-a3b", "messages": [{"role": "user", "content": "Hello"}]}'

OpenAI SDKがそのまま使える。既存アプリの base_url を localhost:11434/v1 に変えるだけでローカルLLMに切り替わる。これが地味にデカい。

アプリランチャー

Ollama 0.17の目玉。ollama launch でAIアプリを直接起動できる：

ollama launch openclaw

これだけで：

未インストールなら自動インストール
セキュリティ通知の表示
モデル選択画面
Gateway起動 + TUI表示

完全に AIエージェントのパッケージマネージャー になってる。

Ollama 0.17.0 で何が変わったのか

2026年2月にリリースされた v0.17.0 の主な変更点をまとめておく。

`ollama launch` の本格化

これが一番デカい。OpenClawをはじめ、Claude Code、Codex CLI、OpenCodeなどのAIエージェント・コーディングツールを ollama launch 一発で起動できるようになった。インストールからモデル選択、セキュリティ通知まで全部Ollamaが面倒見てくれる。

クラウドモデル対応

Kimi K2.5、GLM-5、MiniMax M2.5 などのクラウドモデルが cloud タグで利用可能に。クラウドモデル使用時はWeb検索プラグインも自動でインストールされる。つまりOpenClawからそのままネット検索できるようになる。

トークナイザーの性能改善

地味だけど大事な改善。トークナイザーのパフォーマンスが向上した。

コンテキスト長の自動調整

macOS/Windowsアプリで、利用可能なVRAMに基づいてデフォルトのコンテキスト長を自動設定するようになった。メモリが足りなくて落ちるみたいな事故が減るはず。

:::tip 豆知識 OpenClawなどのエージェントでは最低64kトークンのコンテキスト長が推奨されてる。ローカルモデル使う場合はVRAMに余裕を持たせよう。 :::

なぜ Ollama が勝ってるのか

1. 圧倒的にシンプル

# インストール
curl -fsSL https://ollama.com/install.sh | sh

# モデル動かす
ollama run qwen3:30b-a3b

2コマンドで動く。llama.cppのビルドもPythonの仮想環境もいらない。この手軽さは正義。

2. Modelfile でカスタマイズ

FROM hf.co/mmnga-o/Qwen3-Swallow-30B-A3B-RL-v0.2-gguf:Q5_K_M

TEMPLATE """
{{- if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}
{{- range .Messages }}
{{- if eq .Role "user" }}<|im_start|>user
{{ .Content }}<|im_end|>
{{- else if eq .Role "assistant" }}<|im_start|>assistant
{{ .Content }}<|im_end|>
{{- end }}
{{- end }}<|im_start|>assistant
"""

PARAMETER stop <|im_end|>
PARAMETER num_ctx 32768

Dockerfileっぽい宣言的な設定。テンプレートもパラメータもサクッとカスタマイズできる。

3. エコシステムがすごい

Ollamaをバックエンドに使うツールがめちゃくちゃ増えてる：

OpenClaw — AIエージェント（メッセージング統合）
Open WebUI — ChatGPT風のWeb UI
Continue — VSCode/JetBrains向けAIコーディング
Aider — ターミナルベースのAIコーディング
LangChain / LlamaIndex — LLMアプリフレームワーク

全部 OLLAMA_HOST=localhost:11434 で繋がる。統一感がすごい。

4. マルチGPU・リモートサーバー対応

# リモートサーバーのOllamaを使う
OLLAMA_HOST=http://dgx-spark:11434 ollama run gpt-oss:120b

自宅のGPUサーバーにOllama立てて、手元のノートPCから叩く。これだけでプライベートLLM APIサーバーの出来上がり。最高。

Docker との類似性

Ollamaの進化を見てると、Dockerの歴史と重なる部分が多いんだよね：

Docker	Ollama
Docker Hub	Ollama Library
`docker pull`	`ollama pull`
`docker run`	`ollama run`
Dockerfile	Modelfile
Docker Compose	`ollama launch`（アプリ起動）
コンテナレジストリ	HuggingFace GGUF連携

Dockerが「アプリのデプロイを民主化」したように、Ollamaは「LLMの利用を民主化」してる。この対比、結構しっくりくると思う。

実際の運用例

自分の環境だと、NVIDIA DGX Spark上でOllama動かして用途別にモデルを使い分けてる：

モデル	サイズ	用途
`qwen3-coder-next`	~25 GB	エージェント・コーディング
`qwen3-vl8b-instruct`	~8 GB	OCR・画像解析
`gemma3:12b`	~12 GB	要約タスク
`gpt-oss:120b`	65 GB	大規模推論・要約

タスクごとに最適なモデルを割り当てられるのがOllamaの良いところ。コーディングにはcoder系、画像にはVL系、軽い要約にはgemma、重い推論にはgpt-ossみたいに、用途で使い分けてる。

これをOpenClawのエージェントバックエンドにして、Discord経由で日常的に使ってる。モデルの追加・削除・切り替えがコマンド一発で済むの、ほんと楽。

まとめ

Ollamaはもう「ローカルLLM動かすツール」じゃない。

モデル配信 — pull一発でモデル取得
API標準化 — OpenAI互換で既存エコシステムと接続
クラウド統合 — ローカルとクラウドを透過的に扱える
アプリランチャー — AIエージェントの起動・管理まで
カスタマイズ — Modelfileで宣言的にモデル定義

ローカルAIの「Docker」として、インフラの中心に座りつつある。これからLLM触り始める人も、もう使いこなしてる人も、Ollamaを起点にするのが一番効率いいと思う。

参考リンク

この記事は2026年2月時点の情報です。

8.4 KiB Raw Blame History Unescape Escape