All checks were successful
Deploy Docusaurus Site / deploy (push) Successful in 29s
213 lines
8.0 KiB
Markdown
213 lines
8.0 KiB
Markdown
---
|
||
sidebar_position: 2
|
||
title: Ollama がローカルAIのハブとしてめちゃ最強な件
|
||
---
|
||
|
||
# Ollama がローカルAIのハブとしてめちゃ最強な件
|
||
|
||
## はじめに
|
||
|
||
ローカルLLM触ってる人なら一度は使ったことあるよね、**Ollama**。最初は「ローカルでLLM動かすツール」ってだけだったんだけど、2026年に入ってからの進化がヤバい。気づいたらローカルAIエコシステム全体の「ハブ」になってた。
|
||
|
||
しかも最近は `ollama launch` で **Claude Code** とか **Codex CLI**、**OpenCode**、**OpenClaw** みたいなAIコーディングエージェントまで一発起動できるようになった。
|
||
|
||
```bash
|
||
ollama launch claude-code
|
||
ollama launch codex
|
||
ollama launch opencode
|
||
ollama launch openclaw
|
||
```
|
||
|
||
もうLLM動かすだけのツールじゃなくて、AIツール全般のランチャー兼パッケージマネージャーなんだよね。
|
||
|
||
この記事では、Ollamaがどうやって「ローカルAIのDocker」みたいな存在に進化したのかをまとめてみる。
|
||
|
||
## Ollama の現在地
|
||
|
||
### モデル配信プラットフォーム
|
||
|
||
```bash
|
||
ollama pull qwen3:30b-a3b
|
||
ollama pull gpt-oss:120b
|
||
```
|
||
|
||
HuggingFaceのGGUFも直接いける:
|
||
|
||
```bash
|
||
ollama pull hf.co/mmnga-o/Qwen3-Swallow-30B-A3B-RL-v0.2-gguf:Q5_K_M
|
||
```
|
||
|
||
量子化の選択、ダウンロード、キャッシュ管理まで全部やってくれる。Docker Hubからイメージ引っ張ってくるのと同じノリ。
|
||
|
||
### クラウドモデルも使える
|
||
|
||
Ollama 0.17からは `cloud` タグでクラウドモデルも扱えるようになった:
|
||
|
||
| モデル | 説明 |
|
||
|--------|------|
|
||
| `kimi-k2.5:cloud` | マルチモーダル推論 |
|
||
| `minimax-m2.5:cloud` | 高速コーディング |
|
||
| `glm-5:cloud` | 推論・コード生成 |
|
||
|
||
ローカルとクラウドを **同じインターフェース** で扱えるのがめちゃ強い。アプリ側はOllamaのAPI叩くだけで、裏がローカルGPUなのかクラウドなのか意識しなくていい。
|
||
|
||
### OpenAI互換API
|
||
|
||
```bash
|
||
curl http://localhost:11434/v1/chat/completions \
|
||
-H "Content-Type: application/json" \
|
||
-d '{"model": "qwen3:30b-a3b", "messages": [{"role": "user", "content": "Hello"}]}'
|
||
```
|
||
|
||
OpenAI SDKがそのまま使える。既存アプリの `base_url` を `localhost:11434/v1` に変えるだけでローカルLLMに切り替わる。これが地味にデカい。
|
||
|
||
### アプリランチャー
|
||
|
||
Ollama 0.17の目玉。`ollama launch` でAIアプリを直接起動できる:
|
||
|
||
```bash
|
||
ollama launch openclaw
|
||
```
|
||
|
||
これだけで:
|
||
1. 未インストールなら自動インストール
|
||
2. セキュリティ通知の表示
|
||
3. モデル選択画面
|
||
4. Gateway起動 + TUI表示
|
||
|
||
完全に **AIエージェントのパッケージマネージャー** になってる。
|
||
|
||
## Ollama 0.17.0 で何が変わったのか
|
||
|
||
2026年2月にリリースされた v0.17.0 の主な変更点をまとめておく。
|
||
|
||
### `ollama launch` の本格化
|
||
|
||
これが一番デカい。OpenClawをはじめ、Claude Code、Codex CLI、OpenCodeなどのAIエージェント・コーディングツールを `ollama launch` 一発で起動できるようになった。インストールからモデル選択、セキュリティ通知まで全部Ollamaが面倒見てくれる。
|
||
|
||
### クラウドモデル対応
|
||
|
||
Kimi K2.5、GLM-5、MiniMax M2.5 などのクラウドモデルが `cloud` タグで利用可能に。クラウドモデル使用時はWeb検索プラグインも自動でインストールされる。つまりOpenClawからそのままネット検索できるようになる。
|
||
|
||
### トークナイザーの性能改善
|
||
|
||
地味だけど大事な改善。トークナイザーのパフォーマンスが向上した。
|
||
|
||
### コンテキスト長の自動調整
|
||
|
||
macOS/Windowsアプリで、利用可能なVRAMに基づいてデフォルトのコンテキスト長を自動設定するようになった。メモリが足りなくて落ちるみたいな事故が減るはず。
|
||
|
||
:::tip 豆知識
|
||
OpenClawなどのエージェントでは最低64kトークンのコンテキスト長が推奨されてる。ローカルモデル使う場合はVRAMに余裕を持たせよう。
|
||
:::
|
||
|
||
## なぜ Ollama が勝ってるのか
|
||
|
||
### 1. 圧倒的にシンプル
|
||
|
||
```bash
|
||
# インストール
|
||
curl -fsSL https://ollama.com/install.sh | sh
|
||
|
||
# モデル動かす
|
||
ollama run qwen3:30b-a3b
|
||
```
|
||
|
||
2コマンドで動く。llama.cppのビルドもPythonの仮想環境もいらない。この手軽さは正義。
|
||
|
||
### 2. Modelfile でカスタマイズ
|
||
|
||
```dockerfile
|
||
FROM hf.co/mmnga-o/Qwen3-Swallow-30B-A3B-RL-v0.2-gguf:Q5_K_M
|
||
|
||
TEMPLATE """
|
||
{{- if .System }}<|im_start|>system
|
||
{{ .System }}<|im_end|>
|
||
{{ end }}
|
||
{{- range .Messages }}
|
||
{{- if eq .Role "user" }}<|im_start|>user
|
||
{{ .Content }}<|im_end|>
|
||
{{- else if eq .Role "assistant" }}<|im_start|>assistant
|
||
{{ .Content }}<|im_end|>
|
||
{{- end }}
|
||
{{- end }}<|im_start|>assistant
|
||
"""
|
||
|
||
PARAMETER stop <|im_end|>
|
||
PARAMETER num_ctx 32768
|
||
```
|
||
|
||
Dockerfileっぽい宣言的な設定。テンプレートもパラメータもサクッとカスタマイズできる。
|
||
|
||
### 3. エコシステムがすごい
|
||
|
||
Ollamaをバックエンドに使うツールがめちゃくちゃ増えてる:
|
||
|
||
- **OpenClaw** — AIエージェント(メッセージング統合)
|
||
- **Open WebUI** — ChatGPT風のWeb UI
|
||
- **Continue** — VSCode/JetBrains向けAIコーディング
|
||
- **Aider** — ターミナルベースのAIコーディング
|
||
- **LangChain / LlamaIndex** — LLMアプリフレームワーク
|
||
|
||
全部 `OLLAMA_HOST=localhost:11434` で繋がる。統一感がすごい。
|
||
|
||
### 4. マルチGPU・リモートサーバー対応
|
||
|
||
```bash
|
||
# リモートサーバーのOllamaを使う
|
||
OLLAMA_HOST=http://dgx-spark:11434 ollama run gpt-oss:120b
|
||
```
|
||
|
||
自宅のGPUサーバーにOllama立てて、手元のノートPCから叩く。これだけでプライベートLLM APIサーバーの出来上がり。最高。
|
||
|
||
## Docker との類似性
|
||
|
||
Ollamaの進化を見てると、Dockerの歴史と重なる部分が多いんだよね:
|
||
|
||
| Docker | Ollama |
|
||
|--------|--------|
|
||
| Docker Hub | Ollama Library |
|
||
| `docker pull` | `ollama pull` |
|
||
| `docker run` | `ollama run` |
|
||
| Dockerfile | Modelfile |
|
||
| Docker Compose | `ollama launch`(アプリ起動) |
|
||
| コンテナレジストリ | HuggingFace GGUF連携 |
|
||
|
||
Dockerが「アプリのデプロイを民主化」したように、Ollamaは「LLMの利用を民主化」してる。この対比、結構しっくりくると思う。
|
||
|
||
## 実際の運用例
|
||
|
||
自分の環境だと、NVIDIA DGX Spark上でOllama動かして複数モデル管理してる:
|
||
|
||
```
|
||
qwen3-swallow-30b 21 GB ← 日本語特化
|
||
gpt-oss-swallow-20b 16 GB ← バイリンガル
|
||
qwen3:30b-a3b 18 GB ← 汎用
|
||
gpt-oss:120b 65 GB ← 大規模推論
|
||
```
|
||
|
||
これをOpenClawのエージェントバックエンドにして、Discord経由で日常的に使ってる。モデルの追加・削除・切り替えがコマンド一発で済むの、ほんと楽。
|
||
|
||
## まとめ
|
||
|
||
Ollamaはもう「ローカルLLM動かすツール」じゃない。
|
||
|
||
- **モデル配信** — pull一発でモデル取得
|
||
- **API標準化** — OpenAI互換で既存エコシステムと接続
|
||
- **クラウド統合** — ローカルとクラウドを透過的に扱える
|
||
- **アプリランチャー** — AIエージェントの起動・管理まで
|
||
- **カスタマイズ** — Modelfileで宣言的にモデル定義
|
||
|
||
ローカルAIの「Docker」として、インフラの中心に座りつつある。これからLLM触り始める人も、もう使いこなしてる人も、Ollamaを起点にするのが一番効率いいと思う。
|
||
|
||
## 参考リンク
|
||
|
||
- [Ollama 公式サイト](https://ollama.com/)
|
||
- [Ollama 0.17 リリースノート](https://github.com/ollama/ollama/releases/tag/v0.17.0-rc1)
|
||
- [OpenClaw × Ollama チュートリアル](https://ollama.com/blog/openclaw-tutorial)
|
||
- [Ollama Modelfile リファレンス](https://github.com/ollama/ollama/blob/main/docs/modelfile.md)
|
||
|
||
---
|
||
|
||
*この記事は2026年2月時点の情報です。*
|