Ollama 是目前最流行的本地大语言模型(LLM)运行和管理的工具。它让下载、运行和体验各种开源模型(如 Llama、Mistral、Gemma 等)变得极其简单。
下面是从安装到使用的完整指南。
一、安装 Ollama
Ollama 支持 macOS、Linux 和 Windows(预览版)。
1. macOS
- 方式一(推荐):直接下载官方安装程序。
- 方式二(Homebrew):
brew install ollama
2. Linux
- 一键安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
3. Windows(预览版)
- 从 官网下载 并运行
.exe
安装程序。
二、验证安装
安装完成后,Ollama 服务会自动启动。打开终端,运行:
ollama --version
如果显示版本号(如 ollama version 0.1.xx
),说明安装成功。
三、基本使用:命令行交互
1. 拉取(下载)模型
Ollama 提供了很多开源模型,使用 pull
命令下载:
# 拉取 Meta 的 Llama 3 模型(8B参数版本)
ollama pull llama3# 拉取 Mistral 模型
ollama pull mistral# 拉取 Google 的 Gemma 模型(2B参数版本)
ollama pull gemma:2b# 拉取 CodeLlama(编程专用模型)
ollama pull codellama
2. 运行模型并聊天
使用 run
命令启动一个交互式聊天会话:
ollama run llama3
之后,你会进入一个对话界面,直接输入你的问题即可:
>>> 请用中文介绍一下你自己。
退出对话:输入 /bye
或按 Ctrl+D
。
3. 直接执行单次命令
你也可以直接向模型提问,而不进入交互模式:
ollama run llama3 "请将'Hello World'翻译成中文"
四、进阶使用
1. 查看已下载的模型
ollama list
2. 删除模型
ollama rm <model_name> # 例如:ollama rm mistral
3. 查看模型信息
ollama show <model_name> --modelfile
五、与 Ollama 交互的几种方式
Ollama 不仅仅是一个命令行工具,它更是一个强大的后端服务(默认在 http://localhost:11434
提供 API)。
方式 1:命令行(CLI)
如上所述,最直接的方式。
方式 2:通过 REST API(用于开发)
Ollama 提供了与 OpenAI 兼容的 API,可以被任何程序调用。
# 1. 首先启动 Ollama 服务(如果未运行)
ollama serve# 2. 使用 curl 与 API 交互
curl http://localhost:11434/api/generate -d '{"model": "llama3","prompt": "为什么天空是蓝色的?","stream": false
}'
方式 3:使用 Open WebUI(强烈推荐!)
这是最佳用户体验的方式。它为你提供了一个类似 ChatGPT 的图形化界面。
安装并运行 Open WebUI:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main
然后访问 http://localhost:3000
,注册账号后即可在漂亮的网页界面中与你的本地模型聊天。
方式 4:在代码中集成(Python 示例)
使用 requests
库调用 Ollama API:
import requests
import jsondef ask_ollama(prompt, model="llama3"):url = "http://localhost:11434/api/generate"data = {"model": model,"prompt": prompt,"stream": False}response = requests.post(url, json=data)return response.json()['response']answer = ask_ollama("请用Python写一个计算斐波那契数列的函数。")
print(answer)
六、常用模型推荐
模型名称 | 命令 | 特点 | 适用场景 |
---|---|---|---|
Llama 3 | ollama pull llama3 |
Meta最新模型,综合能力强 | 通用对话、问答、创作 |
Llama 3 (70B) | ollama pull llama3:70b |
更大、更强,需要更多资源 | 复杂任务、高质量输出 |
Mistral | ollama pull mistral |
小巧而强大,7B参数 | 效率与性能的平衡 |
Gemma | ollama pull gemma |
Google 轻量级模型 | 快速响应、简单任务 |
CodeLlama | ollama pull codellama |
专为编程优化 | 代码生成、解释、调试 |
Phi | ollama pull phi |
微软小模型,极速 | 低资源设备、快速实验 |
Mixtral | ollama pull mixtral |
混合专家模型(MoE) | 接近GPT-3.5的水平 |
七、常见问题解决
-
错误:
Error: connect ECONNREFUSED 127.0.0.1:11434
- 原因:Ollama 服务未运行。
- 解决:在终端运行
ollama serve
启动服务。
-
模型无法下载或下载慢
- 原因:网络连接问题。
- 解决:使用代理或稳定的网络环境。Ollama 暂无国内镜像。
-
如何查看模型运行时的硬件占用?
- 运行模型时,Ollama 会显示资源使用情况。你也可以用系统活动监视器(如
htop
、任务管理器
)查看。
- 运行模型时,Ollama 会显示资源使用情况。你也可以用系统活动监视器(如
-
模型回答速度慢
- 原因:模型参数越大,对硬件要求越高。
- 解决:尝试更小的模型(如
gemma:2b
,phi
),或升级硬件(尤其是 GPU)。
总结
步骤 | 命令 | 说明 |
---|---|---|
1. 安装 | curl -fsSL https://ollama.com/install.sh | sh |
一键安装 |
2. 拉取模型 | ollama pull llama3 |
下载模型 |
3. 运行聊天 | ollama run llama3 |
命令行交互 |
4. 高级界面 | docker run ... open-webui |
使用Web UI |
5. 集成开发 | http://localhost:11434/api/generate |
调用API |
Ollama 极大地简化了本地大模型的运行和管理,让你可以专注于提示词工程和应用开发,而不是复杂的环境配置。现在就动手安装,开始你的本地 AI 之旅吧!