OpenClaw 接入本地 Llama 3 大模型完整指南
告别云端 API,教你用 Ollama 在本地运行 Llama 3,并接入 OpenClaw,实现数据完全不出本地的私有化 AI 助手。
发布日期:2026-03-04 | 阅读时间:约 4 分钟
为什么要用本地大模型?
使用 OpenAI / Anthropic 云端 API 的最大问题是数据隐私:你发给 AI 的所有内容都会经过第三方服务器。对于处理企业敏感信息、个人隐私数据的用户,本地大模型是唯一的选择。
本地部署的优势:
- 数据 100% 留在本地,完全离线运行
- 无 API 费用,一次配置永久使用
- 响应速度取决于本地硬件,不受网络影响
硬件需求
| 模型 |
最低内存 |
推荐配置 |
| Llama 3 8B |
16GB RAM |
16GB RAM + Apple M2 |
| Llama 3 70B |
48GB RAM |
Mac Studio M2 Ultra |
| Qwen3 7B |
8GB RAM |
16GB RAM |
第一步:安装 Ollama
Ollama 是目前最简单的本地大模型运行工具:
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# 验证安装
ollama --version
Windows 用户请从 ollama.com 下载安装包。
第二步:下载 Llama 3 模型
# 下载 Llama 3 8B(约 4.7GB)
ollama pull llama3
# 或者下载中文支持更好的 Qwen3
ollama pull qwen3
# 验证模型可用
ollama run llama3 "你好,请介绍一下你自己"
下载完成后,Ollama 会在本地 11434 端口提供 OpenAI 兼容 API。
第三步:配置 OpenClaw 使用本地模型
编辑 OpenClaw 的 .env 文件:
# 注释掉云端 API
# OPENAI_API_KEY=sk-xxx
# ANTHROPIC_API_KEY=sk-ant-xxx
# 启用本地 Ollama
OPENAI_API_BASE=http://localhost:11434/v1
OPENAI_API_KEY=ollama # 任意字符串,Ollama 不校验
OPENAI_MODEL=llama3 # 与 ollama pull 的模型名一致
第四步:验证连接
启动 OpenClaw:
npm start
发送一条测试消息,如果 AI 正常回复,说明本地模型接入成功。
性能优化技巧
Apple Silicon Mac(M1/M2/M3)用户:
Ollama 会自动使用 Metal GPU 加速,Llama 3 8B 的响应速度约为 30-50 tokens/秒,完全满足日常使用。
Windows / Linux 用户:
如果有 NVIDIA GPU,Ollama 会自动使用 CUDA 加速:
# 查看 GPU 是否被识别
ollama run llama3 --verbose
常见问题
Q:模型下载太慢怎么办?
A:Ollama 支持断点续传,中断后重新执行 ollama pull 即可继续。
Q:响应速度太慢?
A:尝试更小的模型(如 llama3:8b-instruct-q4_0),量化版本速度更快但质量略低。
Q:内存不够用?
A:关闭其他大型应用程序,或使用更激进的量化版本。
配置本地大模型有一定技术门槛。如果遇到环境兼容性问题,我们提供专业远程安装服务,工程师会帮你一步到位配置好 Ollama + OpenClaw + 本地模型的完整环境。
遇到问题?预约安装服务