OpenClaw 接入本地 Llama 3 大模型完整指南

告别云端 API，教你用 Ollama 在本地运行 Llama 3，并接入 OpenClaw，实现数据完全不出本地的私有化 AI 助手。

发布日期：2026-03-04 | 阅读时间：约 4 分钟

为什么要用本地大模型？

使用 OpenAI / Anthropic 云端 API 的最大问题是数据隐私：你发给 AI 的所有内容都会经过第三方服务器。对于处理企业敏感信息、个人隐私数据的用户，本地大模型是唯一的选择。

本地部署的优势：

数据 100% 留在本地，完全离线运行
无 API 费用，一次配置永久使用
响应速度取决于本地硬件，不受网络影响

硬件需求

模型	最低内存	推荐配置
Llama 3 8B	16GB RAM	16GB RAM + Apple M2
Llama 3 70B	48GB RAM	Mac Studio M2 Ultra
Qwen3 7B	8GB RAM	16GB RAM

第一步：安装 Ollama

Ollama 是目前最简单的本地大模型运行工具：

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

Windows 用户请从 ollama.com 下载安装包。

第二步：下载 Llama 3 模型

# 下载 Llama 3 8B（约 4.7GB）
ollama pull llama3

# 或者下载中文支持更好的 Qwen3
ollama pull qwen3

# 验证模型可用
ollama run llama3 "你好，请介绍一下你自己"

下载完成后，Ollama 会在本地 11434 端口提供 OpenAI 兼容 API。

第三步：配置 OpenClaw 使用本地模型

编辑 OpenClaw 的 .env 文件：

# 注释掉云端 API
# OPENAI_API_KEY=sk-xxx
# ANTHROPIC_API_KEY=sk-ant-xxx

# 启用本地 Ollama
OPENAI_API_BASE=http://localhost:11434/v1
OPENAI_API_KEY=ollama  # 任意字符串，Ollama 不校验
OPENAI_MODEL=llama3    # 与 ollama pull 的模型名一致

第四步：验证连接

启动 OpenClaw：

npm start

发送一条测试消息，如果 AI 正常回复，说明本地模型接入成功。

性能优化技巧

Apple Silicon Mac（M1/M2/M3）用户：

Ollama 会自动使用 Metal GPU 加速，Llama 3 8B 的响应速度约为 30-50 tokens/秒，完全满足日常使用。

Windows / Linux 用户：

如果有 NVIDIA GPU，Ollama 会自动使用 CUDA 加速：

# 查看 GPU 是否被识别
ollama run llama3 --verbose

常见问题

Q：模型下载太慢怎么办？ A：Ollama 支持断点续传，中断后重新执行 ollama pull 即可继续。

Q：响应速度太慢？ A：尝试更小的模型（如 llama3:8b-instruct-q4_0），量化版本速度更快但质量略低。

Q：内存不够用？ A：关闭其他大型应用程序，或使用更激进的量化版本。

配置本地大模型有一定技术门槛。如果遇到环境兼容性问题，我们提供专业远程安装服务，工程师会帮你一步到位配置好 Ollama + OpenClaw + 本地模型的完整环境。

想做类似场景？预约需求沟通