如何在自己的硬件上部署 OpenAI 的 GPT-OSS

使用 Ollama 在本地硬件上部署 GPT-OSS,配置模型参数,并通过兼容 OpenAI 的 API 端点连接应用程序。

Aug 21, 2025 · 3 min read

在本地运行 ChatGPT 风格的 AI 模型现在变得切实可行了。OpenAI 的 GPT-OSS 模型现在可以完全在您的个人计算机上运行——无需云订阅，无需互联网依赖，只需纯粹的离线 AI 能力。如果您拥有配备 16GB+ 显存的现代 GPU 或 Apple Silicon Mac，您可以使用 Ollama 在 10 分钟内本地部署 GPT-OSS。

本指南将详细介绍 Windows、macOS 和 Linux 的完整设置过程，向您展示如何安装 Ollama、下载模型，并通过兼容 OpenAI 的 API 将其集成到您的开发工作流程中。

核心要点

在本地部署等效于 ChatGPT 的模型，具备完全隐私保护和离线能力
最低要求：16GB+ 显存 GPU 或配备 16GB+ 统一内存的 Apple Silicon Mac
Ollama 提供兼容 OpenAI 的 API，可与现有应用程序无缝集成
性能范围：高端 GPU 上 20-50 token/秒，Apple Silicon 上 10-30 token/秒
通过 Modelfiles 自定义模型行为，无需重新训练

本地 GPT-OSS 部署的硬件要求

在开始安装之前，让我们明确您需要什么硬件来有效部署 GPT-OSS。

GPT-OSS-20B 的最低要求

20B 模型是消费级硬件的实用选择：

GPU 选项：16GB+ 显存（RTX 4060 Ti 16GB、RTX 3090、RTX 4090）
Apple Silicon：配备 16GB+ 统一内存的 M1/M2/M3 Mac
CPU 备选方案：24GB+ 系统内存（性能会显著降低）

不同硬件类型的性能预期

基于实际测试，您可以期待以下性能：

高端 GPU（RTX 4090/6000）：20-50 token/秒
Apple Silicon（M1 Max/M2）：10-30 token/秒
仅 CPU（Intel/AMD）：0.5-2 token/秒

120B 模型适用于配备 80GB+ 显存的工作站设置，但对大多数用户来说并不实用。

在您的系统上安装 Ollama

Ollama 作为我们的运行时引擎，处理模型管理并提供兼容 OpenAI 的 API 端点。

Windows 安装

下载 Ollama Windows 安装程序
运行安装程序并按照设置向导操作
通过打开命令提示符并输入以下命令来验证安装：
```
ollama --version
```

macOS 安装

下载 Ollama macOS 安装程序
将 Ollama 拖拽到您的应用程序文件夹
从应用程序启动 Ollama
在终端中验证：
```
ollama --version
```

Linux 安装

打开您的终端并运行：

curl -fsSL https://ollama.com/install.sh | sh

该脚本会自动检测您的发行版并安装相应的软件包。

下载和运行 GPT-OSS 模型

安装 Ollama 后，您就可以拉取 GPT-OSS 模型了。下载大小约为 12-13GB。

拉取模型

ollama pull gpt-oss:20b

对于更大的模型（如果您有 60GB+ 显存）：

ollama pull gpt-oss:120b

开始您的第一次聊天会话

启动交互式聊天：

ollama run gpt-oss:20b

模型将加载到内存中（根据硬件不同需要 10-30 秒）并显示聊天界面。输入您的提示并按回车键。

启用性能指标

要查看时间信息，启用详细模式：

/set verbose

这会在每次查询后显示 token 生成速度和总响应时间。它不会透露模型的内部推理过程。

通过 Ollama 的 API 连接应用程序

Ollama 在 http://localhost:11434/v1 暴露了一个兼容 OpenAI 的 API，使得现有 OpenAI SDK 用户的集成变得简单直接。

Python 集成

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 需要虚拟密钥
)

response = client.chat.completions.create(
    model="gpt-oss:20b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain local AI deployment benefits"}
    ]
)

print(response.choices[0].message.content)

JavaScript 集成

import OpenAI from 'openai';

const openai = new OpenAI({
  baseURL: 'http://localhost:11434/v1',
  apiKey: 'ollama',
});

const completion = await openai.chat.completions.create({
  model: 'gpt-oss:20b',
  messages: [
    { role: 'user', content: 'Write a haiku about local AI' }
  ],
});

console.log(completion.choices[0].message.content);

函数调用支持

GPT-OSS 通过标准的 OpenAI 函数调用格式支持工具使用：

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Get current weather for a location",
        "parameters": {
            "type": "object",
            "properties": {"city": {"type": "string"}},
            "required": ["city"]
        }
    }
}]

response = client.chat.completions.create(
    model="gpt-oss:20b",
    messages=[{"role": "user", "content": "What's the weather in Seattle?"}],
    tools=tools
)

使用 Modelfiles 自定义模型

Ollama 支持通过 Modelfiles 进行轻量级自定义，允许您调整系统提示和参数而无需重新训练。

创建自定义变体

创建一个名为 Modelfile 的文件：

FROM gpt-oss:20b

SYSTEM "You are a code review assistant. Analyze code for bugs, performance issues, and best practices."

PARAMETER temperature 0.7
PARAMETER top_p 0.9

构建您的自定义模型：

ollama create code-reviewer -f Modelfile

运行它：

ollama run code-reviewer

常见参数调整

temperature：控制随机性（0.0-1.0）
top_p：核采样阈值
num_ctx：上下文窗口大小（默认 2048）
num_predict：生成的最大 token 数

常见部署问题故障排除

模型无法加载 - 内存不足

如果您看到内存错误：

关闭其他应用程序以释放 RAM/显存

通过设置环境变量尝试 CPU 卸载：

export OLLAMA_NUM_GPU=0  # 强制仅 CPU 模式

如果使用 120B 模型，考虑使用较小的模型

Windows 上性能缓慢

没有支持 CUDA 的 GPU 的 Windows 用户会遇到仅 CPU 推理。解决方案：

确保您有兼容的 NVIDIA GPU
将 GPU 驱动程序更新到最新版本
尝试 LM Studio 作为替代运行时

API 连接被拒绝

如果应用程序无法连接到 API：

验证 Ollama 正在运行：ollama serve
检查端口是否被防火墙阻止
如果需要，使用 127.0.0.1 而不是 localhost

结论

在本地硬件上部署 GPT-OSS 让您完全控制您的 AI 基础设施。通过 Ollama 处理复杂性，您可以在几分钟内运行等效于 ChatGPT 的离线模型。20B 模型为消费级硬件找到了正确的平衡——足够强大以完成实际工作，又足够轻量以在不错的 GPU 或 Mac 上运行。

兼容 OpenAI 的 API 意味着您现有的代码只需最少的更改即可工作，而 Modelfiles 让您可以自定义行为而无需深入模型训练。无论您是在构建注重隐私的应用程序、在没有 API 成本的情况下进行实验，还是为离线场景做准备，本地部署都将 AI 能力直接掌握在您手中。

立即开始体验本地 AI。下载 Ollama，拉取 gpt-oss:20b 模型，并将其集成到您的项目中。加入 Ollama Discord 分享基准测试、获取部署问题帮助，并发现其他人用本地 AI 构建的内容。

常见问题

GPU 和 CPU 推理之间的实际性能差异是什么？

GPU 推理通常比 CPU 快 10-100 倍。在 RTX 4090 上，预期 30-50 token/秒。在配备 32GB RAM 的 CPU 上，预期 1-2 token/秒。差异在于等待 5 秒与等待 5 分钟来获得较长的响应。

我可以同时运行多个模型吗？

可以，但每个模型都会消耗其完整的内存分配。运行两个 20B 模型需要 32GB 显存/RAM。使用 `ollama ps` 查看已加载的模型，使用 `ollama rm` 从内存中卸载它们。

GPT-OSS 模型与 ChatGPT 或 Claude 相比如何？

GPT-OSS-20B 在大多数任务上的表现类似于 GPT-3.5。它不如 GPT-4 或 Claude 3 强大，但对于编程辅助、写作和一般问答来说完全足够。主要优势是完全隐私保护和无使用限制。

有没有办法在机器之间共享模型？

有的。拉取模型后，在 ~/.ollama/models/ 中找到它并复制到另一台机器。或者将一台机器设置为 Ollama 服务器，通过在 API 调用中更改 base_url 来远程连接。

在本地微调这些模型怎么样？

GPT-OSS 模型使用 MXFP4 量化，不适合本地微调。对于自定义训练，考虑较小的模型如 Llama 2 或 Mistral。Ollama Modelfiles 只调整提示和生成参数，不调整模型权重。

Listen to your bugs 🧘, with OpenReplay

See how users use your app and resolve issues fast.

Self-Host Try Cloud Free

Loved by thousands of developers