Back

如何在自己的硬件上部署 OpenAI 的 GPT-OSS

如何在自己的硬件上部署 OpenAI 的 GPT-OSS

在本地运行 ChatGPT 风格的 AI 模型现在变得切实可行了。OpenAI 的 GPT-OSS 模型现在可以完全在您的个人计算机上运行——无需云订阅,无需互联网依赖,只需纯粹的离线 AI 能力。如果您拥有配备 16GB+ 显存的现代 GPU 或 Apple Silicon Mac,您可以使用 Ollama 在 10 分钟内本地部署 GPT-OSS。

本指南将详细介绍 Windows、macOS 和 Linux 的完整设置过程,向您展示如何安装 Ollama、下载模型,并通过兼容 OpenAI 的 API 将其集成到您的开发工作流程中。

核心要点

  • 在本地部署等效于 ChatGPT 的模型,具备完全隐私保护和离线能力
  • 最低要求:16GB+ 显存 GPU 或配备 16GB+ 统一内存的 Apple Silicon Mac
  • Ollama 提供兼容 OpenAI 的 API,可与现有应用程序无缝集成
  • 性能范围:高端 GPU 上 20-50 token/秒,Apple Silicon 上 10-30 token/秒
  • 通过 Modelfiles 自定义模型行为,无需重新训练

本地 GPT-OSS 部署的硬件要求

在开始安装之前,让我们明确您需要什么硬件来有效部署 GPT-OSS。

GPT-OSS-20B 的最低要求

20B 模型是消费级硬件的实用选择:

  • GPU 选项:16GB+ 显存(RTX 4060 Ti 16GB、RTX 3090、RTX 4090)
  • Apple Silicon:配备 16GB+ 统一内存的 M1/M2/M3 Mac
  • CPU 备选方案:24GB+ 系统内存(性能会显著降低)

不同硬件类型的性能预期

基于实际测试,您可以期待以下性能:

  • 高端 GPU(RTX 4090/6000):20-50 token/秒
  • Apple Silicon(M1 Max/M2):10-30 token/秒
  • 仅 CPU(Intel/AMD):0.5-2 token/秒

120B 模型适用于配备 80GB+ 显存的工作站设置,但对大多数用户来说并不实用。

在您的系统上安装 Ollama

Ollama 作为我们的运行时引擎,处理模型管理并提供兼容 OpenAI 的 API 端点。

Windows 安装

  1. 下载 Ollama Windows 安装程序
  2. 运行安装程序并按照设置向导操作
  3. 通过打开命令提示符并输入以下命令来验证安装:
    ollama --version

macOS 安装

  1. 下载 Ollama macOS 安装程序
  2. 将 Ollama 拖拽到您的应用程序文件夹
  3. 从应用程序启动 Ollama
  4. 在终端中验证:
    ollama --version

Linux 安装

打开您的终端并运行:

curl -fsSL https://ollama.com/install.sh | sh

该脚本会自动检测您的发行版并安装相应的软件包。

下载和运行 GPT-OSS 模型

安装 Ollama 后,您就可以拉取 GPT-OSS 模型了。下载大小约为 12-13GB。

拉取模型

ollama pull gpt-oss:20b

对于更大的模型(如果您有 60GB+ 显存):

ollama pull gpt-oss:120b

开始您的第一次聊天会话

启动交互式聊天:

ollama run gpt-oss:20b

模型将加载到内存中(根据硬件不同需要 10-30 秒)并显示聊天界面。输入您的提示并按回车键。

启用性能指标

要查看时间信息,启用详细模式:

/set verbose

这会在每次查询后显示 token 生成速度和总响应时间。它不会透露模型的内部推理过程。

通过 Ollama 的 API 连接应用程序

Ollama 在 http://localhost:11434/v1 暴露了一个兼容 OpenAI 的 API,使得现有 OpenAI SDK 用户的集成变得简单直接。

Python 集成

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 需要虚拟密钥
)

response = client.chat.completions.create(
    model="gpt-oss:20b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain local AI deployment benefits"}
    ]
)

print(response.choices[0].message.content)

JavaScript 集成

import OpenAI from 'openai';

const openai = new OpenAI({
  baseURL: 'http://localhost:11434/v1',
  apiKey: 'ollama',
});

const completion = await openai.chat.completions.create({
  model: 'gpt-oss:20b',
  messages: [
    { role: 'user', content: 'Write a haiku about local AI' }
  ],
});

console.log(completion.choices[0].message.content);

函数调用支持

GPT-OSS 通过标准的 OpenAI 函数调用格式支持工具使用:

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Get current weather for a location",
        "parameters": {
            "type": "object",
            "properties": {"city": {"type": "string"}},
            "required": ["city"]
        }
    }
}]

response = client.chat.completions.create(
    model="gpt-oss:20b",
    messages=[{"role": "user", "content": "What's the weather in Seattle?"}],
    tools=tools
)

使用 Modelfiles 自定义模型

Ollama 支持通过 Modelfiles 进行轻量级自定义,允许您调整系统提示和参数而无需重新训练。

创建自定义变体

创建一个名为 Modelfile 的文件:

FROM gpt-oss:20b

SYSTEM "You are a code review assistant. Analyze code for bugs, performance issues, and best practices."

PARAMETER temperature 0.7
PARAMETER top_p 0.9

构建您的自定义模型:

ollama create code-reviewer -f Modelfile

运行它:

ollama run code-reviewer

常见参数调整

  • temperature:控制随机性(0.0-1.0)
  • top_p:核采样阈值
  • num_ctx:上下文窗口大小(默认 2048)
  • num_predict:生成的最大 token 数

常见部署问题故障排除

模型无法加载 - 内存不足

如果您看到内存错误:

  1. 关闭其他应用程序以释放 RAM/显存
  2. 通过设置环境变量尝试 CPU 卸载:
    export OLLAMA_NUM_GPU=0  # 强制仅 CPU 模式
  3. 如果使用 120B 模型,考虑使用较小的模型

Windows 上性能缓慢

没有支持 CUDA 的 GPU 的 Windows 用户会遇到仅 CPU 推理。解决方案:

  • 确保您有兼容的 NVIDIA GPU
  • 将 GPU 驱动程序更新到最新版本
  • 尝试 LM Studio 作为替代运行时

API 连接被拒绝

如果应用程序无法连接到 API:

  1. 验证 Ollama 正在运行:ollama serve
  2. 检查端口是否被防火墙阻止
  3. 如果需要,使用 127.0.0.1 而不是 localhost

结论

在本地硬件上部署 GPT-OSS 让您完全控制您的 AI 基础设施。通过 Ollama 处理复杂性,您可以在几分钟内运行等效于 ChatGPT 的离线模型。20B 模型为消费级硬件找到了正确的平衡——足够强大以完成实际工作,又足够轻量以在不错的 GPU 或 Mac 上运行。

兼容 OpenAI 的 API 意味着您现有的代码只需最少的更改即可工作,而 Modelfiles 让您可以自定义行为而无需深入模型训练。无论您是在构建注重隐私的应用程序、在没有 API 成本的情况下进行实验,还是为离线场景做准备,本地部署都将 AI 能力直接掌握在您手中。

立即开始体验本地 AI。下载 Ollama,拉取 gpt-oss:20b 模型,并将其集成到您的项目中。加入 Ollama Discord 分享基准测试、获取部署问题帮助,并发现其他人用本地 AI 构建的内容。

常见问题

GPU 推理通常比 CPU 快 10-100 倍。在 RTX 4090 上,预期 30-50 token/秒。在配备 32GB RAM 的 CPU 上,预期 1-2 token/秒。差异在于等待 5 秒与等待 5 分钟来获得较长的响应。

可以,但每个模型都会消耗其完整的内存分配。运行两个 20B 模型需要 32GB 显存/RAM。使用 `ollama ps` 查看已加载的模型,使用 `ollama rm` 从内存中卸载它们。

GPT-OSS-20B 在大多数任务上的表现类似于 GPT-3.5。它不如 GPT-4 或 Claude 3 强大,但对于编程辅助、写作和一般问答来说完全足够。主要优势是完全隐私保护和无使用限制。

有的。拉取模型后,在 ~/.ollama/models/ 中找到它并复制到另一台机器。或者将一台机器设置为 Ollama 服务器,通过在 API 调用中更改 base_url 来远程连接。

GPT-OSS 模型使用 MXFP4 量化,不适合本地微调。对于自定义训练,考虑较小的模型如 Llama 2 或 Mistral。Ollama Modelfiles 只调整提示和生成参数,不调整模型权重。

Listen to your bugs 🧘, with OpenReplay

See how users use your app and resolve issues fast.
Loved by thousands of developers