Как развернуть GPT-OSS от OpenAI на собственном оборудовании

Развёртывание GPT-OSS на локальном оборудовании с помощью Ollama, настройка параметров модели и подключение приложений через совместимый с OpenAI API эндпоинт.

OpenReplay Team

Aug 21, 2025 · 5 min read

Как развернуть GPT-OSS от OpenAI на собственном оборудовании

Запуск ИИ-моделей в стиле ChatGPT локально стал практически осуществимым. Модели GPT-OSS от OpenAI теперь могут работать полностью на вашем персональном компьютере — без облачных подписок, без зависимости от интернета, просто чистая офлайн-возможность ИИ. Если у вас есть современная видеокарта с 16ГБ+ VRAM или Mac на Apple Silicon, вы можете развернуть GPT-OSS локально менее чем за 10 минут, используя Ollama.

Это руководство проведет через полный процесс настройки для Windows, macOS и Linux, показывая, как установить Ollama, загрузить модели и интегрировать их в ваш рабочий процесс разработки через совместимый с OpenAI API.

Ключевые выводы

Развертывание эквивалентных ChatGPT моделей локально с полной приватностью и офлайн-возможностями
Минимальные требования: видеокарта с 16ГБ+ VRAM или Mac на Apple Silicon с 16ГБ+ объединенной памяти
Ollama предоставляет совместимый с OpenAI API для бесшовной интеграции с существующими приложениями
Производительность варьируется от 20-50 токенов/секунду на высокопроизводительных видеокартах до 10-30 токенов/секунду на Apple Silicon
Настройка поведения модели через Modelfiles без переобучения

Аппаратные требования для локального развертывания GPT-OSS

Прежде чем приступить к установке, давайте определим, какое оборудование вам понадобится для эффективного развертывания GPT-OSS.

Минимальные требования для GPT-OSS-20B

Модель 20B — ваш практичный выбор для потребительского оборудования:

Вариант с видеокартой: 16ГБ+ VRAM (RTX 4060 Ti 16GB, RTX 3090, RTX 4090)
Apple Silicon: Mac M1/M2/M3 с 16ГБ+ объединенной памяти
Резервный вариант с CPU: 24ГБ+ системной RAM (ожидайте значительно более медленную производительность)

Ожидания по производительности в зависимости от типа оборудования

На основе реальных тестов, вот что вы можете ожидать:

Высокопроизводительная видеокарта (RTX 4090/6000): 20-50 токенов/секунду
Apple Silicon (M1 Max/M2): 10-30 токенов/секунду
Только CPU (Intel/AMD): 0.5-2 токена/секунду

Модель 120B существует для рабочих станций с 80ГБ+ VRAM, но не практична для большинства пользователей.

Установка Ollama на вашу систему

Ollama служит нашим движком выполнения, обрабатывая управление моделями и предоставляя совместимую с OpenAI конечную точку API.

Установка на Windows

Скачайте установщик Ollama для Windows
Запустите установщик и следуйте мастеру настройки
Проверьте установку, открыв командную строку и введя:
```
ollama --version
```

Установка на macOS

Скачайте установщик Ollama для macOS
Перетащите Ollama в папку “Программы”
Запустите Ollama из папки “Программы”
Проверьте в Терминале:
```
ollama --version
```

Установка на Linux

Откройте терминал и выполните:

curl -fsSL https://ollama.com/install.sh | sh

Скрипт автоматически определяет ваш дистрибутив и устанавливает соответствующие пакеты.

Загрузка и запуск моделей GPT-OSS

С установленной Ollama вы готовы загрузить модель GPT-OSS. Размер загрузки составляет примерно 12-13ГБ.

Загрузка модели

ollama pull gpt-oss:20b

Для более крупной модели (если у вас есть 60ГБ+ VRAM):

ollama pull gpt-oss:120b

Запуск первой сессии чата

Запустите интерактивный чат:

ollama run gpt-oss:20b

Модель загрузится в память (занимает 10-30 секунд в зависимости от оборудования) и представит интерфейс чата. Введите ваш запрос и нажмите Enter.

Включение метрик производительности

Для информации о времени включите подробный режим:

/set verbose

Это показывает скорость генерации токенов и общее время ответа после каждого запроса. Это не раскрывает внутренние рассуждения модели.

Подключение приложений через API Ollama

Ollama предоставляет совместимый с OpenAI API по адресу http://localhost:11434/v1, что делает интеграцию простой для существующих пользователей OpenAI SDK.

Интеграция с Python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # Требуется фиктивный ключ
)

response = client.chat.completions.create(
    model="gpt-oss:20b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain local AI deployment benefits"}
    ]
)

print(response.choices[0].message.content)

Интеграция с JavaScript

import OpenAI from 'openai';

const openai = new OpenAI({
  baseURL: 'http://localhost:11434/v1',
  apiKey: 'ollama',
});

const completion = await openai.chat.completions.create({
  model: 'gpt-oss:20b',
  messages: [
    { role: 'user', content: 'Write a haiku about local AI' }
  ],
});

console.log(completion.choices[0].message.content);

Поддержка вызова функций

GPT-OSS поддерживает использование инструментов через стандартный формат вызова функций OpenAI:

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Get current weather for a location",
        "parameters": {
            "type": "object",
            "properties": {"city": {"type": "string"}},
            "required": ["city"]
        }
    }
}]

response = client.chat.completions.create(
    model="gpt-oss:20b",
    messages=[{"role": "user", "content": "What's the weather in Seattle?"}],
    tools=tools
)

Настройка моделей с помощью Modelfiles

Ollama поддерживает легкую настройку через Modelfiles, позволяя вам корректировать системные промпты и параметры без переобучения.

Создание пользовательского варианта

Создайте файл с именем Modelfile:

FROM gpt-oss:20b

SYSTEM "You are a code review assistant. Analyze code for bugs, performance issues, and best practices."

PARAMETER temperature 0.7
PARAMETER top_p 0.9

Соберите вашу пользовательскую модель:

ollama create code-reviewer -f Modelfile

Запустите её:

ollama run code-reviewer

Общие корректировки параметров

temperature: Контролирует случайность (0.0-1.0)
top_p: Порог nucleus sampling
num_ctx: Размер окна контекста (по умолчанию 2048)
num_predict: Максимальное количество токенов для генерации

Устранение распространенных проблем развертывания

Модель не загружается - нехватка памяти

Если вы видите ошибки памяти:

Закройте другие приложения для освобождения RAM/VRAM
Попробуйте разгрузку на CPU, установив переменную окружения:
```
export OLLAMA_NUM_GPU=0  # Принудительно использует только CPU
```
Рассмотрите меньшую модель, если используете 120B

Медленная производительность на Windows

Пользователи Windows без CUDA-совместимых видеокарт испытывают вывод только на CPU. Решения:

Убедитесь, что у вас есть совместимая видеокарта NVIDIA
Обновите драйверы видеокарты до последней версии
Попробуйте LM Studio как альтернативную среду выполнения

Отказ в подключении к API

Если приложения не могут подключиться к API:

Проверьте, что Ollama запущена: ollama serve
Убедитесь, что порт не заблокирован брандмауэром
Используйте 127.0.0.1 вместо localhost, если необходимо

Заключение

Развертывание GPT-OSS на локальном оборудовании дает вам полный контроль над вашей ИИ-инфраструктурой. С Ollama, обрабатывающей сложности, вы можете запустить эквивалентную ChatGPT модель офлайн за считанные минуты. Модель 20B находит правильный баланс для потребительского оборудования — достаточно мощная для реальной работы, достаточно легкая для работы на приличной видеокарте или Mac.

Совместимый с OpenAI API означает, что ваш существующий код работает с минимальными изменениями, в то время как Modelfiles позволяют настраивать поведение без погружения в обучение моделей. Независимо от того, создаете ли вы приложения, ориентированные на приватность, экспериментируете без затрат на API или готовитесь к офлайн-сценариям, локальное развертывание помещает возможности ИИ прямо в ваши руки.

Начните экспериментировать с локальным ИИ сегодня. Скачайте Ollama, загрузите модель gpt-oss:20b и интегрируйте её в ваши проекты. Присоединяйтесь к Discord Ollama, чтобы делиться бенчмарками, получать помощь с проблемами развертывания и узнавать, что другие создают с локальным ИИ.

Часто задаваемые вопросы

Какая реальная разница в производительности между выводом на GPU и CPU?

Вывод на GPU обычно работает в 10-100 раз быстрее, чем на CPU. На RTX 4090 ожидайте 30-50 токенов/секунду. На CPU с 32ГБ RAM ожидайте 1-2 токена/секунду. Разница заключается в ожидании 5 секунд против 5 минут для более длинных ответов.

Могу ли я запускать несколько моделей одновременно?

Да, но каждая модель потребляет свое полное выделение памяти. Запуск двух моделей 20B требует 32ГБ VRAM/RAM. Используйте `ollama ps` для просмотра загруженных моделей и `ollama rm` для их выгрузки из памяти.

Как модели GPT-OSS сравниваются с ChatGPT или Claude?

GPT-OSS-20B работает аналогично GPT-3.5 для большинства задач. Она менее способна, чем GPT-4 или Claude 3, но вполне адекватна для помощи в программировании, написании и общих вопросах-ответах. Основное преимущество — полная приватность и отсутствие ограничений на использование.

Есть ли способ делиться моделями между машинами?

Да. После загрузки модели найдите её в ~/.ollama/models/ и скопируйте на другую машину. Или настройте одну машину как сервер Ollama и подключайтесь удаленно, изменив base_url в ваших вызовах API.

А как насчет тонкой настройки этих моделей локально?

Модели GPT-OSS используют квантизацию MXFP4 и не предназначены для локальной тонкой настройки. Для пользовательского обучения рассмотрите меньшие модели, такие как Llama 2 или Mistral. Modelfiles Ollama только корректируют промпты и параметры генерации, а не веса модели.

Listen to your bugs 🧘, with OpenReplay

See how users use your app and resolve issues fast.

Self-Host Try Cloud Free

Loved by thousands of developers