12k
All articles

Как развернуть GPT-OSS от OpenAI на собственном оборудовании

Развёртывание GPT-OSS на локальном оборудовании с помощью Ollama, настройка параметров модели и подключение приложений через совместимый с OpenAI API эндпоинт.

OpenReplay Team
OpenReplay Team
Как развернуть GPT-OSS от OpenAI на собственном оборудовании

Запуск ИИ-моделей в стиле ChatGPT локально стал практически осуществимым. Модели GPT-OSS от OpenAI теперь могут работать полностью на вашем персональном компьютере — без облачных подписок, без зависимости от интернета, просто чистая офлайн-возможность ИИ. Если у вас есть современная видеокарта с 16ГБ+ VRAM или Mac на Apple Silicon, вы можете развернуть GPT-OSS локально менее чем за 10 минут, используя Ollama.

Это руководство проведет через полный процесс настройки для Windows, macOS и Linux, показывая, как установить Ollama, загрузить модели и интегрировать их в ваш рабочий процесс разработки через совместимый с OpenAI API.

Ключевые выводы

  • Развертывание эквивалентных ChatGPT моделей локально с полной приватностью и офлайн-возможностями
  • Минимальные требования: видеокарта с 16ГБ+ VRAM или Mac на Apple Silicon с 16ГБ+ объединенной памяти
  • Ollama предоставляет совместимый с OpenAI API для бесшовной интеграции с существующими приложениями
  • Производительность варьируется от 20-50 токенов/секунду на высокопроизводительных видеокартах до 10-30 токенов/секунду на Apple Silicon
  • Настройка поведения модели через Modelfiles без переобучения

Аппаратные требования для локального развертывания GPT-OSS

Прежде чем приступить к установке, давайте определим, какое оборудование вам понадобится для эффективного развертывания GPT-OSS.

Минимальные требования для GPT-OSS-20B

Модель 20B — ваш практичный выбор для потребительского оборудования:

  • Вариант с видеокартой: 16ГБ+ VRAM (RTX 4060 Ti 16GB, RTX 3090, RTX 4090)
  • Apple Silicon: Mac M1/M2/M3 с 16ГБ+ объединенной памяти
  • Резервный вариант с CPU: 24ГБ+ системной RAM (ожидайте значительно более медленную производительность)

Ожидания по производительности в зависимости от типа оборудования

На основе реальных тестов, вот что вы можете ожидать:

  • Высокопроизводительная видеокарта (RTX 4090/6000): 20-50 токенов/секунду
  • Apple Silicon (M1 Max/M2): 10-30 токенов/секунду
  • Только CPU (Intel/AMD): 0.5-2 токена/секунду

Модель 120B существует для рабочих станций с 80ГБ+ VRAM, но не практична для большинства пользователей.

Установка Ollama на вашу систему

Ollama служит нашим движком выполнения, обрабатывая управление моделями и предоставляя совместимую с OpenAI конечную точку API.

Установка на Windows

  1. Скачайте установщик Ollama для Windows
  2. Запустите установщик и следуйте мастеру настройки
  3. Проверьте установку, открыв командную строку и введя:
    ollama --version

Установка на macOS

  1. Скачайте установщик Ollama для macOS
  2. Перетащите Ollama в папку “Программы”
  3. Запустите Ollama из папки “Программы”
  4. Проверьте в Терминале:
    ollama --version

Установка на Linux

Откройте терминал и выполните:

curl -fsSL https://ollama.com/install.sh | sh

Скрипт автоматически определяет ваш дистрибутив и устанавливает соответствующие пакеты.

Загрузка и запуск моделей GPT-OSS

С установленной Ollama вы готовы загрузить модель GPT-OSS. Размер загрузки составляет примерно 12-13ГБ.

Загрузка модели

ollama pull gpt-oss:20b

Для более крупной модели (если у вас есть 60ГБ+ VRAM):

ollama pull gpt-oss:120b

Запуск первой сессии чата

Запустите интерактивный чат:

ollama run gpt-oss:20b

Модель загрузится в память (занимает 10-30 секунд в зависимости от оборудования) и представит интерфейс чата. Введите ваш запрос и нажмите Enter.

Включение метрик производительности

Для информации о времени включите подробный режим:

/set verbose

Это показывает скорость генерации токенов и общее время ответа после каждого запроса. Это не раскрывает внутренние рассуждения модели.

Подключение приложений через API Ollama

Ollama предоставляет совместимый с OpenAI API по адресу http://localhost:11434/v1, что делает интеграцию простой для существующих пользователей OpenAI SDK.

Интеграция с Python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # Требуется фиктивный ключ
)

response = client.chat.completions.create(
    model="gpt-oss:20b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain local AI deployment benefits"}
    ]
)

print(response.choices[0].message.content)

Интеграция с JavaScript

import OpenAI from 'openai';

const openai = new OpenAI({
  baseURL: 'http://localhost:11434/v1',
  apiKey: 'ollama',
});

const completion = await openai.chat.completions.create({
  model: 'gpt-oss:20b',
  messages: [
    { role: 'user', content: 'Write a haiku about local AI' }
  ],
});

console.log(completion.choices[0].message.content);

Поддержка вызова функций

GPT-OSS поддерживает использование инструментов через стандартный формат вызова функций OpenAI:

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Get current weather for a location",
        "parameters": {
            "type": "object",
            "properties": {"city": {"type": "string"}},
            "required": ["city"]
        }
    }
}]

response = client.chat.completions.create(
    model="gpt-oss:20b",
    messages=[{"role": "user", "content": "What's the weather in Seattle?"}],
    tools=tools
)

Настройка моделей с помощью Modelfiles

Ollama поддерживает легкую настройку через Modelfiles, позволяя вам корректировать системные промпты и параметры без переобучения.

Создание пользовательского варианта

Создайте файл с именем Modelfile:

FROM gpt-oss:20b

SYSTEM "You are a code review assistant. Analyze code for bugs, performance issues, and best practices."

PARAMETER temperature 0.7
PARAMETER top_p 0.9

Соберите вашу пользовательскую модель:

ollama create code-reviewer -f Modelfile

Запустите её:

ollama run code-reviewer

Общие корректировки параметров

  • temperature: Контролирует случайность (0.0-1.0)
  • top_p: Порог nucleus sampling
  • num_ctx: Размер окна контекста (по умолчанию 2048)
  • num_predict: Максимальное количество токенов для генерации

Устранение распространенных проблем развертывания

Модель не загружается - нехватка памяти

Если вы видите ошибки памяти:

  1. Закройте другие приложения для освобождения RAM/VRAM
  2. Попробуйте разгрузку на CPU, установив переменную окружения:
    export OLLAMA_NUM_GPU=0  # Принудительно использует только CPU
  3. Рассмотрите меньшую модель, если используете 120B

Медленная производительность на Windows

Пользователи Windows без CUDA-совместимых видеокарт испытывают вывод только на CPU. Решения:

  • Убедитесь, что у вас есть совместимая видеокарта NVIDIA
  • Обновите драйверы видеокарты до последней версии
  • Попробуйте LM Studio как альтернативную среду выполнения

Отказ в подключении к API

Если приложения не могут подключиться к API:

  1. Проверьте, что Ollama запущена: ollama serve
  2. Убедитесь, что порт не заблокирован брандмауэром
  3. Используйте 127.0.0.1 вместо localhost, если необходимо

Заключение

Развертывание GPT-OSS на локальном оборудовании дает вам полный контроль над вашей ИИ-инфраструктурой. С Ollama, обрабатывающей сложности, вы можете запустить эквивалентную ChatGPT модель офлайн за считанные минуты. Модель 20B находит правильный баланс для потребительского оборудования — достаточно мощная для реальной работы, достаточно легкая для работы на приличной видеокарте или Mac.

Совместимый с OpenAI API означает, что ваш существующий код работает с минимальными изменениями, в то время как Modelfiles позволяют настраивать поведение без погружения в обучение моделей. Независимо от того, создаете ли вы приложения, ориентированные на приватность, экспериментируете без затрат на API или готовитесь к офлайн-сценариям, локальное развертывание помещает возможности ИИ прямо в ваши руки.

Начните экспериментировать с локальным ИИ сегодня. Скачайте Ollama, загрузите модель gpt-oss:20b и интегрируйте её в ваши проекты. Присоединяйтесь к Discord Ollama, чтобы делиться бенчмарками, получать помощь с проблемами развертывания и узнавать, что другие создают с локальным ИИ.

Часто задаваемые вопросы

Какая реальная разница в производительности между выводом на GPU и CPU?

Вывод на GPU обычно работает в 10-100 раз быстрее, чем на CPU. На RTX 4090 ожидайте 30-50 токенов/секунду. На CPU с 32ГБ RAM ожидайте 1-2 токена/секунду. Разница заключается в ожидании 5 секунд против 5 минут для более длинных ответов.

Могу ли я запускать несколько моделей одновременно?

Да, но каждая модель потребляет свое полное выделение памяти. Запуск двух моделей 20B требует 32ГБ VRAM/RAM. Используйте `ollama ps` для просмотра загруженных моделей и `ollama rm` для их выгрузки из памяти.

Как модели GPT-OSS сравниваются с ChatGPT или Claude?

GPT-OSS-20B работает аналогично GPT-3.5 для большинства задач. Она менее способна, чем GPT-4 или Claude 3, но вполне адекватна для помощи в программировании, написании и общих вопросах-ответах. Основное преимущество — полная приватность и отсутствие ограничений на использование.

Есть ли способ делиться моделями между машинами?

Да. После загрузки модели найдите её в ~/.ollama/models/ и скопируйте на другую машину. Или настройте одну машину как сервер Ollama и подключайтесь удаленно, изменив base_url в ваших вызовах API.

А как насчет тонкой настройки этих моделей локально?

Модели GPT-OSS используют квантизацию MXFP4 и не предназначены для локальной тонкой настройки. Для пользовательского обучения рассмотрите меньшие модели, такие как Llama 2 или Mistral. Modelfiles Ollama только корректируют промпты и параметры генерации, а не веса модели.

Listen to your bugs 🧘, with OpenReplay

See how users use your app and resolve issues fast.
Loved by thousands of developers

We use cookies to improve your experience. By using our site, you accept cookies.