Back

Comment déployer GPT-OSS d'OpenAI sur votre propre matériel

Comment déployer GPT-OSS d'OpenAI sur votre propre matériel

Faire fonctionner des modèles d’IA de type ChatGPT localement devient désormais pratique. Les modèles GPT-OSS d’OpenAI peuvent maintenant s’exécuter entièrement sur votre ordinateur personnel—sans abonnements cloud, sans dépendance Internet, juste une capacité d’IA purement hors ligne. Si vous disposez d’un GPU moderne avec 16 Go+ de VRAM ou d’un Mac Apple Silicon, vous pouvez déployer GPT-OSS localement en moins de 10 minutes en utilisant Ollama.

Ce guide vous accompagne dans le processus complet d’installation pour Windows, macOS et Linux, en vous montrant comment installer Ollama, télécharger les modèles et les intégrer dans votre flux de travail de développement via l’API compatible OpenAI.

Points clés à retenir

  • Déployez des modèles équivalents à ChatGPT localement avec une confidentialité complète et une capacité hors ligne
  • Configuration minimale requise : GPU avec 16 Go+ de VRAM ou Mac Apple Silicon avec 16 Go+ de mémoire unifiée
  • Ollama fournit une API compatible OpenAI pour une intégration transparente avec les applications existantes
  • Les performances varient de 20 à 50 tokens/seconde sur les GPU haut de gamme à 10-30 tokens/seconde sur Apple Silicon
  • Personnalisez le comportement du modèle via les Modelfiles sans réentraînement

Configuration matérielle requise pour le déploiement local de GPT-OSS

Avant de plonger dans l’installation, clarifions le matériel dont vous aurez besoin pour déployer GPT-OSS efficacement.

Configuration minimale requise pour GPT-OSS-20B

Le modèle 20B est votre choix pratique pour le matériel grand public :

  • Option GPU : 16 Go+ de VRAM (RTX 4060 Ti 16GB, RTX 3090, RTX 4090)
  • Apple Silicon : Mac M1/M2/M3 avec 16 Go+ de mémoire unifiée
  • Solution de repli CPU : 24 Go+ de RAM système (attendez-vous à des performances considérablement plus lentes)

Attentes de performance par type de matériel

Basé sur des tests en conditions réelles, voici ce à quoi vous pouvez vous attendre :

  • GPU haut de gamme (RTX 4090/6000) : 20-50 tokens/seconde
  • Apple Silicon (M1 Max/M2) : 10-30 tokens/seconde
  • CPU uniquement (Intel/AMD) : 0,5-2 tokens/seconde

Le modèle 120B existe pour les configurations de stations de travail avec 80 Go+ de VRAM mais n’est pas pratique pour la plupart des utilisateurs.

Installation d’Ollama sur votre système

Ollama sert de moteur d’exécution, gérant la gestion des modèles et fournissant un point de terminaison d’API compatible OpenAI.

Installation Windows

  1. Téléchargez l’installateur Windows d’Ollama
  2. Exécutez l’installateur et suivez l’assistant de configuration
  3. Vérifiez l’installation en ouvrant l’Invite de commandes et en tapant :
    ollama --version

Installation macOS

  1. Téléchargez l’installateur macOS d’Ollama
  2. Glissez Ollama dans votre dossier Applications
  3. Lancez Ollama depuis Applications
  4. Vérifiez dans le Terminal :
    ollama --version

Installation Linux

Ouvrez votre terminal et exécutez :

curl -fsSL https://ollama.com/install.sh | sh

Le script détecte automatiquement votre distribution et installe les paquets appropriés.

Téléchargement et exécution des modèles GPT-OSS

Avec Ollama installé, vous êtes prêt à récupérer le modèle GPT-OSS. Le téléchargement fait environ 12-13 Go.

Récupérer le modèle

ollama pull gpt-oss:20b

Pour le modèle plus volumineux (si vous avez 60 Go+ de VRAM) :

ollama pull gpt-oss:120b

Démarrer votre première session de chat

Lancez un chat interactif :

ollama run gpt-oss:20b

Le modèle se chargera en mémoire (prend 10-30 secondes selon le matériel) et présentera une interface de chat. Tapez votre invite et appuyez sur Entrée.

Activer les métriques de performance

Pour les informations de timing, activez le mode verbeux :

/set verbose

Cela affiche la vitesse de génération de tokens et le temps de réponse total après chaque requête. Cela ne révèle pas le raisonnement interne du modèle.

Connexion d’applications via l’API d’Ollama

Ollama expose une API compatible OpenAI à l’adresse http://localhost:11434/v1, rendant l’intégration simple pour les utilisateurs existants du SDK OpenAI.

Intégration Python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # Clé factice requise
)

response = client.chat.completions.create(
    model="gpt-oss:20b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain local AI deployment benefits"}
    ]
)

print(response.choices[0].message.content)

Intégration JavaScript

import OpenAI from 'openai';

const openai = new OpenAI({
  baseURL: 'http://localhost:11434/v1',
  apiKey: 'ollama',
});

const completion = await openai.chat.completions.create({
  model: 'gpt-oss:20b',
  messages: [
    { role: 'user', content: 'Write a haiku about local AI' }
  ],
});

console.log(completion.choices[0].message.content);

Support des appels de fonction

GPT-OSS prend en charge l’utilisation d’outils via le format standard d’appel de fonction OpenAI :

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Get current weather for a location",
        "parameters": {
            "type": "object",
            "properties": {"city": {"type": "string"}},
            "required": ["city"]
        }
    }
}]

response = client.chat.completions.create(
    model="gpt-oss:20b",
    messages=[{"role": "user", "content": "What's the weather in Seattle?"}],
    tools=tools
)

Personnalisation des modèles avec les Modelfiles

Ollama prend en charge la personnalisation légère via les Modelfiles, vous permettant d’ajuster les invites système et les paramètres sans réentraînement.

Créer une variante personnalisée

Créez un fichier nommé Modelfile :

FROM gpt-oss:20b

SYSTEM "You are a code review assistant. Analyze code for bugs, performance issues, and best practices."

PARAMETER temperature 0.7
PARAMETER top_p 0.9

Construisez votre modèle personnalisé :

ollama create code-reviewer -f Modelfile

Exécutez-le :

ollama run code-reviewer

Ajustements de paramètres courants

  • temperature : Contrôle l’aléatoire (0,0-1,0)
  • top_p : Seuil d’échantillonnage nucleus
  • num_ctx : Taille de la fenêtre de contexte (par défaut 2048)
  • num_predict : Nombre maximum de tokens à générer

Dépannage des problèmes de déploiement courants

Le modèle ne se charge pas - Mémoire insuffisante

Si vous voyez des erreurs de mémoire :

  1. Fermez les autres applications pour libérer la RAM/VRAM
  2. Essayez le déchargement CPU en définissant la variable d’environnement :
    export OLLAMA_NUM_GPU=0  # Force le mode CPU uniquement
  3. Considérez le modèle plus petit si vous utilisez le 120B

Performance lente sous Windows

Les utilisateurs Windows sans GPU compatible CUDA subissent une inférence CPU uniquement. Solutions :

  • Assurez-vous d’avoir un GPU NVIDIA compatible
  • Mettez à jour les pilotes GPU vers la dernière version
  • Essayez LM Studio comme runtime alternatif

Connexion API refusée

Si les applications ne peuvent pas se connecter à l’API :

  1. Vérifiez qu’Ollama fonctionne : ollama serve
  2. Vérifiez que le port n’est pas bloqué par le pare-feu
  3. Utilisez 127.0.0.1 au lieu de localhost si nécessaire

Conclusion

Déployer GPT-OSS sur du matériel local vous donne un contrôle complet sur votre infrastructure d’IA. Avec Ollama gérant la complexité, vous pouvez avoir un modèle équivalent à ChatGPT fonctionnant hors ligne en quelques minutes. Le modèle 20B trouve le bon équilibre pour le matériel grand public—assez puissant pour un travail réel, assez léger pour fonctionner sur un GPU décent ou un Mac.

L’API compatible OpenAI signifie que votre code existant fonctionne avec des modifications minimales, tandis que les Modelfiles vous permettent de personnaliser le comportement sans plonger dans l’entraînement de modèles. Que vous construisiez des applications axées sur la confidentialité, expérimentiez sans coûts d’API, ou vous prépariez pour des scénarios hors ligne, le déploiement local met les capacités d’IA directement entre vos mains.

Commencez à expérimenter avec l’IA locale dès aujourd’hui. Téléchargez Ollama, récupérez le modèle gpt-oss:20b, et intégrez-le dans vos projets. Rejoignez le Discord d’Ollama pour partager des benchmarks, obtenir de l’aide avec les problèmes de déploiement, et découvrir ce que d’autres construisent avec l’IA locale.

FAQ

L'inférence GPU fonctionne généralement 10 à 100 fois plus vite que le CPU. Sur une RTX 4090, attendez-vous à 30-50 tokens/seconde. Sur CPU avec 32 Go de RAM, attendez-vous à 1-2 tokens/seconde. La différence, c'est attendre 5 secondes versus 5 minutes pour des réponses plus longues.

Oui, mais chaque modèle consomme sa pleine allocation mémoire. Exécuter deux modèles 20B nécessite 32 Go de VRAM/RAM. Utilisez `ollama ps` pour voir les modèles chargés et `ollama rm` pour les décharger de la mémoire.

GPT-OSS-20B performe de manière similaire à GPT-3.5 pour la plupart des tâches. Il est moins capable que GPT-4 ou Claude 3 mais parfaitement adéquat pour l'assistance au codage, l'écriture et les Q&R générales. L'avantage principal est la confidentialité complète et aucune limite d'utilisation.

Oui. Après avoir récupéré un modèle, trouvez-le dans ~/.ollama/models/ et copiez-le vers une autre machine. Ou configurez une machine comme serveur Ollama et connectez-vous à distance en changeant la base_url dans vos appels d'API.

Les modèles GPT-OSS utilisent la quantification MXFP4 et ne sont pas conçus pour le fine-tuning local. Pour l'entraînement personnalisé, considérez des modèles plus petits comme Llama 2 ou Mistral. Les Modelfiles d'Ollama ajustent seulement les invites et les paramètres de génération, pas les poids du modèle.

Listen to your bugs 🧘, with OpenReplay

See how users use your app and resolve issues fast.
Loved by thousands of developers