Comment déployer GPT-OSS d'OpenAI sur votre propre matériel

Faire fonctionner des modèles d’IA de type ChatGPT localement devient désormais pratique. Les modèles GPT-OSS d’OpenAI peuvent maintenant s’exécuter entièrement sur votre ordinateur personnel—sans abonnements cloud, sans dépendance Internet, juste une capacité d’IA purement hors ligne. Si vous disposez d’un GPU moderne avec 16 Go+ de VRAM ou d’un Mac Apple Silicon, vous pouvez déployer GPT-OSS localement en moins de 10 minutes en utilisant Ollama.
Ce guide vous accompagne dans le processus complet d’installation pour Windows, macOS et Linux, en vous montrant comment installer Ollama, télécharger les modèles et les intégrer dans votre flux de travail de développement via l’API compatible OpenAI.
Points clés à retenir
- Déployez des modèles équivalents à ChatGPT localement avec une confidentialité complète et une capacité hors ligne
- Configuration minimale requise : GPU avec 16 Go+ de VRAM ou Mac Apple Silicon avec 16 Go+ de mémoire unifiée
- Ollama fournit une API compatible OpenAI pour une intégration transparente avec les applications existantes
- Les performances varient de 20 à 50 tokens/seconde sur les GPU haut de gamme à 10-30 tokens/seconde sur Apple Silicon
- Personnalisez le comportement du modèle via les Modelfiles sans réentraînement
Configuration matérielle requise pour le déploiement local de GPT-OSS
Avant de plonger dans l’installation, clarifions le matériel dont vous aurez besoin pour déployer GPT-OSS efficacement.
Configuration minimale requise pour GPT-OSS-20B
Le modèle 20B est votre choix pratique pour le matériel grand public :
- Option GPU : 16 Go+ de VRAM (RTX 4060 Ti 16GB, RTX 3090, RTX 4090)
- Apple Silicon : Mac M1/M2/M3 avec 16 Go+ de mémoire unifiée
- Solution de repli CPU : 24 Go+ de RAM système (attendez-vous à des performances considérablement plus lentes)
Attentes de performance par type de matériel
Basé sur des tests en conditions réelles, voici ce à quoi vous pouvez vous attendre :
- GPU haut de gamme (RTX 4090/6000) : 20-50 tokens/seconde
- Apple Silicon (M1 Max/M2) : 10-30 tokens/seconde
- CPU uniquement (Intel/AMD) : 0,5-2 tokens/seconde
Le modèle 120B existe pour les configurations de stations de travail avec 80 Go+ de VRAM mais n’est pas pratique pour la plupart des utilisateurs.
Installation d’Ollama sur votre système
Ollama sert de moteur d’exécution, gérant la gestion des modèles et fournissant un point de terminaison d’API compatible OpenAI.
Installation Windows
- Téléchargez l’installateur Windows d’Ollama
- Exécutez l’installateur et suivez l’assistant de configuration
- Vérifiez l’installation en ouvrant l’Invite de commandes et en tapant :
ollama --version
Installation macOS
- Téléchargez l’installateur macOS d’Ollama
- Glissez Ollama dans votre dossier Applications
- Lancez Ollama depuis Applications
- Vérifiez dans le Terminal :
ollama --version
Installation Linux
Ouvrez votre terminal et exécutez :
curl -fsSL https://ollama.com/install.sh | sh
Le script détecte automatiquement votre distribution et installe les paquets appropriés.
Téléchargement et exécution des modèles GPT-OSS
Avec Ollama installé, vous êtes prêt à récupérer le modèle GPT-OSS. Le téléchargement fait environ 12-13 Go.
Récupérer le modèle
ollama pull gpt-oss:20b
Pour le modèle plus volumineux (si vous avez 60 Go+ de VRAM) :
ollama pull gpt-oss:120b
Démarrer votre première session de chat
Lancez un chat interactif :
ollama run gpt-oss:20b
Le modèle se chargera en mémoire (prend 10-30 secondes selon le matériel) et présentera une interface de chat. Tapez votre invite et appuyez sur Entrée.
Activer les métriques de performance
Pour les informations de timing, activez le mode verbeux :
/set verbose
Cela affiche la vitesse de génération de tokens et le temps de réponse total après chaque requête. Cela ne révèle pas le raisonnement interne du modèle.
Connexion d’applications via l’API d’Ollama
Ollama expose une API compatible OpenAI à l’adresse http://localhost:11434/v1
, rendant l’intégration simple pour les utilisateurs existants du SDK OpenAI.
Intégration Python
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # Clé factice requise
)
response = client.chat.completions.create(
model="gpt-oss:20b",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain local AI deployment benefits"}
]
)
print(response.choices[0].message.content)
Intégration JavaScript
import OpenAI from 'openai';
const openai = new OpenAI({
baseURL: 'http://localhost:11434/v1',
apiKey: 'ollama',
});
const completion = await openai.chat.completions.create({
model: 'gpt-oss:20b',
messages: [
{ role: 'user', content: 'Write a haiku about local AI' }
],
});
console.log(completion.choices[0].message.content);
Support des appels de fonction
GPT-OSS prend en charge l’utilisation d’outils via le format standard d’appel de fonction OpenAI :
tools = [{
"type": "function",
"function": {
"name": "get_weather",
"description": "Get current weather for a location",
"parameters": {
"type": "object",
"properties": {"city": {"type": "string"}},
"required": ["city"]
}
}
}]
response = client.chat.completions.create(
model="gpt-oss:20b",
messages=[{"role": "user", "content": "What's the weather in Seattle?"}],
tools=tools
)
Personnalisation des modèles avec les Modelfiles
Ollama prend en charge la personnalisation légère via les Modelfiles, vous permettant d’ajuster les invites système et les paramètres sans réentraînement.
Créer une variante personnalisée
Créez un fichier nommé Modelfile
:
FROM gpt-oss:20b
SYSTEM "You are a code review assistant. Analyze code for bugs, performance issues, and best practices."
PARAMETER temperature 0.7
PARAMETER top_p 0.9
Construisez votre modèle personnalisé :
ollama create code-reviewer -f Modelfile
Exécutez-le :
ollama run code-reviewer
Ajustements de paramètres courants
- temperature : Contrôle l’aléatoire (0,0-1,0)
- top_p : Seuil d’échantillonnage nucleus
- num_ctx : Taille de la fenêtre de contexte (par défaut 2048)
- num_predict : Nombre maximum de tokens à générer
Dépannage des problèmes de déploiement courants
Le modèle ne se charge pas - Mémoire insuffisante
Si vous voyez des erreurs de mémoire :
- Fermez les autres applications pour libérer la RAM/VRAM
- Essayez le déchargement CPU en définissant la variable d’environnement :
export OLLAMA_NUM_GPU=0 # Force le mode CPU uniquement
- Considérez le modèle plus petit si vous utilisez le 120B
Performance lente sous Windows
Les utilisateurs Windows sans GPU compatible CUDA subissent une inférence CPU uniquement. Solutions :
- Assurez-vous d’avoir un GPU NVIDIA compatible
- Mettez à jour les pilotes GPU vers la dernière version
- Essayez LM Studio comme runtime alternatif
Connexion API refusée
Si les applications ne peuvent pas se connecter à l’API :
- Vérifiez qu’Ollama fonctionne :
ollama serve
- Vérifiez que le port n’est pas bloqué par le pare-feu
- Utilisez
127.0.0.1
au lieu delocalhost
si nécessaire
Conclusion
Déployer GPT-OSS sur du matériel local vous donne un contrôle complet sur votre infrastructure d’IA. Avec Ollama gérant la complexité, vous pouvez avoir un modèle équivalent à ChatGPT fonctionnant hors ligne en quelques minutes. Le modèle 20B trouve le bon équilibre pour le matériel grand public—assez puissant pour un travail réel, assez léger pour fonctionner sur un GPU décent ou un Mac.
L’API compatible OpenAI signifie que votre code existant fonctionne avec des modifications minimales, tandis que les Modelfiles vous permettent de personnaliser le comportement sans plonger dans l’entraînement de modèles. Que vous construisiez des applications axées sur la confidentialité, expérimentiez sans coûts d’API, ou vous prépariez pour des scénarios hors ligne, le déploiement local met les capacités d’IA directement entre vos mains.
Commencez à expérimenter avec l’IA locale dès aujourd’hui. Téléchargez Ollama, récupérez le modèle gpt-oss:20b, et intégrez-le dans vos projets. Rejoignez le Discord d’Ollama pour partager des benchmarks, obtenir de l’aide avec les problèmes de déploiement, et découvrir ce que d’autres construisent avec l’IA locale.
FAQ
L'inférence GPU fonctionne généralement 10 à 100 fois plus vite que le CPU. Sur une RTX 4090, attendez-vous à 30-50 tokens/seconde. Sur CPU avec 32 Go de RAM, attendez-vous à 1-2 tokens/seconde. La différence, c'est attendre 5 secondes versus 5 minutes pour des réponses plus longues.
Oui, mais chaque modèle consomme sa pleine allocation mémoire. Exécuter deux modèles 20B nécessite 32 Go de VRAM/RAM. Utilisez `ollama ps` pour voir les modèles chargés et `ollama rm` pour les décharger de la mémoire.
GPT-OSS-20B performe de manière similaire à GPT-3.5 pour la plupart des tâches. Il est moins capable que GPT-4 ou Claude 3 mais parfaitement adéquat pour l'assistance au codage, l'écriture et les Q&R générales. L'avantage principal est la confidentialité complète et aucune limite d'utilisation.
Oui. Après avoir récupéré un modèle, trouvez-le dans ~/.ollama/models/ et copiez-le vers une autre machine. Ou configurez une machine comme serveur Ollama et connectez-vous à distance en changeant la base_url dans vos appels d'API.
Les modèles GPT-OSS utilisent la quantification MXFP4 et ne sont pas conçus pour le fine-tuning local. Pour l'entraînement personnalisé, considérez des modèles plus petits comme Llama 2 ou Mistral. Les Modelfiles d'Ollama ajustent seulement les invites et les paramètres de génération, pas les poids du modèle.