🆓 GPT‑OSS: Le premier modèle gratuit d’OpenAI
OpenAI publie son premier modèle open‑weight librement téléchargeable, utilisable sur Hugging Face ou en local via Ollama.
Date : 2025-08-06
Tags : IA, OpenAI, LLM, Open Source

OpenAI a franchi un tournant majeur : pour la première fois depuis **GPT‑2 en 2019**, l’entreprise libère ses poids de modèle avec **[GPT‑OSS](https://gpt-oss.com/)**. Deux versions sont disponibles, sous licence Apache 2.0, entièrement téléchargeables et personnalisables, marquant un changement radical vers plus d’ouverture et d’autonomie utilisateur.
### Histoire et enjeux de GPT‑OSS
GPT‑OSS représente le premier modèle **open‑weight** d’OpenAI, compatible avec les initiatives open source. Il existe en deux tailles :
- **gpt‑oss‑20b** (~21 milliards de paramètres, 3,6 milliards actifs), fonctionnant sur du matériel ordinaire (~16 Go VRAM ou Apple Silicon) ;
- **gpt‑oss‑120b** (~117 milliards de paramètres, 5,1 milliards actifs), destiné aux stations de travail ou plusieurs GPU (≈ 60–80 Go VRAM).
Ces modèles rivalisent ou dépassent les performances des modèles fermés comme **o4‑mini** ou **o3‑mini** sur les tests de coding, raisonnement, santé, mathématiques et agentic workflows.

### Disponibilité sur Hugging Face
Les deux modèles sont disponibles gratuitement sur **Hugging Face Hub** et intégrés à l’infrastructure des **Inference Providers**, ce qui permet de les appeler via API en JavaScript ou Python avec simplicité.
Un exemple Python :
```python
from openai import OpenAI
client = OpenAI(base_url="https://router.huggingface.co/v1", api_key=os.environ["HF_TOKEN"])
completion = client.chat.completions.create(
model="openai/gpt-oss-120b:cerebras",
messages=[{"role":"user","content":"Expliquer la quantification MXFP4."}]
)
print(completion.choices[0].message)
````
### Exécution en local grâce à Ollama
Proposé depuis quelques jours, **l’app Ollama** permet d’héberger GPT‑OSS sur votre ordinateur personnel ou serveur local :
1. Installer Ollama.
2. Tirer le modèle souhaité :
* `ollama pull gpt-oss:20b`
* `ollama pull gpt-oss:120b`
3. Lancer une session de chat localement :
* `ollama run gpt-oss:20b`
* ou `ollama run gpt-oss:120b`
Ollama installe automatiquement les modèles quantifiés en **MXFP4**, réduisant les exigences matérielles pour un usage fluide en local.
### Cas d’usage, fine‑tuning et intégrations
Les modèles sont livrés avec des capacités agentiques natives : chaîne de raisonnement, exécution Python, navigation web via outils intégrés, appels de fonctions, sorties structurées. Tout cela sans dépendre des services cloud.
Ils supportent le **fine‑tuning** via frameworks comme `trl.SFTTrainer`, LoRA, ou via Hugging Face. Le petit modèle permet des ajustements sur matériel classique ; le grand modèle nécessite des serveurs puissants.
### Pourquoi c’est important pour les développeurs et professionnels
* **Autonomie totale** : fonctionnement hors‑ligne, pas de serveur externe, pas de limitations API.
* **Contrôle complet** sur les données, la latence, les coûts.
* **Innovation** : personnalisation et adaptation à vos besoins (chatbots, agents, outils internes).
* **Éthique et transparence**, avec licence Apache 2.0 et poids accessibles publiquement.
* **Performance** comparable aux modèles propriétaires, sans dépendre de la plateforme OpenAI.
---
**Source : [OpenAI](https://openai.com/fr-FR/index/introducing-gpt-oss/)**