OpenAI frappe fort avec ChatGPT Images 2.0 et ses capacités inédites

Il y a deux ans, demander à un générateur d’images de produire un menu de restaurant mexicain donnait des résultats absurdes (enchuita, churiros, burrto). Des mots fantômes, inventés pixel par pixel par un modèle qui reconstruit sans comprendre. Avec ChatGPT Images 2.0, lancé officiellement le 21 avril, ce temps semble révolu. Le même menu ressort propre, lisible, immédiatement exploitable.

Un modèle qui pense avant de générer

Cela semble possible grâce à l’intégration des capacités de raisonnement de la série O d’OpenAI qui a racheté Hiro. Jusqu’ici, les modèles d’image fonctionnaient en boîte noire.

Une instruction rentrée.
Une image sortie.

Images 2.0 introduit une logique agentique, avant de rendre le moindre pixel, le modèle est en mesure d’effectuer une recherche web en temps réel, d’analyser un document uploadé, de planifier la structure visuelle puis de générer.

La base de connaissance du modèle s’étend jusqu’en décembre 2025, un bond significatif par rapport aux versions précédentes qui se heurtaient rapidement au mur du contexte. Lors d’une démonstration presse, Adele Li, responsable produit chez OpenAI, a importé un fichier PowerPoint de stratégie interne. Le modèle en a extrait les données importantes, identifié les bons logos et produit un poster cohérent sans que l’utilisateur ait à spécifier les différents éléments.

L’architecture sous-jacente a été repensée de zéro selon Boyuan Chen, le Research Lead bien qu’OpenAI ait refusé de confirmer s’il s’agit d’un modèle de diffusion ou autorégressif. Il est simplement décrit comme un GPT pour les images.

ChatGPT Images 2.0 pour Siècle Digital

Quelles sont les compétences d’Images 2.0 ?

Images 2.0 génère jusqu’à huit images depuis un seul prompt tout en maintenant une continuité au niveau du personnage et des objets entre les visuels. Cela ouvre la voie aux mangas, aux livres illustrés ou aux familles d’assets marketing cohérents. Il produit des plans d’architecture, des grilles d’images, des fiches de personnages sous plusieurs angles, des infographies complètes avec texte dense et lisible ainsi que des interfaces utilisateur réalistes, voire des captures d’écran qui imitent des sites existants.

Le rendu typographique a longtemps été le talon d’Achille des modèles d’image. Images 2.0 gère désormais des compositions denses (menus, diagrammes scientifiques, couvertures de magazine) avec une lisibilité professionnelle. La prise en charge du multilingue s’étend au japonais, coréen, chinois, hindi et bengali, avec des caractères non latins rendus de façon cohérente et nativement intégrée dans la mise en page.

Quelle disponibilité pour Images 2.0 ?

Images 2.0 est accessible à tous les utilisateurs ChatGPT et Codex dès aujourd’hui. Les fonctions Thinking (recherche web, multi-images, analyse de documents) sont réservées aux abonnés payants Plus et Pro. Les développeurs API accèdent au modèle gpt-image-2, avec des résolutions jusqu’à 4K en bêta et des formats allant de 3:1 à 1:3.

OpenAI déprécie GPT-Image-1.5 comme modèle par défaut, bien qu’il reste accessible via l’API pour les usages existants. Sur le marché, le principal concurrent direct est Nano Banana 2 de Google (alias Gemini 3 Pro Image), sorti en février 2026, qui proposait déjà du texte dense intégré aux images. Selon les premiers tests, Images 2.0 surpasse Google sur la reproduction d’interfaces et la génération de packs multi-images.