Il nuovo modello di immagine di OpenAI ragiona prima di disegnare.
Il nuovo modello ragiona sulla composizione, cerca sul web il contesto, genera fino a otto immagini coerenti da un solo prompt e rende il testo in scritture non latine con un'accuratezza quasi impeccabile. Ha anche conquistato il primo posto nella classifica di Image Arena entro 12 ore dal lancio, con il margine più ampio mai registrato.
Due anni fa, chiedere a ChatGPT di generare un'immagine era come commissionare un poster a un tirocinante privato del sonno con una colla e un trauma cranico. Chiedevate un design pulito e ricevevate "creatività di avanzi" sparsa sull'immagine, più tre nuove parole che sembravano essere state inventate durante un lieve malfunzionamento del software.
Le immagini sembravano generate da AI nel modo che è diventato un linguaggio culturale per l'inquietante: quasi giuste, visibilmente sbagliate e immediatamente riconoscibili come sintetiche.
Il salto è significativo. La resa del testo è stata la debolezza persistente e imbarazzante dei generatori di immagini AI da quando DALL-E ha attirato l'attenzione a gennaio 2021, un modello di cui abbiamo parlato all'epoca come di una curiosità affascinante.
Images 2.0 afferma di avere un'accuratezza di circa il 99% nella resa del testo in qualsiasi lingua e scrittura, inclusi giapponese, coreano, cinese, hindi e bengalese. Se quella cifra si mantiene nei test indipendenti, colma il divario tra "demo AI impressionante" e "strumento che un graphic designer userebbe effettivamente per il lavoro di produzione."
Il cambiamento architettonico che rende il modello diverso, sebbene non solo migliore, è ciò che OpenAI chiama "capacità di ragionamento". Images 2.0 è il primo modello di immagine dell'azienda a integrare la sua architettura di ragionamento O-series.
Prima di generare un pixel, il modello ricerca il prompt, pianifica la composizione, ragiona sulle relazioni spaziali tra gli elementi e può cercare sul web per un contesto in tempo reale.
È, nel quadro di OpenAI, non uno strumento di rendering ma un "partner di pensiero visivo."
Questo è il mio gatto trasformato in un fumetto con ChatGPT.
In pratica, questo si manifesta in due modalità di accesso. La modalità istantanea è disponibile per tutti gli utenti di ChatGPT, inclusi gli account gratuiti, e offre i miglioramenti di qualità fondamentali: testo migliore, editing più nitido, layout più ricchi.
La modalità di pensiero, che abilita la ricerca web, il batching di immagini multiple e la verifica dell'output, è riservata agli abbonati Plus ($20/mese), Pro ($200/mese), Business ed Enterprise.
La distinzione è commercialmente significativa. Le capacità di ragionamento, dove risiede la maggior parte del premio di qualità, sono dietro il paywall. Gli utenti gratuiti ottengono immagini migliori; gli utenti paganti ottengono immagini su cui il modello ha riflettuto.
La capacità di generare più immagini è la caratteristica più probabile per cambiare i flussi di lavoro professionali. Un singolo prompt può ora produrre fino a otto immagini che mantengono continuità di carattere e oggetto nell'insieme.
Ciò significa che un designer può generare una famiglia di asset per i social media, una sequenza di un libro per bambini o una serie di fotogrammi di storyboard da un'unica istruzione, con un'identità visiva coerente in tutto.
In precedenza, ogni immagine doveva essere richiesta singolarmente e assemblata manualmente. Per i team di marketing e i creatori di contenuti, ciò rappresenta una significativa riduzione dell'attrito nella produzione.
L'integrazione in Codex, l'ambiente di codifica di OpenAI, è la mossa strategicamente caricata. Sviluppatori e designer possono ora generare mockup UI, prototipi e asset visivi all'interno dello stesso spazio di lavoro agentico che usano per codice, diapositive e automazione del browser, utilizzando un'unica sottoscrizione a ChatGPT.
Il modello di immagine non è più un prodotto autonomo; è una capacità integrata nella piattaforma più ampia di OpenAI, competendo non solo con Midjourney e Google’s Nano Banana 2 sulla qualità, ma anche con Canva e Figma sull'integrazione del flusso di lavoro.
Le prestazioni di riferimento sono sorprendenti. Entro 12 ore dal lancio, Images 2.0 ha conquistato il primo posto nella classifica di Image Arena in ogni categoria, con un punteggio di 1.512, un vantaggio di +242 punti rispetto al modello in seconda posizione, il Nano Banana 2 di Google. Questo è il vantaggio più grande mai registrato nella classifica.
Per la maggior parte del 2026, OpenAI e Google avevano scambiato la posizione di vertice all'interno di un margine ristretto; Images 2.0 si è distaccato in modo decisivo.
DALL-E 2 e DALL-E 3 saranno deprecati e ritirati il 12 maggio 2026. GPT-Image-1.5, rilasciato a dicembre 2025 come aggiornamento intermedio, rimane accessibile tramite l'API per integrazioni legacy ma non è più il modello predefinito.
OpenAI non ha rivelato l'architettura di Images 2.0, descrivendola solo come un "modello generalista" o "GPT per immagini" e rifiutandosi di specificare se utilizzi un approccio di diffusione, autoregressivo o ibrido. L'identificatore del modello API è gpt-image-2; si prevede che l'API si apra agli sviluppatori all'inizio di maggio 2026.
La tariffazione basata su token è di $8 per milione di token per input di immagine, $2 per input memorizzato e $30 per output di immagine, con costi per immagine che variano tipicamente da $0,04 a $0,35 a seconda della complessità del prompt e della risoluzione. La risoluzione dell'output raggiunge fino a 2K.
Il limite di conoscenza è dicembre 2025, il che introduce un confine pratico: il modello non può rendere accuratamente eventi, persone o prodotti emersi dopo quella data senza integrare la sua conoscenza interna con una ricerca web in tempo reale.
L'architettura di sicurezza del modello include filtraggio dei contenuti, metadati C2PA per la provenienza e ciò che OpenAI ha descritto nel briefing stampa come monitoraggio continuo, un punto su cui l'azienda è stata particolarmente enfatica, data la crescente attenzione normativa sui media sintetici e sull'uso di generatori di immagini AI in deepfake, truffe e immagini non consensuali.
La domanda più consequenziale che solleva Images 2.0 non riguarda la qualità. Il divario tecnico tra immagini generate da AI e immagini create da esseri umani si è ridotto nel corso degli anni; questo modello lo riduce ulteriormente.
La domanda riguarda ciò che accade quando lo strumento non è più una novità ma un'infrastruttura, quando la generazione di immagini è una capacità predefinita di ogni ambiente di codifica, ogni interfaccia di chat e ogni suite di produttività aziendale, e quando la distinzione tra "progettato da una persona" e "generato da un prompt" diventa qualcosa che solo i metadati possono verificare.
OpenAI, da parte sua, sembra scommettere che la risposta sia la scala: più immagini, più velocemente, meglio, più economiche, ovunque. Quando abbiamo coperto per la prima volta DALL-E cinque anni fa, le uscite del modello erano curiosità affascinanti. Ora sono asset di produzione.
L'era in cui le immagini generate da AI erano ovviamente generate da AI è finita. Ciò che verrà dopo dipende da se le protezioni possono tenere il passo con la capacità.
Altri articoli
Il nuovo modello di immagine di OpenAI ragiona prima di disegnare.
Le immagini 2.0 di ChatGPT di OpenAI sono il suo primo modello di immagini con ragionamento: pianifica composizioni, cerca sul web, rende il testo in qualsiasi scrittura.
