Il MAI-Image-2 di Microsoft entra tra i primi tre generatori di immagini AI.
La seconda versione del modello di immagine interno di Microsoft si posiziona al #3 nella classifica di Arena.ai, dietro solo a Google e OpenAI, e inizia a essere distribuita oggi su Copilot e Bing Image Creator.
Un anno fa, Microsoft generava immagini per Bing e Copilot quasi interamente con i modelli di OpenAI. Giovedì, il team interno dell'azienda ha annunciato MAI-Image-2, un modello di immagine di seconda generazione che ha debuttato al numero tre nella classifica di testo in immagine di Arena.ai, posizionando la tecnologia di Microsoft direttamente dietro a Gemini 3.1 Flash di Google e a GPT Image 1.5 di OpenAI.
L'annuncio proviene dal team di Microsoft AI Superintelligence, il gruppo di ricerca interno che Mustafa Suleyman ha formato nel novembre 2025 e che ora guida a tempo pieno dopo una riorganizzazione della leadership in Microsoft annunciata solo due giorni fa.
Mustafa Suleyman si è ritirato dal suo ruolo più ampio di CEO di Microsoft AI lunedì per concentrarsi esclusivamente su quel team e sulle sue ambizioni di modelli all'avanguardia. MAI-Image-2 è il primo modello a essere reso pubblico da quel cambiamento.
MAI-Image-1, il predecessore, è stato lanciato nell'ottobre 2025 e ha debuttato tra i primi dieci su LMArena, la stessa classifica di preferenze basata su crowd-sourcing, allora conosciuta con un nome leggermente diverso.
All'epoca, era il primo modello di generazione di immagini di Microsoft sviluppato interamente internamente, e l'azienda lo ha integrato in Bing Image Creator e Copilot insieme a DALL-E 3 e GPT-4o. MAI-Image-2 estende quella traiettoria: costruito con input da fotografi, designer e narratori visivi, e focalizzato su tre aree in cui i creativi hanno detto che il divario era più ampio.
La prima è il fotorealismo, la luce naturale, i toni della pelle accurati, gli ambienti con texture fisica e usura. Microsoft afferma che il modello è progettato per ridurre il lavoro di post-produzione che attualmente si trova tra la generazione e l'output utilizzabile.
La seconda è il testo all'interno dell'immagine: MAI-Image-2 è costruito per gestire lettering leggibile all'interno delle scene, da segnaletica a infografiche a layout tipografici, una categoria in cui molti modelli di immagine faticano ancora a produrre caratteri coerenti e accurati.
La terza è la generazione di scene dettagliate: composizioni dense, concetti surreali, inquadrature cinematografiche e il tipo di lavoro immaginativo in cui la sollecitazione precisa e l'alta fedeltà sono più importanti.
L'accesso viene distribuito attraverso più canali. Il MAI Playground, l'ambiente pubblico di test dei modelli di Microsoft su playground.microsoft.ai, ha il modello disponibile ora. MAI-Image-2 sta anche iniziando a essere distribuito su Copilot e Bing Image Creator.
I clienti aziendali possono accedere al modello tramite API oggi, e Microsoft afferma che l'accesso API sarà aperto a qualsiasi sviluppatore tramite Microsoft Foundry "presto", anche se non è stata fornita una data specifica per quella disponibilità più ampia. Un modulo di richiesta per applicazioni commerciali è disponibile per le organizzazioni interessate all'uso della generazione di immagini su larga scala.
L'annuncio nota anche che il cluster di calcolo di nuova generazione GB200 del team è ora operativo, un riferimento all'hardware della architettura Blackwell di NVIDIA. Non sono stati forniti dettagli sulla scala del cluster. L'affermazione sull'infrastruttura sembra posizionare un contesto per i modelli che il team di superintelligenza prevede di rilasciare successivamente, piuttosto che una specifica tecnicamente verificabile.
Il ritmo è notevole. Microsoft ha annunciato il suo primo modello vocale interno (MAI-Voice-1) e la sua prima anteprima del modello di testo (MAI-1-preview) nell'agosto 2025. MAI-Image-1 è seguito nell'ottobre. Ora, cinque mesi dopo, il secondo modello di generazione di immagini si posiziona tra i primi tre nella classifica di immagini più citata basata su crowd-sourcing nel campo.
Questa cadenza suggerisce che il team di superintelligenza si sta muovendo a un ritmo diverso rispetto ai cicli di prodotto per consumatori storicamente più lenti di Microsoft, e lo fa con hardware e infrastruttura che possiede sempre di più piuttosto che affittare da OpenAI.
Altri articoli
Il MAI-Image-2 di Microsoft entra tra i primi tre generatori di immagini AI.
Il MAI-Image-2 di Microsoft debutta al #3 nella classifica text-to-image di Arena.ai, dietro a Google e OpenAI, e inizia a essere distribuito su Copilot.
