Il MAI-Image-2 di Microsoft entra tra i primi tre generatori di immagini AI.

      La seconda versione del modello di immagine interno di Microsoft si posiziona al #3 nella classifica di Arena.ai, dietro solo a Google e OpenAI, e inizia a essere distribuita oggi su Copilot e Bing Image Creator.

      Un anno fa, Microsoft generava immagini per Bing e Copilot quasi interamente con i modelli di OpenAI. Giovedì, il team interno dell'azienda ha annunciato MAI-Image-2, un modello di immagine di seconda generazione che ha debuttato al numero tre nella classifica di testo in immagine di Arena.ai, posizionando la tecnologia di Microsoft direttamente dietro a Gemini 3.1 Flash di Google e a GPT Image 1.5 di OpenAI.

      L'annuncio proviene dal team di Microsoft AI Superintelligence, il gruppo di ricerca interno che Mustafa Suleyman ha formato nel novembre 2025 e che ora guida a tempo pieno dopo una riorganizzazione della leadership in Microsoft annunciata solo due giorni fa.

      Mustafa Suleyman si è ritirato dal suo ruolo più ampio di CEO di Microsoft AI lunedì per concentrarsi esclusivamente su quel team e sulle sue ambizioni di modelli all'avanguardia. MAI-Image-2 è il primo modello a essere reso pubblico da quel cambiamento.

      MAI-Image-1, il predecessore, è stato lanciato nell'ottobre 2025 e ha debuttato tra i primi dieci su LMArena, la stessa classifica di preferenze basata su crowd-sourcing, allora conosciuta con un nome leggermente diverso.

      All'epoca, era il primo modello di generazione di immagini di Microsoft sviluppato interamente internamente, e l'azienda lo ha integrato in Bing Image Creator e Copilot insieme a DALL-E 3 e GPT-4o. MAI-Image-2 estende quella traiettoria: costruito con input da fotografi, designer e narratori visivi, e focalizzato su tre aree in cui i creativi hanno detto che il divario era più ampio.

      La prima è il fotorealismo, la luce naturale, i toni della pelle accurati, gli ambienti con texture fisica e usura. Microsoft afferma che il modello è progettato per ridurre il lavoro di post-produzione che attualmente si trova tra la generazione e l'output utilizzabile.

      La seconda è il testo all'interno dell'immagine: MAI-Image-2 è costruito per gestire lettering leggibile all'interno delle scene, da segnaletica a infografiche a layout tipografici, una categoria in cui molti modelli di immagine faticano ancora a produrre caratteri coerenti e accurati.

      La terza è la generazione di scene dettagliate: composizioni dense, concetti surreali, inquadrature cinematografiche e il tipo di lavoro immaginativo in cui la sollecitazione precisa e l'alta fedeltà sono più importanti.

      L'accesso viene distribuito attraverso più canali. Il MAI Playground, l'ambiente pubblico di test dei modelli di Microsoft su playground.microsoft.ai, ha il modello disponibile ora. MAI-Image-2 sta anche iniziando a essere distribuito su Copilot e Bing Image Creator.

      I clienti aziendali possono accedere al modello tramite API oggi, e Microsoft afferma che l'accesso API sarà aperto a qualsiasi sviluppatore tramite Microsoft Foundry "presto", anche se non è stata fornita una data specifica per quella disponibilità più ampia. Un modulo di richiesta per applicazioni commerciali è disponibile per le organizzazioni interessate all'uso della generazione di immagini su larga scala.

      L'annuncio nota anche che il cluster di calcolo di nuova generazione GB200 del team è ora operativo, un riferimento all'hardware della architettura Blackwell di NVIDIA. Non sono stati forniti dettagli sulla scala del cluster. L'affermazione sull'infrastruttura sembra posizionare un contesto per i modelli che il team di superintelligenza prevede di rilasciare successivamente, piuttosto che una specifica tecnicamente verificabile.

      Il ritmo è notevole. Microsoft ha annunciato il suo primo modello vocale interno (MAI-Voice-1) e la sua prima anteprima del modello di testo (MAI-1-preview) nell'agosto 2025. MAI-Image-1 è seguito nell'ottobre. Ora, cinque mesi dopo, il secondo modello di generazione di immagini si posiziona tra i primi tre nella classifica di immagini più citata basata su crowd-sourcing nel campo.

      Questa cadenza suggerisce che il team di superintelligenza si sta muovendo a un ritmo diverso rispetto ai cicli di prodotto per consumatori storicamente più lenti di Microsoft, e lo fa con hardware e infrastruttura che possiede sempre di più piuttosto che affittare da OpenAI.

Altri articoli

TACEO lancia la sua rete di esecuzione privata La startup austriaca TACEO ha lanciato il TACEO Network, uno strato di esecuzione privato già attivo nella verifica della 'prova di umanità' di World ID per 18 milioni di utenti.

Bluesky raccoglie 100 milioni di dollari in un round di finanziamento di Serie B mentre il nuovo CEO assume il comando Bluesky ha rivelato un round di finanziamento di Serie B da 100 milioni di dollari guidato da Bain Capital Crypto, un round che si è chiuso lo scorso aprile, e un nuovo CEO assume il comando.

Le auto a idrogeno non hanno mai preso piede, ma potrebbero produrre droni a lungo raggio di nuova generazione. L'idrogeno non ha mai funzionato nelle auto, ma i ricercatori in Norvegia hanno costruito un drone che funziona con esso, sostituendo le batterie con una cella a combustibile per gestire lavori a lungo raggio come le ispezioni delle linee elettriche.

Stai ottenendo una VPN gratuita in Firefox, ecco perché è importante Firefox sta aggiungendo una VPN gratuita integrata con 50GB di dati mensili, con l'obiettivo di risolvere i problemi di fiducia legati agli strumenti di privacy gratuiti mantenendo la protezione all'interno del browser.

Uber e Rivian siglano un accordo per robotaxi da 1,25 miliardi di dollari Uber investirà fino a 1,25 miliardi di dollari in Rivian entro il 2031, puntando a una flotta di fino a 50.000 robotaxi autonomi R2 in 25 città.

Il browser Vivaldi ottiene una modalità immersiva personalizzabile che vorrei fosse offerta da Safari o Chrome. Vivaldi 7.9 offre una modalità a schermo intero più flessibile e un miglior posizionamento delle schede. È un passo avanti rispetto a Chrome e Safari, soprattutto se desideri avere il controllo sulla tua esperienza di navigazione.

Il MAI-Image-2 di Microsoft entra tra i primi tre generatori di immagini AI.

Il MAI-Image-2 di Microsoft debutta al #3 nella classifica text-to-image di Arena.ai, dietro a Google e OpenAI, e inizia a essere distribuito su Copilot.