Microsoft lancia tre modelli di intelligenza artificiale interni in diretta sfida a OpenAI

Microsoft lancia tre modelli di intelligenza artificiale interni in diretta sfida a OpenAI

      Sei mesi dopo aver rinegoziato il contratto che un tempo gli impediva di perseguire in modo indipendente l'IA di frontiera, Microsoft ha rilasciato tre modelli interni che sfidano direttamente il partner che ha speso 13 miliardi di dollari per coltivare. MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2 sono ora disponibili in Microsoft Foundry e non portano il nome di OpenAI da nessuna parte sull'etichetta.

      I modelli sono il primo output rilasciato pubblicamente dal team di MAI Superintelligence che Mustafa Suleyman, CEO di Microsoft AI, ha formato nel novembre 2025 con la missione dichiarata di perseguire ciò che l'azienda chiama "superintelligenza umanista". In una nota interna di marzo riportata per la prima volta da Business Insider, Suleyman ha scritto che intendeva concentrare tutta la sua energia sulla superintelligenza e fornire modelli di classe mondiale per Microsoft nei prossimi cinque anni. Quell'ambizione ha ora la sua prima prova tangibile.

      MAI-Transcribe-1 è, sulla carta, il più immediatamente dirompente dei tre. Il modello di riconoscimento vocale afferma di avere il tasso di errore di parola più basso su 25 lingue nel benchmark FLEURS, con una media del 3,8%, e Microsoft afferma che supera Whisper-large-v3 di OpenAI in tutte e 25 le lingue, Gemini 3.1 Flash di Google in 22 su 25, e Scribe v2 di ElevenLabs in 15 su 25. Funziona 2,5 volte più velocemente rispetto al precedente servizio di trascrizione Azure Fast di Microsoft ed è prezzato a 0,36 dollari all'ora di audio. Forse la cosa più rivelatrice è il team che lo ha costruito: solo 10 persone.

      MAI-Voice-1 completa il ciclo audio. Il modello di sintesi vocale genera 60 secondi di audio dal suono naturale in meno di un secondo su una singola GPU e supporta la creazione di voci personalizzate da pochi secondi di audio campione. Combinato con MAI-Transcribe-1 e un grande modello linguistico a scelta del cliente, forma un pipeline vocale completa che funziona interamente su infrastruttura Microsoft senza alcuna dipendenza dalla tecnologia di OpenAI.

      MAI-Image-2, il più vecchio dei tre, aveva già debuttato al terzo posto nella classifica di Arena.ai per il testo in immagine a marzo, posizionandosi dietro solo a Gemini 3.1 Flash di Google e GPT Image 1.5 di OpenAI. Il modello è stato sviluppato in collaborazione con fotografi, designer e narratori visivi, e WPP, uno dei più grandi gruppi di marketing al mondo, è tra i primi partner aziendali a costruire con esso su larga scala.

      Il contesto strategico è più importante dei benchmark. Fino alla rinegoziazione di settembre 2025, l'accordo di partnership originale di Microsoft con OpenAI impediva contrattualmente all'azienda di perseguire in modo indipendente lo sviluppo dell'IA generale. Il memorandum d'intesa rivisto ha cambiato fondamentalmente quel calcolo. Microsoft ha mantenuto i diritti di licenza su tutto ciò che OpenAI costruisce fino al 2032, ha ottenuto 250 miliardi di dollari in nuovi impegni di business nel cloud Azure e, cosa cruciale, ha vinto la libertà di costruire modelli concorrenti. Suleyman ha riconosciuto direttamente il cambiamento: la rinegoziazione del contratto, ha detto, ha permesso a Microsoft di perseguire in modo indipendente la propria superintelligenza.

      Il tempismo è deliberato. Jacob Andreou, ex vicepresidente senior di Snap, ha assunto il ruolo di vicepresidente esecutivo di Copilot il 17 marzo, liberando Suleyman dalle responsabilità quotidiane sui prodotti. I modelli MAI sono arrivati appena due settimane dopo. Microsoft ha anche assunto Ali Farhadi, l'ex CEO dell'Allen Institute for AI, per il team di superintelligenza di Suleyman a marzo, un segnale di reclutamento che le ambizioni si estendono ben oltre la trascrizione e la generazione di immagini.

      Per OpenAI, lo sviluppo crea una dinamica scomoda. Microsoft rimane il suo singolo investitore più grande e il suo principale fornitore di infrastruttura cloud, e le due aziende continuano a condividere una piattaforma in Foundry, che ospita sia i modelli di OpenAI che quelli di Microsoft. Ma la spinta di OpenAI verso la monetizzazione commerciale sta accelerando parallelamente, e la relazione sta cominciando a somigliare a due aziende che orbitano nello stesso mercato con prodotti sovrapposti piuttosto che a una partnership con una chiara divisione del lavoro. Il finanziamento di 110 miliardi di dollari di OpenAI a febbraio, sostenuto da SoftBank, Nvidia e Amazon, ha valutato l'azienda in modo indipendente da Microsoft a un livello che rende sempre più anacronistica la cornice originale della partnership.

      Il mercato più ampio dei modelli di IA si sta frammentando lungo linee simili. Il finanziamento di 30 miliardi di dollari di Anthropic a una valutazione di 380 miliardi di dollari l'ha stabilito come una forza terza credibile nell'IA aziendale, con un fatturato annuale di 14 miliardi di dollari. Google continua a iterare rapidamente su Gemini. L'era in cui OpenAI era l'unico attore nel campo delle capacità di IA di frontiera, e Microsoft era contenta di essere il suo canale di distribuzione esclusivo, è definitivamente finita.

      Microsoft Foundry, la piattaforma precedentemente nota come Azure AI Foundry e prima ancora Azure AI Studio (il secondo rebranding in dodici mesi), ora serve sviluppatori in più di 80.000 aziende, comprese l'80% delle aziende Fortune 500. Questo vantaggio distributivo è ciò che rende la famiglia di modelli MAI strategicamente significativa: Microsoft non ha bisogno di battere OpenAI su ogni benchmark per spostare la spesa aziendale verso modelli interni. Deve essere abbastanza competitiva affinché i clienti scelgano l'opzione integrata rispetto all'alternativa di terze parti, una dinamica che l'anno passato di consolidamento dell'industria dell'IA ha reso sempre più plausibile.

      Suleyman ha detto che ci vorrà un altro anno o due prima che il team di superintelligenza produca modelli linguistici di classe frontiera. Ciò che è arrivato questa settimana è la base: un toolkit multimodale che dà a Microsoft la propria voce, orecchie e occhi indipendenti da OpenAI. La partnership da 13 miliardi di dollari non sta finendo. Ma il presupposto su cui è stata costruita, che Microsoft avesse bisogno di OpenAI per competere nell'IA, viene smantellato silenziosamente un rilascio di modello alla volta.

Altri articoli

Anche gli astronauti in viaggio verso la luna incontrano problemi con Outlook Anche gli astronauti in viaggio verso la luna incontrano problemi con Outlook Gli astronauti dell'Artemis II hanno incontrato un errore familiare di Outlook durante il volo, costringendo il controllo della missione a intervenire e risolvere il problema. Il malfunzionamento dimostra come anche le missioni nello spazio profondo dipendano ancora da software quotidiani. Il generatore musicale AI di ElevenLabs trasforma le tue idee in canzoni di 3 minuti. Il generatore musicale AI di ElevenLabs trasforma le tue idee in canzoni di 3 minuti. A pochi passi dal lancio dell'AI musicale di Google, ElevenLabs presenta ElevenMusic, un'app iOS di testo in canzone che segnala l'ambizione chiara dell'azienda di andare ben oltre il cloning vocale. L'IA sta facendo il lavoro sporco per le compagnie assicurative, e sta peggiorando. L'IA sta facendo il lavoro sporco per le compagnie assicurative, e sta peggiorando. L'IA sta ora decidendo se la tua richiesta di risarcimento assicurativo viene approvata, e i tassi di negazione stanno aumentando rapidamente. Ecco cosa sta succedendo e perché l'opinione del tuo medico potrebbe non contare più. Non trattenere il respiro per i fuochi d'artificio dell'aggiornamento del display sui prossimi Galaxy Z pieghevoli di Samsung. Non trattenere il respiro per i fuochi d'artificio dell'aggiornamento del display sui prossimi Galaxy Z pieghevoli di Samsung. L'aggiornamento del display del Galaxy Z Fold 8 ha saltato una generazione, poiché la versione attuale è già troppo buona. Youtube trasmetterà Coachella in 4K per la prima volta, e ci sarà anche un feed girato con Pixel. Youtube trasmetterà Coachella in 4K per la prima volta, e ci sarà anche un feed girato con Pixel. YouTube trasmetterà tutto il Coachella 2026 gratuitamente a partire dal 10 aprile, con sette palchi simultanei, streaming in 4K per la prima volta, un feed verticale ripreso con Pixel e Multiview per guardare quattro palchi contemporaneamente. Per soli 3 dollari, il bastone magico di Google salverà il tuo PC invecchiato. Per soli 3 dollari, il bastone magico di Google salverà il tuo PC invecchiato. Google e Back Market hanno lanciato un kit USB ChromeOS Flex da 3 dollari per salvare i vecchi PC Windows 10. Include il sistema operativo gratuito, guide e video tutorial — ed è una soluzione molto più economica rispetto all'acquisto di un nuovo laptop.

Microsoft lancia tre modelli di intelligenza artificiale interni in diretta sfida a OpenAI

Microsoft ha rilasciato MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2 tramite Foundry, costruiti dal team di superintelligenza di Mustafa Suleyman. I modelli competono direttamente con OpenAI.