Fable 5 vs GPT 5.5: il modello di Anthropic ha dominato ogni benchmark, poi il governo lo ha ritirato.

Fable 5 vs GPT 5.5: il modello di Anthropic ha dominato ogni benchmark, poi il governo lo ha ritirato.

      TL;DRFable 5 ha superato GPT 5.5 in ogni principale benchmark, ma è stato ritirato dal governo degli Stati Uniti dopo tre giorni, rendendo GPT 5.5 il modello migliore che puoi effettivamente utilizzare.

      Fable 5 di Anthropic ha trascorso tre giorni come il modello di intelligenza artificiale più capace mai rilasciato al pubblico. Ha dominato la classifica del Chatbot Arena, ha schiacciato GPT 5.5 di OpenAI nei benchmark di codifica con margini a doppia cifra e ha dato accesso ai sottoscrittori paganti al ragionamento di classe Mythos per la prima volta. Poi, il 12 giugno, il governo degli Stati Uniti ha ordinato ad Anthropic di spegnerlo.

      Il risultato è un momento strano nell'IA. Il modello che dimostrabilmente supera tutto il resto sul mercato è quello che non puoi usare. GPT 5.5, lanciato da OpenAI a fine aprile con il nome in codice interno "Spud", è ora il modello più forte disponibile per sviluppatori e consumatori, non perché sia migliorato, ma perché il suo unico vero concorrente è stato rimosso.

      Il divario nei benchmark tra i due non è vicino. Su SWE-Bench Pro, che misura la capacità di un modello di risolvere problemi reali di ingegneria del software attraverso codici open-source, Fable 5 ha ottenuto l'80,3% rispetto al 58,6% di GPT 5.5, una differenza di 22 punti. Su SWE-Bench Verified, un sottoinsieme curato dello stesso benchmark, Fable 5 ha raggiunto il 95,0%.

      I benchmark di codifica raccontano una storia simile. Fable 5 guida il Code Arena con 98 punti Elo, ottenendo 1.665 contro i 1.501 di GPT 5.5. Su FrontierCode Diamond, un benchmark progettato per testare i compiti di programmazione più difficili, Fable 5 ha ottenuto il 29,3% mentre GPT 5.5 ha gestito il 5,7%, e nella classifica più ampia del Chatbot Arena, Fable 5 si trova al primo posto con GPT 5.5 al quarto.

      GPT 5.5 ha un'area di forza. Su Terminal-Bench 2.0, che valuta i compiti di codifica interattivi basati su terminal piuttosto che la risoluzione di problemi a livello di codice, GPT 5.5 ha ottenuto l'82,7% rispetto al circa 88,0% di Fable 5. Il divario è più ristretto lì, e il benchmark testa un'abilità diversa, eseguendo comandi e debug in tempo reale piuttosto che leggere e correggere grandi repository.

      I prezzi favoriscono anche OpenAI. GPT 5.5 costa $5 per milione di token in input e $30 per milione di token in output, la metà del prezzo di Fable 5, che è rispettivamente $10 e $50. Per gli sviluppatori che gestiscono applicazioni ad alto volume dove la differenza di prestazioni è meno critica rispetto al costo, GPT 5.5 è la scelta più pratica anche quando entrambi i modelli sono disponibili.

      Fable 5 è stato lanciato il 9 giugno come il primo modello di classe Mythos di Anthropic reso disponibile al pubblico generale. Ha offerto una finestra di contesto di un milione di token e 128.000 token in output. Anthropic lo ha reso disponibile senza costi aggiuntivi per i sottoscrittori Pro, Max, Team e Enterprise fino al 22 giugno, una finestra promozionale che la direttiva governativa ha interrotto dopo solo tre giorni.

      La chiusura è avvenuta tramite una direttiva di controllo delle esportazioni emessa il 12 giugno. Il governo ha citato una vulnerabilità di jailbreak come motivo per ritirare sia Fable 5 che l'intera famiglia di modelli Mythos 5. Anthropic ha contestato la gravità del riscontro, affermando che le vulnerabilità identificate sono minori, pubblicamente note e raggiungibili da GPT 5.5 senza alcuna tecnica di bypass, mentre rapporti indicano che il CEO di Amazon, Andy Jassy, ha svolto un ruolo nel provocare la revisione del governo.

      La conseguenza pratica è che gli sviluppatori e i ricercatori che stavano valutando Fable 5 per un uso in produzione hanno dovuto tornare a GPT 5.5 o ai modelli precedenti Opus di Anthropic. Per i flussi di lavoro ad alta intensità di codifica, il downgrade è significativo. Il divario di 22 punti su SWE-Bench Pro rappresenta la differenza tra un modello che può risolvere quattro problemi software reali su cinque e uno che gestisce circa tre su cinque.

      Se Fable 5 tornerà dipende dalle negoziazioni di Anthropic con il governo riguardo alla classificazione del controllo delle esportazioni. L'azienda ha sostenuto pubblicamente che la direttiva è sproporzionata e che le vulnerabilità citate non giustificano il ritiro completo del modello. Fino a quando quella controversia non sarà risolta, GPT 5.5 detiene il primo posto per default, il miglior modello disponibile non perché sia il miglior modello esistente.

Altri articoli

La Peaq di Skoda è un SUV elettrico a sette posti che costa migliaia di euro in meno rispetto alla Kia EV9. La Peaq di Skoda è un SUV elettrico a sette posti che costa migliaia di euro in meno rispetto alla Kia EV9. Il SUV di punta Peaq di Skoda offre sette posti, un'autonomia di 600 km e ricarica V2H a partire da circa 50.000 €, superando di margine il Kia EV9 e l'Hyundai Ioniq 9. I gruppi di base hanno bloccato 75 progetti di data center del valore di 130 miliardi di dollari nel primo trimestre del 2026. I gruppi di base hanno bloccato 75 progetti di data center del valore di 130 miliardi di dollari nel primo trimestre del 2026. I gruppi anti-centro dati sono raddoppiati a 833 in 49 stati americani e hanno bloccato o ritardato 75 progetti del valore di 130 miliardi di dollari in tre mesi, eguagliando l'intero 2025. NHS England lancia Microsoft 365 Copilot a 505.000 dipendenti nella più grande implementazione di intelligenza artificiale nel settore sanitario. NHS England lancia Microsoft 365 Copilot a 505.000 dipendenti nella più grande implementazione di intelligenza artificiale nel settore sanitario. NHS England sta dando accesso a Microsoft 365 Copilot a 505.000 clinici e personale dopo che un trial di 30.000 persone ha riportato un risparmio di 43 minuti al giorno. Il tuo primo sguardo alla Steam Machine potrebbe essere a solo pochi giorni di distanza. Il tuo primo sguardo alla Steam Machine potrebbe essere a solo pochi giorni di distanza. Se una nuova fuga di notizie è corretta, le recensioni delle Steam Machine potrebbero andare online dopo il 23 giugno, e la scatola arriva con alcune sorprese. La soluzione di Apple Pay di iOS 27 non ti farà cercare la carta giusta prima del pagamento. La soluzione di Apple Pay di iOS 27 non ti farà cercare la carta giusta prima del pagamento. Apple ha appena ridisegnato il checkout di Apple Pay, quindi toccare una carta cambia finalmente la tua carta. GM afferma che le sue auto a guida autonoma diventeranno eventualmente anche robotaxi. GM afferma che le sue auto a guida autonoma diventeranno eventualmente anche robotaxi. Il chief product officer di GM, Sterling Anderson, afferma che l'iniziativa di autonomia personale dell'automobilista si connetterà con il territorio dei robotaxi, mantenendo aperta la porta.

Fable 5 vs GPT 5.5: il modello di Anthropic ha dominato ogni benchmark, poi il governo lo ha ritirato.

Il Fable 5 di Anthropic ha superato ogni principale benchmark di intelligenza artificiale rispetto a GPT 5.5 di OpenAI prima che una direttiva di controllo delle esportazioni degli Stati Uniti lo costringesse a essere disattivato tre giorni dopo il lancio.