Fable 5 vs GPT 5.5: il modello di Anthropic ha dominato ogni benchmark, poi il governo lo ha ritirato.
TL;DRFable 5 ha superato GPT 5.5 in ogni principale benchmark, ma è stato ritirato dal governo degli Stati Uniti dopo tre giorni, rendendo GPT 5.5 il modello migliore che puoi effettivamente utilizzare.
Fable 5 di Anthropic ha trascorso tre giorni come il modello di intelligenza artificiale più capace mai rilasciato al pubblico. Ha dominato la classifica del Chatbot Arena, ha schiacciato GPT 5.5 di OpenAI nei benchmark di codifica con margini a doppia cifra e ha dato accesso ai sottoscrittori paganti al ragionamento di classe Mythos per la prima volta. Poi, il 12 giugno, il governo degli Stati Uniti ha ordinato ad Anthropic di spegnerlo.
Il risultato è un momento strano nell'IA. Il modello che dimostrabilmente supera tutto il resto sul mercato è quello che non puoi usare. GPT 5.5, lanciato da OpenAI a fine aprile con il nome in codice interno "Spud", è ora il modello più forte disponibile per sviluppatori e consumatori, non perché sia migliorato, ma perché il suo unico vero concorrente è stato rimosso.
Il divario nei benchmark tra i due non è vicino. Su SWE-Bench Pro, che misura la capacità di un modello di risolvere problemi reali di ingegneria del software attraverso codici open-source, Fable 5 ha ottenuto l'80,3% rispetto al 58,6% di GPT 5.5, una differenza di 22 punti. Su SWE-Bench Verified, un sottoinsieme curato dello stesso benchmark, Fable 5 ha raggiunto il 95,0%.
I benchmark di codifica raccontano una storia simile. Fable 5 guida il Code Arena con 98 punti Elo, ottenendo 1.665 contro i 1.501 di GPT 5.5. Su FrontierCode Diamond, un benchmark progettato per testare i compiti di programmazione più difficili, Fable 5 ha ottenuto il 29,3% mentre GPT 5.5 ha gestito il 5,7%, e nella classifica più ampia del Chatbot Arena, Fable 5 si trova al primo posto con GPT 5.5 al quarto.
GPT 5.5 ha un'area di forza. Su Terminal-Bench 2.0, che valuta i compiti di codifica interattivi basati su terminal piuttosto che la risoluzione di problemi a livello di codice, GPT 5.5 ha ottenuto l'82,7% rispetto al circa 88,0% di Fable 5. Il divario è più ristretto lì, e il benchmark testa un'abilità diversa, eseguendo comandi e debug in tempo reale piuttosto che leggere e correggere grandi repository.
I prezzi favoriscono anche OpenAI. GPT 5.5 costa $5 per milione di token in input e $30 per milione di token in output, la metà del prezzo di Fable 5, che è rispettivamente $10 e $50. Per gli sviluppatori che gestiscono applicazioni ad alto volume dove la differenza di prestazioni è meno critica rispetto al costo, GPT 5.5 è la scelta più pratica anche quando entrambi i modelli sono disponibili.
Fable 5 è stato lanciato il 9 giugno come il primo modello di classe Mythos di Anthropic reso disponibile al pubblico generale. Ha offerto una finestra di contesto di un milione di token e 128.000 token in output. Anthropic lo ha reso disponibile senza costi aggiuntivi per i sottoscrittori Pro, Max, Team e Enterprise fino al 22 giugno, una finestra promozionale che la direttiva governativa ha interrotto dopo solo tre giorni.
La chiusura è avvenuta tramite una direttiva di controllo delle esportazioni emessa il 12 giugno. Il governo ha citato una vulnerabilità di jailbreak come motivo per ritirare sia Fable 5 che l'intera famiglia di modelli Mythos 5. Anthropic ha contestato la gravità del riscontro, affermando che le vulnerabilità identificate sono minori, pubblicamente note e raggiungibili da GPT 5.5 senza alcuna tecnica di bypass, mentre rapporti indicano che il CEO di Amazon, Andy Jassy, ha svolto un ruolo nel provocare la revisione del governo.
La conseguenza pratica è che gli sviluppatori e i ricercatori che stavano valutando Fable 5 per un uso in produzione hanno dovuto tornare a GPT 5.5 o ai modelli precedenti Opus di Anthropic. Per i flussi di lavoro ad alta intensità di codifica, il downgrade è significativo. Il divario di 22 punti su SWE-Bench Pro rappresenta la differenza tra un modello che può risolvere quattro problemi software reali su cinque e uno che gestisce circa tre su cinque.
Se Fable 5 tornerà dipende dalle negoziazioni di Anthropic con il governo riguardo alla classificazione del controllo delle esportazioni. L'azienda ha sostenuto pubblicamente che la direttiva è sproporzionata e che le vulnerabilità citate non giustificano il ritiro completo del modello. Fino a quando quella controversia non sarà risolta, GPT 5.5 detiene il primo posto per default, il miglior modello disponibile non perché sia il miglior modello esistente.
Altri articoli
Fable 5 vs GPT 5.5: il modello di Anthropic ha dominato ogni benchmark, poi il governo lo ha ritirato.
Il Fable 5 di Anthropic ha superato ogni principale benchmark di intelligenza artificiale rispetto a GPT 5.5 di OpenAI prima che una direttiva di controllo delle esportazioni degli Stati Uniti lo costringesse a essere disattivato tre giorni dopo il lancio.
