Fable 5 vs GPT 5.5: El modelo de Anthropic dominó cada referencia, luego el gobierno lo retiró.
TL;DRFable 5 superó a GPT 5.5 en cada referencia importante, pero fue retirado por el gobierno de EE. UU. después de tres días, lo que convierte a GPT 5.5 en el modelo principal que realmente puedes usar.
Fable 5 de Anthropic pasó tres días como el modelo de IA más capaz jamás lanzado al público. Lideró la tabla de clasificación de Chatbot Arena, aplastó a GPT 5.5 de OpenAI en las referencias de codificación con márgenes de dos dígitos y dio acceso a los suscriptores de pago a un razonamiento de clase Mythos por primera vez. Luego, el 12 de junio, el gobierno de EE. UU. ordenó a Anthropic que lo cerrara.
El resultado es un momento extraño en la IA. El modelo que demuestra superar a todo lo demás en el mercado es el que no puedes usar. GPT 5.5, que OpenAI lanzó a finales de abril bajo el nombre en clave interno "Spud", es ahora el modelo más fuerte disponible para desarrolladores y consumidores, no porque haya mejorado, sino porque su único competidor real fue eliminado.
La diferencia en las referencias entre los dos no es cercana. En SWE-Bench Pro, que mide la capacidad de un modelo para resolver problemas reales de ingeniería de software en bases de código de código abierto, Fable 5 obtuvo un 80.3% frente al 58.6% de GPT 5.5, una diferencia de 22 puntos. En SWE-Bench Verified, un subconjunto curado de la misma referencia, Fable 5 alcanzó un 95.0%.
Las referencias de codificación cuentan una historia similar. Fable 5 lidera el Code Arena por 98 puntos Elo, obteniendo 1,665 frente a los 1,501 de GPT 5.5. En FrontierCode Diamond, una referencia diseñada para probar las tareas de programación más difíciles, Fable 5 obtuvo un 29.3% mientras que GPT 5.5 logró un 5.7%, y en la tabla de clasificación más amplia de Chatbot Arena, Fable 5 ocupa el primer lugar con GPT 5.5 en cuarto.
GPT 5.5 tiene un área de fortaleza. En Terminal-Bench 2.0, que evalúa tareas de codificación interactivas basadas en terminal en lugar de la resolución de problemas a nivel de base de código, GPT 5.5 obtuvo un 82.7% en comparación con aproximadamente un 88.0% de Fable 5. La diferencia es más estrecha allí, y la referencia prueba una habilidad diferente, ejecutando comandos y depurando en tiempo real en lugar de leer y parchear grandes repositorios.
Los precios también favorecen a OpenAI. GPT 5.5 cuesta $5 por millón de tokens de entrada y $30 por millón de tokens de salida, la mitad del precio de Fable 5 de $10 y $50 respectivamente. Para los desarrolladores que ejecutan aplicaciones de alto volumen donde la diferencia de rendimiento es menos crítica que el costo, GPT 5.5 es la opción más práctica incluso cuando ambos modelos están disponibles.
Fable 5 se lanzó el 9 de junio como el primer modelo de clase Mythos de Anthropic disponible para el público en general. Ofreció una ventana de contexto de un millón de tokens y 128,000 tokens de salida. Anthropic lo hizo disponible sin costo adicional para suscriptores Pro, Max, Team y Enterprise hasta el 22 de junio, una ventana promocional que la directiva gubernamental acortó después de solo tres días.
El cierre se produjo a través de una directiva de control de exportaciones emitida el 12 de junio. El gobierno citó una vulnerabilidad de jailbreak como la razón para retirar tanto Fable 5 como la familia de modelos más amplia Mythos 5. Anthropic ha disputado la gravedad del hallazgo, diciendo que las vulnerabilidades identificadas son menores, de conocimiento público y alcanzables por GPT 5.5 sin técnicas de bypass, mientras que informes indican que el CEO de Amazon, Andy Jassy, jugó un papel en la activación de la revisión del gobierno.
La consecuencia práctica es que los desarrolladores e investigadores que estaban evaluando Fable 5 para su uso en producción han tenido que volver a GPT 5.5 o a los modelos anteriores Opus de Anthropic. Para flujos de trabajo con mucho código, la degradación es significativa. La diferencia de 22 puntos en SWE-Bench Pro representa la diferencia entre un modelo que puede resolver cuatro de cinco problemas de software del mundo real y uno que maneja aproximadamente tres de cinco.
Si Fable 5 regresa depende de las negociaciones de Anthropic con el gobierno sobre la clasificación de control de exportaciones. La empresa ha argumentado públicamente que la directiva es desproporcionada y que las vulnerabilidades citadas no justifican retirar el modelo por completo. Hasta que se resuelva esa disputa, GPT 5.5 ocupa el primer lugar por defecto, el mejor modelo disponible no porque sea el mejor modelo que existe.
Otros artículos
Fable 5 vs GPT 5.5: El modelo de Anthropic dominó cada referencia, luego el gobierno lo retiró.
La Fable 5 de Anthropic lideró todos los principales benchmarks de IA sobre el GPT 5.5 de OpenAI antes de que una directiva de control de exportaciones de EE. UU. la obligara a desconectarse tres días después de su lanzamiento.
