Сказание 5 против GPT 5.5: Модель Anthropic доминировала на всех тестах, затем правительство её отключило
TL;DRFable 5 обошел GPT 5.5 по всем основным бенчмаркам, но был снят с производства правительством США через три дня, что сделало GPT 5.5 лучшей моделью, которую вы можете использовать.
Fable 5 от Anthropic провел три дня как самая мощная модель ИИ, когда-либо выпущенная для общественности. Он возглавил таблицу лидеров Chatbot Arena, обошел GPT 5.5 от OpenAI по бенчмаркам кодирования с двузначными отрывами и предоставил платным подписчикам доступ к рассуждениям класса Mythos впервые. Затем, 12 июня, правительство США приказало Anthropic закрыть его.
Результат — странный момент в ИИ. Модель, которая явно превосходит все остальные на рынке, — это та, которую вы не можете использовать. GPT 5.5, который OpenAI запустила в конце апреля под внутренним кодовым названием «Spud», теперь является самой сильной моделью, доступной разработчикам и потребителям, не потому что она улучшилась, а потому что ее единственный реальный конкурент был удален.
Разрыв в бенчмарках между двумя моделями не близок. На SWE-Bench Pro, который измеряет способность модели решать реальные проблемы программной инженерии на основе открытого кода, Fable 5 набрал 80,3% против 58,6% у GPT 5.5, разница в 22 пункта. На SWE-Bench Verified, курируемом подмножестве того же бенчмарка, Fable 5 достиг 95,0%.
Бенчмарки кодирования рассказывают аналогичную историю. Fable 5 лидирует в Code Arena с отрывом в 98 очков Эло, набрав 1665 против 1501 у GPT 5.5. На FrontierCode Diamond, бенчмарке, предназначенном для тестирования самых сложных программных задач, Fable 5 набрал 29,3%, в то время как GPT 5.5 смог достичь 5,7%, а на более широкой таблице лидеров Chatbot Arena Fable 5 занимает первое место, а GPT 5.5 — четвертое.
У GPT 5.5 есть одна сильная сторона. На Terminal-Bench 2.0, который оценивает интерактивные задачи кодирования на терминале, а не решение проблем на уровне кодовой базы, GPT 5.5 набрал 82,7% по сравнению с примерно 88,0% у Fable 5. Разрыв там меньше, и бенчмарк тестирует другой навык, выполняя команды и отлаживая в реальном времени, а не читая и исправляя большие репозитории.
Цены также в пользу OpenAI. GPT 5.5 стоит 5 долларов за миллион входных токенов и 30 долларов за миллион выходных токенов, что вдвое дешевле, чем у Fable 5 — 10 и 50 долларов соответственно. Для разработчиков, работающих с высокообъемными приложениями, где разница в производительности менее критична, чем стоимость, GPT 5.5 является более практичным выбором, даже когда обе модели доступны.
Fable 5 был запущен 9 июня как первая модель класса Mythos от Anthropic, доступная для широкой публики. Он предлагал контекстное окно на один миллион токенов и 128 000 выходных токенов. Anthropic предоставила его без дополнительной платы для подписчиков Pro, Max, Team и Enterprise до 22 июня, промо-окно, которое правительственный указ сократил всего через три дня.
Закрытие произошло в результате директивы по контролю за экспортом, выданной 12 июня. Правительство указало на уязвимость jailbreak как причину снятия как Fable 5, так и более широкой модели Mythos 5. Anthropic оспорила серьезность этого вывода, заявив, что выявленные уязвимости незначительны, общеизвестны и достижимы для GPT 5.5 без каких-либо обходных техник, в то время как сообщения указывают на то, что генеральный директор Amazon Энди Джасси сыграл роль в инициировании проверки правительством.
Практическое последствие заключается в том, что разработчики и исследователи, которые оценивали Fable 5 для производственного использования, были вынуждены вернуться к GPT 5.5 или более ранним моделям Opus от Anthropic. Для рабочих процессов, связанных с кодированием, понижение значительное. Разрыв в 22 пункта на SWE-Bench Pro представляет собой разницу между моделью, которая может решить четыре из пяти реальных проблем программного обеспечения, и той, которая справляется примерно с тремя из пяти.
Вернется ли Fable 5, зависит от переговоров Anthropic с правительством по поводу классификации контроля за экспортом. Компания публично утверждала, что директива является несоразмерной и что указанные уязвимости не оправдывают полное снятие модели. Пока этот спор не разрешен, GPT 5.5 занимает первое место по умолчанию, лучшая модель, доступная не потому, что она является лучшей моделью, которая существует.
Другие статьи
Сказание 5 против GPT 5.5: Модель Anthropic доминировала на всех тестах, затем правительство её отключило
Fable 5 от Anthropic возглавил все основные AI-бенчмарки, обойдя GPT 5.5 от OpenAI, прежде чем директива по контролю за экспортом в США заставила его отключиться через три дня после запуска.
