Клауд Опус 4.8 от Anthropic в четыре раза более честен, далее Mythos
TL;DRAnthropic выпустила Claude Opus 4.8, обновление своего флагманского ИИ-модели, которая в четыре раза менее вероятно пропустит ошибки в коде незамеченными. Компания также анонсировала модели класса Mythos, которые уже нашли более 10,000 критических уязвимостей в программном обеспечении через проект Glasswing, и объявила о раунде финансирования серии H на сумму 65 миллиардов долларов при постоценке в 965 миллиардов долларов.
Anthropic выпустила Claude Opus 4.8, обновление своего флагманского ИИ-модели, которая, по словам компании, более честная, более надежная в агентных задачах и лучше справляется с выявлением собственных ошибок. Модель доступна немедленно по той же цене, что и ее предшественник, 5 долларов за миллион входных токенов и 25 долларов за миллион выходных токенов, и внедряется во все продукты Anthropic, включая claude.ai, Claude Code и API.
Основное улучшение — честность. Anthropic утверждает, что Opus 4.8 примерно в четыре раза менее вероятно, чем Opus 4.7, пропустит ошибки в коде, который она написала. Ранние тестировщики сообщают, что модель более охотно указывает на неопределенности в своей работе и менее склонна делать неподтвержденные утверждения, что является постоянной проблемой для ИИ-моделей, которые склонны демонстрировать уверенность, независимо от того, оправдана ли она.
Улучшения по всем показателям
Opus 4.8 улучшает показатели своего предшественника по опубликованным бенчмаркам Anthropic. В агентном кодировании (Terminal-Bench 2.1) балл увеличивается с 64.3% до 69.2%. Мультидисциплинарное рассуждение с инструментами улучшается с 54.7% до 57.9%. Агентное использование компьютера повышается с 82.8% до 83.4%, а баллы за знание работы увеличиваются с 1,753 до 1,890.
Оценка согласованности Anthropic показала, что Opus 4.8 достигает новых высот по показателям просоциальных черт, включая поддержку автономии пользователей и действия в интересах пользователя. Уровни несогласованного поведения, такого как обман или сотрудничество с неправильным использованием, значительно ниже, чем в Opus 4.7, и сопоставимы с Claude Mythos Preview, лучшей согласованной моделью Anthropic.
Ранние тестировщики видят практические улучшения
Выпуск сопровождается одобрением от компаний, которые уже используют модель. Cognition, компания, стоящая за ИИ-кодирующим агентом Devin, заявила, что Opus 4.8 использует инструменты корректно и исправляет проблемы с избыточностью комментариев и вызовами инструментов, которые возникли в Opus 4.7. Cursor, редактор кода на базе ИИ, сообщил об улучшениях на каждом уровне усилий в своей оценке CursorBench.
Harvey, который разрабатывает ИИ для юридической работы, заявил, что Opus 4.8 демонстрирует наивысший балл, зафиксированный на его Legal Agent Benchmark, и является первой моделью, которая преодолела 10% в общем стандарте. Databricks сообщила, что Opus 4.8 быстрее обрабатывает более глубокие многошаговые вопросы в своем агенте Genie AI, при этом стоимость токенов на 61% ниже, чем у Opus 4.7.
Thomson Reuters сообщила, что CoCounsel Legal увидела значительные улучшения в последовательности и качестве рассуждений. Hebbia, которая разрабатывает ИИ для анализа финансовых документов, отметила лучшую точность цитирования и большую эффективность токенов при выполнении задач по извлечению.
Новые функции наряду с моделью
Anthropic запускает несколько функций вместе с Opus 4.8. Новый контроль усилий в claude.ai и Cowork позволяет пользователям выбирать, сколько вычислений Claude применяет к ответу, торгуя скоростью за качество. Claude Code получает функцию динамических рабочих процессов, которая позволяет ему планировать работу и запускать сотни параллельных субагентов в одной сессии, что позволяет выполнять миграции по кодовой базе на сотни тысяч строк кода.
Для разработчиков API сообщений теперь принимает системные записи внутри массива сообщений, позволяя обновлять инструкции в процессе выполнения задачи без разрушения кэша подсказок. Быстрый режим для Opus 4.8, который работает в 2.5 раза быстрее, теперь в три раза дешевле, чем был для предыдущих моделей.
Mythos — это более важная история
Более значительное объявление может касаться того, что будет дальше. Anthropic заявила, что планирует выпустить новый класс модели с более высоким интеллектом, чем Opus, основанный на архитектуре Claude Mythos. Небольшое количество организаций уже использует Claude Mythos Preview через проект Glasswing, инициативу, сосредоточенную на использовании модели для работы в области кибербезопасности. Anthropic и примерно 50 партнеров, включая Apple, Google, Microsoft и Amazon Web Services, использовали Mythos Preview для нахождения более 10,000 уязвимостей высокой или критической степени серьезности в критической программной инфраструктуре.
Модели класса Mythos требуют более строгих киберзащит перед общим выпуском, заявила Anthropic, но компания ожидает, что они будут доступны всем клиентам в ближайшие недели. Модель находится на полном уровне возможностей выше Opus 4.7 и может автономно находить уязвимости нулевого дня и создавать для них эксплойты, что объясняет как волнение, так и осторожность вокруг ее развертывания.
Компания, приближающаяся к 1 триллиону долларов
Запуск Opus 4.8 происходит на фоне продолжающегося роста оценки Anthropic. Компания объявила о раунде финансирования серии H на сумму 65 миллиардов долларов при постоценке в 965 миллиардов долларов в тот же день, увеличившись с 380 миллиардов долларов, по которой она закрыла свой раунд серии G на 30 миллиардов долларов в феврале. Выручка выросла с примерно 1 миллиарда долларов в конце 2024 года до предполагаемой годовой ставки в 30 миллиардов долларов в 2026 году, что обусловлено принятием Claude в корпоративном секторе.
Anthropic также открыла новый офис в Милане 28 мая, шестой в Европе, и назначила Кийонга Чоя представителем директора Кореи перед открытием офиса в Сеуле. Расширение отражает растущий спрос на Claude на корпоративных рынках за пределами Соединенных Штатов.
Конкурентный контекст
Opus 4.8 выходит на рынок, где темпы выпуска моделей резко возросли. OpenAI запустила GPT-5.5 как свою первую полностью переобученную базовую модель с момента GPT-4.5, а GPT-5.4 установила новые рекорды по профессиональным бенчмаркам ранее в этом году. Google инвестировала до 40 миллиардов долларов в Anthropic, но продолжает разрабатывать свои собственные модели Gemini. Рынок передового ИИ консолидировался в трехсторонней гонке между Anthropic, OpenAI и Google, при этом каждая компания выпускает инкрементальные обновления моделей с возрастающей скоростью.
Для Anthropic различие, которое она пытается провести с Opus 4.8, заключается не в сырой способности, а в надежности. Модель, которая выявляет собственные ошибки, указывает на свои неопределенности и последовательно выполняет инструкции, более полезна в агентных рабочих процессах, где ИИ-системы работают с ограниченным человеческим контролем. Будет ли это позиционирование сохраняться с приходом моделей класса Mythos, обещающих более высокий интеллект с новыми ограничениями безопасности, определит, сможет ли Anthropic сохранить свое лидерство на корпоративном рынке, который она стремится доминировать.
Другие статьи
Клауд Опус 4.8 от Anthropic в четыре раза более честен, далее Mythos
Anthropic выпускает Claude Opus 4.8 с более точным суждением и меньшим количеством незамеченных ошибок в коде. Модели класса Mythos появятся через несколько недель. Серия H привлекла 65 миллиардов долларов при оценке в 965 миллиардов долларов.
