Клод Опус 4.8 от Anthropic в четыре раза более честен, следующий мифос
TL;DRAnthropic выпустила Claude Opus 4.8, обновление своего флагманского ИИ-модели, которая в четыре раза менее вероятно пропустит ошибки в коде незамеченными. Компания также анонсировала модели класса Mythos, которые уже обнаружили более 10,000 критических уязвимостей в программном обеспечении через проект Glasswing, и объявила о раунде финансирования серии H на сумму 65 миллиардов долларов при постоценке в 965 миллиардов долларов.
Anthropic выпустила Claude Opus 4.8, обновление своего флагманского ИИ-модели, которую компания называет более честной, более надежной в агентных задачах и лучше справляющейся с собственными ошибками. Модель доступна немедленно по той же цене, что и ее предшественник, 5 долларов за миллион входных токенов и 25 долларов за миллион выходных токенов, и внедряется во все продукты Anthropic, включая claude.ai, Claude Code и API.
Главное улучшение — честность. Anthropic утверждает, что Opus 4.8 примерно в четыре раза менее вероятно, чем Opus 4.7, пропустит ошибки в коде, который она написала, незамеченными. Первые тестировщики сообщают, что модель более охотно указывает на неопределенности в своей работе и менее склонна делать неподтвержденные утверждения, что является постоянной проблемой для ИИ-моделей, которые склонны демонстрировать уверенность, независимо от того, оправдана ли она.
Улучшения по всем показателям
Opus 4.8 улучшает показатели своего предшественника по опубликованным бенчмаркам Anthropic. По агентному кодированию (Terminal-Bench 2.1) оценка увеличивается с 64.3% до 69.2%. Мультидисциплинарное рассуждение с инструментами улучшается с 54.7% до 57.9%. Агентное использование компьютера увеличивается с 82.8% до 83.4%, а оценки знаний растут с 1,753 до 1,890.
Оценка согласованности Anthropic показала, что Opus 4.8 достигает новых высот по показателям просоциальных черт, включая поддержку автономии пользователя и действия в интересах пользователя. Уровни несогласованного поведения, такого как обман или сотрудничество с неправильным использованием, значительно ниже, чем в Opus 4.7, и сопоставимы с Claude Mythos Preview, лучшей согласованной моделью Anthropic.
Ранние тестировщики видят практические улучшения
Выпуск сопровождается одобрениями от компаний, уже использующих модель. Cognition, компания, стоящая за ИИ-кодировщиком Devin, заявила, что Opus 4.8 использует инструменты чисто и исправляет проблемы с избыточностью комментариев и вызовами инструментов, которые возникли в Opus 4.7. Cursor, редактор кода на базе ИИ, сообщил об улучшениях на всех уровнях усилий в своей оценке CursorBench.
Harvey, который разрабатывает ИИ для юридической работы, заявил, что Opus 4.8 демонстрирует самый высокий балл, зарегистрированный на его Legal Agent Benchmark, и является первой моделью, которая преодолела 10% в общем стандарте. Databricks сообщила, что Opus 4.8 быстрее обрабатывает более глубокие многошаговые вопросы в своем агенте Genie AI, при этом стоимость токенов на 61% ниже, чем у Opus 4.7.
Thomson Reuters сообщила, что CoCounsel Legal увидела значительные улучшения в последовательности и качестве рассуждений. Hebbia, которая разрабатывает ИИ для анализа финансовых документов, отметила лучшую точность цитирования и большую эффективность токенов в задачах извлечения.
Новые функции наряду с моделью
Anthropic запускает несколько функций вместе с Opus 4.8. Новый контроль усилий в claude.ai и Cowork позволяет пользователям выбирать, сколько вычислений Claude применяет к ответу, меняя скорость на качество. Claude Code получает функцию динамических рабочих процессов, которая позволяет ему планировать работу и запускать сотни параллельных субагентов в одной сессии, что позволяет мигрировать кодовые базы на сотни тысяч строк кода.
Для разработчиков API сообщений теперь принимает системные записи внутри массива сообщений, позволяя обновлять инструкции в процессе выполнения задачи без разрушения кэша подсказок. Быстрый режим для Opus 4.8, который работает в 2.5 раза быстрее, теперь в три раза дешевле, чем был для предыдущих моделей.
Mythos — это более важная история
Более значительное объявление может касаться того, что будет дальше. Anthropic заявила, что планирует выпустить новый класс модели с более высоким интеллектом, чем Opus, основанный на архитектуре Claude Mythos. Небольшое количество организаций уже использует Claude Mythos Preview через проект Glasswing, инициативу, сосредоточенную на использовании модели для работы в области кибербезопасности. Anthropic и примерно 50 партнеров, включая Apple, Google, Microsoft и Amazon Web Services, использовали Mythos Preview для обнаружения более 10,000 уязвимостей высокой или критической степени серьезности в критической программной инфраструктуре.
Модели класса Mythos требуют более строгих киберзащит перед общим выпуском, заявила Anthropic, но компания ожидает, что они будут доступны всем клиентам в ближайшие недели. Модель находится на полном уровне возможностей выше Opus 4.7 и может автономно находить уязвимости нулевого дня и создавать для них эксплойты, что объясняет как восторг, так и осторожность вокруг ее развертывания.
Компания, приближающаяся к 1 триллиону долларов
Запуск Opus 4.8 происходит на фоне продолжающегося роста оценки Anthropic. Компания объявила о раунде финансирования серии H на сумму 65 миллиардов долларов при постоценке в 965 миллиардов долларов в тот же день, увеличившись с 380 миллиардов долларов, по которой она закрыла свой раунд серии G на 30 миллиардов долларов в феврале. Выручка выросла с примерно 1 миллиарда долларов в конце 2024 года до оценочного уровня 30 миллиардов долларов в год в 2026 году, что обусловлено внедрением Claude в предприятия.
Anthropic также открыла новый офис в Милане 28 мая, шестой в Европе, и назначила КиЁнга Чоя представителем директора Кореи перед открытием офиса в Сеуле. Расширение отражает растущий спрос на Claude на рынках предприятий за пределами Соединенных Штатов.
Конкурентный контекст
Opus 4.8 выходит на рынок, где темпы выпуска моделей резко ускорились. OpenAI выпустила GPT-5.5 как свою первую полностью переобученную базовую модель с момента GPT-4.5, а GPT-5.4 установила новые рекорды на профессиональных бенчмарках ранее в этом году. Google инвестировала до 40 миллиардов долларов в Anthropic, но продолжает разрабатывать свои собственные модели Gemini. Рынок передового ИИ консолидировался в трехсторонней гонке между Anthropic, OpenAI и Google, каждая из которых выпускает постепенные обновления моделей с нарастающей скоростью.
Для Anthropic различие, которое она пытается провести с Opus 4.8, заключается не в сырой способности, а в надежности. Модель, которая ловит свои собственные ошибки, указывает на свои неопределенности и последовательно выполняет инструкции, более полезна в агентных рабочих процессах, где ИИ-системы работают с ограниченным человеческим контролем. Будет ли это позиционирование сохраняться по мере появления моделей класса Mythos, обещающих более высокий интеллект с новыми ограничениями безопасности, определит, сможет ли Anthropic сохранить свое лидерство на рынке предприятий, который она стремится доминировать.
Другие статьи
Клод Опус 4.8 от Anthropic в четыре раза более честен, следующий мифос
Anthropic выпускает Claude Opus 4.8 с более точными суждениями и меньшим количеством незамеченных ошибок в коде. Модели класса Mythos появятся через несколько недель. Серия H привлекла 65 миллиардов долларов при оценке в 965 миллиардов долларов.
