Клауд Опус 4.8 от Anthropic в четыре раза более честен, далее Mythos

Клауд Опус 4.8 от Anthropic в четыре раза более честен, далее Mythos

      TL;DRAnthropic выпустила Claude Opus 4.8, обновление своего флагманского ИИ-модели, которая в четыре раза менее вероятно пропустит ошибки в коде незамеченными. Компания также анонсировала модели класса Mythos, которые уже нашли более 10,000 критических уязвимостей в программном обеспечении через проект Glasswing, и объявила о раунде финансирования серии H на сумму 65 миллиардов долларов при постоценке в 965 миллиардов долларов.

      Anthropic выпустила Claude Opus 4.8, обновление своего флагманского ИИ-модели, которая, по словам компании, более честная, более надежная в агентных задачах и лучше справляется с выявлением собственных ошибок. Модель доступна немедленно по той же цене, что и ее предшественник, 5 долларов за миллион входных токенов и 25 долларов за миллион выходных токенов, и внедряется во все продукты Anthropic, включая claude.ai, Claude Code и API.

      Основное улучшение — честность. Anthropic утверждает, что Opus 4.8 примерно в четыре раза менее вероятно, чем Opus 4.7, пропустит ошибки в коде, который она написала. Ранние тестировщики сообщают, что модель более охотно указывает на неопределенности в своей работе и менее склонна делать неподтвержденные утверждения, что является постоянной проблемой для ИИ-моделей, которые склонны демонстрировать уверенность, независимо от того, оправдана ли она.

      Улучшения по всем показателям

      Opus 4.8 улучшает показатели своего предшественника по опубликованным бенчмаркам Anthropic. В агентном кодировании (Terminal-Bench 2.1) балл увеличивается с 64.3% до 69.2%. Мультидисциплинарное рассуждение с инструментами улучшается с 54.7% до 57.9%. Агентное использование компьютера повышается с 82.8% до 83.4%, а баллы за знание работы увеличиваются с 1,753 до 1,890.

      Оценка согласованности Anthropic показала, что Opus 4.8 достигает новых высот по показателям просоциальных черт, включая поддержку автономии пользователей и действия в интересах пользователя. Уровни несогласованного поведения, такого как обман или сотрудничество с неправильным использованием, значительно ниже, чем в Opus 4.7, и сопоставимы с Claude Mythos Preview, лучшей согласованной моделью Anthropic.

      Ранние тестировщики видят практические улучшения

      Выпуск сопровождается одобрением от компаний, которые уже используют модель. Cognition, компания, стоящая за ИИ-кодирующим агентом Devin, заявила, что Opus 4.8 использует инструменты корректно и исправляет проблемы с избыточностью комментариев и вызовами инструментов, которые возникли в Opus 4.7. Cursor, редактор кода на базе ИИ, сообщил об улучшениях на каждом уровне усилий в своей оценке CursorBench.

      Harvey, который разрабатывает ИИ для юридической работы, заявил, что Opus 4.8 демонстрирует наивысший балл, зафиксированный на его Legal Agent Benchmark, и является первой моделью, которая преодолела 10% в общем стандарте. Databricks сообщила, что Opus 4.8 быстрее обрабатывает более глубокие многошаговые вопросы в своем агенте Genie AI, при этом стоимость токенов на 61% ниже, чем у Opus 4.7.

      Thomson Reuters сообщила, что CoCounsel Legal увидела значительные улучшения в последовательности и качестве рассуждений. Hebbia, которая разрабатывает ИИ для анализа финансовых документов, отметила лучшую точность цитирования и большую эффективность токенов при выполнении задач по извлечению.

      Новые функции наряду с моделью

      Anthropic запускает несколько функций вместе с Opus 4.8. Новый контроль усилий в claude.ai и Cowork позволяет пользователям выбирать, сколько вычислений Claude применяет к ответу, торгуя скоростью за качество. Claude Code получает функцию динамических рабочих процессов, которая позволяет ему планировать работу и запускать сотни параллельных субагентов в одной сессии, что позволяет выполнять миграции по кодовой базе на сотни тысяч строк кода.

      Для разработчиков API сообщений теперь принимает системные записи внутри массива сообщений, позволяя обновлять инструкции в процессе выполнения задачи без разрушения кэша подсказок. Быстрый режим для Opus 4.8, который работает в 2.5 раза быстрее, теперь в три раза дешевле, чем был для предыдущих моделей.

      Mythos — это более важная история

      Более значительное объявление может касаться того, что будет дальше. Anthropic заявила, что планирует выпустить новый класс модели с более высоким интеллектом, чем Opus, основанный на архитектуре Claude Mythos. Небольшое количество организаций уже использует Claude Mythos Preview через проект Glasswing, инициативу, сосредоточенную на использовании модели для работы в области кибербезопасности. Anthropic и примерно 50 партнеров, включая Apple, Google, Microsoft и Amazon Web Services, использовали Mythos Preview для нахождения более 10,000 уязвимостей высокой или критической степени серьезности в критической программной инфраструктуре.

      Модели класса Mythos требуют более строгих киберзащит перед общим выпуском, заявила Anthropic, но компания ожидает, что они будут доступны всем клиентам в ближайшие недели. Модель находится на полном уровне возможностей выше Opus 4.7 и может автономно находить уязвимости нулевого дня и создавать для них эксплойты, что объясняет как волнение, так и осторожность вокруг ее развертывания.

      Компания, приближающаяся к 1 триллиону долларов

      Запуск Opus 4.8 происходит на фоне продолжающегося роста оценки Anthropic. Компания объявила о раунде финансирования серии H на сумму 65 миллиардов долларов при постоценке в 965 миллиардов долларов в тот же день, увеличившись с 380 миллиардов долларов, по которой она закрыла свой раунд серии G на 30 миллиардов долларов в феврале. Выручка выросла с примерно 1 миллиарда долларов в конце 2024 года до предполагаемой годовой ставки в 30 миллиардов долларов в 2026 году, что обусловлено принятием Claude в корпоративном секторе.

      Anthropic также открыла новый офис в Милане 28 мая, шестой в Европе, и назначила Кийонга Чоя представителем директора Кореи перед открытием офиса в Сеуле. Расширение отражает растущий спрос на Claude на корпоративных рынках за пределами Соединенных Штатов.

      Конкурентный контекст

      Opus 4.8 выходит на рынок, где темпы выпуска моделей резко возросли. OpenAI запустила GPT-5.5 как свою первую полностью переобученную базовую модель с момента GPT-4.5, а GPT-5.4 установила новые рекорды по профессиональным бенчмаркам ранее в этом году. Google инвестировала до 40 миллиардов долларов в Anthropic, но продолжает разрабатывать свои собственные модели Gemini. Рынок передового ИИ консолидировался в трехсторонней гонке между Anthropic, OpenAI и Google, при этом каждая компания выпускает инкрементальные обновления моделей с возрастающей скоростью.

      Для Anthropic различие, которое она пытается провести с Opus 4.8, заключается не в сырой способности, а в надежности. Модель, которая выявляет собственные ошибки, указывает на свои неопределенности и последовательно выполняет инструкции, более полезна в агентных рабочих процессах, где ИИ-системы работают с ограниченным человеческим контролем. Будет ли это позиционирование сохраняться с приходом моделей класса Mythos, обещающих более высокий интеллект с новыми ограничениями безопасности, определит, сможет ли Anthropic сохранить свое лидерство на корпоративном рынке, который она стремится доминировать.

Другие статьи

Клауд Опус 4.8 от Anthropic в четыре раза более честен, следующий мифос Клауд Опус 4.8 от Anthropic в четыре раза более честен, следующий мифос Anthropic выпускает Claude Opus 4.8 с более точным суждением и меньшим количеством незамеченных ошибок в коде. Модели класса Mythos появятся через несколько недель. Серия H привлекла 65 миллиардов долларов при оценке в 965 миллиардов долларов. Чип Qualcomm Snapdragon C нацеливается на дешевейшие ноутбуки, поскольку MacBook Neo пересматривает бюджетные границы Чип Qualcomm Snapdragon C нацеливается на дешевейшие ноутбуки, поскольку MacBook Neo пересматривает бюджетные границы Новый чип Snapdragon C от Qualcomm разработан для бюджетных ноутбуков, начиная с 300 долларов, обещая длительное время работы от батареи и стабильную повседневную производительность для студентов, семей и малых предприятий. Клод Опус 4.8 от Anthropic в четыре раза более честен, следующий мифос Клод Опус 4.8 от Anthropic в четыре раза более честен, следующий мифос Anthropic выпускает Claude Opus 4.8 с более точными суждениями и меньшим количеством незамеченных ошибок в коде. Модели класса Mythos появятся через несколько недель. Серия H привлекла 65 миллиардов долларов при оценке в 965 миллиардов долларов. Приложение камеры iPhone готовится к серьезному обновлению, и это может быть нашим первым взглядом на него. Приложение камеры iPhone готовится к серьезному обновлению, и это может быть нашим первым взглядом на него. Обновление iOS 27 от Apple должно принести значительное обновление приложения Камера на ваш iPhone, с интеграцией Siri, новыми инструментами редактирования на основе ИИ и полностью настраиваемым интерфейсом. Waymo открывает более дешевый роботакси Ojai, построенный китайской компанией Geely Waymo открывает более дешевый роботакси Ojai, построенный китайской компанией Geely Новый роботакси Waymo Ojai уменьшает количество датчиков на 42% и стоит на $75,000 меньше, чем Jaguar I-PACE. Построенный китайской компанией Geely Zeekr, он запускается в трех городах США. Waymo открывает более дешевый роботакси Ojai, построенный китайской компанией Geely Waymo открывает более дешевый роботакси Ojai, построенный китайской компанией Geely Новый роботакси Waymo Ojai уменьшил количество датчиков на 42% и стоит на $75,000 меньше, чем Jaguar I-PACE. Построенный китайской компанией Geely Zeekr, он запускается в трех городах США.

Клауд Опус 4.8 от Anthropic в четыре раза более честен, далее Mythos

Anthropic выпускает Claude Opus 4.8 с более точным суждением и меньшим количеством незамеченных ошибок в коде. Модели класса Mythos появятся через несколько недель. Серия H привлекла 65 миллиардов долларов при оценке в 965 миллиардов долларов.