Клод Опус 4.8 от Anthropic в четыре раза более честен, следующий мифос

      TL;DRAnthropic выпустила Claude Opus 4.8, обновление своего флагманского ИИ-модели, которая в четыре раза менее вероятно пропустит ошибки в коде незамеченными. Компания также анонсировала модели класса Mythos, которые уже обнаружили более 10,000 критических уязвимостей в программном обеспечении через проект Glasswing, и объявила о раунде финансирования серии H на сумму 65 миллиардов долларов при постоценке в 965 миллиардов долларов.

      Anthropic выпустила Claude Opus 4.8, обновление своего флагманского ИИ-модели, которую компания называет более честной, более надежной в агентных задачах и лучше справляющейся с собственными ошибками. Модель доступна немедленно по той же цене, что и ее предшественник, 5 долларов за миллион входных токенов и 25 долларов за миллион выходных токенов, и внедряется во все продукты Anthropic, включая claude.ai, Claude Code и API.

      Главное улучшение — честность. Anthropic утверждает, что Opus 4.8 примерно в четыре раза менее вероятно, чем Opus 4.7, пропустит ошибки в коде, который она написала, незамеченными. Первые тестировщики сообщают, что модель более охотно указывает на неопределенности в своей работе и менее склонна делать неподтвержденные утверждения, что является постоянной проблемой для ИИ-моделей, которые склонны демонстрировать уверенность, независимо от того, оправдана ли она.

      Улучшения по всем показателям

      Opus 4.8 улучшает показатели своего предшественника по опубликованным бенчмаркам Anthropic. По агентному кодированию (Terminal-Bench 2.1) оценка увеличивается с 64.3% до 69.2%. Мультидисциплинарное рассуждение с инструментами улучшается с 54.7% до 57.9%. Агентное использование компьютера увеличивается с 82.8% до 83.4%, а оценки знаний растут с 1,753 до 1,890.

      Оценка согласованности Anthropic показала, что Opus 4.8 достигает новых высот по показателям просоциальных черт, включая поддержку автономии пользователя и действия в интересах пользователя. Уровни несогласованного поведения, такого как обман или сотрудничество с неправильным использованием, значительно ниже, чем в Opus 4.7, и сопоставимы с Claude Mythos Preview, лучшей согласованной моделью Anthropic.

      Ранние тестировщики видят практические улучшения

      Выпуск сопровождается одобрениями от компаний, уже использующих модель. Cognition, компания, стоящая за ИИ-кодировщиком Devin, заявила, что Opus 4.8 использует инструменты чисто и исправляет проблемы с избыточностью комментариев и вызовами инструментов, которые возникли в Opus 4.7. Cursor, редактор кода на базе ИИ, сообщил об улучшениях на всех уровнях усилий в своей оценке CursorBench.

      Harvey, который разрабатывает ИИ для юридической работы, заявил, что Opus 4.8 демонстрирует самый высокий балл, зарегистрированный на его Legal Agent Benchmark, и является первой моделью, которая преодолела 10% в общем стандарте. Databricks сообщила, что Opus 4.8 быстрее обрабатывает более глубокие многошаговые вопросы в своем агенте Genie AI, при этом стоимость токенов на 61% ниже, чем у Opus 4.7.

      Thomson Reuters сообщила, что CoCounsel Legal увидела значительные улучшения в последовательности и качестве рассуждений. Hebbia, которая разрабатывает ИИ для анализа финансовых документов, отметила лучшую точность цитирования и большую эффективность токенов в задачах извлечения.

      Новые функции наряду с моделью

      Anthropic запускает несколько функций вместе с Opus 4.8. Новый контроль усилий в claude.ai и Cowork позволяет пользователям выбирать, сколько вычислений Claude применяет к ответу, меняя скорость на качество. Claude Code получает функцию динамических рабочих процессов, которая позволяет ему планировать работу и запускать сотни параллельных субагентов в одной сессии, что позволяет мигрировать кодовые базы на сотни тысяч строк кода.

      Для разработчиков API сообщений теперь принимает системные записи внутри массива сообщений, позволяя обновлять инструкции в процессе выполнения задачи без разрушения кэша подсказок. Быстрый режим для Opus 4.8, который работает в 2.5 раза быстрее, теперь в три раза дешевле, чем был для предыдущих моделей.

      Mythos — это более важная история

      Более значительное объявление может касаться того, что будет дальше. Anthropic заявила, что планирует выпустить новый класс модели с более высоким интеллектом, чем Opus, основанный на архитектуре Claude Mythos. Небольшое количество организаций уже использует Claude Mythos Preview через проект Glasswing, инициативу, сосредоточенную на использовании модели для работы в области кибербезопасности. Anthropic и примерно 50 партнеров, включая Apple, Google, Microsoft и Amazon Web Services, использовали Mythos Preview для обнаружения более 10,000 уязвимостей высокой или критической степени серьезности в критической программной инфраструктуре.

      Модели класса Mythos требуют более строгих киберзащит перед общим выпуском, заявила Anthropic, но компания ожидает, что они будут доступны всем клиентам в ближайшие недели. Модель находится на полном уровне возможностей выше Opus 4.7 и может автономно находить уязвимости нулевого дня и создавать для них эксплойты, что объясняет как восторг, так и осторожность вокруг ее развертывания.

      Компания, приближающаяся к 1 триллиону долларов

      Запуск Opus 4.8 происходит на фоне продолжающегося роста оценки Anthropic. Компания объявила о раунде финансирования серии H на сумму 65 миллиардов долларов при постоценке в 965 миллиардов долларов в тот же день, увеличившись с 380 миллиардов долларов, по которой она закрыла свой раунд серии G на 30 миллиардов долларов в феврале. Выручка выросла с примерно 1 миллиарда долларов в конце 2024 года до оценочного уровня 30 миллиардов долларов в год в 2026 году, что обусловлено внедрением Claude в предприятия.

      Anthropic также открыла новый офис в Милане 28 мая, шестой в Европе, и назначила КиЁнга Чоя представителем директора Кореи перед открытием офиса в Сеуле. Расширение отражает растущий спрос на Claude на рынках предприятий за пределами Соединенных Штатов.

      Конкурентный контекст

      Opus 4.8 выходит на рынок, где темпы выпуска моделей резко ускорились. OpenAI выпустила GPT-5.5 как свою первую полностью переобученную базовую модель с момента GPT-4.5, а GPT-5.4 установила новые рекорды на профессиональных бенчмарках ранее в этом году. Google инвестировала до 40 миллиардов долларов в Anthropic, но продолжает разрабатывать свои собственные модели Gemini. Рынок передового ИИ консолидировался в трехсторонней гонке между Anthropic, OpenAI и Google, каждая из которых выпускает постепенные обновления моделей с нарастающей скоростью.

      Для Anthropic различие, которое она пытается провести с Opus 4.8, заключается не в сырой способности, а в надежности. Модель, которая ловит свои собственные ошибки, указывает на свои неопределенности и последовательно выполняет инструкции, более полезна в агентных рабочих процессах, где ИИ-системы работают с ограниченным человеческим контролем. Будет ли это позиционирование сохраняться по мере появления моделей класса Mythos, обещающих более высокий интеллект с новыми ограничениями безопасности, определит, сможет ли Anthropic сохранить свое лидерство на рынке предприятий, который она стремится доминировать.

Другие статьи

Вы можете заставить Призрака делать все, что вы хотите, на этом сайте Страшного Фильма. Фильм "Страшное кино" запустил интерактивный веб-сайт перед релизом 5 июня, позволяя фанатам вводить команды и наблюдать, как Призрак выполняет их на экране.

Waymo открывает более дешевый роботакси Ojai, построенный китайской компанией Geely Новый роботакси Waymo Ojai уменьшает количество датчиков на 42% и стоит на $75,000 меньше, чем Jaguar I-PACE. Построенный китайской компанией Geely Zeekr, он запускается в трех городах США.

Waymo открывает более дешевый роботакси Ojai, построенный китайской компанией Geely Новый роботакси Waymo Ojai сокращает количество датчиков на 42% и стоит на $75,000 меньше, чем Jaguar I-PACE. Построенный китайской компанией Geely Zeekr, он запускается в трех городах США.

Вы можете заставить Призрака делать все, что вы хотите, на этом сайте Страшного Фильма. Фильм "Страшное кино" запустил интерактивный веб-сайт перед своим релизом 5 июня, позволяя фанатам вводить команды и наблюдать, как Призрак выполняет их на экране.

Утечка iOS 27 демонстрирует минималистичный редизайн Siri и новые трюки в специальном приложении Редизайн Siri в iOS 27 от Apple предоставляет ассистенту первое специализированное приложение, новый интерфейс поиска с проведением вниз, основу ИИ на базе Gemini и режим в приложении Камера.

Oura Ring 5 на 40% меньше с самым устойчивым к царапинам дизайном на сегодняшний день Oura сделала своё новое смарт-кольцо на 40% меньше, добавив более мощные датчики, более прочное покрытие и улучшенное время работы от батареи.

Клод Опус 4.8 от Anthropic в четыре раза более честен, следующий мифос

Anthropic выпускает Claude Opus 4.8 с более точными суждениями и меньшим количеством незамеченных ошибок в коде. Модели класса Mythos появятся через несколько недель. Серия H привлекла 65 миллиардов долларов при оценке в 965 миллиардов долларов.