Клауд Опус 4.8 от Anthropic в четыре раза более честен, следующий мифос

      TL;DRAnthropic выпустила Claude Opus 4.8, обновление своего флагманского ИИ-модели, которая в четыре раза менее вероятно пропустит ошибки в коде незамеченными. Компания также анонсировала модели класса Mythos, которые уже обнаружили более 10,000 критических уязвимостей в программном обеспечении через проект Glasswing, и объявила о раунде финансирования серии H на сумму 65 миллиардов долларов при постоценке в 965 миллиардов долларов.

      Anthropic выпустила Claude Opus 4.8, обновление своего флагманского ИИ-модели, которую компания называет более честной, более надежной в агентных задачах и лучше справляющейся с собственными ошибками. Модель доступна немедленно по той же цене, что и ее предшественник, 5 долларов за миллион входных токенов и 25 долларов за миллион выходных токенов, и внедряется во все продукты Anthropic, включая claude.ai, Claude Code и API.

      Главное улучшение — это честность. Anthropic утверждает, что Opus 4.8 примерно в четыре раза менее вероятно, чем Opus 4.7, пропустит ошибки в написанном коде незамеченными. Первые тестировщики сообщают, что модель более охотно указывает на неопределенности в своей работе и менее склонна делать неподтвержденные утверждения, что является постоянной проблемой для ИИ-моделей, которые склонны демонстрировать уверенность, независимо от того, оправдана она или нет.

      Улучшения по всем показателям

      Opus 4.8 улучшает показатели по сравнению с предшественником по опубликованным бенчмаркам Anthropic. В агентном кодировании (Terminal-Bench 2.1) оценка повышается с 64.3% до 69.2%. Мультидисциплинарное мышление с инструментами улучшается с 54.7% до 57.9%. Агентное использование компьютера увеличивается с 82.8% до 83.4%, а оценки в области знаний повышаются с 1,753 до 1,890.

      Оценка согласованности Anthropic показала, что Opus 4.8 достигает новых высот по показателям просоциальных черт, включая поддержку автономии пользователей и действия в интересах пользователя. Уровни несогласованного поведения, такого как обман или сотрудничество с неправильным использованием, значительно ниже, чем в Opus 4.7, и сопоставимы с Claude Mythos Preview, лучшей согласованной моделью Anthropic.

      Ранние тестировщики видят практические улучшения

      Выпуск сопровождается одобрением от компаний, уже использующих модель. Cognition, компания, стоящая за ИИ-кодировщиком Devin, заявила, что Opus 4.8 использует инструменты более эффективно и исправляет проблемы с избыточностью комментариев и вызовами инструментов, которые появились в Opus 4.7. Cursor, редактор кода на базе ИИ, сообщил об улучшениях на всех уровнях усилий в своей оценке CursorBench.

      Harvey, который разрабатывает ИИ для юридической работы, заявил, что Opus 4.8 демонстрирует наивысший результат, зафиксированный на его Legal Agent Benchmark, и является первой моделью, которая преодолела 10% в общем стандарте. Databricks сообщила, что Opus 4.8 быстрее обрабатывает более глубокие многошаговые вопросы в своем агенте Genie AI, при этом стоимость токенов на 61% ниже, чем у Opus 4.7.

      Thomson Reuters сообщила, что CoCounsel Legal увидела значительные улучшения в согласованности и качестве рассуждений. Hebbia, которая разрабатывает ИИ для анализа финансовых документов, отметила лучшую точность цитирования и большую эффективность токенов при выполнении задач поиска.

      Новые функции наряду с моделью

      Anthropic запускает несколько функций вместе с Opus 4.8. Новый контроль усилий в claude.ai и Cowork позволяет пользователям выбирать, сколько вычислений Claude применяет к ответу, балансируя скорость и качество. Claude Code получает функцию динамических рабочих процессов, которая позволяет ему планировать работу и запускать сотни параллельных субагентов в одной сессии, что позволяет выполнять миграции на уровне кодовой базы на сотни тысяч строк кода.

      Для разработчиков API сообщений теперь принимает системные записи внутри массива сообщений, позволяя обновлять инструкции в процессе выполнения задачи без разрушения кэша подсказок. Быстрый режим для Opus 4.8, который работает в 2.5 раза быстрее, теперь в три раза дешевле, чем был для предыдущих моделей.

      Mythos — это более важная история

      Более значительное объявление может касаться того, что будет дальше. Anthropic заявила, что планирует выпустить новый класс модели с более высоким интеллектом, чем Opus, основанный на архитектуре Claude Mythos. Небольшое количество организаций уже использует Claude Mythos Preview через проект Glasswing, инициативу, сосредоточенную на использовании модели для работы в области кибербезопасности. Anthropic и примерно 50 партнеров, включая Apple, Google, Microsoft и Amazon Web Services, использовали Mythos Preview для обнаружения более 10,000 уязвимостей высокой или критической степени серьезности в критической программной инфраструктуре.

      Модели класса Mythos требуют более строгих киберзащит перед общим выпуском, заявила Anthropic, но компания ожидает, что они будут доступны всем клиентам в ближайшие недели. Модель находится на полном уровне возможностей выше Opus 4.7 и может автономно находить уязвимости нулевого дня и создавать для них эксплойты, что объясняет как восторг, так и осторожность вокруг ее развертывания.

      Компания, приближающаяся к 1 триллиону долларов

      Запуск Opus 4.8 происходит на фоне продолжающегося роста оценки Anthropic. Компания объявила о раунде финансирования серии H на сумму 65 миллиардов долларов при постоценке в 965 миллиардов долларов в тот же день, увеличившись с 380 миллиардов долларов, по которой она закрыла свой раунд серии G на 30 миллиардов долларов в феврале. Выручка выросла с примерно 1 миллиарда долларов в конце 2024 года до предполагаемого годового темпа в 30 миллиардов долларов в 2026 году, что обусловлено принятием Claude в корпоративном секторе.

      Anthropic также открыла новый офис в Милане 28 мая, шестой в Европе, и назначила КиЁнга Чоя на должность представителя директора Кореи перед открытием офиса в Сеуле. Расширение отражает растущий спрос на Claude на корпоративных рынках за пределами Соединенных Штатов.

      Конкурентный контекст

      Opus 4.8 выходит на рынок, где темпы выпуска моделей резко возросли. OpenAI запустила GPT-5.5 как свою первую полностью переобученную базовую модель с момента GPT-4.5, а GPT-5.4 установила новые рекорды на профессиональных бенчмарках ранее в этом году. Google инвестировала до 40 миллиардов долларов в Anthropic, но продолжает разрабатывать свои собственные модели Gemini. Рынок передового ИИ консолидировался в трехсторонней гонке между Anthropic, OpenAI и Google, каждая из компаний выпускает поэтапные обновления моделей с нарастающей скоростью.

      Для Anthropic различие, которое она пытается провести с Opus 4.8, заключается не в сырой способности, а в надежности. Модель, которая ловит свои собственные ошибки, указывает на свои неопределенности и последовательно выполняет инструкции, более полезна в агентных рабочих процессах, где ИИ-системы работают с ограниченным человеческим контролем. Будет ли это позиционирование актуальным, когда появятся модели класса Mythos, обещающие более высокий интеллект с новыми ограничениями безопасности, определит, сможет ли Anthropic сохранить свое лидерство на корпоративном рынке, который она стремится доминировать.

Другие статьи

Вы можете заставить Призрака делать все, что вы хотите, на этом сайте Страшного Фильма. Фильм "Страшное кино" запустил интерактивный веб-сайт перед своим релизом 5 июня, позволяя фанатам вводить команды и наблюдать, как Призрак выполняет их на экране.

Приложение камеры iPhone готовится к серьезному обновлению, и это может быть нашим первым взглядом на него. Обновление iOS 27 от Apple должно принести значительное обновление приложения Камера на ваш iPhone, с интеграцией Siri, новыми инструментами редактирования на основе ИИ и полностью настраиваемым интерфейсом.

Клауд Опус 4.8 от Anthropic в четыре раза более честен, следующий мифос Anthropic выпускает Claude Opus 4.8 с более точным суждением и меньшим количеством незамеченных ошибок в коде. Модели класса Mythos появятся через несколько недель. Серия H привлекла 65 миллиардов долларов при оценке в 965 миллиардов долларов.

Waymo открывает более дешевый роботакси Ojai, построенный китайской компанией Geely Новый роботакси Waymo Ojai уменьшил количество датчиков на 42% и стоит на $75,000 меньше, чем Jaguar I-PACE. Построенный китайской компанией Geely Zeekr, он запускается в трех городах США.

Вы можете заставить Призрака делать все, что вы хотите, на этом сайте Страшного Фильма. Фильм "Страшное кино" запустил интерактивный веб-сайт перед релизом 5 июня, позволяя фанатам вводить команды и наблюдать, как Призрак выполняет их на экране.

Утечка iOS 27 демонстрирует минималистичный редизайн Siri и новые трюки в специальном приложении Редизайн Siri в iOS 27 от Apple предоставляет ассистенту первое специализированное приложение, новый интерфейс поиска с проведением вниз, основу ИИ на базе Gemini и режим в приложении Камера.

Клауд Опус 4.8 от Anthropic в четыре раза более честен, следующий мифос

Anthropic выпустила Claude Opus 4.8 с более точными суждениями и меньшим количеством незамеченных ошибок в коде. Модели класса Mythos появятся через несколько недель. Серия H привлекла $65 миллиардов при оценке в $965 миллиардов.