Проблема безопасности ИИ, которую никто не хочет признавать, уже здесь
31 марта 2026 года Anthropic случайно отправила весь исходный код Claude Code в публичный реестр npm. Около 512 000 строк TypeScript в 1 906 файлах, включая 44 скрытых флага функции и ссылки на не выпущенную модель с кодовым именем Mythos, стали открыто доступными в хранилище Cloudflare, пока исследователь безопасности не нашел это и не опубликовал ссылку в X. В течение нескольких часов кодовая база была зеркально скопирована на GitHub, собрав тысячи звезд, прежде чем Anthropic смогла выпустить уведомления DMCA о нарушении авторских прав. Anthropic назвала это ошибкой упаковки, вызванной человеческой ошибкой. Это объяснение верно и в то же время несколько не по существу.
Выставив на обозрение чертежи Claude Code, Anthropic передала дорожную карту любому, кто хотел бы создать злонамеренные репозитории, специально разработанные для обмана Claude Code с целью выполнения фоновых команд или экстракции данных до того, как пользователь увидит запрос на доверие. Логика контроля разрешений, архитектура песочницы, точные механизмы оркестрации, которые регулируют, как агент проверяет, что ему разрешено делать: все это теперь навсегда находится в открытом доступе в десятках тысяч форкнутых репозиториев, до которых ни одно уведомление DMCA не сможет полностью дойти. То, что утечка раскрыла о состоянии безопасности ИИ, более неудобно, чем сама утечка.
Одна сторона движется быстрее
Обычная интерпретация ИИ в кибербезопасности рассматривает его как грубый баланс, гонку вооружений, где нападение и защита ускоряются одновременно. Эта интерпретация не выдерживает критики в свете конкретных событий, произошедших в марте, или в свете того, что команды безопасности описывают в своей повседневной работе.
Выявленная логика хуков и разрешений в утечке Claude Code делает тихое захват устройств более надежным для атакующих, которые знают, где искать. Тем временем защитники интегрируют ИИ в существующие системы безопасности и проверяют, что он не будет генерировать ложные срабатывания, прежде чем станет оперативно полезным. Эти две временные линии не сопоставимы.
Тим Берк, который управляет управляемыми операциями безопасности более 30 лет в Quest Technology Management, прямо указывает на асимметрию. «Атакующие получили весь чертеж того, как агентный ИИ проверяет разрешения и обрабатывает учетные данные, не прибегая к обратной разработке», — говорит он. «Это означает, что атакующие работают с ИИ, который движется быстрее, чем большинство систем обнаружения были спроектированы для обработки, в то время как команды безопасности все еще разбираются, как развернуть инструменты ИИ, не создавая больше работы для уже перегруженных SOC».
Группа по угрозам Google выявила первую подтвержденную уязвимость нулевого дня, разработанную полностью с помощью ИИ, в начале этого месяца и остановила запланированное массовое событие эксплуатации, прежде чем оно смогло выполниться, что представляет собой оптимистичную версию этой истории. Большинство организаций, защищающихся от тех же возможностей, не являются Google, и их инфраструктура обнаружения не была построена для того, что теперь возможно.
«Большинство организаций все еще используют инфраструктуру обнаружения, которая была разработана для выявления человеческих атакующих, которые методично перемещаются по сетям в течение дней или недель», — говорит Берк. «ИИ сжал эти временные рамки до часов, а в некоторых случаях до минут, что означает, что окно между вторжением и ущербом теперь короче, чем время, необходимое большинству SOC для расследования одного оповещения».
Оповещение, которого не существует
Под проблемой скорости скрывается нечто более структурное. Платформы безопасности созданы для обнаружения поведенческих аномалий, вещей, которые выглядят как злонамеренная деятельность на основе того, что происходит, а не того, что это вызывает. То, что они не могут сказать вам, — это было ли нападение инициировано человеком или ИИ-агентом, действующим автономно. В настоящее время ни одна платформа не выделяет это различие.
Уязвимость, обнаруженная в Claude Code после утечки, иллюстрирует это напрямую: злонамеренный файл может указать ИИ сгенерировать конвейер команд, который выглядит точно так же, как легитимный процесс сборки, вызывая поведение, которое полностью обходит систему разрешений, не поднимая флага, который появился бы в обычном SIEM.
«ИИ-агенты могут быть манипулированы через описания инструментов и подсказки таким образом, что обходят традиционные средства контроля доступа, никогда не вызывая сбоя аутентификации или поднятия тревоги в вашем SIEM», — говорит Берк. «Это означает, что обнаружение должно начать отслеживать, что агент понимал, что он делает, и почему он принял это решение, а не сигнализировать о нарушениях политики задним числом».
Ссылки на Claude Mythos в утеченных файлах добавляют к этому слой, который не получил много внимания. То, что было раскрыто, — это не просто текущий инструмент, но архитектурное направление, в котором движется агентный ИИ, включая улучшенные способности рассуждения и более глубокую интеграцию использования инструментов. Команды безопасности строят защиту против того, что эти системы могут делать сегодня. Утеченная дорожная карта описывает нечто значительно более способное.
«Сейчас подавляющее большинство платформ не может сделать это различие между ИИ и человеческим происхождением», — говорит Берк, «и команды безопасности по сути защищаются вслепую против целой категории угроз, о которых у них нет видимости».
Утечка Anthropic была неправильно настроенным файлом отладки. Организации, которые теперь пытаются выяснить, может ли их инфраструктура безопасности обнаружить, что ИИ-агент считал, что ему разрешено делать, работают над проблемой, которая существовала до 31 марта и будет существовать долго после обработки уведомлений DMCA.
Пока нет четкого решения этой проблемы.
Otros artículos
Проблема безопасности ИИ, которую никто не хочет признавать, уже здесь
Утечка исходного кода Anthropic Claude выявила не только ошибку упаковки, но и показала, насколько далеко продвинулись злоумышленники в области ИИ, в то время как защитники испытывают трудности с тем, чтобы не отставать.
