Клод пишет 80% своего кода, призывает к паузе в разработке ИИ
TL;DRАнтропик сообщает, что Клод теперь пишет более 80% своего производственного кода, при этом инженеры отправляют на 8 раз больше кода за квартал, чем в 2024 году. Новая статья Института Антропик описывает путь к рекурсивному самоулучшению и призывает к созданию проверяемого глобального механизма паузы.
Один из инженеров Антропик не писал ни строчки кода в течение пяти месяцев. Не потому, что работа закончилась, а потому, что это делает Клод. На май 2026 года более 80% кода, объединенного в производственную кодовую базу Антропик, было написано Клодом, по сравнению с низкими однозначными цифрами, когда Клод Код был запущен в феврале 2025 года.
Эта цифра, опубликованная в среду в новой статье Института Антропик под названием «Когда ИИ создает себя», не является заголовком, на котором компания хочет, чтобы вы сосредоточились. Заголовок — это то, что следует дальше: ИИ, который может проектировать и обучать своего собственного преемника. Антропик утверждает, что они еще не достигли этого, но могут быть ближе, чем большинство учреждений готово к этому.
Цифры, стоящие за изменением
Прибавка производительности очевидна. Во втором квартале 2026 года типичный инженер Антропик объединял в восемь раз больше кода в день, чем в 2024 году. Внутренний опрос 130 исследовательских сотрудников показал, что медианный респондент оценил примерно в четыре раза больше выходных данных с последней моделью Антропик, Mythos Preview, по сравнению с работой без ИИ.
По самым сложным, открытым инженерным задачам, уровень успеха Клода поднялся до 76% в мае 2026 года, что на 50 процентных пунктов больше за шесть месяцев. Антропик приводит конкретный пример: когда рутинное обновление начало вызывать сбои десятков тысяч учебных заданий, инженер указал Клоду на текущий инцидент с небольшим количеством текстового контекста и доступом к кластеру. Клод изолировал неясный флаг отладки, воспроизвел сбой и подтвердил исправление примерно за два часа. Обычно это заняло бы два-три дня.
Разрыв в качестве кода также сокращается. Сотрудники Антропик говорят, что код, написанный Клодом, был «несколько хуже» кода, написанного человеком в конце 2025 года, сейчас находится на грубой паритете и ожидается, что в течение года станет строго лучше. Автоматизированный рецензент Клода теперь проверяет каждое предложенное изменение в кодовой базе Антропик перед его объединением. Ретроспективный анализ показал, что он поймал бы примерно треть ошибок, стоящих за прошлыми инцидентами claude.ai, прежде чем они достигли производства.
От кодирования к исследованию
Написание кода — это легкая часть. Более сложный вопрос заключается в том, может ли Клод проводить исследования, тот вид открытого научного рассуждения, который движет ИИ вперед.
Доказательства Антропик здесь более предварительные, но все же впечатляющие. В апреле 2026 года компания опубликовала демонстрацию работы Клода над открытым проектом по исследованию безопасности ИИ от начала до конца. Девять параллельных агентов получили задачу, им было предложено выдвинуть гипотезы, провести эксперименты, поделиться результатами через общий форум и итеративно работать. За более чем 800 часов и примерно 18 000 долларов на вычисления агенты восстановили 97% разрыва в производительности по задаче. Два человеческих исследователя, работая неделю, восстановили 23%.
Другой внутренний эксперимент измерял, может ли Клод выбрать лучший «следующий шаг», чем человеческий исследователь в сложных ситуациях во время реальных исследовательских сессий. В ноябре 2025 года Клод совпадал с суждением человека в 51% случаев. К апрелю 2026 года этот показатель вырос до 64%. Повседневная работа исследований в значительной степени представляет собой цепочку этих решений о следующем шаге. Если эта тенденция продолжится, разрыв между ИИ как помощником и ИИ как исследователем быстро сократится.
Кривая горизонта задач
Внутренние данные Антропик соответствуют более широкой модели, отслеживаемой METR, некоммерческой организацией, которая оценивает возможности ИИ. Длина задач, которые ИИ может надежно выполнять самостоятельно, удваивается примерно каждые четыре месяца, ускоряясь с более раннего темпа каждые семь месяцев.
В марте 2024 года Клод Опус 3 мог справляться с задачами, которые занимают у человека около четырех минут. К началу 2025 года Клод Сонет 3.7 справлялся с задачами продолжительностью полтора часа. Сегодня Клод Опус 4.6 справляется с задачами продолжительностью 12 часов, и METR обнаружил, что Mythos Preview может поддерживать работу как минимум 16 часов, на верхнем пределе того, что текущий набор бенчмарков может измерить. Если тенденция сохранится, задачи, требующие дней квалифицированной человеческой работы, окажутся в пределах досягаемости в этом году. Задачи, требующие недель, могут последовать в 2027 году.
Инфраструктура трещит по швам
Нижние эффекты уже видны. GitHub, платформа, на которой построено большинство программного обеспечения в мире, увидела примерно один миллиард коммитов кода за весь 2025 год. К середине 2026 года платформа обрабатывала 275 миллионов коммитов в неделю, на пути к 14 миллиардам за год. Только Клод Код составляет 4.5% всех публичных коммитов на GitHub, генерируя 2.6 миллиона еженедельно.
COO GitHub заявил, что компания «прилагает невероятные усилия» для увеличения мощности, чтобы просто не отставать. Внутри Антропик узкое место уже сместилось: по мере того как Клод генерирует больше кода, человеческий код-ревью стал ограничивающим фактором. Компания утверждает, что столкнулась с классическим примером закона Амдала, когда ускорение одной части процесса просто выявляет следующую самую медленную ссылку.
Вопрос паузы
Самая значительная часть статьи не о производительности. Это призыв к созданию проверяемого глобального механизма для замедления или временной приостановки разработки передового ИИ.
Антропик осторожен с формулировкой. Односторонняя пауза одной лаборатории просто изменит, кто ведет, а не создаст обсуждительный процесс, который, по словам компании, отсутствует. Вместо этого Антропик предлагает систему, в которой несколько передовых лабораторий в нескольких странах могли бы согласиться остановиться при одних и тех же условиях и подтвердить, что другие действительно сделали это. Это проводит параллель с контролем над ядерным оружием, но признает различия: учебные запуски гораздо легче скрыть, чем шахты для ракет, входные данные являются универсальными, а стимул к тихому дефекту огромен.
«Если было бы возможно эффективно замедлить развитие этой технологии, чтобы дать себе больше времени для решения ее огромных последствий, мы думаем, что это, вероятно, было бы хорошим делом», — говорится в статье. Рынок ИИ-кодирования теперь стоит десятки миллиардов. Просить индустрию приостановиться — значит просить ее оставить деньги на столе, доверяя, что конкуренты, включая тех, кто в Китае, сделают то же самое.
Что значит рекурсивное самоулучшение
Статья излагает три возможных будущих сценария. В первом тренд останавливается, но даже сегодняшние возможности изменяют экономику. Во втором развитие ИИ становится существенно автоматизированным, в то время как люди все еще задают направление исследований, что означает, что компании из 100 человек могут выполнять работу организаций из 100 000 человек. В третьем ИИ-системы достигают полного рекурсивного самоулучшения и начинают проектировать своих собственных преемников.
Антропик утверждает, что у них нет «хороших интуиций» о том, как выглядит этот третий сценарий. Но они предлагают одно наблюдение: даже рекурсивный интеллект не может ускорить все. Он не может узнать, что делает лекарство за десятилетия использования, провести выборы раньше, чем это предписывает конституция, или превратить незнакомца в старого друга за выходные. Ощущаемый темп этого будущего для большинства людей все еще
Другие статьи
Клод пишет 80% своего кода, призывает к паузе в разработке ИИ
Клод теперь пишет 80% производственного кода Anthropic. Новая статья компании описывает путь к рекурсивному самоулучшению и призывает к глобальному механизму приостановки.
