ArXiv вводит однолетний запрет для исследователей, которые подают статьи с непроверенным контентом, сгенерированным ИИ

      TL;DRArXiv запретит исследователям на один год, если они подадут статьи с очевидными признаками неконтролируемой генерации ИИ, такими как галлюцинированные ссылки или оставшиеся инструкции чат-бота. Политика, объявленная председателем секции компьютерных наук Томасом Диттерихом, является первым официальным наказанием от крупной платформы препринтов за некачественные материалы, сгенерированные ИИ.

      ArXiv, открытый репозиторий, который более трех десятилетий служит основным каналом распространения препринтных исследований в области компьютерных наук, математики и физики, запретит авторам на один год, если они подадут статьи, содержащие очевидные признаки неконтролируемой генерации ИИ. Томас Диттерих, председатель секции компьютерных наук arXiv, объявил о политике в четверг, написав, что подачи с «неопровержимыми доказательствами» необработанного вывода больших языковых моделей означают, что «мы не можем доверять ничему в статье».

      Правило не является всеобъемлющим запретом на использование инструментов ИИ. Исследователи все еще могут использовать языковые модели для написания, редактирования или анализа. Тем не менее, наказание наступает, если есть доказательства того, что автор вставил вывод LLM в статью, не проверив его, что приводит к галлюцинированным ссылкам, временным инструкциям от чат-бота или поддельным таблицам данных с примечаниями «заполните реальными числами из ваших экспериментов». Если модераторы найдут такие доказательства и председатель секции подтвердит это, автору грозит годовой запрет на arXiv, после чего все последующие подачи должны сначала быть приняты рецензируемым журналом, прежде чем они могут появиться на платформе.

      Почему это важно

      ArXiv не является журналом. Он не рецензирует статьи. Но он стал де-факто способом, которым исследования циркулируют в нескольких самых быстро развивающихся областях науки, особенно в машинном обучении и искусственном интеллекте. Статьи, размещенные на arXiv, читаются, цитируются и на них основываются задолго до того, как они появятся в официальных публикациях, если они вообще появятся. Это делает стандарты качества платформы необычайно значительными: галлюцинированная цитата на arXiv может распространиться по научной литературе так же эффективно, как и в рецензируемом журнале, и часто быстрее.

      Масштаб проблемы значителен. Исследование, опубликованное в The Lancet в мае 2026 года исследователями из Колумбийского университета, проанализировало 2,5 миллиона биомедицинских статей и 126 миллионов ссылок, индексируемых на PubMed Central. Оно показало, что количество поддельных цитат увеличилось в двенадцать раз с 2023 года. В том году примерно одна из 2828 статей содержала хотя бы одну поддельную ссылку. К 2025 году этот показатель вырос до одной из 458. В первые семь недель 2026 года он составил одну из 277. Исследователи связали рост с распространением инструментов написания на основе ИИ, отметив, что предыдущие исследования оценивают, что от 30 до 69 процентов ссылок, сгенерированных LLM в биомедицинских контекстах, являются поддельными.

      ArXiv имеет причины воспринимать угрозу всерьез. Платформа получает тысячи заявок каждый месяц, и ее система волонтерской модерации не была разработана для масштабного скрининга контента, сгенерированного машиной. Объявление Диттериха описывало новое наказание как правило «одного удара», хотя решения подлежат обжалованию и требуют подтверждения председателя секции перед наложением.

      Что считается доказательством

      Политика целенаправленно узкая в том, что она нацелена. Диттерих перечислил конкретные примеры «неопровержимых доказательств»: галлюцинированные ссылки, которые не соответствуют никакой реальной публикации, мета-комментарии от языковой модели, оставленные в тексте (например, «вот 200-словное резюме; хотите, чтобы я внес какие-либо изменения?»), и временные данные с инструкциями для автора, которые никогда не были удалены. Это не тонкие ошибки качества. Это признаки того, что автор не прочитал статью перед ее подачей.

      Это различие имеет значение, потому что оно избегает гораздо более сложного вопроса о том, следует ли вообще разрешать написание с помощью ИИ. Существующая политика ArXiv уже заявляет, что авторы несут «полную ответственность» за свой контент «независимо от того, как содержимое генерируется». Новое наказание укрепляет этот принцип, нацеливаясь на самые вопиющие нарушения, случаи, когда отсутствие какого-либо контроля со стороны автора можно доказать из самого текста.

      Этот подход имеет практические преимущества. Определить, была ли хорошо отредактированная статья написана с помощью LLM, ненадежно с текущими инструментами обнаружения, и попытка наложить более широкий запрет была бы как технически сложной, так и потенциально наказательной по отношению к исследователям, которые ответственно используют инструменты ИИ. Сосредоточив внимание на очевидных ошибках, arXiv может применять правило, не требуя создания или покупки системы обнаружения ИИ, технологии, которая остается подверженной собственным ошибкам.

      Широкая проблема

      ArXiv не единственное учреждение, сталкивающееся с этой проблемой. Академические конференции в области компьютерных наук, включая NeurIPS и ICML, сообщали о всплесках подач, которые, по-видимому, были сгенерированы с минимальным человеческим контролем. Nature опубликовал статью в конце 2025 года, описывающую, как некачественные материалы ИИ создают кризис в области компьютерных наук, где объем низкокачественных подач подавляет рецензентов и размывает соотношение сигнал/шум в выходных данных области.

      Рецензируемые журналы сталкиваются с той же проблемой. Исследование Lancet показало, что поддельные цитаты появлялись в статьях, которые уже прошли рецензирование, что предполагает, что рецензенты либо не проверяют ссылки, либо не могут идентифицировать подделки с той скоростью, с которой они сейчас появляются. Главный автор Максим Топаз из Школы медсестер Колумбийского университета предупредил, что клиницисты и разработчики рекомендаций не имеют возможности знать, когда доказательства, на которые они полагаются, не существуют, что является пробелом, который усилия по снижению галлюцинаций ИИ в научных исследованиях пока не закрыли.

      Сам arXiv проходит структурные изменения, которые могут помочь ему справиться с этой проблемой. После более чем 20 лет как проекта, размещенного в Корнельском университете, платформа становится независимым некоммерческим учреждением, что должно дать ей большую автономию в отношении своих политик модерации и возможность собирать средства специально для борьбы с проблемами качества. Она также ввела требование для впервые подающих заявки получить одобрение от установленного автора, что является мерой контроля, направленной на снижение объема подач от аккаунтов, созданных исключительно для публикации материалов, сгенерированных ИИ.

      Ограничения применения

      Новое правило поймает самых небрежных правонарушителей, исследователей, которые подают статьи, которые они не прочитали. Оно не поймает исследователей, которые используют языковые модели для генерации правдоподобных, но неверных утверждений, подделки данных или создания статей, которые являются беглыми, но научно пустыми. Эти проблемы требуют рецензирования, институционального контроля и готовности в научном сообществе относиться к неправомерному поведению с использованием ИИ с такой же серьезностью, как и к традиционным формам подделки.

      Что политика arXiv устанавливает, так это принцип: если вы подаете статью, вы несете ответственность за каждое слово в ней. Это всегда было верно в теории. Разница сейчас в том, что языковые модели сделали тривиально простым создание текста, который выглядит как наука, но не содержит ничего существенного. Годовой запрет arXiv является скромным наказанием за серьезное правонарушение, но это также первое официальное признание крупной исследовательской платформы того, что проблема больше не является вопросом случайной небрежности. Она структурная, она

Другие статьи

Почему инфраструктура рабочего места является тихим двигателем бизнес-результатов Инфраструктура рабочего места, от гибридных офисных решений до инструментов для совместной работы и благополучия сотрудников, тихо определяет, будет ли компания расти или стагнировать. Вот во что стоит инвестировать.

Asus ROG и Xreal создали первые AR игровые очки с частотой 240 Гц. Они стоят 849 долларов и будут отправлены в июне. ROG Xreal R1 оснащен двумя микродисплеями Sony OLED, виртуальным экраном размером 171 дюйм и аудиосистемой Bose, весит всего 91 грамм. Предзаказы доступны на Best Buy.

Мальта только что стала первой страной, которая предоставила каждому гражданину бесплатный ChatGPT Plus. Есть одно условие. OpenAI подписала соглашение с Мальтой о предоставлении ChatGPT Plus на один год всем жителям, которые пройдут бесплатный курс по грамотности в области ИИ, разработанный университетом.

Destinus привлекает 200 миллионов евро перед IPO. Производитель крылатых ракет хочет оценку в 5 миллиардов евро. Голландский стартап в области обороны производит дроны и крылатые ракеты для Украины и европейских союзников. У него уже есть совместное предприятие с Rheinmetall.

Китайские электромобили прибывают в Канаду. Почти 400 дилеров уже борются за их продажу. Канада снизила тарифы на китайские электромобили до 6,1% с лимитом в 49 000 единиц. Дилеры выстраиваются в очередь, Трамп называет это катастрофой, и первые автомобили уже прибыли.

ArXiv вводит однолетний запрет для исследователей, которые подают статьи с непроверенным контентом, сгенерированным ИИ

Платформа препринтов будет наказывать авторов, чьи статьи содержат галлюцинированные ссылки или оставшиеся инструкции LLM. Исследование Lancet показало, что количество поддельных цитат в биомедицинских статьях увеличилось в двенадцать раз с 2023 года.