ChatGPT, Claude, Gemini и Grok не готовы информировать американских избирателей

      Новое поколение избирателей будет спрашивать ChatGPT, Claude, Gemini и Grok, как голосовать, где находится избирательный участок и кто говорит правду. Опубликованные исследования согласуются: модели не могут надежно ответить на эти вопросы. Выборы все равно состоятся.

      Весной 2024 года исследователь Tow Center в Колумбийской школе журналистики провел контролируемый эксперимент, который, оглядываясь назад, должен был разрешить спор в отрасли.

      Команда предоставила восьми продуктам поиска на базе ИИ, включая ChatGPT Search, Perplexity, Gemini, Copilot и режимы поиска Grok-2 и Grok-3, набор из 200 новостных статей, равномерно выбранных из двадцати издателей, а затем попросила каждый инструмент идентифицировать статью и указать ее источник. В ходе 1,600 запросов модели возвращали неправильный ответ более чем в 60% случаев.

      ChatGPT Search, единственный инструмент, который согласился ответить на все 200 запросов, был полностью точен в 28% случаев и полностью ошибочен в 57%. Perplexity, позиционируемый как вариант для исследований, ошибался в 37% случаев, что является самым низким уровнем ошибок в группе.

      Эти цифры были опубликованы более года назад. Они не улучшились. Резюме исследования Bloomberg, опубликованное 20 мая, подтвердило, что ChatGPT, Claude, Gemini и Grok остаются ненадежными, когда речь идет о новостях, включая новости выборов.

      Анализ данных Nieman Lab показал, что ChatGPT продолжает быть худшим из четырех в указании новостных источников, откуда он черпает информацию. Отдельный мониторинг ложных заявлений NewsGuard показал, что десять лучших чат-ботов на базе генеративного ИИ возвращают ложные утверждения на новостные запросы в 35% случаев в августе 2025 года, по сравнению с 18% в предыдущем году.

      Промежуточные выборы в США 2026 года будут через 167 дней с момента написания этого текста. Первая группа американских избирателей, которая, вероятно, будет использовать чат-бота в качестве основного интерфейса для новостей, пойдет на выборы в ноябре.

      Отчет NOTUS о кампаниях был откровенным: ChatGPT и Claude будут влиятельными в этих выборах, и никто, включая лаборатории, которые их создали, не имеет обоснованного плана на случай, если эти силы дадут уверенные, красноречивые, хорошо цитируемые ответы, которые также окажутся неверными.

      Что показывают опубликованные исследования, в совокупности, так это то, что чат-боты систематически неправильно приписывают цитаты. Они фабрикуют ссылки, которые не ведут никуда. Они ссылаются на синдицированные или ИИ-резюмированные копии статей в предпочтение оригиналам, разрывая цепочку обратно к журналистам, которые произвели отчет.

      Они не могут надежно различать между новостной лентой Reuters, перепиской контентной фермы и российским сайтом дезинформации, замаскированным под те же синдикационные оболочки. Мониторинг NewsGuard по фейковым новостным сайтам, созданным в Москве, показал, что десять лучших моделей генеративного ИИ имитируют российские дезинформационные утверждения примерно в треть случаев, ссылаясь на эти сайты как на авторитетные источники.

      Структурная причина этого не является загадкой, и лаборатории не притворяются, что это так. Трубопроводы обучающих данных, которые производят текущее поколение передовых моделей, поглотили открытый веб в масштабе, который включает как New York Times, так и отфильтрованный вывод операций дезинформации.

      Системы генерации с дополнением поиска, которые работают на основе этих моделей, те, которые должны обеспечивать ответы на основе текущих источников, работают на поисковом индексе, верхние результаты которого во многих новостных запросах являются ИИ-сгенерированными переписками ИИ-сгенерированных переписок.

      Анализ «пустот данных» в Lawfare с начала этого года описывает механизм: где реальная история имеет тонкое оригинальное освещение, пропаганда заполняет пробел, и чат-бот, на чистейшем чтении своих журналов извлечения, рассматривает пропаганду как основное содержание.

      С этой позиции лаборатории сейчас ведут переговоры о лицензионных соглашениях с издателями. OpenAI подписала соглашения с Financial Times, Axel Springer, News Corp, Le Monde и рядом других; Google сделала то же самое; Anthropic и Perplexity разработали свои собственные партнерства с издателями.

      Аргумент в пользу сделок, выдвинутый обеими сторонами, заключается в том, что доступ к лицензированному контенту приведет к лучшим цитатам, более точному резюмированию и более здоровым отношениям по трафику между чат-ботом и издателем. Аргумент правдоподобен. Опубликованные доказательства на май 2026 года еще не подтверждают его.

      57% уровень полной неудачи ChatGPT Search был измерен на корпусе, который включал статьи от издателей, с которыми ChatGPT имел лицензионные отношения. Лицензирование не привело к точному извлечению. Оно создало видимость легитимности вокруг неточного извлечения.

      Проблема, специфичная для промежуточных выборов, заключается в том, что режимы неудач текущего поколения чат-ботов почти идеально откалиброваны под дезинформацию выборов. Избиратель, который спрашивает ChatGPT «где мой избирательный участок», получит уверенный ответ с правдоподобной ссылкой; правильность ответа зависит от того, является ли наиболее недавно кэшированный источник для этого адреса правильным.

      Избиратель, который спрашивает Gemini «был ли республиканский кандидат в моем округе обвинен в каких-либо преступлениях», получит ответ, точность которого зависит от того, какая версия какого новостного отчета появляется на уровне извлечения, и от того, является ли этот источник новостной лентой AP или синдицированной перепиской, которая тихо опускает оспариваемый пункт.

      Избиратель, который спрашивает Grok «кто выигрывает эту гонку», получит ответ, сформированный на основе предельного обучения модели и пропорции сайтов-агрегаторов опросов в индексе извлечения.

      Ни один из этих режимов неудач не выглядит как галлюцинация для пользователя. Они выглядят как авторитетная информация, представленная бегло, с цитатами.

      Ответ лабораторий заключался в том, чтобы позиционировать продукты чат-ботов как вспомогательные, а не основные источники. Сэм Альтман, Дарио Амодеи, Сундар Пичаи и Илон Маск в разное время за последние восемнадцать месяцев высказывали какую-то версию аргумента «всегда проверяйте по первоисточнику».

      Аргумент технически верен и операционно бесполезен. Избиратель, который прочитал бы первоисточник перед тем, как задать вопрос чат-боту, никогда не был той группой, которая подвергалась риску.

      Избиратели, подвергающиеся риску, это те, для кого чат-бот является основным источником, так же как Google Search был основным источником для предыдущей группы, а вечерние новости сети были основным источником для группы до этого.

      Текущие репортажи CJR о экспериментах с ИИ в редакциях были беспощадны в этом вопросе: компромисс, который делается, это точность ради удобства, и издатели все более готовы его принимать.

      Существует параллельная линия, которая делает воздействие промежуточных выборов более острым. Регуляторное давление Китая на неправильное использование ИИ началось в апреле 2026 года с обязательного маркирования и правил симуляции личности.

      Европейская комиссия проводит параллельно свою программу исполнения Закона о цифровых услугах. Оба режима откалиброваны так, чтобы требовать от операторов чат-ботов предоставления происхождения, маркировки выводов и принятия ответственности за дезинформацию, произведенную внутри их продуктов.

      В США нет ничего подобного на федеральном уровне. Принятие OpenAI стека происхождения C2PA и SynthID является ответом лаборатории на часть этого вопроса, применяемого к изображениям, сгенерированным ИИ. Нет эквивалентного слоя происхождения для текстового вывода чат-бота.

      Факт, заявленный уверенным язы

Другие статьи

QIZ Security и Google Cloud сотрудничают в области квантово-устойчивого шифрования QIZ Security сотрудничает с Google Cloud, чтобы помочь предприятиям выявлять криптографические уязвимости и перейти на постквантовое шифрование до того, как сроки станут более жесткими. QIZ Security и Google Cloud сотрудничают в области квантово-устойчивого шифрования QIZ Security сотрудничает с Google Cloud, чтобы помочь предприятиям выявлять криптографические уязвимости и перейти на постквантовое шифрование до того, как сроки станут более жесткими.

Fairplay и NCSE просят FTC расследовать Roblox по вопросам безопасности детей и «недобросовестного и обманного» маркетинга Fairplay и Национальный центр по борьбе с сексуальной эксплуатацией обратились к Федеральной торговой комиссии США с просьбой расследовать Roblox из-за «несправедливых и обманчивых» практик дизайна и маркетинга.

Apple Sports готов отслеживать каждое сердечное разбитие на Кубке мира в реальном времени Apple Sports расширяется на международном уровне с инструментами для Кубка мира, включая виды сетки, визуальные формации, виджеты, Live Activities и доступ к Apple TV в один клик. Lambda выигрывает облачный контракт с Hudson River Trading на поставку доступа к чипам NVIDIA Лямбда подписала соглашение о облачной инфраструктуре с Hudson River Trading для предоставления HRT доступа к чипам NVIDIA. QIZ Security и Google Cloud партнеры по квантово-устойчивому шифрованию QIZ Security сотрудничает с Google Cloud, чтобы помочь предприятиям выявлять криптографические уязвимости и перейти на постквантовое шифрование до того, как сроки станут более жесткими.

ChatGPT, Claude, Gemini и Grok не готовы информировать американских избирателей

Чат-боты ненадежны в вопросах новостей. До промежуточных выборов осталось 167 дней. Взгляд на то, что на самом деле говорит опубликованное исследование о ChatGPT, Claude, Gemini и Grok, и что лаборатории делают по этому поводу.