ChatGPT, Claude, Gemini e Grok non sono pronti a informare gli elettori americani.
Una nuova generazione di elettori chiederà a ChatGPT, Claude, Gemini e Grok come votare, dove si trova il seggio elettorale e chi sta dicendo la verità. La ricerca pubblicata è coerente: i modelli non possono rispondere in modo affidabile a queste domande. Le elezioni arriveranno comunque.
Nella primavera del 2024, un ricercatore del Tow Center della Columbia Journalism School ha condotto un esperimento controllato che, a posteriori, avrebbe dovuto risolvere un dibattito nel settore.
Il team ha fornito otto prodotti di ricerca AI, tra cui ChatGPT Search, Perplexity, Gemini, Copilot e le modalità di ricerca Grok-2 e Grok-3, a un insieme di 200 articoli di notizie estratti uniformemente da venti editori, quindi ha chiesto a ciascun strumento di identificare l'articolo e accreditare la sua fonte. Su 1.600 query, i modelli hanno restituito la risposta sbagliata più del 60% delle volte.
ChatGPT Search, l'unico strumento che ha acconsentito a rispondere a tutte le 200 query, era completamente accurato nel 28% di esse e completamente errato nel 57%. Perplexity, commercializzato come opzione di livello di ricerca, era errato nel 37% dei casi, il tasso di errore più basso del gruppo.
Quei numeri sono stati pubblicati oltre un anno fa. Non sono migliorati. Un riassunto di uno studio di Bloomberg pubblicato il 20 maggio ha confermato che ChatGPT, Claude, Gemini e Grok rimangono inaffidabili quando si parla di notizie, comprese quelle elettorali.
L'analisi di Nieman Lab dello stesso set di dati ha trovato che ChatGPT continua a essere il peggiore dei quattro nell'accreditare le testate giornalistiche da cui attinge. Un monitor separato di NewsGuard sulle false affermazioni ha rilevato che i primi dieci chatbot generativi restituiscono affermazioni false a richieste di notizie nel 35% dei casi nell'agosto 2025, in aumento rispetto al 18% dell'anno precedente.
Le elezioni di metà mandato negli Stati Uniti sono a 167 giorni dalla data di scrittura di questo documento. La prima coorte di elettori americani che utilizzerà, plausibilmente, un chatbot come interfaccia principale per le notizie andrà alle urne a novembre.
Il reportage di NOTUS sulle campagne è stato diretto: ChatGPT e Claude saranno una forza in queste elezioni, e nessuno, compresi i laboratori che li hanno creati, ha un piano difendibile su cosa succede quando queste forze producono risposte sicure, eloquenti e ben citate che sono anche sbagliate.
Ciò che la ricerca pubblicata mostra, preso nel suo insieme, non è che i chatbot occasionalmente allucinano. La cornice dell'allucinazione è un errore di categoria ereditato dal discorso dell'inizio del 2024. La ricerca mostra qualcosa di più specifico e più pericoloso per l'integrità delle informazioni.
I chatbot attribuiscono citazioni in modo sistematico. Fabbricano collegamenti che non portano a nulla. Citano copie sindacate o riassunti AI di articoli in preferenza agli originali, interrompendo la catena di ritorno ai giornalisti che hanno prodotto il reportage.
Non possono distinguere in modo affidabile tra un'agenzia Reuters, una riscrittura di una content farm e un sito di disinformazione russo travestito con gli stessi involucri di sindacazione. Il monitoraggio di NewsGuard sui siti di fake news seminate da Mosca ha trovato che i primi dieci modelli di AI generativa imitano le affermazioni di disinformazione russa circa un terzo delle volte, citando i siti seminati come fonti autorevoli.
La ragione strutturale di ciò non è un mistero, e i laboratori non fingono che lo sia. Le pipeline di dati di addestramento che producono l'attuale generazione di modelli di frontiera hanno assimilato il web aperto a una scala che include sia il New York Times che l'output ripulito delle operazioni di disinformazione.
I sistemi di generazione aumentata da recupero che si trovano sopra quei modelli, quelli destinati a radicare le risposte in fonti attuali, stanno funzionando su un indice di ricerca i cui risultati principali in molte query di notizie sono riscritture generate da AI di riscritture generate da AI.
L'analisi dei 'vuoti di dati' in Lawfare di inizio anno descrive il meccanismo: dove una storia reale ha una copertura originale scarsa, la propaganda riempie il vuoto, e il chatbot, nella lettura più pulita dei suoi log di recupero, tratta la propaganda come la fonte sostanziale.
Questa è la posizione da cui i laboratori stanno ora negoziando accordi di licenza con gli editori. OpenAI ha firmato accordi con il Financial Times, Axel Springer, News Corp, Le Monde e un elenco di altri; Google ha fatto lo stesso; Anthropic e Perplexity hanno sviluppato le proprie partnership con gli editori.
L'argomento per gli accordi, presentato da entrambe le parti, è che l'accesso ai contenuti in licenza produrrà citazioni migliori, riassunti più accurati e una relazione di traffico più sana tra chatbot ed editore. L'argomento è plausibile. Le prove pubblicate, a maggio 2026, non lo supportano ancora.
Il tasso di fallimento completo del 57% di ChatGPT Search è stato misurato su un corpus che includeva articoli di editori con cui ChatGPT aveva relazioni di licenza. La licenza non ha prodotto un recupero accurato. Ha prodotto l'apparenza di legittimità attorno a un recupero inaccurato.
Il problema specifico delle elezioni di metà mandato è che i modi di fallimento della generazione attuale di chatbot sono calibrati quasi perfettamente per la disinformazione elettorale. Un elettore che chiede a ChatGPT 'dove si trova il mio seggio elettorale' riceverà una risposta sicura con una citazione dall'aspetto verosimile; se la risposta è corretta dipende dal fatto che la fonte più recentemente memorizzata per quell'indirizzo sia corretta.
Un elettore che chiede a Gemini “il candidato repubblicano nel mio distretto è stato accusato di qualche crimine” riceverà una risposta la cui accuratezza dipende da quale versione di quale rapporto di notizie il livello di recupero presenta, e se quella superficie è l'agenzia AP o una riscrittura sindacata che omette silenziosamente la clausola contestata.
Un elettore che chiede a Grok ‘chi sta vincendo questa corsa’ riceverà una risposta influenzata dal taglio di addestramento del modello sottostante e dalla proporzione di siti aggregatori di sondaggi nell'indice di recupero.
Nessuno di questi modi di fallimento appare come un'allucinazione per l'utente. Sembrano informazioni autorevoli, fornite fluentemente, con citazioni.
La risposta da parte dei laboratori è stata quella di posizionare i prodotti chatbot come fonti ausiliarie, non primarie. Sam Altman, Dario Amodei, Sundar Pichai ed Elon Musk hanno tutti, in vari momenti degli ultimi diciotto mesi, presentato qualche versione dell'argomento 'verifica sempre contro la fonte primaria'.
L'argomento è tecnicamente corretto e operativamente inutile. Un elettore che avrebbe letto la fonte primaria prima di chiedere al chatbot non è mai stata la popolazione a rischio.
Gli elettori a rischio sono quelli per cui il chatbot è la fonte primaria, come Google Search era la fonte primaria per una coorte precedente, e il notiziario serale di rete era la fonte primaria per la coorte precedente a quella.
La copertura continua del CJR sugli esperimenti di AI nelle redazioni è stata spietata su questo punto: il compromesso che si sta facendo è l'accuratezza per comodità, e gli editori sono sempre più disposti a farlo.
C'è un arco parallelo che rende l'esposizione alle elezioni di metà mandato più acuta. La repressione normativa della Cina sull'uso improprio dell'AI è entrata in vigore nell'aprile 2026 con regole di etichettatura obbligatoria e simulazione della personalità.
La Commissione Europea sta portando avanti il suo percorso di applicazione della Digital Services Act in parallelo. Entrambi i regimi sono calibrati per richiedere agli operatori di chatbot di mostrare la provenienza, etichettare le uscite e accettare la responsabilità per la disinformazione prodotta all'interno dei loro prodotti.
Negli Stati Uniti non c'è
Altri articoli
ChatGPT, Claude, Gemini e Grok non sono pronti a informare gli elettori americani.
I chatbot non sono affidabili sulle notizie. Le elezioni di metà mandato sono a 167 giorni di distanza. Uno sguardo a ciò che la ricerca pubblicata dice realmente su ChatGPT, Claude, Gemini e Grok, e cosa stanno facendo i laboratori al riguardo.
