ChatGPT, Claude, Gemini y Grok no están listos para informar a los votantes estadounidenses.

ChatGPT, Claude, Gemini y Grok no están listos para informar a los votantes estadounidenses.

      Una nueva generación de votantes preguntará a ChatGPT, Claude, Gemini y Grok cómo votar, dónde está el lugar de votación y quién está diciendo la verdad. La investigación publicada es consistente: los modelos no pueden responder de manera confiable a esas preguntas. La elección llegará de todos modos.

      En la primavera de 2024, un investigador del Tow Center en la Escuela de Periodismo de Columbia realizó un experimento controlado que, en retrospectiva, debería haber resuelto un argumento de la industria.

      El equipo alimentó ocho productos de búsqueda de IA, incluyendo ChatGPT Search, Perplexity, Gemini, Copilot y los modos de búsqueda Grok-2 y Grok-3, con un conjunto de 200 artículos de noticias extraídos de manera uniforme de veinte editores, y luego pidió a cada herramienta que identificara el artículo y acreditara su fuente. A través de 1,600 consultas, los modelos devolvieron la respuesta incorrecta más del 60% de las veces.

      ChatGPT Search, la única herramienta que aceptó responder a las 200 consultas, fue completamente precisa en el 28% de ellas y completamente incorrecta en el 57%. Perplexity, comercializado como la opción de grado de investigación, estuvo equivocado el 37% de las veces, la tasa de fallo más baja en el grupo.

      Esos números se publicaron hace más de un año. No han mejorado. Un resumen de estudio de Bloomberg publicado el 20 de mayo confirmó que ChatGPT, Claude, Gemini y Grok siguen siendo poco confiables cuando se les pregunta sobre noticias, incluidas las noticias electorales.

      La lectura de Nieman Lab del mismo conjunto de datos encontró que ChatGPT sigue siendo el peor de los cuatro al acreditar a los medios de comunicación de los que se nutre. Un monitor de reclamos falsos de NewsGuard tiene a los diez principales chatbots de IA generativa devolviendo reclamos falsos a los avisos de noticias el 35% del tiempo en agosto de 2025, un aumento del 18% respecto al año anterior.

      Las elecciones intermedias de EE. UU. de 2026 están a 167 días de la fecha de esta escritura. La primera cohorte de votantes estadounidenses que, plausiblemente, utilizará un chatbot como su interfaz principal de noticias irá a las urnas en noviembre.

      Los informes de NOTUS sobre las campañas han sido contundentes: ChatGPT y Claude serán una fuerza en esta elección, y nadie, incluidos los laboratorios que los construyeron, tiene un plan defendible sobre lo que sucede cuando esas fuerzas producen respuestas confiadas, elocuentes y bien citadas que también son incorrectas.

      Lo que la investigación publicada muestra, tomado en conjunto, no es que los chatbots ocasionalmente alucinen. El marco de la alucinación es un error de categoría heredado del discurso de principios de 2024. La investigación muestra algo más específico y más peligroso para la integridad de la información.

      Los chatbots atribuyen citas de manera sistemática. Fabrican enlaces que no conducen a nada. Citando copias sindicadas o resumidas por IA de artículos en preferencia a los originales, cortan la cadena de regreso a los periodistas que produjeron el informe.

      No pueden distinguir de manera confiable entre un cable de Reuters, una reescritura de una granja de contenido y un sitio de desinformación ruso disfrazado con los mismos envoltorios de sindicación. El seguimiento de NewsGuard de los sitios de noticias falsas sembrados en Moscú encontró que los diez principales modelos de IA generativa imitan reclamos de desinformación rusa aproximadamente un tercio del tiempo, citando los sitios sembrados como fuentes autorizadas.

      La razón estructural de esto no es un misterio, y los laboratorios no pretenden que lo sea. Las tuberías de datos de entrenamiento que producen la generación actual de modelos de frontera han ingerido la web abierta a una escala que incluye tanto al New York Times como a la producción lavada de operaciones de desinformación.

      Los sistemas de generación aumentada por recuperación que se sitúan sobre esos modelos, los que están destinados a fundamentar respuestas en fuentes actuales, están funcionando sobre un índice de búsqueda cuyos principales resultados en muchas consultas de noticias son reescrituras generadas por IA de reescrituras generadas por IA.

      El análisis de ‘vacíos de datos’ en Lawfare de principios de este año describe el mecanismo: donde una historia real tiene una cobertura de fuente original escasa, la propaganda llena el vacío, y el chatbot, en la lectura más limpia de sus registros de recuperación, trata la propaganda como la fuente sustantiva.

      Esta es la posición desde la cual los laboratorios están negociando acuerdos de licencia con editores. OpenAI ha firmado acuerdos con el Financial Times, Axel Springer, News Corp, Le Monde y una lista de otros; Google ha hecho lo mismo; Anthropic y Perplexity han desarrollado sus propias asociaciones con editores.

      El argumento a favor de los acuerdos, hecho por ambas partes, es que el acceso a contenido con licencia producirá mejores citas, resúmenes más precisos y una relación de tráfico más saludable entre el chatbot y el editor. El argumento es plausible. La evidencia publicada, a partir de mayo de 2026, aún no lo respalda.

      La tasa de fallo completa del 57% de ChatGPT Search se midió en un corpus que incluía artículos de editores con los que ChatGPT tenía relaciones de licencia. La licencia no produjo una recuperación precisa. Produjo la apariencia de legitimidad en torno a una recuperación inexacta.

      El problema específico de las elecciones intermedias es que los modos de fallo de la generación actual de chatbots están calibrados casi perfectamente para la desinformación electoral. Un votante que pregunte a ChatGPT ‘¿dónde está mi lugar de votación?’ obtendrá una respuesta confiada con una cita que parece verosímil; si la respuesta es correcta depende de si la fuente más recientemente almacenada en caché por el modelo para esa dirección es correcta.

      Un votante que pregunte a Gemini “¿se ha acusado al candidato republicano en mi distrito de algún crimen?” obtendrá una respuesta cuya precisión depende de qué versión de qué informe de noticias la capa de recuperación presenta, y de si esa superficie es el cable de AP o una reescritura sindicada que omite silenciosamente la cláusula en disputa.

      Un votante que pregunte a Grok ‘¿quién está ganando esta carrera?’ obtendrá una respuesta moldeada por el corte de entrenamiento del modelo subyacente y por la proporción de sitios agregadores de encuestas en el índice de recuperación.

      Ninguno de estos modos de fallo se ve como una alucinación para el usuario. Se ven como información autorizada, entregada con fluidez, con citas.

      La respuesta del lado del laboratorio ha sido posicionar los productos de chatbot como auxiliares, no como fuentes primarias. Sam Altman, Dario Amodei, Sundar Pichai y Elon Musk han hecho, en varios momentos a lo largo de los últimos dieciocho meses, alguna versión del argumento de ‘siempre verifica contra la fuente primaria’.

      El argumento es técnicamente correcto y operativamente inútil. Un votante que habría leído la fuente primaria antes de preguntar al chatbot nunca fue la población en riesgo.

      Los votantes en riesgo son aquellos para quienes el chatbot es la fuente primaria, de la misma manera que Google Search fue la fuente primaria para una cohorte anterior, y las noticias de la noche en la red fueron la fuente primaria para la cohorte anterior a esa.

      La cobertura continua del CJR sobre los experimentos de IA en las salas de redacción ha sido implacable en este punto: el compromiso que se está haciendo es precisión por conveniencia, y los editores están cada vez más dispuestos a hacerlo.

      Hay un arco paralelo que hace que la exposición de las elecciones intermedias sea más aguda. La represión regulatoria de China sobre el mal uso de la IA se implementó en abril de 2026 con reglas de etiquetado obligatorio y simulación de personalidad.

      La Comisión Europea está ejecutando su pista de aplicación de la Ley de Servicios Digitales en paralelo. Ambos regímenes están calibrados para requerir que los operadores de chatbots presenten la procedencia, etiqueten las salidas y acepten responsabilidad por la desinformación producida dentro de sus productos.

      EE. UU. no tiene nada comparable en los libros federales. La adopción por parte de OpenAI de la pila de procedencia C2PA y SynthID es la respuesta del laboratorio a parte de esta pregunta, aplicada a imágenes generadas por IA. No hay una capa de procedencia equivalente para la salida de texto de chatbots.

      La afirmación de hecho hecha en prosa confiada por ChatGPT o Grok no lleva ninguna señal legible por máquina de dónde provino, cómo se puntuó la recuperación o si la fuente subyacente era un informe de cable o una granja de contenido.

      Lo que los laboratorios están apostando, según la evidencia disponible, es que el resultado de noviembre será lo suficientemente claro como para que ningún chatbot pueda ser culpado plausiblemente por ello. Esa apuesta puede ser correcta. También es una apuesta sobre la que ninguna política de integridad de la información honesta puede descansar.

      El grupo de investigación FSI de Stanford ha sido claro en que las capas de evidencia curadas pueden reducir materialmente la tasa de citas falsas en los chatbots, pero que requieren el tipo de

Otros artículos

Lambda gana un contrato en la nube con Hudson River Trading para proporcionar acceso a chips de NVIDIA. Lambda ha firmado un acuerdo de infraestructura en la nube con Hudson River Trading para proporcionar a HRT acceso a los chips de NVIDIA. Apple Sports está listo para rastrear cada desamor de la Copa del Mundo en tiempo real. Apple Sports está listo para rastrear cada desamor de la Copa del Mundo en tiempo real. Apple Sports se está expandiendo globalmente con herramientas de la Copa del Mundo, incluyendo vistas de brackets, formaciones visuales, widgets, Actividades en Vivo y acceso a Apple TV con un solo toque. Google quiere que Gemini ayude a construir el próximo gran avance científico. Google quiere que Gemini ayude a construir el próximo gran avance científico. El Gemini de Google para la Ciencia lleva la IA más allá de los resúmenes de investigación, con herramientas experimentales para hipótesis, pruebas computacionales y revisión de literatura. La pregunta más grande es si puede ganar confianza dentro de los laboratorios reales. Spotify añade insignias de podcast verificados para que sepas que estás escuchando al verdadero anfitrión, y no a un clon de IA. Spotify añade insignias de podcast verificados para que sepas que estás escuchando al verdadero anfitrión, y no a un clon de IA. Spotify está implementando insignias verificadas para podcasts y está reforzando sus reglas sobre la clonación de voz por IA para asegurarse de que los podcasts que amas sean realmente creados por las personas que crees que son. Mercedes-AMG GT EV alcanza de 0 a 60 en 2 segundos, carga a 600 kW y simula sonidos de V8 y cambios de marcha. Mercedes-AMG GT EV alcanza de 0 a 60 en 2 segundos, carga a 600 kW y simula sonidos de V8 y cambios de marcha. El recién anunciado AMG GT 4-Door EV puede alcanzar 60 mph en aproximadamente 2 segundos y cargar del 10 al 80 por ciento en tan solo 11 minutos. Gemini ahora puede hacer videos, resumir tu mañana y realizar tareas digitales mientras duermes. Gemini ahora puede hacer videos, resumir tu mañana y realizar tareas digitales mientras duermes. La aplicación Gemini de Google está recibiendo una actualización importante con generación de video cinematográfico, resúmenes matutinos, respuestas más completas y un agente disponible 24/7 que maneja tareas.

ChatGPT, Claude, Gemini y Grok no están listos para informar a los votantes estadounidenses.

Los chatbots son poco fiables en noticias. Las elecciones intermedias están a 167 días. Una mirada a lo que realmente dice la investigación publicada sobre ChatGPT, Claude, Gemini y Grok, y lo que los laboratorios están haciendo al respecto.