Los editores de noticias están bloqueando la Wayback Machine del Internet Archive.
The New York Times, CNN, USA Today, The Guardian y al menos 241 otras organizaciones de noticias en nueve países han decidido restringir los rastreadores del Archivo, una decisión que el propio director del Archivo ha calificado de "daño colateral" en una guerra que realmente no se trata de ellos.
El Internet Archive ha preservado más de un billón de páginas web desde 1996. Los tribunales lo citan. Los periodistas lo utilizan para probar que los artículos fueron editados después de su publicación. Los historiadores lo consideran una fuente primaria. Es, según la mayoría de las medidas, uno de los proyectos de infraestructura de información pública más significativos de la era de internet.
Y ahora está siendo bloqueado sistemáticamente por los editores de noticias cuyo trabajo ha preservado, debido a un problema sobre el cual esos editores no están equivocados: las empresas de IA están utilizando contenido de noticias archivadas para entrenar modelos sin permiso ni pago.
Según un análisis de la startup de detección de IA Originality AI, 23 importantes publicaciones de noticias están bloqueando ia_archiverbot, el principal rastreador web que utiliza el Internet Archive para la Wayback Machine.
El 💜 de la tecnología de la UE Las últimas novedades de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris y un arte de IA cuestionable. Es gratis, cada semana, en tu bandeja de entrada. ¡Inscríbete ahora! En total, 241 sitios de noticias en nueve países prohíben explícitamente al menos uno de los cuatro bots de rastreo del Archivo. USA Today Co., el mayor editor de periódicos en EE. UU., representa una gran parte de los sitios bloqueados, eliminando efectivamente cientos de publicaciones locales del registro histórico.
The New York Times implementó lo que el director de la Wayback Machine, Mark Graham, describió como un "bloqueo duro" a partir de finales de 2025.
El argumento de las organizaciones de noticias es coherente, aunque sus consecuencias son preocupantes. Las empresas de IA que entrenan grandes modelos de lenguaje necesitan vastas cantidades de texto de alta calidad.
El contenido de noticias archivadas es exactamente eso: escritura estructurada, fechada, atribuida y de alta calidad acumulada a lo largo de décadas. La Wayback Machine del Internet Archive hace que enormes cantidades de ese contenido sean accesibles a través de API e interfaz de URL, una fuente ideal para las tuberías de entrenamiento de modelos.
Un análisis de 2023 del Washington Post encontró que los datos del Internet Archive habían aparecido en importantes conjuntos de datos de entrenamiento de IA. Para los editores que ya están involucrados en demandas por derechos de autor contra OpenAI, Perplexity y otros, el Archivo es una brecha en sus defensas.
“El problema es que el contenido de Times en el Internet Archive está siendo utilizado por empresas de IA en violación de la ley de derechos de autor para competir directamente con nosotros”, dijo Graham James, un portavoz de Times.
“Times invierte una enorme cantidad de recursos en producir periodismo original, y ese trabajo no debería ser utilizado sin nuestro permiso”.
The Guardian, que ha sido más cauteloso, limitó en lugar de bloquear completamente el acceso del Archivo después de que sus propios registros revelaran que el Archivo era un rastreador frecuente.
Robert Hahn, jefe de asuntos comerciales en The Guardian, expresó una preocupación particular sobre las API del Archivo. “Muchas de estas empresas de IA están buscando bases de datos de contenido estructuradas y fácilmente disponibles”, dijo. “La API del Internet Archive habría sido un lugar obvio para conectar sus propias máquinas y extraer la propiedad intelectual”.
Mark Graham, el director de la Wayback Machine, ha sido consistente al llamar a esta situación exactamente lo que es. “Somos daño colateral”, dijo.
El Archivo ha tomado medidas por su cuenta: limita las descargas masivas, bloquea o impide la descarga masiva del material de ciertos sitios y mantiene controles para limitar la extracción automatizada a gran escala.
Graham argumenta que esto significa que la justificación de los editores para bloquear los rastreadores del Archivo es "infundada", el riesgo proviene de las empresas de IA que acceden al material archivado a través de las interfaces del Archivo, que el propio Archivo controla y limita, no de que el Archivo rastree y preserve el contenido en primer lugar.
El Archivo también ha estado en diálogo activo con los editores para encontrar acuerdos viables. The Guardian mismo dijo que ha estado "trabajando directamente con el Internet Archive" para implementar sus límites de acceso, en lugar de imponer un bloqueo duro unilateral.
Pero la posición del Archivo, que es una institución de preservación neutral, no una tubería de entrenamiento de IA, no resuelve completamente la preocupación de los editores de que terceros pueden acceder a sus datos independientemente de las intenciones del Archivo.
El problema con la respuesta de los editores es que el instrumento que están utilizando, bloquear los rastreadores del Archivo, tiene consecuencias que se extienden mucho más allá de las empresas de IA.
Cuando un artículo de noticias ya no se archiva, se vuelve editable sin responsabilidad. Los editores pueden y lo hacen enmendar historias en silencio después de su publicación: corrigiendo errores, suavizando afirmaciones, eliminando citas.
La Wayback Machine ha sido la herramienta principal que los periodistas utilizan para documentar esos cambios. Joe Mullin de la Electronic Frontier Foundation expresó claramente las implicaciones:
“El Internet Archive a menudo se convierte en la única fuente para ver esos cambios. Hay disputas reales sobre el entrenamiento de IA que deben resolverse en los tribunales. Pero sacrificar el registro público para luchar esas batallas sería un error profundo y posiblemente irreversible”.
Wikipedia enlaza a más de 2.6 millones de artículos de noticias preservados por la Wayback Machine en 249 idiomas. Los tribunales han utilizado páginas archivadas como evidencia. Los periodistas las han utilizado para probar que las agencias gubernamentales cambiaron declaraciones oficiales después de su publicación.
La decisión de USA Today Co. de bloquear el acceso ha eliminado efectivamente cientos de periódicos locales del registro histórico, en un momento en que el periodismo local ya está en crisis, y cada artículo preservado representa documentación que puede no existir en ningún otro lugar.
Una petición organizada por Fight for the Future, firmada por más de 100 periodistas en activo, ha rechazado la tendencia de bloqueo, describiendo la Wayback Machine como una herramienta que “preserva el registro público en un momento en que muchos medios de comunicación importantes están cuestionando si permitir que lo haga”.
El Nieman Lab informó sobre la petición a mediados de abril; la disputa ahora está escalando en lugar de resolverse.
Sin embargo, la disputa de la Wayback Machine es una versión comprimida de un problema estructural que atraviesa todo el debate sobre derechos de autor de la IA. Las instituciones diseñadas para servir al interés público, una biblioteca digital, estándares web abiertos, archivos accesibles públicamente, se están convirtiendo en el camino de menor resistencia para las empresas de IA que buscan datos de entrenamiento, porque el raspado directo de las empresas de IA está siendo cada vez más bloqueado, litigado y medido.
El resultado es que cuanto más resisten los editores y titulares de derechos el entrenamiento de IA directamente, más presión se acumula sobre la infraestructura pública que no pueden controlar.
Como dijo Michael Nelson, un científico informático de la Universidad Old Dominion, al Nieman Lab: “Common Crawl e Internet Archive son ampliamente considerados como los 'buenos' y son utilizados por los 'malos' como OpenAI. En la aversión de todos a no ser controlados por LLMs, creo que los buenos son daño colateral”.
La EFF concluye que la respuesta correcta no es bloquear el Archivo, sino demandar directamente a las empresas de IA.
“Hay disputas reales sobre el entrenamiento de IA que deben resolverse en los tribunales”.
Los editores, de hecho, han hecho exactamente eso: la demanda de Times contra OpenAI está en curso. Pero parecen haber concluido que esperar a que los tribunales resuelvan esas disputas es demasiado lento, y están tomando la opción más rápida y contundente de bloquear el Archivo mientras tanto.
Otros artículos
Los editores de noticias están bloqueando la Wayback Machine del Internet Archive.
Más de 241 sitios de noticias están bloqueando el Wayback Machine de Internet Archive para evitar que las empresas de IA utilicen contenido archivado para su entrenamiento.
