Los datos del Biobanco del Reino Unido de 500,000 voluntarios listados para la venta en Alibaba después de que las instituciones de investigación chinas rompieran los acuerdos de acceso.
Resumen: Datos genéticos, médicos y de estilo de vida de los 500,000 voluntarios del Biobanco del Reino Unido fueron listados para la venta en Alibaba después de que tres instituciones de investigación chinas con acceso legítimo violaran sus acuerdos de intercambio de datos. Los datos fueron desidentificados, pero incluyen secuencias genómicas, diagnósticos hospitalarios y medidas biológicas que los expertos dicen que pueden ser reidentificadas. Alibaba eliminó las listas antes de que se realizaran ventas, el Biobanco del Reino Unido ha pausado todo acceso externo a los datos y la ICO está investigando. Una investigación de marzo ya había encontrado que los datos se filtraron docenas de veces a través de GitHub.
El gobierno del Reino Unido confirmó el miércoles que los datos genéticos, médicos y de estilo de vida de 500,000 voluntarios británicos fueron listados para la venta en la plataforma de comercio electrónico de Alibaba en China esta semana, en una violación que no requirió una sola línea de código malicioso. Tres instituciones de investigación en China que habían recibido acceso legítimo a la base de datos del Biobanco del Reino Unido descargaron los datos y luego los listaron para la venta. No fue un hackeo. Fue una violación de contrato por parte de investigadores de confianza, y esa distinción lo hace peor, no mejor, porque expone una vulnerabilidad que ningún cortafuegos puede solucionar: todo el modelo de intercambio de datos de investigación abierta asume que todos los que reciben los datos seguirán las reglas.
Ian Murray, el Ministro de Estado, dijo a la Cámara de los Comunes que el Biobanco del Reino Unido informó al gobierno el lunes 20 de abril que se habían identificado tres listados en Alibaba, con al menos uno que parecía contener datos de los 500,000 participantes. Los datos fueron desidentificados, lo que significa que no incluían nombres, direcciones, detalles de contacto o números del NHS. Incluía género, edad, mes y año de nacimiento, estado socioeconómico, hábitos de estilo de vida y medidas de muestras biológicas. Con el apoyo de los gobiernos del Reino Unido y de China, Alibaba eliminó los listados antes de que se realizaran ventas. Las tres instituciones tuvieron su acceso revocado. El Biobanco del Reino Unido ha pausado todo acceso externo a los datos mientras desarrolla una solución técnica para prevenir descargas masivas y se ha referido a la Oficina del Comisionado de Información.
Lo que tiene el Biobanco del Reino Unido
El Biobanco del Reino Unido es uno de los recursos de investigación biomédica más valiosos del mundo. Entre 2006 y 2010, reclutó a 500,000 voluntarios de entre 40 y 69 años en toda Gran Bretaña, quienes consintieron compartir sus datos de salud y ser seguidos durante al menos 30 años. La base de datos ahora contiene más de 10,000 variables por participante, incluidas secuencias de genoma completo para los 500,000 voluntarios (publicadas en su totalidad en 2023), biomarcadores de sangre y orina, escaneos de imágenes del cerebro y del cuerpo, registros de diagnósticos hospitalarios, datos de médicos de cabecera y cuestionarios detallados sobre el estilo de vida. Aproximadamente 22,000 investigadores en todo el mundo tienen acceso a los datos para estudios aprobados sobre cáncer, enfermedades cardíacas, diabetes, Alzheimer y otras condiciones. El recurso ha generado miles de artículos revisados por pares y se considera fundamental para la medicina genómica moderna.
El 💜 de la tecnología de la UE
Los últimos rumores de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris y un arte de IA cuestionable. Es gratis, cada semana, en tu bandeja de entrada. ¡Inscríbete ahora!
Los datos se comparten sobre la base de que están desidentificados. Los investigadores firman acuerdos de transferencia de material que prohíben la redistribución. El modelo depende del cumplimiento de esos acuerdos. Lo que sucedió esta semana es que tres instituciones rompieron el acuerdo, y la única razón por la que alguien lo sabe es que fueron lo suficientemente descarados como para listar los datos para la venta en un mercado público.
El problema de la reidentificación
La garantía del gobierno de que los datos no contenían nombres ni direcciones es precisa pero incompleta. Una investigación de The Guardian publicada en marzo encontró que los datos desidentificados del Biobanco del Reino Unido se habían expuesto en línea docenas de veces, con investigadores publicando inadvertidamente conjuntos de datos parciales o completos en GitHub, la plataforma de intercambio de código. Entre julio y diciembre de 2025, el Biobanco del Reino Unido emitió 80 avisos legales a GitHub solicitando la eliminación. En un caso, un conjunto de datos que contenía millones de diagnósticos hospitalarios y fechas asociadas para más de 400,000 participantes se publicó abiertamente.
The Guardian demostró que los datos no son tan anónimos como parecen. Un reportero pudo identificar los extensos registros de diagnóstico hospitalario de un voluntario utilizando solo su mes y año de nacimiento y los detalles de una cirugía mayor que había tenido, información que muchas personas comparten en la conversación cotidiana. El Dr. Luc Rocher, profesor asociado en el Instituto de Internet de Oxford, dijo al periódico que eliminar identificadores “a menudo no garantiza el anonimato” y que conocer la fecha de nacimiento de una persona y una fecha de evento médico específica podría ser suficiente para identificar su registro con alta confianza. Una vez identificado, ese registro podría revelar diagnósticos psiquiátricos, resultados de pruebas de VIH o historiales de abuso de sustancias.
Bajo el GDPR del Reino Unido, los datos solo se consideran verdaderamente anonimizados si las personas no pueden ser identificadas “por ningún medio razonablemente probable”. Con conjuntos de datos de este tamaño y riqueza, especialmente aquellos que contienen secuencias de genoma completo, la pregunta no es si la reidentificación es teóricamente posible, sino si es lo suficientemente difícil en la práctica como para constituir una protección significativa. La brecha de gobernanza en la seguridad de los datos se está ampliando a medida que los conjuntos de datos crecen y las herramientas de IA facilitan la referencia cruzada. Los expertos en privacidad argumentan que el enfoque del Biobanco del Reino Unido, tratando la desidentificación como una salvaguarda suficiente, está en desacuerdo con la realidad de que muchas personas comparten fragmentos de su información de salud en línea, y en la era de los modelos de lenguaje grandes, esos fragmentos pueden ser reensamblados.
Un patrón, no un incidente
Los listados de Alibaba son la manifestación más dramática de un problema estructural que el Biobanco del Reino Unido ha estado gestionando, con éxito limitado, durante meses. La investigación de marzo reveló que las filtraciones de datos habían ocurrido docenas de veces, impulsadas por la tensión entre dos imperativos en competencia: las revistas y los financiadores requieren cada vez más que los investigadores publiquen el código que utilizan para analizar grandes conjuntos de datos, y ese código a veces incluye los propios datos, o suficiente de ellos para ser reconstruidos. El Biobanco del Reino Unido prohíbe esto, pero la aplicación ha dependido de descubrir violaciones después del hecho y emitir avisos de eliminación.
La violación también se ajusta a un patrón más amplio de exposición de datos institucionales en toda Europa, que IBM identificó como la región más atacada del mundo por ciberataques, con el Reino Unido representando el 27% de todos los ataques en el continente. El ataque de ransomware de Synnovis en junio de 2024 interrumpió los servicios de patología en todo el sureste de Londres durante semanas después de que el grupo Qilin publicara datos de pacientes de los hospitales Guy’s y St Thomas’ y King’s College en la dark web. El ataque de ransomware de Advanced Software en agosto de 2022 derribó los servicios del NHS 111. WannaCry en 2017 afectó a 80 organizaciones del NHS. Cada uno de esos fue un ciberataque tradicional, un adversario externo explotando una vulnerabilidad técnica. La violación del Biobanco es diferente. El adversario estaba dentro del sistema, acreditado y aprobado, y la vulnerabilidad era el propio modelo de acceso.
La dimensión geopolítica
Que los datos aparecieran en una plataforma china agudizará inevitablemente la respuesta política. El Reino Unido ha pasado los últimos cinco años restringiendo progresivamente la participación de la tecnología china en la infraestructura crítica, desde la prohibición de Huawei 5G hasta los poderes de la Ley de Seguridad Nacional e Inversiones sobre adquisiciones de datos sensibles. En marzo de 2024, el gobierno acusó a actores vinculados a China de ciberataques a la Comisión Electoral y a parlamentarios. Los hackers patrocinados por el estado chino han atacado repetidamente a gobiernos occidentales, incluida una campaña que el gobierno holandés atribuyó públicamente a Pekín que comprometió más de 20,000 sistemas.
Murray agradeció al gobierno chino “por la rapidez y seriedad con la que trabajaron para ayudar a eliminar estos listados”, una formulación diplomática que reconoció la cooperación mientras eludía la cuestión de cómo tres instituciones de investigación chinas llegaron a violar sus acuerdos de intercambio de datos simultáneamente.
Otros artículos
Los datos del Biobanco del Reino Unido de 500,000 voluntarios listados para la venta en Alibaba después de que las instituciones de investigación chinas rompieran los acuerdos de acceso.
Los datos de salud de 500,000 voluntarios del Biobanco del Reino Unido aparecieron a la venta en Alibaba después de que tres instituciones de investigación chinas violaran los contratos de intercambio de datos. La ICO está investigando.
