Данные UK Biobank от 500,000 волонтеров выставлены на продажу на Alibaba после того, как китайские исследовательские учреждения нарушили соглашения о доступе.
Резюме: Генетические, медицинские и данные о образе жизни всех 500,000 волонтеров UK Biobank были выставлены на продажу на Alibaba после того, как три китайских исследовательских института с законным доступом нарушили свои соглашения о передаче данных. Данные были анонимизированы, но включают геномные последовательности, диагнозы в больницах и биологические показатели, которые, по словам экспертов, могут быть повторно идентифицированы. Alibaba удалил объявления до того, как были совершены какие-либо продажи, UK Biobank приостановил весь внешний доступ к данным, а ICO проводит расследование. В марте расследование уже установило, что данные были утечены десятки раз через GitHub.
Генетические, медицинские и данные о образе жизни 500,000 британских волонтеров были выставлены на продажу на платформе электронной коммерции Alibaba в Китае на этой неделе, подтвердило правительство Великобритании в среду, в нарушении, которое не требовало ни одной строки злонамеренного кода. Три исследовательских института в Китае, которым был предоставлен законный доступ к базе данных UK Biobank, скачали данные, а затем выставили их на продажу. Это не был взлом. Это было нарушение контракта доверенными исследователями, и это различие делает ситуацию хуже, а не лучше, потому что оно выявляет уязвимость, которую никакой межсетевой экран не может исправить: вся модель открытого обмена исследовательскими данными предполагает, что каждый, кто получает данные, будет следовать правилам.
Иэн Мюррей, государственный министр, сообщил Палате общин, что UK Biobank проинформировал правительство в понедельник, 20 апреля, что на Alibaba были выявлены три объявления, по крайней мере одно из которых, похоже, содержало данные всех 500,000 участников. Данные были анонимизированы, что означает, что они не содержали имен, адресов, контактных данных или номеров NHS. В них были указаны пол, возраст, месяц и год рождения, социоэкономический статус, привычки образа жизни и показатели из биологических образцов. При поддержке как британского, так и китайского правительств Alibaba удалил объявления до того, как были совершены какие-либо продажи. Три института лишились доступа. UK Biobank приостановил весь внешний доступ к данным, пока разрабатывает техническое решение для предотвращения массовых загрузок, и сам обратился в Офис информационного комиссара.
Что хранит UK Biobank
UK Biobank является одним из самых ценных ресурсов биомедицинских исследований в мире. С 2006 по 2010 год он набрал 500,000 волонтеров в возрасте от 40 до 69 лет по всей Великобритании, которые согласились делиться своими медицинскими данными и быть под наблюдением как минимум 30 лет. В базе данных сейчас содержится более 10,000 переменных на участника, включая полные геномные последовательности для всех 500,000 волонтеров (выпущенные полностью в 2023 году), биомаркеры крови и мочи, сканирование мозга и тела, записи диагнозов в больницах, данные от врачей общей практики и подробные анкеты о образе жизни. Примерно 22,000 исследователей по всему миру имеют доступ к данным для одобренных исследований рака, сердечно-сосудистых заболеваний, диабета, болезни Альцгеймера и других состояний. Этот ресурс породил тысячи рецензируемых статей и считается основополагающим для современной геномной медицины.
💜 технологий ЕС Последние новости из технологической сферы ЕС, история от нашего мудрого основателя Бориса и несколько сомнительных AI-артов. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас! Данные делятся на основе того, что они анонимизированы. Исследователи подписывают соглашения о передаче материалов, запрещающие перераспределение. Модель зависит от соблюдения этих соглашений. То, что произошло на этой неделе, заключается в том, что три института нарушили соглашение, и единственная причина, по которой кто-либо знает об этом, заключается в том, что они были достаточно наглыми, чтобы выставить данные на продажу на публичном рынке.
Проблема повторной идентификации
Гарантия правительства о том, что данные не содержат имен или адресов, точна, но неполна. Расследование Guardian, опубликованное в марте, показало, что анонимизированные данные UK Biobank были выставлены в интернете десятки раз, когда исследователи непреднамеренно публиковали частичные или полные наборы данных на GitHub, платформе для обмена кодом. С июля по декабрь 2025 года UK Biobank выпустил 80 юридических уведомлений GitHub с просьбой об удалении. В одном случае набор данных, содержащий миллионы диагнозов в больницах и связанные с ними даты для более чем 400,000 участников, был опубликован открыто.
Guardian продемонстрировал, что данные не так анонимны, как кажется. Журналист смог определить обширные записи диагнозов волонтера, используя только месяц и год его рождения и детали крупной операции, которую он перенес, информацию, которую многие люди делятся в повседневной беседе. Доктор Люк Рошер, доцент Оксфордского интернет-института, сказал газете, что удаление идентификаторов «часто не гарантирует анонимности» и что знание дня рождения человека и даты конкретного медицинского события может быть достаточным для идентификации его записи с высокой степенью уверенности. После идентификации эта запись может раскрыть психиатрические диагнозы, результаты тестов на ВИЧ или истории злоупотребления наркотиками.
Согласно GDPR Великобритании, данные считаются действительно анонимизированными только в том случае, если индивидуумы не могут быть идентифицированы «никакими разумно вероятными способами». При наборах данных такого размера и богатства, особенно тех, которые содержат полные геномные последовательности, вопрос не в том, возможно ли теоретически повторное идентифицирование, а в том, достаточно ли сложно это на практике, чтобы обеспечить значимую защиту. Проблема управления в области безопасности данных расширяется по мере роста наборов данных и упрощения перекрестной ссылки с помощью инструментов ИИ. Эксперты по конфиденциальности утверждают, что подход UK Biobank, рассматривающий анонимизацию как достаточную защиту, противоречит реальности, что многие люди делятся фрагментами своей медицинской информации в интернете, и в эпоху больших языковых моделей эти фрагменты могут быть собраны заново.
Шаблон, а не инцидент
Объявления на Alibaba являются самой драматичной манифестацией структурной проблемы, с которой UK Biobank справляется с ограниченным успехом на протяжении нескольких месяцев. Расследование в марте показало, что утечки данных происходили десятки раз, вызванные напряжением между двумя конкурирующими императивами: журналы и финансирующие организации все чаще требуют от исследователей публиковать код, который они используют для анализа больших наборов данных, и этот код иногда включает сами данные или достаточно их для восстановления. UK Biobank запрещает это, но соблюдение зависело от обнаружения нарушений после факта и выдачи уведомлений о снятии.
Нарушение также вписывается в более широкий шаблон институционального раскрытия данных по всей Европе, который IBM определил как самый целевой регион в мире для кибератак, при этом Великобритания составляет 27% всех атак на континенте. Атака программ-вымогателей Synnovis в июне 2024 года нарушила услуги патологии по всему юго-восточному Лондону на недели после того, как группа Qilin опубликовала данные пациентов из доверительных больниц Гая и Сент-Томаса и Кингс-колледжа на темной сети. Атака программ-вымогателей Advanced Software в августе 2022 года отключила службы NHS 111. WannaCry в 2017 году поразил 80 организаций NHS. Каждая из этих атак была традиционной кибератакой, внешним противником, использующим техническую уязвимость. Нарушение Biobank отличается. Противник находился внутри системы, имел полномочия и был одобрен, а уязвимость заключалась в самой модели доступа.
Геополитическое измерение
То, что данные появились на китайской платформе, неизбежно обострит политическую реакцию. Великобритания потратила последние пять лет на постепенное ограничение участия китайских технологий в критической инфраструктуре, от запрета Huawei на 5G до полномочий Закона о национальной безопасности и инвестициях по отношению к чувствительным приобретениям данных. В марте 2024 года
Другие статьи
Данные UK Biobank от 500,000 волонтеров выставлены на продажу на Alibaba после того, как китайские исследовательские учреждения нарушили соглашения о доступе.
Данные о здоровье 500,000 волонтеров UK Biobank появились на продажу на Alibaba после того, как три китайских исследовательских учреждения нарушили контракты на обмен данными. ICO проводит расследование.
