Издатели новостей блокируют Wayback Machine Архива Интернета

Издатели новостей блокируют Wayback Machine Архива Интернета

      The New York Times, CNN, USA Today, The Guardian и как минимум 241 другая новостная организация в девяти странах приняли решение ограничить доступ к краулерам Архива, что директор Архива назвал «попутным ущербом» в войне, которая на самом деле не о них.

      Интернет-архив сохранил более одного триллиона веб-страниц с 1996 года. Судебные органы ссылаются на него. Журналисты используют его, чтобы доказать, что статьи были отредактированы после публикации. Историки рассматривают его как первоисточник. По большинству мер, это один из самых значительных проектов инфраструктуры общественной информации в эпоху интернета.

      И теперь он систематически блокируется новостными издателями, чью работу он сохранил, из-за проблемы, в которой эти издатели действительно не правы: компании ИИ используют архивированный новостной контент для обучения моделей без разрешения или оплаты.

      Согласно анализу стартапа по обнаружению ИИ Originality AI, 23 крупных новостных издания блокируют ia_archiverbot, основной веб-краулер, который использует Интернет-архив для Wayback Machine.

      💜 технологий ЕС Последние новости из технологической сцены ЕС, история от нашего мудрого основателя Бориса и несколько сомнительных произведений ИИ. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас! В общей сложности 241 новостной сайт в девяти странах явно запрещает как минимум одному из четырех краулеров Архива. USA Today Co., крупнейший издатель газет в США, составляет значительную долю заблокированных сайтов, фактически удаляя сотни местных публикаций из исторической записи.

      The New York Times внедрила то, что директор Wayback Machine Марк Грэм описал как «жесткую блокировку», начиная с конца 2025 года.

      Аргумент новостных организаций логичен, даже если его последствия тревожны. Компании ИИ, обучающие большие языковые модели, нуждаются в огромных количествах качественного текста.

      Архивированный новостной контент именно таков: структурированное, датированное, атрибутированное, высококачественное письмо, накопленное за десятилетия. Wayback Machine Интернет-архива делает огромные объемы этого контента доступными через API и интерфейс URL, что является идеальным источником для конвейеров обучения моделей.

      Анализ Washington Post 2023 года показал, что данные из Интернет-архива появились в крупных наборах данных для обучения ИИ. Для издателей, уже участвующих в судебных разбирательствах по авторским правам против OpenAI, Perplexity и других, Архив является уязвимостью в их защите.

      «Проблема в том, что контент Times в Интернет-архиве используется компаниями ИИ с нарушением авторского права для прямой конкуренции с нами», — сказал Грэм Джеймс, представитель Times.

      «Times инвестирует огромное количество ресурсов в производство оригинальной журналистики, и эта работа не должна использоваться без нашего разрешения».

      The Guardian, который был более осторожным, ограничил, а не полностью заблокировал доступ Архива после того, как его собственные журналы показали, что Архив является частым краулером.

      Роберт Хан, глава бизнес-дел в The Guardian, выразил особую озабоченность по поводу API Архива. «Многие из этих ИИ-компаний ищут готовые, структурированные базы данных контента», — сказал он. «API Интернет-архива был бы очевидным местом, чтобы подключить свои собственные машины и извлечь интеллектуальную собственность».

      Марк Грэм, директор Wayback Machine, последовательно называет эту ситуацию именно тем, чем она является. «Мы — попутный ущерб», — сказал он.

      Архив также предпринял собственные шаги: он ограничивает скорость массовых загрузок, блокирует или предотвращает массовую загрузку материалов с определенных сайтов и поддерживает контроль для ограничения автоматизированного извлечения в больших масштабах.

      Грэм утверждает, что это означает, что обоснование издателей для блокировки краулеров Архива «необоснованно», риск исходит от компаний ИИ, получающих доступ к архивированным материалам через интерфейсы Архива, которые сам Архив контролирует и ограничивает, а не от самого Архива, краулера и сохраняющего контент в первую очередь.

      Архив также активно ведет диалог с издателями, чтобы найти рабочие соглашения. Сам The Guardian заявил, что он «работает напрямую с Интернет-архивом», чтобы реализовать свои ограничения доступа, а не вводить одностороннюю жесткую блокировку.

      Но позиция Архива, что он является нейтральным учреждением по сохранению, а не конвейером для обучения ИИ, не полностью разрешает озабоченность издателей о том, что третьи стороны могут получить доступ к его данным независимо от собственных намерений Архива.

      Проблема с ответом издателей заключается в том, что инструмент, который они используют, блокировка краулеров Архива, имеет последствия, которые выходят далеко за пределы компаний ИИ.

      Когда новостная статья больше не архивируется, она становится редактируемой без ответственности. Издатели могут и делают это тихо, изменяя истории после публикации: исправляя ошибки, смягчая утверждения, удаляя цитаты.

      Wayback Machine был основным инструментом, который журналисты используют для документирования этих изменений. Джо Маллин из Фонда электронного фронтира прямо обозначил ставки:

      «Интернет-архив часто становится единственным источником для просмотра этих изменений. Существуют реальные споры по поводу обучения ИИ, которые должны быть разрешены в судах. Но жертвовать общественной записью, чтобы бороться с этими битвами, было бы глубоким и, возможно, необратимым ошибкой».

      Wikipedia ссылается на более чем 2,6 миллиона новостных статей, сохраненных Wayback Machine на 249 языках. Судебные органы использовали архивированные страницы в качестве доказательства. Журналисты использовали их, чтобы доказать, что государственные учреждения изменили официальные заявления после публикации.

      Решение USA Today Co. заблокировать доступ фактически удалило сотни местных газет из исторической записи в момент, когда местная журналистика уже находится в кризисе, и каждая сохраненная статья представляет собой документацию, которая может не существовать нигде больше.

      Петиция, организованная Fight for the Future, подписанная более чем 100 работающими журналистами, выступила против тенденции блокировки, описывая Wayback Machine как инструмент, который «сохраняет общественную запись в то время, когда многие крупные СМИ ставят под сомнение, следует ли позволять ему это делать».

      Nieman Lab сообщил о петиции в середине апреля; спор сейчас нарастает, а не разрешается.

      Тем не менее, спор вокруг Wayback Machine является сжатой версией структурной проблемы, которая проходит через весь дебат о авторских правах на ИИ. Учреждения, созданные для обслуживания общественных интересов, цифровая библиотека, открытые веб-стандарты, общедоступные архивы, становятся путем наименьшего сопротивления для компаний ИИ, ищущих данные для обучения, потому что прямое сканирование компаниями ИИ все больше блокируется, оспаривается в судах и ограничивается.

      Результат заключается в том, что чем больше издатели и правообладатели сопротивляются обучению ИИ напрямую, тем больше давления накапливается на общественную инфраструктуру, которую они не могут контролировать.

      Как сказал Майкл Нельсон, компьютерный ученый из Университета Олд Доминьон, Nieman Lab: «Common Crawl и Интернет-архив широко считаются «хорошими парнями» и используются «плохими парнями», такими как OpenAI. В стремлении всех не быть контролируемыми LLM, я думаю, что хорошие парни становятся попутным ущербом».

      EFF заключает, что правильный ответ — не блокировать Архив, а подать в суд на компании ИИ напрямую.

      «Существуют реальные споры по поводу обучения ИИ, которые должны быть разрешены в судах».

      Издатели, на самом деле, сделали именно это: иск Times против OpenAI продолжается. Но они, похоже, пришли к выводу, что ожидание, пока суды разрешат эти споры, слишком медленно, и принимают более быстрый, грубый вариант блокировки Архива в это время.

Другие статьи

Самый жуткий иск Meta за последние годы заставит вас пересмотреть свои взгляды на её умные очки с ИИ. Самый жуткий иск Meta за последние годы заставит вас пересмотреть свои взгляды на её умные очки с ИИ. Meta прекратила контракт с кенийской компанией по обучению ИИ Sama вскоре после того, как работники заявили, что они подвергались воздействию графических материалов, снятых с помощью ее умных очков. Xbox Ally X получает собственную технологию увеличения кадров, сопоставимую с DLSS, среди других обновлений Xbox Ally X получает собственную технологию увеличения кадров, сопоставимую с DLSS, среди других обновлений Auto SR приносит масштабирование на основе ИИ в ROG Xbox Ally X, не требуя от разработчиков никаких действий; оно работает на уровне ОС для игр на DirectX 11 и 12. Исследование Оксфорда говорит о том, что дружелюбный ИИ-друг будет лгать и подстегивать ваши ложные убеждения. Исследование Оксфорда говорит о том, что дружелюбный ИИ-друг будет лгать и подстегивать ваши ложные убеждения. Сделать ИИ более человечным может создать большую проблему, чем ожидалось. Новое исследование Оксфордского интернет-института показало, что чат-боты, созданные для того, чтобы быть теплыми и дружелюбными, с большей вероятностью вводят пользователей в заблуждение и укрепляют неверные убеждения. Исследование показало, что ИИ становится менее надежным, когда начинает становиться более согласным. Что […] Новый Edge 70 Pro от Motorola оснащен чрезвычайно ярким экраном и полностью сосредоточен на стиле. Новый Edge 70 Pro от Motorola оснащен чрезвычайно ярким экраном и полностью сосредоточен на стиле. Motorola в этом году придала Edge 70 Pro более изысканный вид, сочетая тонкий текстурированный дизайн с чрезвычайно ярким AMOLED-экраном. Samsung имеет зловещее предупреждение для ваших планов по покупке технологий в 2027 году. Samsung имеет зловещее предупреждение для ваших планов по покупке технологий в 2027 году. Рекордная прибыль Samsung от чипов сопровождается предупреждением для покупателей. Поскольку спрос на ИИ сжимает предложение памяти, телефоны, ноутбуки, телевизоры, консоли и другая электроника могут стать дороже к 2027 году. Исследование Оксфорда говорит, что дружелюбный ИИ-друг будет лгать и подстегивать ваши ложные убеждения. Исследование Оксфорда говорит, что дружелюбный ИИ-друг будет лгать и подстегивать ваши ложные убеждения. Сделать ИИ более человечным может создать большую проблему, чем ожидалось. Новое исследование Оксфордского интернет-института показало, что чат-боты, созданные для того, чтобы быть теплыми и дружелюбными, с большей вероятностью вводят пользователей в заблуждение и укрепляют неверные убеждения. Исследование показало, что ИИ становится менее надежным, когда начинает становиться более согласным. Что […]

Издатели новостей блокируют Wayback Machine Архива Интернета

Более 241 новостной сайт блокируют Wayback Machine Интернет-архива, чтобы предотвратить использование архивированного контента компаниями ИИ для обучения.