За последний месяц Белый дом распорядился закрыть тысячи правительственных веб-страниц, в результате чего практически не осталось никаких следов политики некоторых федеральных агентств в отношении таких важных тем, как сексуальная ориентация, дела 6 января и дискриминация.
После второй инаугурации президента Дональда Трампа правительство начало массово удалять данные и политику, которые оно считает неприемлемыми. Это наглядно продемонстрировало, как быстро данные могут исчезнуть из Интернета, и вызвало новый интерес к сохранению информации в Интернете среди цифровых архивистов.
Тысячи страниц с веб-сайта Центров по контролю и профилактике заболеваний были удалены в январе в соответствии с указами Трампа, хотя некоторые из страниц снова доступны после распоряжения федерального судьи. Другие удаленные сайты включают веб-страницы Министерства юстиции, связанные с утечкой информации в Капитолии 6 января 2021 года; информацию об уходе за трансгендерными пациентами на Healthcare.gov, страницу гендерного разнообразия на веб-сайте TSA и страницы о сексуальной ориентации и общей дискриминации по признаку идентичности на веб-сайтах Комиссии по равным возможностям трудоустройства и Бюро переписи населения, а также многие другие в правительстве.
По словам Марка Грэма, директора Wayback Machine, хотя для президентских администраций не является чем-то необычным удаление или изменение правительственных веб-страниц, вторая администрация Трампа, похоже, удалила больше контента, чем обычно.
Wayback Machine, которым управляет некоммерческая организация Internet Archive, — это инструмент, призванный помочь сохранить онлайн-данные. Он использовался в прошлом, когда администрации новых президентов изымали информацию из предыдущих администраций. Сайт позволяет пользователям ввести URL-адрес и, если страница была заархивирована, увидеть, как она выглядела в прошлом, начиная с момента создания базы данных в 1996 году.
«Я думаю, многие сообщали, что масштаб того, что мы наблюдаем на этот раз, — в плане отключения определенных веб-сайтов и удаления определенных материалов на веб-страницах — больше, чем при прошлых сменах администрации», — сказал Грэм.
Белый дом не ответил на просьбу прокомментировать ситуацию.
«Всякий раз, когда происходит смена власти — независимо от того, какие партии или администрации уходят или приходят — очень важно, чтобы мы сохраняли правительственные веб-сайты и информацию в качестве записей», — сказала Ребекка Франк, доцент Школы информации Мичиганского университета. «И хотя сейчас, возможно, есть большее чувство срочности, работа, которая происходит, не является совершенно новой».
Путешествуйте во времени в Интернете с помощью архивов
После ввода URL-адреса в Wayback Machine пользователь может увидеть все случаи, когда сканеры архива сохраняли сайт, а затем выбрать временную метку для посещения.
Роботы — компьютерные программы, а не насекомые — прочесывают интернет, собирая данные и сохраняя веб-страницы. Пользователи также могут вручную сохранить страницу, введя URL в разделе Save Page Now на сайте Wayback Machine. База данных содержит более 916 миллиардов веб-страниц, согласно домашней странице сайта.
Интернет-архив в сотрудничестве с такими партнерами, как Инициатива по экологическим данным и управлению (EDGI) и Библиотеки Стэнфордского университета, также предлагает архив окончания срока, который собирает и сохраняет контент из правительственных источников по окончании каждого президентского срока, начиная с 2008 года.
Существует также множество других архивных сайтов, в том числе несколько, специально посвященных сохранению правительственных данных.
«Сохранение цифровой информации — это сложная задача», — сказал Фрэнк. «Это требует активной работы, как для принятия решения о ее сохранении, так и для ее сбора, а затем для того, чтобы эта информация была доступной, доступной и пригодной для использования в долгосрочной перспективе».
6 февраля Центр инноваций Гарвардской юридической библиотеки опубликовал архив data.gov, правительственного сайта, предоставляющего общественности исследовательские данные, содержащий наборы данных за 2024 и 2025 годы. Ранее организация выпустила другие архивные инструменты, такие как Perma.CC, который позволяет пользователям создавать постоянные URL-адреса сайта, который они хотят архивировать.
«Мы создали этот проект, основываясь на нашей давней приверженности сохранению правительственных записей и предоставлению публичной информации всем желающим», — написала лаборатория в своем блоге.
EDGI также работает над сохранением правительственных данных в сети. Вскоре после инаугурации Трампа его администрация отключила цифровой инструмент, показывающий, какие места в США сталкиваются с непропорциональным уровнем загрязнения. EDGI и другие члены коалиции Public Environmental Data Partners загрузили копию инструмента, используя данные, заархивированные группами. Гретхен Герке, соучредитель EDGI, заявила в своем заявлении, что ее коалиция «мобилизует ресурсы для архивирования критически важных федеральных данных».
Онлайн-контент особенно уязвим для потери истории
Физические материалы сравнительно легко сохранять. Книги, например, печатаются во многих экземплярах. И после того, как они напечатаны, их содержимое не может быть легко изменено.
Однако информацию в Интернете потерять гораздо проще. Содержимое веб-страницы может быть изменено незаметным образом, или страницы могут быть полностью удалены.
Кроме того, Интернет основан на URL-адресах — ресурсах, которые предоставляют только местоположение информации, а не саму информацию.
«Это как будто вы знаете адрес своего дома», — объяснил Грэм. «Но подождите, 10 лет назад там жил кто-то другой. Откуда вы это знаете? Все, что вы знаете, — это адрес дома».
Хотя независимые архивы, такие как Wayback Machine, могут помочь сохранить недоступные в противном случае страницы, Джонни Хэдлок, исполнительный директор Национальной ассоциации администраторов правительственных архивов и записей, заявил в своем заявлении, что «государственные учреждения должны активно включать архивирование в свои рабочие процессы, чтобы защитить свое присутствие в Интернете».
Отчет Pew Research, опубликованный в мае прошлого года, показал, что 38% веб-страниц, доступных для просмотра в 2013 году, больше не доступны 10 лет спустя. Анализ также показал, что примерно одна из пяти правительственных веб-страниц содержит по крайней мере одну неработающую ссылку, что часто происходит, когда связанная веб-страница удаляется.
«Многое из того, что происходит в мире, является цифровым, и эти записи иногда представляют собой правительственные записи, иногда исследовательские данные», — сказал Фрэнк. «Но они представляют ценность, и мы должны заботиться о них».
В подготовке этого репортажа принимал участие Мэтт Стайлз из CNN.