Блог DFCenter

Архивные записи. Часть 1

Как-то так сложилось испокон, что суды в России достаточно требовательны к доказательствам от сторон спора. К некоторым. Копии документов без оригиналов скорее всего не примут. Справку без печати, выписку без подписи, да даже частенько и скриншот без нотариуса. А вот изображение сайта, точнее его версии «когда-то тогда», сделанное другим сайтом, принадлежащим не известно кому и работающим неизвестно как могут и принять. Это мы сейчас про веб-архив.

Многих это удивляет, особенно когда это оппоненты такое приносят в суд. А еще многих удивляет, что оказывается бывают разные веб-архивы и что информация в них тоже может храниться разная. Давайте разбираться почему. Сегодня про архивы интернета, их отличия и что в них полезного для юристов.

Итак. Интернет-архив, архив интернета, веб-архив или Wayback Machine – все это названия одного и того же сервиса, суть которого в предоставлении любому того желающему посетителю интернета свободного доступа к архивным копиям страниц сайтов. Почти всех сайтов в интернете. Сервис основан НКО «Internet Archive», публично доступен с 2001 г. и там уже накопилось под 900 миллиардов копий страниц разных сайтов. Это и есть «оригинальный» веб-архив.

Махина эта работает следующим образом: для создания копий этих самых страниц специальное программное обеспечение сервиса формирует списки сайтов. Определяющий критерий – посещаемость, т.е. популярность. Если на сайт приходит много пользователей, то значит там есть что-то «значимое» и оно должно оставить свой след в вечности. Для определения популярности используются общепринятые (в рамках интернет-социума) рейтинги, например, Alexa Rank. И чем выше место сайта в рейтинге – тем чаще происходит «архивирование» его страниц. Например, наиболее популярные сайты архивируются веб-архивом ежедневно. А сайты, имеющие небольшую аудиторию, могут иметь только одну копию в веб-архиве, либо вообще не попасть в него.

Кроме автоматического режима создания копий страниц есть и ручной – любой зарегистрированный пользователь может запросить создание копии нужной страницы. Такая копия страницы ничем не отличается от созданной автоматически.

Но визуал визуалом, а что тут есть с точки зрения цифровых доказательств? В веб-архиве создаются страницы с адресами вида «https://web.archive.org/web/timestamp/address/…», где «timestamp» – закодированные дата и время создания копии, а «address» – полный адрес скопированной в веб-архив страницы. Например, копия сайта https://yandex.ru, сделанная 05.03.2019 г. в 00:31 (GMT) будет доступна по адресу https://web.archive.org/web/20190305003131/https://yandex.ru/.

Если на оригинальной странице были какие-то элементы, доступные по внешним ссылкам, например изображения или загружаемые файлы, то в веб-архиве создаются отдельные страницы. Причем это может произойти как в момент копирования основной страницы, так и после копирования. Например, если на сайте www.ria.ru, был pdf-документ «region.pdf», который лежал на сервере, то веб-архив сделает на него отдельную ссылку https://web.archive.org/web/20120123191204/http://www.ria.ru/files/region.pdf.

Когда пользователь переходит по таким ссылкам, он перенаправляется к копиям, сделанным в ближайшую дату к дате создания копии основной страницы.

Зачем вам это знать? Например, для того, чтобы попытаться найти и показать, какие были Правила на такую-то дату в прошлом. Иногда, особенно в случае спора с интернет-магазином, это бывает полезно.

Еще момент. Программное обеспечение веб-архива, создающее копии страниц, как у всех нормальных рептилоидно-цереушных высоконагруженных систем распределено географически. Поэтому сетевой адрес может быть разным. В связи с чем и отдельные элементы отображения могут зависеть не только от типа устройства и настроек системы пользователя, но и от географического положения сервера архива и массы других факторов. Поэтому есть вероятность, что сохраненные в веб-архиве копии страниц не будут в деталях совпадать с когда-то имевшим место оригиналом. Но это не касается основного информационного наполнения страницы – там все сохранится. Поэтому даже если визуал отличается – это не повод говорить о том, что и содержимое отличается.

Конечно, не очень красиво получается со стороны веб-архива менять визуал и путать серьезных людей в судах. Но он это с лихвой компенсирует тем, что также сохраняет и «невидимые» технические данные о сайте. И это выгодно отличает его от прочих подражателей. А что это за данные, кто эти подражатели и почему важно различать веб-архивы между собой мы расскажем в следующем посте.