Научное сообщество сегодня является по-настоящему международным, и платформы, с помощью которых исследователи обмениваются знаниями, играют ключевую роль в развитии науки. Одним из таких ресурсов является ArXiv — бесплатный онлайн-архив научных препринтов, который с момента создания в 1991 году стал неотъемлемой частью научной жизни в областях физики, математики, информатики и смежных дисциплин. Несмотря на то, что ArXiv управляется Корнельским университетом в США, его значимость и использование распространяются на учёных по всему миру, что подтверждается статистикой загрузок и подпиской на членство с международным финансированием. В частности, немецкий научно-информационный центр TIB вместе с такими организациями, как Объединение исследовательских центров Гельмгольца и Общество Макса Планка, финансируют немецкую часть поддержки ArXiv. Однако последние политические и экономические изменения в США, особенно непростая ситуация с сокращением расходов и реструктуризацией научных учреждений, вызывают серьёзную обеспокоенность относительно сохранности научных данных и инфраструктур.
Уже появились новости о том, что такие ключевые порталы, как PubMed, оказались под угрозой, наряду с потерей уникальных данных по социальным, медицинским и естественным наукам. Это поднимает насущный вопрос о необходимости создания более надёжных и децентрализованных систем хранения научной информации, которые смогут устоять в условиях кризисов. Ранее ArXiv использовал сеть международных зеркальных серверов, расположенных, среди прочих, в Европе, Японии и США. Эти зеркала обеспечивали резервный доступ к содержимому и снижали нагрузку на основной сервер, а также улучшали качество доступа для пользователей, находящихся ближе к отдельным точкам зеркалирования. Однако развитие облачных технологий и использование современных CDN-сетей, таких как Fastly, сделали зеркала менее востребованными — сейчас около 90 % всего трафика направляется к основному серверу ArXiv, а поддержка и обновление зеркал стали экономически неэффективными.
Тем не менее, для европейских партнёров, таких как TIB, сохранение альтернативных копий ArXiv было всегда важным — и недавние политические реалии лишь подтвердили необходимость такого подхода. Вот почему TIB взяла на себя задачу создания так называемого «тёмного архива» ArXiv — резервного хранилища данных, которое не открыто для массового публичного доступа, но может быть активировано в случаях аварийных ситуаций. Создание такого архива потребовало решения сложного юридического вопроса, связанного с правами на материалы. В течение последних десятилетий ArXiv использовал различные типы лицензий, включая собственные ArXiv.org licenses, Creative Commons, а также материалы, находящиеся в общественном достоянии.
Кроме того, в ранние годы некоторые материалы загружались без явно оформленных лицензий, что осложняет их дальнейшее использование и публикацию. Тем не менее, для целей резервного хранения нет ограничений, если говорить о сохранении самой информации без публичного распространения. С технической точки зрения TIB использовала современный метод получения данных через Amazon S3, используя схему «requester pays», что означает, что TIB самостоятельно покрывала расходы на загрузку более 2,6 миллионов наборов данных объемом около 10 терабайт. Такая масштабная работа стала возможной благодаря интеграции работы ArXiv с инфраструктурой TIB, в частности, их порталом, который уже давно использует метаданные ArXiv, что облегчило создание новых процессов для обновления и дополнения архива регулярными новыми записями и версиями. Тёмный архив от TIB — не просто «резервная копия».
В случае кризиса он может стать ключевым элементом для восстановления доступа к огромному массиву научных знаний. При этом для публичного использования архива потребуются дополнительные шаги по обеспечению права доступа, технической поддержки и научного сопровождения материалов, включая модерацию и развитие сервисов. ArXiv — это гораздо больше, чем просто база данных: это сообщество исследователей, волонтёров, специалистов, которые поддерживают непрерывное развитие и качество сервиса. Учёные и специалисты в области библиотечного дела, такие как заместитель директора TIB доктор Ирина Сенс, подчеркивают важность таких усилий: создание тёмного архива — выражение стремления к надёжной, международной научной инфраструктуре, способной противостоять вызовам времени. Цифровые научные содержимое требует не только сохранения, но и долгосрочного обеспечения доступности и устойчивости к изменениям в политике и технологии.
Таким образом, проект TIB по созданию тёмного архива ArXiv становится важным шагом в обеспечении безопасности и доступности научных данных на международном уровне. Он отражает новую парадигму в развитии научных инфраструктур, основанную на децентрализации, сотрудничестве и правовом внимании к лицензированию. В условиях глобальных вызовов и неопределённости такие инициативы дают уверенность учёным во всем мире, что знания, которые они создают и передают, будут сохранены для будущих поколений.