В мире информационных технологий архивирование всегда было важной задачей, обеспечивающей надежное хранение и быструю передачу данных. Формат .tgz, который представляет собой комбинацию tar и gzip, долгое время оставался стандартом для архивирования благодаря простоте и надежности. Однако, с ростом объёмов данных и распространением облачных хранилищ, таких как Amazon S3, традиционные методы начали показывать свои ограничения. Современные масштабируемые системы и требования к безопасности требуют переосмысления подходов к созданию архивов, что особенно актуально для петабайтных архивов в S3.
Появился новый формат .ptar, призванный заменить .tgz для нужд 2025 года и далее, обеспечивая эффективность, безопасность и гибкость при работе с большими объёмами данных в облаках. С момента появления формата .tgz в конце 1970-х и начале 1990-х годов мир хранения данных сильно изменился.
Тогда данные были относительно небольшими, в основном размещались на локальных физических носителях и не требовали сложной версии истории или высокой безопасности. Архивирование шло в один проход, требуя полного распаковки всего архива для доступа к одному файлу. Это было приемлемо в эпоху, когда объёмы данных измерялись мегабайтами, а скорость сетей и вычислительных ресурсов была ограниченной. Сегодня картина чрезвычайно отличается. Объёмы информации взлетели до терабайт и петабайт, особенно в сферах больших данных, науки и машинного обучения.
Хранение зачастую переместилось в облака, самые популярные из которых – объектные хранилища, такие как Amazon S3. Сетевые технологии и вычислительные мощности выросли многократно, и современные приложения требуют очень точного контроля целостности данных, защиты от несанкционированных изменений и возможности быстрой выборочной загрузки отдельных файлов без необходимости распаковки всего архива. Обычные форматы архивов, включая .tgz, оказались не готовыми для этих вызовов. Проблемы взаимодействия .
tgz с S3 очевидны. Архивирование больших данных, расположенных в S3, традиционно требовало полной загрузки контента на локальную машину, что увеличивало расходы на хранение и трафик. Затем локально создавался архив, который после этого загружался обратно в облако. Такой процесс медленный, дорогостоящий и подвержен ошибкам. Более того, формат .
tgz не предусматривает встроенного шифрования или интеграции с проверкой целостности на базе криптографии, что снижает уровень доверия к архивам в условиях современных требований безопасности. Новая реальность требует архива, способного объективно экономить ресурсы и защищать данные. Он должен автоматически устранять дублирование информации, предотвращая хранение одного и того же фрагмента несколько раз, что критично с учётом огромных объёмов данных и множественных копий файлов, появляющихся в различных версиях резервных копий и системах с snapshot. Кроме того, архив должен иметь встроенное шифрование, чтобы исключить необходимость дополнительных сложных процедур безопасности. Важна поддержка версионности — возможность видеть историю изменений и делать точечное восстановление, что существенно экономит время и ресурсы.
Именно таких свойств лишён классический .tgz, и именно на их базе был разработан .ptar — новый формат архивов, изначально созданный для масштабной работы с S3 и другими объектными хранилищами. Архивы .ptar представляют собой содержимое, основанное на содержательном адресовании, где данные разбиваются на уникальные чанки, и каждый происходит только один раз для хранения, даже если он встречается в нескольких версиях или копиях.
Такой подход радикально уменьшает размер архивов, снижая нагрузку на сеть и экономя место на диске. Кроме того, .ptar обеспечивает встроенное шифрование вместо внешних дополнений, гарантируя защиту информации на уровне упаковки. Любые попытки изменения содержимого изменяют цифровые отпечатки данных, что немедленно выявляет попытки подделки или порчи. Это предоставляет высокий уровень доверия к архивам даже в условиях нулевого доверия к среде хранения или передачи данных.
Особенно важна нативная интеграция с Amazon S3, позволяющая выполнять операции архивирования и восстановления данных напрямую в облаке, без промежуточной загрузки. Это позволяет создавать и поддерживать масштабные архивы объёмом вплоть до петабайт, способные быстро восстанавливаться не полностью, а частично. Возможен быстрый просмотр содержимого архива, выбор конкретных файлов и их стремительное восстановление, что невозможно при использовании традиционных .tgz-архивов. На практике преимущества .
ptar становятся сильно заметны, особенно в рабочих сценариях с большим количеством дубликатов и версий данных. В примере с папкой размером 11 ГБ, при создании архива двумя копиями с помощью tar и gzip объём полученного архива будет около 22 ГБ. Новый формат .ptar за счёт дедупликации ограничивает размер архива примерно 8 ГБ — экономия почти в три раза. На уровне петабайт эта разница становится колоссальной как с точки зрения экономии трафика, так и стоимости хранения.
Несмотря на явные преимущества .ptar, формат .tgz сохраняет свою актуальность в некоторых случаях. Он универсален, не требует дополнительных зависимостей и может использоваться для быстрого создания небольших архиваций или временных резервных копий. Для систем, где масштаб и безопасность не являются критичными факторами, и отсутствуют требования быстрой выборочной загрузки, .
tgz будет работать эффективно, особенно там, где распространена поддержка и опыт использования. В то же время с ростом индустрии облачного хранения данных и усложнением требований к безопасности и управлению версиями, преимущества .ptar становятся всё более очевидными. Его функциональность удовлетворяет задачи, которые ставит перед современными инфраструктурами спрос на хранение и восстановление больших единственных данных разных видов от научных экспериментов до машинного обучения и больших корпоративных архивов. Переход на .
ptar можно осуществить без особого труда, используя специализированный CLI-инструмент Plakar, который позволяет создавать, просматривать, восстанавливать и даже использовать удобный UI для управления архивами. Возможность работы с локальными данными и напрямую с S3 делает его гибким выбором для различных сценариев. Открытый исходный код проекта позволяет сообществу вносить улучшения и адаптировать формат под растущие требования индустрии. В планах разработчиков — повышение скорости работы, более интеллектуальная дедупликация, создание standalone-бинарников и снижение объема метаданных для ещё более удобного использования. Важно понимать, что хранение данных и задачи резервного копирования продолжают развиваться.
В условиях стремительного роста объёмов информации, усиления требований безопасности и необходимости экономии ресурсов становится критичным искать современные, эффективные решения. Формат .tgz, который служил индустрии десятилетиями, перестаёт укладываться в эти требования, а .ptar предлагает инновационный, адаптированный к реальным сценариям формат, способный существенно оптимизировать процессы архивирования и восстановления. Таким образом, если вы работаете с большими объемами данных, особенно с объектными хранилищами S3 или подобными, и нуждаетесь в надёжном, защищённом и быстром архивировании, обращение к .
ptar и инструментам Plakar — шаг в будущее хранения информации. Это решение не просто сэкономит ресурсы и ускорит доступ к нужным файлам, но и повысит доверие к архивам благодаря встроенной криптографии и контролю версий. В эпоху больших данных, где скорость и безопасность имеют принципиальное значение, переход на современные форматы архивации становится необходимостью.