Современные технологии видеозаписи и обработки все активнее выходят за рамки обычного плоского просмотра. Традиционное видео, где изображение фиксировано в двух измерениях, становится недостаточным для создания полного ощущения присутствия. Представьте, что можно не просто смотреть видео, а свободно перемещаться вокруг сцены, меняя угол обзора так, как будто вы сами находитесь в том месте и моменте съемки. Именно такую возможность предлагает инновационный проект Video Space, основанный на концепции воспроизведения видео с позовым выравниванием. Эта технология позволяет воспроизводить видео в пространстве, где оно было снято, предоставляя пользователю интерактивный опыт с возможностью управления точкой зрения.
Идея воспроизведения видео в трехмерном пространстве основана на детальном сопоставлении каждого кадра с положением и ориентацией камеры в момент съемки. Однако, трансформировать плоское видео в пространственный опыт — задача сложная, поскольку для качественного позиционирования требуется точная информация о положении камеры (позе) и ее ориентации. Часто пользователи надеются использовать GPS или телеметрию устройств, например, дронов, но ограничения и отсутствие данных о направлении камеры значительно усложняют эту задачу. Video Space обходит эту проблему, применяя Structure-from-Motion (SfM) — компьютерный метод, анализирующий серию изображений для реконструкции трехмерной сцены и определения траектории камеры. Для реализации проекта авторы использовали COLMAP — популярный инструмент SfM, который полностью автоматизирует процесс обработки изображений, выявляя точные позиции камеры на каждом кадре или изображении.
Вместо того чтобы полагаться на ограниченные сенсорные данные, COLMAP позволяет вычислять положение и ориентацию камеры специально по визуальной информации из серии снимков, что расширяет возможности не только дронов, но и прочих источников видео. В результате получается точная карта положения камеры, которая напрямую связывается с фреймами видео. Следующим этапом становится синхронизация визуального видео с пространственными данными. Автор проекта разработал собственный код, который извлекает и сериализует позы камер и 3D точки сцены в формате ply — удобном текстовом формате для хранения трехмерных точек и структур. Затем эти данные загружаются в веб-компонент, который обеспечивает интерактивное воспроизведение.
Основой выступает трехмерная графика, реализованная на библиотеке three.js, популярном инструменте для рендеринга 3D-графики в браузере на базе WebGL. Техническая архитектура построена так, что <video> элемент остается в DOM, но скрыт, выступая плеером для управления воспроизведением. Все визуальное взаимодействие с пользователем происходит через webGL-канвас, где при помощи инстансированной графики и текстурной массивов создается 3D сцена с наложением видеофреймов, точно расположенными в пространстве согласно полученным позам. Вместо попыток загрузить все кадры видео подряд и растягивать ресурсы, кадры периодически отбираются с пониженной частотой (например 2-5 кадров в секунду) и между ними используется интерполяция, плавно воспроизводящая движение камеры.
При этом библиотека curve-interpolator помогает вычислять точные промежуточные положения, обеспечивая гладкость перемещений в трехмерном пространстве. Использование WebGLArrayRenderTarget позволило оптимизировать процесс загрузки и отображения кадров, поскольку данный подход дает возможность эффективно работать с текстурами, сгружая нужные изображения непосредственно в массив текстур и значительно ускоряя рендеринг. Это улучшает производительность и снижает задержки, что критично для интерактивных видео, где пользователь может в любой момент поворачивать или перемещать обзор. Особый интерес вызывает широкое применение разных источников данных для позового выравнивания. Помимо SfM, можно интегрировать разнородные датчики и телеметрические данные с мобильных устройств и дронов.
Например, в мире дронов dataset UZH-FPV Drone Racing Dataset предоставляет полезные сенсорные наборы, включая положения и ориентацию. Для мобильных устройств перспективным считается WebXR Raw Camera Access, который позволяет получать данные о положении камеры в пространстве, что открывает возможности для съёмки и воспроизведения позово выровненных видео прямо с телефона. Камеры GoPro и аналогичные устройства также обладают собственными форматами телеметрии, включающими метаданные о движении и ориентации, что можно использовать для улучшения точности пространственного воспроизведения. Обработка таких данных позволяет создавать интересные сценарии для спорта, путешествий и других видов активностей, где важна полевая динамика. Выбор формата ply для передачи и хранения пространственных данных обусловлен его легкостью и гибкостью.
Это текстовый формат, который легко читается и модифицируется, что позволяет экспериментировать с обработкой и интеграцией данных в веб-среде. Но дальнейшие планы проекта предполагают использование более продвинутых форматов, таких как mcap, которые способны связывать видеоданные и метаданные более надежно и стандартизировано, обеспечивая масштабируемость и универсальность решений. Проект Video Space демонстрирует, как с помощью комбинации современных технологий машинного зрения, трехмерной графики и веб-технологий можно значительно расширить возможности видео. Воспроизведение с позовым выравниванием предлагает не просто просмотр, а погружение в пространство события, интерактивный опыт, приближенный к реальному присутствию. Именно такие технологии в ближайшем будущем могут стать основой для виртуальной реальности, образовательных приложений, спортивных трансляций и многих других интерактивных медиа.
На сегодняшний день pipeline обработки видео все еще требует доработок и оптимизаций, однако уже сейчас можно проводить эксперименты, создавать свои собственные интерактивные видеопространства и исследовать новые сценарии применения. Проект открыт для предложений и идей, что говорит о его гибкости и потенциале для коллабораций и развития. Таким образом, Video Space и идеи позового воспроизведения видео задают новый стандарт в области видеотехнологий, предлагая глубину восприятия и новые способы взаимодействия с контентом. От традиционного плоского видео к пространственным интерактивным историям — путь, который открывает множество перспектив для создателей контента, разработчиков и пользователей по всему миру.
 
     
    