В эпоху стремительного развития искусственного интеллекта и генеративных моделей меняется не только способ создания данных, но и требования к их хранению и обработке. Традиционные технологии хранения, ориентированные преимущественно на табличные данные и классические аналитические нагрузки, уже не справляются с новыми вызовами, которые ставит перед специалистами огромный и разнообразный поток мультимодальной информации. В ответ на эту проблему компания LanceDB завершила успешный раунд финансирования серии A, привлекая $30 миллионов на развитие революционной платформы — мультиформатного Lakehouse, способного эффективно объединять различные типы данных и ускорять процесс разработки AI-приложений. LanceDB с момента основания стремится решить одну из ключевых проблем современного мира данных — сложность работы с векторными представлениями, изображениями, видео и другими мультимодальными данными, в сравнении с привычными табличными структурами. Основатели компании задали себе вопрос: почему обработка изображений, видео и эмбедингов остаётся настолько трудоемкой, когда в мире табличных данных давно существуют отлаженные стандарты? Ответ оказался прост — существующая инфраструктура создавалась для «вчерашних» данных и не адаптирована к новым реалиям, которые диктует искусственный интеллект.
Для иллюстрации масштабов проблемы — данные мультимодального формата, охватывающие текстовые документы, эмбеддинги, изображения и видео, растут в объёмах с огромной скоростью. К 2025 году прогнозируется, что видеоданные составят порядка 156 зеттабайт, что в три раза превышает показатель 2022 года и более чем в четыре раза — показатель 2018 года. Такие цифры поражают, и очевидно, что хранение и эффективная обработка подобных массивов данных требует новых, более продвинутых решений. В основе новой платформы LanceDB лежит уникальная открытая разработка — Lance формат, который становится новым стандартом для работы именно с мультимодальными данными. Технология уже получила признание в индустрии и активно используется крупными игроками на рынке генеративного ИИ, такими как Runway, Midjourney, Character.
ai. Эти компании ежеминутно оперируют с десятками миллиардов векторов и петабайтами тренировочных данных, и благодаря LanceDB им удалось ускорить процессы работы, снизить затраты на инфраструктуру и упростить архитектуру систем. Новый мультиформатный Lakehouse от LanceDB представляет собой единую платформу, где можно хранить и обрабатывать все виды данных — от документов и эмбедингов до изображений и видео. Такая интеграция открывает возможности для реализации полного цикла AI задач в рамках одной системы — от поиска и извлечения данных до подготовки признаков, тренировок моделей и онлайн-инференса. Это избавляет инженеров от необходимости интеграции нескольких специализированных решений, что помогало бы сэкономить время и сосредоточиться на развитии продукта, а не на сопровождении сложной инфраструктуры.
Преимущества мультиформатного Lakehouse очевидны. Во-первых, он ориентирован на высокую масштабируемость и производительность, способную обрабатывать данные в пета- и даже экзабайтовых масштабах с тысячами запросов в секунду. Во-вторых, он создан с прицелом на современные AI нагрузки — что требует и сложной обработки векторов, и работы с неструктурированными данными, включая изображения и видеофайлы большого объема. В-третьих, открытый характер Lance формата способствует активному развитию сообщества и появлению новых инструментов и интеграций. Финансирование на сумму $30 миллионов, полученное от ведущих венчурных фондов и стратегических инвесторов таких как Theory Ventures, CRV, YCombinator, Databricks Ventures и других, позволит LanceDB ускоренно развивать мультиформатный Lakehouse, делая акцент на расширении функционала для feature engineering и обучения моделей.
Кроме того, компания планирует масштабировать корпоративную платформу для поддержки еще больших AI рабочих нагрузок, а также наращивать сотрудничество с ведущими AI-компаниями и научно-исследовательскими центрами по всему миру. Этот инвестиционный этап — не просто финансовая вливание, а важный шаг в обновлении всей инфраструктуры данных. Многие специалисты в индустрии согласны с тем, что старые подходы к хранению данных уже не соответствуют тем требованиям, которые диктуют современные горизонты искусственного интеллекта и мультимодальных приложений. LanceDB предоставляет новое видение, которое обещает сделать работу с большими данными более понятной, быстрой и доступной. Использование мультиформатного Lakehouse позволит разработчикам сосредоточиться на создании интеллектуальных систем, улучшении качества моделей и быстром выводе продуктов на рынок.
Отказ от многочисленных промежуточных решений и построение единой экосистемы с открытым ядром обеспечивает стабильность, гибкость и возможность масштабирования, соответствующую самым высоким требованиям сегодняшних задач AI. LanceDB уже получает положительные отзывы от крупнейших пользователей и открыто делится техническими результатами и кейсами на своем сайте и в специализированных блогах. Платформа способна по-настоящему изменить подход к хранению и обработке мультимодальных данных, создавая основу, на которой будет строиться следующий виток развития искусственного интеллекта. Подводя итог, выход LanceDB на новый уровень с привлечением крупных инвестиций и запуском мультиформатного Lakehouse свидетельствует о том, что рынок технологий хранения данных переживает новую эру. Это эра, в которой качество, скорость и масштабируемость обработки мультимодальных данных становится ключевым фактором успеха AI-решений и продуктов следующего поколения.
Открытый и инновационный подход LanceDB помогает сделать этот переход плавным и доступным для всех игроков рынка, ускоряя развитие технологий и открывая новые горизонты возможностей.