Продажи токенов ICO

Масштабирование ML-инфраструктуры Pinterest с использованием Ray: От обучения моделей до полноценных ML-конвейеров

Продажи токенов ICO
Scaling Pinterest ML Infrastructure with Ray: From Training to ML Pipelines

Погрузитесь в подробное исследование того, как Pinterest трансформирует свою инфраструктуру машинного обучения, расширяя возможности Ray от тренировок моделей до комплексных ML-конвейеров, что значительно ускоряет процессы, снижает затраты и повышает эффективность работы с данными.

Мир современных технологий стремительно развивается, особенно в области машинного обучения и искусственного интеллекта. Компании, которые работают с большими объемами данных, ежедневно сталкиваются с необходимостью быстрого и эффективного создания моделей, обработки данных и автоматизации процессов. Pinterest, одна из крупнейших визуальных поисковых платформ с более чем 300 миллиардами идей, успешно решает эти задачи благодаря масштабной трансформации своей ML-инфраструктуры. Ключевую роль в этом процессе сыграл Ray — распределённый вычислительный фреймворк, который изначально применялся в Pinterest в контексте обучения и инференса моделей, но затем был расширен для поддержки всего ML-стека от разработки признаков до экспериментов с метками и развертывания конвейеров. Ранее Pinterest сталкивался с множеством вызовов, связанных с традиционными инструментами построения ML-процессов.

Ограниченная скорость и высокая стоимость обработки данных, длительные задачи обратного заполнения (backfill) признаков, а также неэффективные методы выборки и экспериментов с метками тормозили развитие и внедрение новых алгоритмов. Использование Spark для выполнения тяжелых джойн-запросов между наборами данных создавал значительные задержки и сложности в оптимизации ресурсов, что негативно сказывалось на общей скорости итераций. В условиях постоянного роста объёмов данных и усложнения моделей возникла необходимость переосмысления всего подхода к ML-инфраструктуре. Pinterest решила нарастить потенциал Ray и интегрировать его глубже в все этапы жизненного цикла модели. Благодаря созданию нового ядра с Ray Data, компании удалось разработать нативный API для трансформации данных, который заменил медленные и громоздкие Spark-процессы.

Новый API позволил инженерам обрабатывать данные и создавать признаки прямо в обучающих конвейерах, значительно сократив время предварительной обработки и облегчая перенос кода между системами. Одним из прорывных решений стала технология Iceberg Bucket Joins, внедренная в Ray Data. Эта реализация сделала возможным динамичное объединение данных из разных источников непосредственно во время выполнения задач, избавив команду от необходимости создавать огромные предварительные таблицы. Такой подход позволил снизить аппаратные затраты и поднять скорость итераций в 10 раз, что существенно изменило рабочие процессы инженеров. Специальные алгоритмы сопоставления партиций и гибкие стратегии соединения обеспечивают сбалансированность между использованием памяти и быстродействием, а поддержка разных вариантов джойна повышает адаптивность системы под разные данные.

Большое внимание в Pinterest уделили проблеме хранения и повторного использования уже вычисленных признаков. Ранее из-за отсутствия механизма кэширования приходилось повторять тяжелые вычисления при каждом эксперименте, что замедляло процесс и увеличивало расходы. Внедрение возможности записи трансформированных данных в хранилище Iceberg с помощью Ray Data сильно упростило и ускорило как стадию гиперпараметрического тюнинга, так и дальнейшее развертывание моделей. Благодаря тому, что сохраняемые признаки можно оперативно интегрировать в производственные конвейеры и системы хранения, компания снизила время вывода новых фич в продакшн и повысила качество моделей. Для обеспечения максимальной производительности при работе с большими объемами данных в Pinterest оптимизировали базовые структуры Ray Data.

Работа над устранением излишних операций, таких как избыточное объединение блоков и копирование данных, позволила улучшить пропускную способность и снизить нагрузку на вычислительные ресурсы. Особое внимание уделялось оптимизации пользовательских функций (UDFs), которые помогают фильтровать и агрегировать данные. Использование техники JIT-компиляции с помощью Numba и объединение UDF в единые трансформации уменьшили накладные расходы и устранили узкие места в обработке. Обновленная ML-инфраструктура Pinterest, целиком построенная на Ray, стала ярким примером комплексного технологического подхода, где единая платформа берет на себя обработку данных, обучение моделей, экспериментирование и развертывание. Благодаря такому решению сокращение времени итераций достигло десятикратного уровня, а инфраструктурные затраты существенно оптимизировались.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Epic Games and Qualcomm Are Bringing Fortnite to Windows 11 on Arm
Суббота, 20 Сентябрь 2025 Epic Games и Qualcomm совместно адаптируют Fortnite для Windows 11 на платформе Arm

Запуск Fortnite на Windows 11 с архитектурой Arm при поддержке Qualcomm открывает новые возможности для гейминг-сообщества. Современные технологии и интеграция Easy Anti-Cheat делают игровой процесс плавным и защищённым на устройствах с процессорами Snapdragon.

The AI Revolution: Human like interfaces, not intelligence
Суббота, 20 Сентябрь 2025 Революция Искусственного Интеллекта: Человеко-подобные Интерфейсы, а не Интеллект

Исследование того, как современные языковые модели трансформируют взаимодействие человека и компьютера, становясь естественным интерфейсом для общения, а не подлинным интеллектом, и что это значит для будущего технологий и человеческих навыков.

The Secret Rules of the Terminal
Суббота, 20 Сентябрь 2025 Секретные правила терминала: как стать настоящим гуру командной строки

Погружение в мир терминала раскрывает множество тонкостей и секретов, которые помогут улучшить опыт работы с командной строкой и сделать взаимодействие с компьютером гораздо эффективнее и приятнее.

Embabel: Framework for Building AI Agents with Java
Суббота, 20 Сентябрь 2025 Embabel: инновационный фреймворк для создания AI-агентов на Java

Embabel открывает новую эру в разработке искусственного интеллекта на базе Java, предлагая удобный и безопасный инструмент для создания сложных AI-агентов, способных автономно принимать решения и выполнять сложные задачи в бизнес-среде.

Snyk Acquires Invariant Labs
Суббота, 20 Сентябрь 2025 Snyk приобретает Invariant Labs: новый этап в обеспечении безопасности AI-программ

Snyk укрепляет свои позиции в сфере безопасности AI, приобретая Invariant Labs — ведущую исследовательскую компанию в области защиты агентных AI-систем. Это стратегическое объединение расширяет возможности платформы Snyk AI Trust и выводит защиту от новых угроз на качественно новый уровень.

Harvey raises $300 million at $5 billion valuation to be legal AI for lawyers worldwide
Суббота, 20 Сентябрь 2025 Harvey: Искусственный интеллект, меняющий юридический ландшафт с оценкой в 5 миллиардов долларов

Harvey привлек 300 миллионов долларов инвестиций при оценке в 5 миллиардов долларов, став ведущим игроком в сфере юридических ИИ-решений для адвокатов по всему миру. Компания стремится трансформировать юридическую отрасль благодаря инновационным технологиям и расширению международного присутствия, предоставляя эффективные инструменты для работы юристов и корпоративных команд.

US tractor slump continues as Canada sales rise
Суббота, 20 Сентябрь 2025 Спад продаж сельхозтехники в США и рост продаж в Канаде: анализ ситуации на рынке тракторов

Рынок сельскохозяйственной техники в Северной Америке демонстрирует разнонаправленные тенденции: в США наблюдается значительный спад продаж тракторов и комбайнов, тогда как в Канаде показатели наоборот растут. Рассмотрены основные причины таких изменений, влияние экономических факторов и перспективы для производителей техники.