Amazon Elastic Kubernetes Service (EKS) продолжает устанавливать новые стандарты в мире облачных вычислений, а последняя новость о поддержке кластеров с количеством узлов до 100 тысяч стала настоящим прорывом. Эта масштабируемость значительно расширяет возможности обработки данных и запуска искусственного интеллекта и машинного обучения, выводя инфраструктуру Amazon Web Services на новый уровень. Обеспечивая до 1,6 миллиона чипов AWS Trainium или 800 тысяч графических процессоров NVIDIA в одном кластере, EKS становится фундаментальной платформой для самых сложных и ресурсоемких вычислительных задач в реальном времени. Развитие поддержки ультра масштабных кластеров обусловлено растущими потребностями компаний и исследовательских организаций в масштабируемой, надежной и высокопроизводительной системе для запуска своих AI/ML рабочих нагрузок. Современные модели требуют объединения тысяч ускорителей, что невозможно эффективно реализовать на нескольких небольших кластерах из-за высокой сложности управления и снижения эффективности.
Использование одного единого кластера такого размера позволяет снизить затраты за счет повышения использования ресурсов за счет совместного пула вычислительной мощности, что особенно важно при работе с комплексными задачами, включая масштабное обучение, дообучение и агентное инференс. Архитектура Kubernetes, лежащая в основе Amazon EKS, обладает высокой масштабируемостью и гибкостью, позволяя эффективно управлять контейнерами и ресурсами. Однако поддержка кластеров с 100 тысячами узлов потребовала значительных архитектурных доработок и инноваций. Одной из ключевых технологий, обеспечивающих подобные масштабы, стала переработанная система хранения данных Kubernetes – etcd. В Amazon EKS консенсус и репликация etcd были оптимизированы с помощью собственной технологии Journal, что позволило избавиться от ограничений традиционного алгоритма Raft, повысить производительность и обеспечить стабильность при работе с огромным числом узлов и объектов.
Перевод backend etcd на использование полностью in-memory хранилища для MVCC слоя повышает скорость операций чтения и записи и сокращает время восстановления после сбоев. Кроме того, разделение ключевого пространства etcd на отдельные партиции для разных типов ресурсов обеспечивает до пятиразового роста пропускной способности записи и снижает задержки при обслуживании запросов. API сервер Kubernetes также подвергся глубокому тюнингу, где настройки таймаутов, параллелизм обработки запросов, оптимизация кэширования и переход на сильную консистентность чтений с кеша позволили значительно повысить пропускную способность и снизить нагрузку на бэкенд. Особое внимание уделено улучшению обработки больших коллекций данных, что критично для работы контроллеров и операторов в масштабных кластерах, а эксперименты с бинарным кодированием custom resource с помощью CBOR предлагают перспективы повышения эффективности работы с кастомизированными ресурсами. Контроллеры и планировщики в Kubernetes также были модернизированы для обработки высоких нагрузок при широком параллелизме и низкой задержке.
Повышение производительности контроллеров включает оптимизацию блокировок и использование батчевой обработки событий, что позволяет справляться с высокими уровнями churn и событийными потоками. Планировщик Kubernetes (KS) при этом достигает стабильной пропускной способности до 500 подов в секунду на кластерах такого масштаба благодаря улучшенной фильтрации и настройкам плагинов. Важным элементом управления узлами стал проект Karpenter, служащий автоматическим механизмом разрешения и масштабирования. Для поддержки ультра масштабов Karpenter получил новые функции, обеспечивающие гарантированную статическую емкость и возможность эффективного ремонта узлов с ускоренными вычислительными устройствами. Автоматическая замена деградировавших узлов происходит без простоя задач и обеспечивает высокую надежность кластера.
Сетевая архитектура кластера претерпела значительные изменения. Переход от выделения IP микроадресов к назначению «теплых префиксов» позволил эффективнее использовать адресное пространство VPC, избегая перегрузки и упрощая масштабирование сети до сотен тысяч узлов. Внедрение мультикартовой поддержки Elastic Network Interface дает возможность значительно увеличить сетевую пропускную способность подов, что особенно важно при работе с гигабитными потоками данных типичных AI/ML задач. Обновление процессов загрузки и распаковки контейнерных образов ускоряет развёртывание приложений и сокращает время простоя сервисов. Seekable OCI fast pull позволяет скачивать слои образов пакетами с одновременной распаковкой, что вместе с быстрыми подсистемами хранения на базе Amazon EBS сокращает время подготовки узла почти вдвое.
Такой широкий и глубокий набор усовершенствований вместе с комплексным подходом к тестированию показал, что Amazon EKS способен с лёгкостью управлять пулом из 100 тыс. узлов и десятков миллионов объектов Kubernetes с высокой стабильностью и производительностью. Тесты на реальные сценарии включали одновременные крупномасштабные тренировки моделей, параллельные дообучения и высокопроизводительный инференс, демонстрируя отсутствие деградации качества обслуживания даже в условиях жестких нагрузок на API и контроллеры кластера. Помимо возможности масштабирования, EKS обеспечивает высокую устойчивость системы. Быстрая реакция на сбои узлов, автоматический ремонт и масштабное обслуживание рабочих нагрузок при возникновении отказов, поддерживаются специальными агентами мониторинга и комплексом автоматизаций внутри кластера.
Высокая производительность системы DNS в кластере позволяет обрабатывать миллионы запросов в секунду с минимальными задержками, гарантируя бесперебойную работу приложений. В совокупности, поддержка кластеров с 100 тысячами узлов от Amazon EKS создаёт новую эру вычислительных платформ, готовых поддерживать сложнейшие вычислительные задачи, характерные для направлений генеративного искусственного интеллекта, больших данных и масштабного машинного обучения. Это становится мощным инструментом для исследователей, разработчиков и предприятий, позволяя создавать и развёртывать AI/ML решения с беспрецедентной масштабируемостью и надёжностью. Учитывая быстрый рост запросов на вычислительные мощности со стороны индустрии и науки, такие инициативы обеспечивают AWS ведущие позиции на рынке облачных платформ, способных удовлетворять требования будущих вычислительных трендов. Компания продолжит совершенствовать свои технологии и интеграции, расширяя возможности EKS и сопутствующих сервисов, таких как Amazon SageMaker HyperPod, поддерживая клиентов в построении ультра масштабных систем уже сегодня и в будущем.
Создание продвинутой, масштабируемой и стабильной платформы – важный шаг в развитии архитектуры облаков и AI, который обеспечивает основу для новых инноваций и бизнес-приложений, где скорость и надёжность являются ключевыми факторами успеха.