Инвестиционная стратегия Налоги и криптовалюта

Amazon EKS расширяет горизонты: поддержка кластеров до 100 тысяч узлов для масштабных AI/ML задач

Инвестиционная стратегия Налоги и криптовалюта
AWS announced support for clusters with up to 100k nodes

Amazon Elastic Kubernetes Service (EKS) представляет новую веху в развитии облачных технологий, обеспечивая поддержку ультра масштабных кластеров с числом узлов до 100 тысяч. Такая масштабируемость открывает беспрецедентные возможности для обработки и обучения мощных моделей искусственного интеллекта и машинного обучения, значительно повышая производительность и надежность инфраструктуры.

Amazon Elastic Kubernetes Service (EKS) продолжает устанавливать новые стандарты в мире облачных вычислений, а последняя новость о поддержке кластеров с количеством узлов до 100 тысяч стала настоящим прорывом. Эта масштабируемость значительно расширяет возможности обработки данных и запуска искусственного интеллекта и машинного обучения, выводя инфраструктуру Amazon Web Services на новый уровень. Обеспечивая до 1,6 миллиона чипов AWS Trainium или 800 тысяч графических процессоров NVIDIA в одном кластере, EKS становится фундаментальной платформой для самых сложных и ресурсоемких вычислительных задач в реальном времени. Развитие поддержки ультра масштабных кластеров обусловлено растущими потребностями компаний и исследовательских организаций в масштабируемой, надежной и высокопроизводительной системе для запуска своих AI/ML рабочих нагрузок. Современные модели требуют объединения тысяч ускорителей, что невозможно эффективно реализовать на нескольких небольших кластерах из-за высокой сложности управления и снижения эффективности.

Использование одного единого кластера такого размера позволяет снизить затраты за счет повышения использования ресурсов за счет совместного пула вычислительной мощности, что особенно важно при работе с комплексными задачами, включая масштабное обучение, дообучение и агентное инференс. Архитектура Kubernetes, лежащая в основе Amazon EKS, обладает высокой масштабируемостью и гибкостью, позволяя эффективно управлять контейнерами и ресурсами. Однако поддержка кластеров с 100 тысячами узлов потребовала значительных архитектурных доработок и инноваций. Одной из ключевых технологий, обеспечивающих подобные масштабы, стала переработанная система хранения данных Kubernetes – etcd. В Amazon EKS консенсус и репликация etcd были оптимизированы с помощью собственной технологии Journal, что позволило избавиться от ограничений традиционного алгоритма Raft, повысить производительность и обеспечить стабильность при работе с огромным числом узлов и объектов.

Перевод backend etcd на использование полностью in-memory хранилища для MVCC слоя повышает скорость операций чтения и записи и сокращает время восстановления после сбоев. Кроме того, разделение ключевого пространства etcd на отдельные партиции для разных типов ресурсов обеспечивает до пятиразового роста пропускной способности записи и снижает задержки при обслуживании запросов. API сервер Kubernetes также подвергся глубокому тюнингу, где настройки таймаутов, параллелизм обработки запросов, оптимизация кэширования и переход на сильную консистентность чтений с кеша позволили значительно повысить пропускную способность и снизить нагрузку на бэкенд. Особое внимание уделено улучшению обработки больших коллекций данных, что критично для работы контроллеров и операторов в масштабных кластерах, а эксперименты с бинарным кодированием custom resource с помощью CBOR предлагают перспективы повышения эффективности работы с кастомизированными ресурсами. Контроллеры и планировщики в Kubernetes также были модернизированы для обработки высоких нагрузок при широком параллелизме и низкой задержке.

Повышение производительности контроллеров включает оптимизацию блокировок и использование батчевой обработки событий, что позволяет справляться с высокими уровнями churn и событийными потоками. Планировщик Kubernetes (KS) при этом достигает стабильной пропускной способности до 500 подов в секунду на кластерах такого масштаба благодаря улучшенной фильтрации и настройкам плагинов. Важным элементом управления узлами стал проект Karpenter, служащий автоматическим механизмом разрешения и масштабирования. Для поддержки ультра масштабов Karpenter получил новые функции, обеспечивающие гарантированную статическую емкость и возможность эффективного ремонта узлов с ускоренными вычислительными устройствами. Автоматическая замена деградировавших узлов происходит без простоя задач и обеспечивает высокую надежность кластера.

Сетевая архитектура кластера претерпела значительные изменения. Переход от выделения IP микроадресов к назначению «теплых префиксов» позволил эффективнее использовать адресное пространство VPC, избегая перегрузки и упрощая масштабирование сети до сотен тысяч узлов. Внедрение мультикартовой поддержки Elastic Network Interface дает возможность значительно увеличить сетевую пропускную способность подов, что особенно важно при работе с гигабитными потоками данных типичных AI/ML задач. Обновление процессов загрузки и распаковки контейнерных образов ускоряет развёртывание приложений и сокращает время простоя сервисов. Seekable OCI fast pull позволяет скачивать слои образов пакетами с одновременной распаковкой, что вместе с быстрыми подсистемами хранения на базе Amazon EBS сокращает время подготовки узла почти вдвое.

Такой широкий и глубокий набор усовершенствований вместе с комплексным подходом к тестированию показал, что Amazon EKS способен с лёгкостью управлять пулом из 100 тыс. узлов и десятков миллионов объектов Kubernetes с высокой стабильностью и производительностью. Тесты на реальные сценарии включали одновременные крупномасштабные тренировки моделей, параллельные дообучения и высокопроизводительный инференс, демонстрируя отсутствие деградации качества обслуживания даже в условиях жестких нагрузок на API и контроллеры кластера. Помимо возможности масштабирования, EKS обеспечивает высокую устойчивость системы. Быстрая реакция на сбои узлов, автоматический ремонт и масштабное обслуживание рабочих нагрузок при возникновении отказов, поддерживаются специальными агентами мониторинга и комплексом автоматизаций внутри кластера.

Высокая производительность системы DNS в кластере позволяет обрабатывать миллионы запросов в секунду с минимальными задержками, гарантируя бесперебойную работу приложений. В совокупности, поддержка кластеров с 100 тысячами узлов от Amazon EKS создаёт новую эру вычислительных платформ, готовых поддерживать сложнейшие вычислительные задачи, характерные для направлений генеративного искусственного интеллекта, больших данных и масштабного машинного обучения. Это становится мощным инструментом для исследователей, разработчиков и предприятий, позволяя создавать и развёртывать AI/ML решения с беспрецедентной масштабируемостью и надёжностью. Учитывая быстрый рост запросов на вычислительные мощности со стороны индустрии и науки, такие инициативы обеспечивают AWS ведущие позиции на рынке облачных платформ, способных удовлетворять требования будущих вычислительных трендов. Компания продолжит совершенствовать свои технологии и интеграции, расширяя возможности EKS и сопутствующих сервисов, таких как Amazon SageMaker HyperPod, поддерживая клиентов в построении ультра масштабных систем уже сегодня и в будущем.

Создание продвинутой, масштабируемой и стабильной платформы – важный шаг в развитии архитектуры облаков и AI, который обеспечивает основу для новых инноваций и бизнес-приложений, где скорость и надёжность являются ключевыми факторами успеха.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Amazon S3 Vectors
Четверг, 23 Октябрь 2025 Amazon S3 Vectors: Революция в хранении и поиске векторов для искусственного интеллекта

Подробный обзор Amazon S3 Vectors — инновационного облачного решения для эффективного хранения и быстрого поиска больших объемов векторных данных, предназначенный для масштабируемых приложений на базе искусственного интеллекта.

The C3 Programming Language
Четверг, 23 Октябрь 2025 C3: Эргономичный и безопасный эволюционный язык программирования для разработчиков C

Обзор языка программирования C3 — современного, совместимого с С, обеспечивающего безопасность и простоту разработки решения. Познакомьтесь с ключевыми особенностями, преимуществами и возможностями C3, который покоряет сердца разработчиков благодаря своей гибкости и производительности.

ETFs now shape US Bitcoin trading more than spot exchanges
Четверг, 23 Октябрь 2025 Как ETF трансформируют рынок биткойна в США и меняют динамику торговли

С момента появления биткойна рынок криптовалют переживает масштабные изменения. Особенно заметным трендом последних месяцев стало влияние фондовых биржевых фондов (ETF) на торговлю биткойном в США, которое сегодня превосходит активность традиционных спотовых бирж.

You Can Buy a Martian Meteorite With Bitcoin—If You Have Upwards of $4 Million
Четверг, 23 Октябрь 2025 Как купить марсианский метеорит за биткоины: эксклюзивное предложение Sotheby’s

Редкая возможность приобрести самый крупный марсианский метеорит на Земле с использованием криптовалюты открывает новые горизонты для коллекционеров и инвесторов. Узнайте, как Sotheby’s выводит аукционы на новый уровень, принимая биткоины и другие цифровые валюты для продажи уникальных космических артефактов.

UK fintech Curve in talks to be acquired by Lloyds
Четверг, 23 Октябрь 2025 Перспективы сделки по приобретению британского финтеха Curve банковской группой Lloyds

Обсуждение потенциального приобретения Curve – инновационного цифрового кошелька – крупным игроком в банковской сфере Великобритании, влияние сделки на отрасль и пользователей, а также причины и возможные последствия данного шага для рынка финтеха.

Conversion of millimolar dissolved CO2 to fuels with molecular flux generation
Четверг, 23 Октябрь 2025 Эффективное преобразование миллимолярного раствора CO2 в топлива с использованием молекулярной флюкс-генерации

Описание инновационных технологий фотоэлектрохимического преобразования растворённого в воде углекислого газа в углеводородные топлива с повышенной эффективностью и экологической безопасностью.

GenAI-Powered Inference
Четверг, 23 Октябрь 2025 GenAI-Powered Inference: Революция в анализе данных с применением генеративного ИИ

Генеративный искусственный интеллект открывает новые горизонты для анализа данных и инференса. Рассмотрим, как GenAI-Powered Inference меняет подходы к предсказаниям и причинно-следственному анализу на основе неструктурированных данных, таких как текст и изображения.