Одним из ключевых событий в мире облачных сервисов за последние месяцы стала серьезная авария, произошедшая в дата-центре Linode/Akamai, расположенном в регионе US-EAST, в городе Ньюарк. Этот инцидент затронул широкий спектр важных сервисов, включая Linode Compute Instances, Object Storage, NodeBalancers и Linode Kubernetes Engine (LKE), а также оказал влияние на работу некоторых других регионов по всему миру. Поскольку Linode и Akamai являются одними из ведущих поставщиков облачной инфраструктуры и контентных сетей, данный сбой вызвал значительное беспокойство среди клиентов и специалистов IT-индустрии. В данном обзоре подробно рассмотрены причины, ход событий, последствия и предпринятые меры, а также перспективы предотвращения подобных ситуаций в будущем. Инцидент произошел 27 июля 2025 года примерно в 08:30 UTC.
Его корнем стала критическая перегрев инфраструктуры дата-центра в Ньюарке. Причиной перегрева стала внезапная потеря подачи коммунального питания, что привело к отключению системы вентиляции и кондиционирования воздуха (HVAC). Несмотря на то что дата-центр продолжал работать в ограниченном режиме, отказ системы охлаждения вызвал существенное повышение температуры внутри помещений, что негативно сказалось на аппаратном обеспечении Akamai. В результате несколько ключевых сервисов перестали функционировать, в том числе и инфраструктура, отвечающая за Linode. Последствия сбоя в дата-центре US-EAST оказались многогранными.
Во-первых, пострадали непосредственно все сервисы, расположенные в этом регионе. Это означало, что компании и разработчики, использующие Linode Compute Instances — популярные виртуальные серверы, а также сервисы хранения данных в объектном хранилище, NodeBalancers для сбалансирования нагрузки и управляющие кластеры Kubernetes, столкнулись с недоступностью своих систем. Во-вторых, из-за тесной интеграции и технологических зависимостей обслуживания, вызванных архитектурными особенностями, затронуты были и другие дата-центры Linode по всему миру. Так, наблюдался спад производительности LKE в регионах Даллас, Фримонт, Сидней, Токио 2, Торонто и Вашингтон. Данная ситуация продемонстрировала уязвимость распределенной инфраструктуры, где сбой в одном узле способен оказывать цепочную реакцию на работу других регионов.
Клиниенты по всему миру столкнулись с невозможностью создавать новые кластеры, а также с замедленным восстановлением контроля над уже запущенными приложениями и сервисами. Автоматическое масштабирование узлов кластеров в большинстве регионов не пострадало, за исключением Ньюарка, где полный запрет на добавление ресурсов усугублял проблему. Реагирование на инцидент было организовано быстро и поэтапно. Команды инженеров Linode и Akamai начали одновременно со стабилизацией температурных показателей замену поврежденного сетевого оборудования и перенаправление трафика в резервные локации дата-центров. Восстановительные работы продолжались несколько дней.
Поэтапно запускались сервисы и услуги, начиная с приоритетных сегментов, чтобы быстро минимизировать влияние на клиентов. В сложных случаях задействовались резервные системы для миграции рабочих нагрузок, что позволило сохранить целостность пользовательских данных и непрерывность бизнес-процессов. К вечеру 28 июля отмечалось постепенное возобновление функций, но полное восстановление всех сервисов зарегистрировано только к 29 июля, 16:22 UTC. После этого Linode подтвердил стабильность и нормальное функционирование инфраструктуры в регионе US-EAST. Было отмечено, что дополнительные сбои не наблюдаются, а пострадавшие регионы Америки, Азии и Австралии полностью вернулись к привычному уровню работы.
После устранения последствий компания Linode инициировала глубокий анализ происшествия. Пост-инцидентный аудит включает проверку взаимозависимостей между различными дата-центрами и пересмотр архитектурных решений, чтобы исключить возможность повторного эффекта домино при сбоях в локальных узлах. Особое внимание уделяется изоляции сервисов по регионам и увеличению отказоустойчивости, что является ключевой задачей для современных облачных операторов. Важной составляющей становится и усовершенствование систем мониторинга, целью которых является раннее выявление отклонений в работе оборудования, особенно связанных с охлаждением, энергетическим обеспечением и другими критичными инфраструктурными компонентами. Быстрая реакция на предахлаждение и питание способна значительно снизить риск возникновения подобных масштабных сбоев.
Данный инцидент служит важным уроком для ИТ-специалистов и всех пользователей облачных технологий. Несмотря на то что крупные провайдеры обладают мощными ресурсами и комплексными защитными механизмами, недооценка даже одного элемента инфраструктуры может привести к серьезным перебоям. Клиенты подчёркивают необходимость регулярного создания резервных копий, диверсификации локаций серверов и тестирования планов аварийного восстановления. Также случай Ньюарка подчеркивает ценность прозрачности и коммуникации с клиентами. Linode поддерживал постоянный поток обновлений, информируя о статусе работы и этапах восстановления, что позволило минимизировать негативные последствия для конечных пользователей и поддержать доверие.
Подобная открытость считается одним из залогов успешного управления кризисами в ИТ-сфере. В профессиональном сообществе данный случай обсуждается как пример того, насколько критичны физические аспекты дата-центров: за всем цифровым великолепием стоят устройства, требующие качественного питания, охлаждения и обслуживания. Последние инновации в области «зелёных» технологий, резервного энергообеспечения и интеллектуальных систем мониторинга будут сыграны ключевую роль в предотвращении подобных происшествий в будущем. Подводя итог, инцидент с Linode и Akamai в регионе US-EAST стал серьезным испытанием для всего облачного сектора. Тем не менее предпринятые шаги по восстановлению и последующая работа над системными улучшениями демонстрируют зрелость компаний и их стремление обеспечивать стабильность и надежность высокотехнологичных услуг.
Пользователям рекомендуется обращать внимание на политики резервного копирования и распределения инфраструктуры, что помогает уменьшить влияние внештатных ситуаций. Облачные вычисления продолжают оставаться одним из главных драйверов цифровой трансформации, поэтому обеспечение их бесперебойной работы — задача первоочередная для поставщиков и эксплуатации сервисов. Внимание к техническим деталям, постоянное совершенствование и открытый диалог с клиентами – главные принципы, которые помогут избежать и минимизировать последствия подобных сбоев в будущем.