В июле 2025 года пользователи облачных сервисов Scaleway на дата-центре AMS (Амстердам) столкнулись с серьезными перебоями в работе, вызванными перегревом оборудования из-за сбоев в системе охлаждения. В результате аномально высокой температуры в одном из помещений дата-центра пострадали ряд ключевых сервисов, что негативно сказалось на стабильности и доступности цифровых продуктов компании. Этот инцидент стал серьезным вызовом как для самого поставщика инфраструктуры, так и для клиентов, полагающихся на надежный доступ к облачным решениям. Причина инцидента заключалась в неисправности системы охлаждения, эксплуатируемой поставщиком инфраструктуры дата-центра, где размещаются серверы Scaleway. Температура в определенной комнате превысила максимально допустимые нормы, что создало угрозу повреждения серверного оборудования и потенциальной потере данных.
Во избежание разрушительных последствий была предпринята предосторожность в виде автоматического отключения ряда серверов. Это действие, хоть и спасло инфраструктуру от физического ущерба, привело к временной потере доступа к важным облачным сервисам. В первую очередь пострадала услуга Block Storage, которая служит основой для хранения данных и обеспечения работы виртуальных машин. Сбои в работе этой платформы сразу же повлекли за собой негативное влияние на связанные сервисы, среди которых Instance hypervisors — программные решения для управления виртуальными машинами, а также Kubernetes Kapsule и управляемые базы данных, что существенно отразилось на возможностях пользователей по развертыванию и масштабированию приложений. Хронология событий подчеркивает масштаб и серьезность инцидента.
1 июля 2025 года примерно в 13:33 UTC внутренние системы мониторинга обнаружили повышение температуры. К 14:00 UTC поставщик подтвердил поломку системы охлаждения, и через полчаса начались уже ощутимые сбои в работе сервисов. К 15:00 UTC были запущены процедуры по остановке некоторых серверов как меры безопасности. Температура начала приходить в норму около 16:43 UTC, после чего начался процесс постепенного запуска серверов и восстановления работоспособности сервисов. К вечеру большинство систем функционировало в штатном режиме, а к ближайшим утренним часам 2 июля все основные сервисы, включая Kubernetes, базы данных и публичные шлюзы, были полностью восстановлены.
Несмотря на оперативные действия, инцидент выявил критическую зависимость сервисов от стабильности инфраструктуры и оправдал необходимость дополнительного усиления системы охлаждения и повышения общей устойчивости дата-центра к экстремальным погодным условиям. Работа с поставщиками дата-центров и производителями систем охлаждения активизирована с целью улучшения и модернизации. Для клиентов Scaleway инцидент послужил напоминанием о важности резервирования ресурсов, использования мульти-зональных и мульти-региональных решений для повышения отказоустойчивости. Кроме того, инцидент стал уроком для облачного общества в целом о том, насколько важны проактивный мониторинг и быстрые реакции на аномалии в инфраструктуре. Восстановление после таких событий требует синергии между внутренними командами, поставщиками инфраструктуры и пользователями, а также прозрачности в коммуникациях.
Scaleway на протяжении всего инцидента регулярно информировал о ситуации, публикуя обновления и прогнозы, что позволило минимизировать непонимание и снизить негативное восприятие со стороны клиентов. В долгосрочной перспективе подобные случаи стимулируют переход к более защищенным и инновационным решениям в области охлаждения и управления содерджимым дата-центров. Появляется тенденция к внедрению интеллектуальных систем контроля температуры и распределения нагрузки, а также разработке новых подходов к проектированию инфраструктуры, способных выдерживать экстремальные условия. Итоги инцидента для Scaleway заключаются не только в технических корректировках, но и в укреплении доверия пользователей через демонстрацию способности быстро реагировать и эффективно решать критические ситуации. Акцент на обновлениях и детальных разъяснениях события служит ключевым фактором для поддержания стабильной репутации на рынке облачных услуг.
В целом случай с аномальной температурой в дата-центре AMS является показательной историей вызовов, с которыми сталкиваются современные крупные облачные провайдеры. Он подчеркивает важность комплексного подхода к безопасности, который учитывает не только программную защиту, но и физическую инфраструктуру, коммуникации и планирование на случай непредвиденных обстоятельств. Задача индустрии – учиться на подобных ситуациях и непрерывно совершенствовать технологии и процессы, обеспечивая высокую доступность и надежность сервисов для клиентовทั่ว мира.