В июле 2025 года пользователи по всему миру столкнулись с серьезными проблемами в работе нескольких сервисов Google Cloud и Google Workspace. Сбой, который произошёл в дата-центрах региона us-east1 в Южной Каролине, вызвал резкое повышение уровня ошибок и задержек в работе множества облачных продуктов. Этот инцидент не только временно ограничил доступ к важным сервисам, но и вызвал вопросы о надежности и устойчивости одной из крупнейших облачных платформ в мире. В данном материале мы подробно рассмотрим природу сбоя, его причины, последствия для пользователей и предприятия, а также меры, принятые компанией Google для предотвращения подобных ситуаций в будущем. Данный инцидент стал заметным испытанием для инфраструктуры Google Cloud и вызвал широкий резонанс среди клиентов и специалистом отрасли.
Проблемы в регионе us-east1 начали фиксироваться с утра 18 июля 2025 года по тихоокеанскому времени. В течение почти двух часов пользователи наблюдали значительные задержки, рост числа ошибок при обращении к сервисам и даже полную недоступность некоторых функций. Наиболее ощутимый урон испытали так называемые зональные ресурсы в регионе, где сервисы столкнулись с проблемами передачи пакетов данных, зафиксированы случаи потери доступности Persistent Disks и другие сбои, влияющие на производительность и стабильность работы. Несмотря на масштаб ущерба, Google оперативно предпринял шаги по снижению нагрузки и переключению трафика с проблемных зон на резервные. Корень проблемы заключался в процедурной ошибке при проведении планового оборудования по замене аппаратных компонентов в дата-центре us-east1-b.
В ходе работ неверно был отключён активный сетевой коммутатор, обслуживающий контрольную плоскость сети, вместо того чтобы отключить резервный элемент, как предполагалось изначально. Такой сбой повлек за собой разделение сети управления, что в идеале должно было быть компенсировано системой путём перехода в состояние fail-open, то есть при отказе управляющей сети продолжать работу без отключения сервисов. Однако в результате последовавших изменений в топологии сети, данные о состоянии сетевого фрейма устарели, что вызвало пакетные потери, заторы и замедленную маршрутизацию трафика, приведшую к отказам и задержкам в работе множества сервисов. Технические специалисты Google быстро обнаружили проблему благодаря автоматическим системам мониторинга и незамедлительно приступили к её устранению. Уже к 7:39 утра по тихоокеанскому времени было выявлено неправильное отключение оборудования, после чего на площадку направили инженеров для восстановления подключения и нормализации работы сетевого контроля.
Несмотря на то что некоторые компоненты сети продолжали функционировать в аварийном режиме, дополнительные изменения в топологии ухудшали ситуацию вплоть до 7:50, когда произошли интенсивные потери трафика и повышение задержек. Для минимизации негативного эффекта инженеры Google приняли решение по перемещению пользователей и процессов на не затронутые проблемой узлы и зоны дата-центра. Параллельно сервисы Google Workspace, включая Gmail, Google Meet, Google Drive, Google Chat, Google Calendar, Google Groups, Google Docs и Google Voice, пострадали от замедления работы и периодических недоступностей в основном среди пользователей, расположенных в юго-восточной части США. Для этих сервисов воздействие длилось около 50 минут, после чего ситуация была стабилизирована за счет перераспределения нагрузок и внутренней оптимизации трафика. Все ключевые сервисы Google Cloud Platform, такие как AlloyDB для PostgreSQL, Apigee, Artifact Registry, Cloud Armor, Cloud Billing, Cloud Build, Cloud Firestore, Cloud Load Balancing, Cloud Memorystore, Cloud Spanner, Google BigQuery, Google Cloud Dataflow, Google Cloud Dataproc, Google Cloud Storage, Google Compute Engine, Google Kubernetes Engine и многие другие, испытали повышенные задержки и ошибки при подключениях, а также временную потерю стабильности.
Наиболее болезненно этот период затронул отдельные экземпляры Persistent Disk в зоне us-east1-b, составляющие незначительный процент в 0,1%, которые были недоступны до полного восстановления сетевого контроля. Несмотря на серьезность инцидента, кроме временных неудобств и замедления работы облачных решений, утраты данных зафиксировано не было. Google подтвердил, что все данные остаются в безопасности, и операция восстановления не привела к потерям или нарушению целостности информации клиентов. Такой подход продемонстрировал уровень внимания корпорации к безопасности и защите пользовательских данных даже в критических ситуациях. Для предотвращения повторения подобных инцидентов Google планирует завершить ряд важных улучшений в своем инфраструктурном процессе и системе контроля выполнения действий.
Среди ключевых мер значится внедрение новых механизмов безопасности процесса обновления и аппаратного обслуживания, усиление контроля за действиями операторов и автоматизация предотвращения изоляции стратегически важных сетевых компонентов. В частности, предполагается разработка и внедрение механизма, который предотвратит разделение контрольной плоскости сети в случае одновременного отказа нескольких upstream-маршрутизаторов, срок реализации которого запланирован до конца четвертого квартала 2025 года. Также компания временно приостановила не критические автоматизированные рабочие процессы, связанные с аппаратным обслуживанием, до момента полного устранения выявленных недостатков и внедрения дополнительных мер контроля. В конце третьего квартала 2025 года ожидается окончательное обновление процедур безопасности и рутинных операций, что значительно повысит надежность сервисов при масштабных обновлениях и технических вмешательствах. Данный инцидент стал важным уроком и своеобразным стресс-тестом для инфраструктуры Google Cloud.
Он показал, насколько сложными могут быть процессы управления крупными дата-центрами и какие технические и организационные вызовы предстоит решать для обеспечения непрерывной работы сервисов мирового уровня. Но одновременно с этим ситуация позволила выявить уязвимости и наметить четкий план действий для повышения стабильности и доступности платформы в дальнейшем. Для организаций и пользователей, использующих Google Cloud и сопутствующие облачные сервисы, подобные сбои подчёркивают важность продуманных стратегий резервного копирования и планов аварийного восстановления. Степень зависимости бизнеса от облачных решений требует готовности к временным неопределенностям и способности быстро адаптироваться к изменениям в работе сервисов. В целом, компания Google продемонстрировала высокую профессиональную реакцию на возникший сбой: своевременное обнаружение, быстрые операции по устранению неполадок, прозрачность информирования клиентов и планомерные меры по предупреждению будущих сбоев.
Пользователи и организации, работающие с Google Cloud, получили гарантии сохранности данных и непрерывности обслуживания, несмотря на кратковременные технические трудности. Дальнейшее развитие облачной платформы будет происходить с учётом полученного опыта, что позволит повысить устойчивость к человеческим ошибкам и физическим отказам оборудования. Укрепление системы безопасности и совершенствование оперативных процедур дадут возможность Google Cloud поддерживать свою ведущую позицию на рынке и обеспечивать клиентам высококачественные и надёжные решения. Инциденты подобного рода, хотя и редки для крупных мировых операторов облачных платформ, поднимают важнейшие темы современной цифровой инфраструктуры: баланс между сложностью, автоматизацией и человеческим фактором, а также значимость системных проверок и инноваций для обеспечения стабильной работы, без которой сегодня невозможно представить успешный бизнес и эффективное взаимодействие миллионов пользователей по всему миру.