12 сентября 2025 года произошло значительное нарушение работы платформы Cloudflare, повлиявшее на работоспособность панели управления и ряда API. Этот сбой стал одной из заметных технических неполадок года, затронув множество пользователей и вызвав активное обсуждение в IT-сообществе. Располагая подробными данными и хронологией событий, можно тщательно проанализировать причины отказа, понять какие ошибки были допущены, и на основании полученного опыта сформировать рекомендации для обеспечения устойчивости систем в будущем. Основной причиной инцидента явился сбой в Tenant Service API - ключевом компоненте в логике авторизации API-запросов Cloudflare. Техническая проблема была вызвана ошибкой в коде панели управления, в результате чего API получал избыточное количество запросов.
Ключевая ошибка заключалась в реализации React useEffect hook, где в массив зависимостей по ошибке был включён объект, создающийся заново при каждом изменении состояния или свойств. Это заставляло hook запускаться многократно в процессе одной отрисовки панели. Соответственно, из-за этого API вызывался много раз подряд, а после обновления Tenant Service API нагрузка стала критической. Сервис, не выдержав переполнения, вышел из строя и не мог быстро восстановиться. Панель управления Cloudflare служит основным инструментом взаимодействия пользователей с системой, предоставляя удобный интерфейс для конфигурации и мониторинга сервисов.
Когда Tenant Service API перегрузился, он перестал корректно обрабатывать запросы авторизации, что автоматически привело к возврату ошибок 5xx для большинства вызовов API. Это по цепочке отразилось на доступности панели и функциях сервисов, которые зависят от API. Хронология развития событий показывает последовательность попыток исправления и смягчения проблемы. В 16:32 по UTC была выпущена новая версия панели, содержащая баг, вызывающий увеличение количества обращений к /organizations endpoint, включая многократные повторы запросов в случае неуспеха. В 17:50 было развернуто новое обновление для Tenant API Service, и приблизительно в 17:57 система начала испытывать перегрузку, что привело к снижению доступности панели и API.
Первые попытки решения включали добавление дополнительных вычислительных ресурсов для Tenant Service, что повысило доступность API до 98% в 18:17, однако это не восстановило стабильность панели управления. Затем попытка изменить код Tenant Service и убрать проблемные пути вызвала обратный эффект, усилив нарушение. Было введено временное ограничение скорости запросов к Tenant API Service и откат изменений к прежней стабильной версии, что позволило вернуть нормальную работу панели к 19:12. В ходе инцидента команда Cloudflare оперативно применяла механизмы мониторинга и алертинга, которые быстро сигнализировали об аномалиях и помогали собрать необходимый состав специалистов для устранения неполадок. Интересно, что инцидент произошёл в контрольной плоскости (control plane) инфраструктуры, ответственной за управление и настройку, а не на уровне обработки пользовательских данных и трафика (data plane).
Благодаря такому разделению, большинство конечных пользователей не испытали перебоев в основных сервисах, если не использовали панель управления или API для изменений. Анализ ошибок выявил важные технические аспекты. Во-первых, отсутствие автоматического отката обновлений Tenant Service с помощью инструмента Argo Rollouts, который умеет отслеживать ошибки в релизах и при необходимости возвращать предыдущие стабильные версии. Хотя миграция на Argo Rollouts была запланирована, её ещё не применили к Tenant Service, что позволило ухудшить состояние системы после попытки исправления. Во-вторых, феномен "Thundering Herd" - ситуация, когда при восстановлении ресурса множество клиентов одновременно начинают попытки соединения, создавая резкое увеличение нагрузки.
В данном случае этот эффект усилился из-за багов в логике повторных вызовов панели управления. Разработчики уже внедрили патч с рандомизированными задержками для распределения повторов и снизили конкуренцию за ресурсы. Также обнаружилось, что Tenant Service изначально не имел достаточной резервной мощности для обработки пиковых нагрузок, что стало критичным при резком росте запросов. В дальнейшем было принято решение значительно увеличить выделяемые ресурсы и улучшить систему мониторинга, чтобы предупреждать персонал о потенциальных перегрузках заранее. Для повышения прозрачности внутри системы запросов внедряются улучшения в протоколы вызова API, позволяющие отличать новые запросы от повторных.
Это позволит быстрее идентифицировать циклические обращения и оперативно реагировать на возможные неполадки. В результате данного инцидента Cloudflare предпринимает значительные шаги для усиления устойчивости своих сервисов. Текущие планы включают ускорение миграции Tenant Service на Argo Rollouts, оптимизацию алгоритмов повторной авторизации, расширение резервных мощностей и развитие инструментов наблюдения. Также делается акцент на автоматизацию процессов восстановления и повышение качества тестирования новых релизов. Этот сбой служит напоминанием о высокой степени взаимозависимости современных облачных систем и важности продуманной архитектуры.
Ошибка в одном компоненте, даже в интерфейсном коде, может спровоцировать эффект домино и вызвать крупномасштабные сбои. В то же время опыт и меры по улучшению, принятые в ответ на инцидент, дают надежду на повышение надежности и безопасности инфраструктуры Cloudflare, а значит и стабильности сервисов их клиентов. Пользователи и специалисты из индустрии внимательно следят за развитием событий и внедрением рекомендованных улучшений. Анализируя и учась на ошибках, Cloudflare укрепляет свои позиции как ведущего поставщика облачной защиты и ускорения сетевого трафика. Таким образом, случай с 12 сентября 2025 года стал ключевым уроком в современной практике управления высоконагруженными распределёнными системами.
Он подчеркнул необходимость комплексного подхода к разработке и эксплуатации, где автоматизация, наблюдаемость и архитектурная устойчивость играют решающую роль. Следующие шаги компании в области улучшения процессов и технологий служат свидетельством приверженности созданию лучших условий для работы миллионов пользователей по всему миру. .