14 июля 2025 года мир столкнулся с одной из самых значимых технологических аварий в сфере интернета за последнее время — масштабной недоступностью публичного DNS-ресолвера 1.1.1.1, которым управляет компания Cloudflare. Повсеместное отключение этого сервиса длилось 62 минуты, затронув миллионы пользователей по всему миру.
Проблема вызвала серьезные сбои в работе интернета для конечных пользователей, поскольку невозможность разрешения доменных имен практически парализовала доступ к большинству интернет-ресурсов. Это происшествие стало предметом детального разбора и тяжелого урока для индустрии, в центре внимания которого оказались вопросы инфраструктурных изменений, устаревших систем и сложностей маршрутизации трафика в глобальных сетях. Cloudflare 1.1.1.
1 — это один из самых популярных публичных DNS-ресолверов в мире, запущенный еще в 2018 году, обещающий пользователям быструю и безопасную работу с интернетом. Наличие собственных IP-адресов и технологии anycast позволяют обеспечивать высокую доступность и минимальные задержки, направляя пользовательские запросы на ближайший доступный сервер. Тем не менее, гибкость и масштабируемость таких систем тесно связаны с сложностью управления маршрутизацией и конфигурациями на уровне инфраструктуры. Причиной инцидента стала ошибка в конфигурации, заложенная в системе управления сервисными топологиями Cloudflare, отвечающей за то, какие IP-префиксы и в каких дата-центрах объявляются для доступа пользователей. 6 июня 2025 года был внесен конфигурационный изменение для предстоящего сервиса в рамках Data Localization Suite (DLS), предназначенного для обеспечения локализации трафика соответствию законодательным требованиям разных регионов.
В результате ошибка в настройках привела к тому, что префиксы, отвечающие за публичный DNS-ресолвер 1.1.1.1, были по ошибке подключены к тестовому конфигу нового сервиса, который в тот момент не работал и не влиял на производство. Однако 14 июля изменения в конфигурации сервисной топологии сопровождались глобальным обновлением маршрутизации, что вызвало эффект «отзыва» IP-префиксов 1.
1.1.1 из сети. Фактически, маршруты с адресами, на которые пользователи отправляют DNS-запросы, перестали объявляться, в результате чего весь трафик этого ресурса по всему миру перестал доходить до серверов Cloudflare. Этот случай продемонстрировал один из классических рисков в управлении крупномасштабной сетевой инфраструктурой — накопленные скрытые ошибки конфигурации, которые посреди изменения, казалось бы, не связанного с основным сервисом, внезапно вызывают глобальный сбой.
Так как первоначальное изменение от июня не привело к изменениям в сети, никакие системы мониторинга не зафиксировали аномалий, что позволило ошибке «проспать» почти полтора месяца. Немедленно после начала проблемы внутренние системы мониторинга Cloudflare зафиксировали резкое падение количества DNS-запросов по IP-адресам 1.1.1.1 и его сопутствующим префиксам.
В 22:01 по всемирному координированному времени был объявлен инцидент. Инженеры компании оперативно приступили к расследованию, выявив причину сбоя как именно ошибку в конфигурации сервисных топологий. По состоянию на 22:20 было принято решение об откате конфигурации к предыдущей, корректной версии. Несмотря на быстрые действия, восстановление нормального функционирования неизбежно заняло некоторое время. В результате топология сети требовала перераспределения IP-адресов и переподключения порядка 23% центра обработки данных Cloudflare, которые к тому моменту были отконфигурированы без соответствующих IP-привязок.
Процедура ребиндера и обновления маршрутов и конфигураций была проведена ускоренно, но все равно потребовала около получаса. Полное восстановление трафика и нормализация работы DNS-сервиса произошли примерно в 22:54 UTC. В то же время параллельно с основным инцидентом произошло частичное BGP-хищение префикса 1.1.1.
0/24, которое объявила индийская компания Tata Communications. Видимое «захватывание» маршрутов было связано с тем, что Cloudflare временно отозвала объявление этого диапазона, а Tata Communications начала его анонсировать. Несмотря на то, что это событие выглядело как хищение маршрутов, оно не имело отношения к первопричине сбоя и фактически явилось эпизодическим явлением, усугубившим отдельные аспекты инцидента. Этот инцидент стал важным предупреждением и уроком для всех операторов глобальных сетей. Основные выводы, сделанные после детального технического анализа, касаются необходимости отказа от устаревших «жестко закодированных» подходов к назначению и объявлению IP-префиксов, а также важности внедрения прогрессивных методологий развертывания, тестирования и мониторинга конфигурационных изменений.
Cloudflare подчеркнула, что подобные «глобальные взрывы» происходят именно тогда, когда ключевые элементы инфраструктуры сильно связаны с единым источником истин. Ответственные специалисты Cloudflare уже взяли на вооружение шаги по модернизации систем управления топологиями. Отмечено, что сейчас компания находится в процессе миграции от традиционных систем с жёстко привязанными списками локаций и IP-адресов к более прогрессивным и динамическим решениям, которые позволяют легче масштабировать инфраструктуру, а также постепенно и безопасно выкатывать изменения с минимальными рисками сбоев. Особое внимание уделяется автоматизации процессов мониторинга и своевременному обнаружению аномалий на самых ранних стадиях. Дополнительно Cloudflare намерена ускорить процесс вывода из эксплуатации устаревших компонентов для снижения потенциальных источников ошибок.
Помимо чисто технических мер, станет важным и улучшение документации и формализация процедур внутренних проверок. Для пользователей и бизнеса, которые зависят от стабильности и скорости DNS-сервисов, инцидент позволил лучше понять критичность надежной маршрутизации и управления публикованными IP-адресами. Публичный DNS, в частности 1.1.1.
1, сыграл в последние годы важнейшую роль в обеспечении быстрого и безопасного доступа в интернет, а его внезапная недоступность затронула множество аспектов цифровой жизни. В ретроспективе можно отметить, что компания Cloudflare впервые публично раскрыла подробности внутреннего инцидента, что свидетельствует о ее стремлении к прозрачности и ответственности. Прозрачное общение и разбор ошибок являются важной частью современной корпоративной культуры IT-компаний, работающих с жизненно важной инфраструктурой интернета. Подводя итог, инцидент 14 июля 2025 года с 1.1.
1.1 DNS-резидентом Cloudflare стал ярким примером, как мелкая ошибка в конфигурации может привести к масштабным сбоям и сколько усилий требуется, чтобы наладить работу глобальной распределенной сетевой системы. Кроме того, этот случай подчеркнул важность постоянного обновления и модернизации инфраструктурных решений, внедрения продвинутых практик непрерывного развертывания и мониторинга, а также необходимости глобального взаимодействия между операторами интернета для избежания наложенных негативных эффектов, таких как BGP-хищение. Обещания компании Cloudflare по внедрению улучшений и отказу от устаревших систем создания топологий не менее важны, чем технические детали самого инцидента. От стабильной работы таких сервисов как 1.
1.1.1 во многом зависит удобство и безопасность пользователей всемирной паутины, а уроки от этого сбоя помогут укрепить глобальную сеть в долгосрочной перспективе.