Компания Neon продолжает наращивать популярность среди разработчиков и компаний всех размеров благодаря инновационной архитектуре и сервису серверного Postgres, способному масштабироваться и обеспечивать высокую производительность. Однако период май-июнь 2025 года стал настоящим испытанием для платформы из-за бурного и неожиданного роста нагрузки, связанного с интеграцией агентных AI-партнеров. В этой публикации мы подробно разберём причины инцидентов, их влияние на пользователей и меры, предпринятые для повышения стабильности и надежности Neon в будущем. Neon позиционирует себя как современный облачный сервер/Postgres, который предлагает возможности масштабирования без потерь в производительности благодаря таким особенностям, как автоматическое изменение размера инстансов, пул соединений, возможность мгновенного восстановления данных и уникальная технология ветвления баз данных. Все эти функции делают Neon крайне привлекательным для серверлес-приложений, мульти-терабайтных нагрузок и сценариев с изоляцией данных для разных клиентов.
В начале мая 2025 года платформа стала испытывать серьёзные трудности, вызванные неожиданным ростом активности пользователей, особенно из-за агентных AI-систем, которые начали создавать базы данных и ветвления с гораздо большей скоростью, чем прогнозировалось. В результате количество новых созданных баз данных выросло в 5 раз, а ставка создания веток – более чем в 50 раз. Это привело к значительной нагрузке на архитектуру Neon, особенно в регионах США, и вызвало серию инцидентов, количество которых превысило суммарные показатели за весь предыдущий год. Корнем проблем мая стали ограничения в масштабировании, связанные с архитектурой Kubernetes, которая используется для запуска каждого активного экземпляра базы данных в виде отдельного пода. Текущие конфигурации и аппаратные лимиты, включая объем доступной памяти для etcd и сетевые ограничения, стали узкими местами.
В кластере us-east-1 одновременно можно было поддерживать около 12 тысяч активных баз данных, что приближало систему к критической точке из-за резкого всплеска базы пользователей. Компания ещё в январе 2025 года предполагала, что предел подобного масштабирования будет достигнут лишь к концу года, поэтому в планах было внедрение принципиально новой архитектуры под условным названием "Cells". Она предполагает горизонтальное масштабирование — разделение региона на несколько самостоятельных деплойментов Neon, что не только повышает надёжность, но и улучшает устойчивость к сбоям. Однако рост активности AI-партнеров значительно опередил прогнозы, что вынудило Neon оперативно вносить изменения в сетевые настройки кластера, оптимизировать использование Kubernetes API, снижать нагрузку на управляющие базы данных и предпринимать иные меры для стабилизации работы, пусть и с определённым риском возникновения инцидентов. На момент публикации "Cells" уже внедрены в основных загруженных регионах, позволяя распределять нагрузку и создавать дополнительные блоки (Cells) при необходимости.
Переадресация новых проектов в новые Cells помогает контролировать рост нагрузки и снижать давление на основные узлы кластеров. Проблемы июня были связаны с резким увеличением интенсивности ветвления баз данных. Несмотря на то, что сама операция создания ветки в Neon затрачивает минимум ресурсов благодаря отсутствию копирования данных, резко возросший объём метаданных, хранящихся в управляющей Postgres-базе, вызвал ряд непредвиденных последствий. Во-первых, возросла вычислительная нагрузка на процесс обработки биллинга и подсчёта потребления ресурсов. Во-вторых, наблюдались изменения в планах выполнения запросов, и, наконец, увеличилась необходимость агрессивного вакуумирования таблиц — процесса внутри Postgres, позволяющего освобождать место и поддерживать эффективность запросов.
В результате несколько запросов, которые ранее выполнялись за доли секунды, превратились в задачи, требующие более минуты. Такие скачки не фиксировались заранее системами оповещений, поскольку произошло быстрое изменение планов выполнения, что является известной проблемой при высокой нагрузке в PostgreSQL. Важно отметить, что эти инциденты заставили Neon пересмотреть существующие подходы к нагрузочному тестированию, которые исходили из исторических данных и не учитывали таких экстремальных сценариев, как высокая концентрация веток на один проект. В ответ на выявленные проблемы была усилена политика ограничения создания веток, обновлены тестовые сценарии с учётом новых реальных условий и проведён редизайн некоторых критичных запросов для повышения их устойчивости к изменениям планов выполнения. Кроме того, компания начала переходить к аналитическому хранилищу для управления биллингом и мониторингом, что позволит снизить нагрузку на операционную базу управляющего плана.
В условиях растущего спроса и усложняющейся инфраструктуры Neon осознаёт необходимость лучшей изоляции компонентов системы. Текущая архитектура, в которой управляющий план несёт на себе ответственность за все процессы — от выделения ресурсов до обработки метаданных и биллинга, — создаёт узкие места и снижает гибкость системы. В планах на третий и четвёртый квартал 2025 года — перераспределение функций управления базами данных в отдельный сервис, сконцентрированный на операциях быстрого запуска и приостановки экземпляров. Этот сервис будет с меньшей нагрузкой и лучшей предсказуемостью работы, что повысит общую устойчивость и отзывчивость платформы. Что касается воздействия инцидентов на пользователей, основные затруднения испытывали клиенты, чьи базы данных автоматически переходили в состояние ожидания (масштабирование до нуля) и которые сталкивались с задержками при первом подключении, а также те, кто активно создавал базы данных программно с высокой частотой, например, агентные AI-системы.
Подсчёты влияния показывают, что в мае около 3,5% активных баз данных имели доступность ниже 99,95%, в то время как в июне этот показатель снизился до 0,7%. Несмотря на это, компания отмечает готовность и намерение продолжать работу над повышением стабильности и приглашает пользователей делиться обратной связью для улучшения сервиса. Сейчас Neon обслуживает более 40 тысяч проектов ежедневно, и, принимая во внимание это стремительное увеличение масштаба, компания понимает, что впереди ещё много задач по адаптации системы к новым нагрузкам и паттернам работы пользователей. Постоянные постмортемы, своевременное применение уроков, а также более прозрачное общение с клиентами — ключевые стратегии, направленные на создание лучшей в своем классе надёжности сервиса. Neon продолжает удерживать статус одной из самых продвинутых платформ серверлес Postgres, предлагая инновации в области ветвления баз, мгновенного восстановления данных и интеграции с AI-агентами.
Несмотря на сложности мая и июня 2025, компания демонстрирует открытую позицию в отношении проблем и уверенность в успешном развитии платформы, которая позволит плавно реагировать на запросы рынка и обеспечивать исключительный пользовательский опыт в условиях быстрого технологического прогресса.