В последние годы индустрия искусственного интеллекта работала по собственному правилу, напоминающему закон Мура: уверенность в том, что стоимость вычислений и создания интеллектуальных моделей будет стремительно снижаться, снижаться и еще раз снижаться. Казалось, что с каждым новым поколением моделей пользователи получат не только более мощные форматы, но и смогут значительно сэкономить на их использовании. Такая тенденция стала основой стратегии многих компаний, разработчиков и стартапов, которые рассчитывали на постоянное удешевление искусственного интеллекта, чтобы масштабировать продукты и внедрять новые решения без существенных затрат. Тем не менее, на примере Google и модели Gemini 2.5 Flash становится очевидным, что эта эпоха может постепенно уходить в прошлое.
Корпорация тихо изменила ценовую политику для своей популярной модели, существенно увеличив цену на использование, что стало серьезным сигналом для всей отрасли. Цены за миллион входных токенов выросли в два раза, а стоимость за миллион выходных токенов увеличилась более чем в четыре раза. Одновременно с этим появился более доступный, но менее мощный вариант модели под названием Gemini 2.5 Flash Lite. Такое явное отклонение от традиционного снижения стоимости заставляет задуматься, достигли ли мы некоего предела — «мягкого потолка» в вычислительной стоимости искусственного интеллекта с текущим уровнем аппаратного и программного обеспечения.
Для понимания причин подобной ценовой стратегии важно разобраться, как на самом деле формируются цены на услуги с использованием больших языковых моделей (LLM). На первый взгляд кажется, что поставщики просто устанавливают фиксированный тариф за миллион обработанных токенов, но на практике ситуация гораздо сложнее. Сложная система ценообразования учитывает множество факторов, включая стоимость аренды или эксплуатации дорогостоящего оборудования (например, графических процессоров NVIDIA H100 или TPU от Google), размеры и архитектуру самой модели, программное обеспечение, которое отвечает за её запуск, а также специфические особенности распределения вычислительной нагрузки между входными и выходными токенами. Одним из наиболее важных и при этом наименее понятных параметров является так называемая «форма рабочей нагрузки» — соотношение между количеством входных (prefill) и выходных (decode) токенов за один запрос. Сам процесс генерации ответа — по сути последовательный, где каждый новый токен зависит от уже сгенерированных, а значит требует большего времени и ресурсов для вычисления.
Увеличение суммарного количества токенов приводит к квадратичному возрастанию затрат на вычисление внимания между ними, что значительно снижает пропускную способность модели. В отличие от привычного нам опыта покупок, где покупка большего объема товара обычно не сопровождается резким увеличением себестоимости, вычислительные расходы на LLM растут гораздо быстрее, делая длинные и сложные задачи особенно затратными. Сравнение с дорожным транспортом помогает лучше понять проблему: добавление каждого нового автомобиля на загруженную дорогу вызывает не просто линейное увеличение времени в пути, а экспоненциальное замедление из-за возникновения пробок. Аналогично, каждый новый токен в длинной последовательности требует вычисления взаимодействий с огромным количеством других токенов, из-за чего общая производительность и эффективность резко падают. В итоге, ценовая схема, основанная на линейной стоимости за токен, становится трудноустойчивой для провайдеров, так как им приходится балансировать между увеличением маржи на коротких быстрых задачах и покрытием высоких затрат долгих сценариев.
В случае Google с моделью Gemini Flash, аппаратные возможности, программная основа и сама модель были зафиксированы при запуске, но реальная специфика применения и распределение нагрузок оказались менее предсказуемы. Первоначальные расчеты, видимо, основывались на типичных задачах с умеренным соотношением входных и выходных токенов и определенном уровне потребления. Однако, оказалось, что многие пользователи активно использовали модель для задач с большой долей входных данных и относительно небольшим выводом — например, суммирование больших текстов, классификация или извлечение информации из массивов данных. Именно такие сценарии создают угрозу для прибыльности, поскольку так как входные токены обрабатываются параллельно, их число не совсем справедливо отражается в линейной тарифной сетке, но реально создаёт существенные нагрузочные издержки для инфраструктуры. Кроме того, спрос на модель оказался значительно выше ожидаемого, что привело к дополнительным сложностям.
Расширение вычислительных ресурсов возможно, но требует времени, больших капиталовложений и не учитывает мгновенного роста интереса клиентов. Цена была повышена именно для того, чтобы сбалансировать непропорциональный спрос и заставить пользователей более ответственно подходить к выбору модели и режиму использования. Появление «Gemini 2.5 Flash Lite» — классический пример стратегии сегментации рынка, позволяющей предложить пользователям более доступный вариант для ресурсоемких, но не критичных к производительности задач. Таким образом, Google устанавливает четкий экономический сигнал: если вы хотите получить максимальную производительность и качество, будьте готовы платить реальную цену, отражающую расходы на аппаратное обеспечение и энергоемкость.
Наше время утвердило окончательный разрыв с иллюзией постоянного снижения стоимости искусственного интеллекта. Причина кроется в физических ограничениях аппаратных средств и экономических реалиях эксплуатации дата-центров. Пропускная способность LLM ограничена пропускной способностью памяти и физическими характеристиками железа, ускорить или радикально изменить которые пока что невозможно. Кроме того, возможности моделей приближаются к потолку — обучение на новых данных становится все менее эффективным, а рост их размера требует колоссальных энергетических вложений, что напрямую отражается на стоимости работы систем. Для разработчиков и компаний, строящих AI-продукты, такая новая экономическая действительность означает необходимость пересмотра подхода к архитектуре своих систем и планированию бюджета.
Нельзя полагаться на то, что завтра будет дешевле, и стоит считать стоимость вычислений фундаментальным ограничением, с которым нужно полноценно работать. Управление затратами становится не просто оптимизацией, а обязательной частью проектирования и стратегического планирования. На этом фоне большие перспективы открываются для альтернативных решений. Пакетная обработка задач (batch inference) позволяет более эффективно использовать возможности инфраструктуры, снижая «налог» на постоянную готовность и пиковую нагрузку. Кроме того, открытые модели, такие как Qwen3 и Llama 3.
3, демонстрируют высокое качество и существенно меньшую стоимость эксплуатации, предоставляя разработчикам большую свободу и контроль над данными, а также позволяя снижать зависимость от крупных корпораций и закрытых экосистем. Интересно отметить, что в тот же период, когда Google повышал цены на Gemini Flash, OpenAI наоборот снизил тарифы на свою модель o3. Но это скорее исключение из правил, обусловленное различиями в классах моделей и стратегиях компаний. Модель o3 находится на переднем крае развития, где еще сохраняется пространство для оптимизации и сокращения затрат, а OpenAI может позволить себе агрессивные ценовые маневры ради захвата рынка, тогда как Google ведет бизнес под вниманием инвесторов и обязан стремиться к прибыльности. Новая эпоха в развитии искусственного интеллекта переключает фокус с простого повышения мощности и снижения стоимости на более сбалансированное, стратегическое и инновационное использование ресурсов.
Понимание настоящих ограничений технологии и правильный выбор подходов к интеграции ИИ в бизнес-процессы сейчас важнее, чем когда-либо ранее. Для многих компаний это станет мотивацией инвестировать в разработку эффективных архитектур, исследовать и использовать batch-инференс и открытые модели, а также переосмыслить свои ожидания от скорости технологического прогресса в сфере искусственного интеллекта. В итоге, решение Google пересмотреть ценовую политику Gemini Flash стало не просто коммерческим шагом, а своеобразным маяком для индустрии, говорящим о том, что пора принимать новые реалии. Конец эры нескончаемого снижения стоимости вычислений открыт, и те, кто сумеет адаптироваться к этим условиям, окажутся в числе лидеров будущего, а остальные рискуют остаться позади.