В современном мире искусственного интеллекта особое внимание уделяется не только обучению моделей, но и их работе во время тестирования, или, как принято называть в профессиональной среде, инференс-времени вычислений. Проведенный анализ более 200 научных публикаций в этой области дает глубокое понимание текущих трендов, вызовов и возможностей, открывающихся перед исследователями и разработчиками. Эта область получила популярное название «третьего закона масштабирования», отражая растущую значимость вычислительных процессов именно в момент использования моделей. Исторически акцент искусственного интеллекта был сосредоточен в первую очередь на процессе обучения – огромных вычислительных ресурсах, требующихся для подготовки моделей. Однако ход работы с готовыми моделями, когда они применяются к реальным задачам, постепенно становится не менее важным.
Термины «вычисления во время тестирования», «инференс-время вычислений» и подобные вариации используют довольно свободно, но суть их совпадает: речь идет о всех операциях, происходящих с моделью при ее применении на практике, вне стадии обучения. Анализ научных абстрактов показывает, что еще в 2023 году данная сфера была во многом в зачаточном состоянии. Основные исследования сосредотачивались на разработке общего представления о значении инференс-времени в сравнении с этапом обучения. К 2024 году публикации смещаются в сторону обзоров сложившихся подходов и методов. Особенно популярными становятся техники, такие как «Best of N» и «Chain of Thought», которые помогают оптимизировать вычисления и улучшать качество решений моделей.
В 2025 году наблюдается значительный прогресс в разработке новых алгоритмов, расширении понятийного поля вычислений во время тестирования и более точном управлении бюджетом вычислительных ресурсов. Все эти аспекты свидетельствуют о глубокой трансформации подходов к работе с искусственным интеллектом непосредственно в процессе его использования. Самая интересная работа, отмеченная в обзоре, носит название «Inference Time Computations for LLM Reasoning and Planning: A Benchmark and Insights». В ней подчеркивается, что бесконечное масштабирование вычислений во время инференса имеет свои ограничения. Ни один алгоритм не демонстрирует стабильного превосходства во всех типах задач, будь то рассуждения или планирование.
Этот факт открывает новую перспективу, согласно которой пользователям придется выбирать и комбинировать различные стратегии под конкретные сценарии использования ИИ. Такие выводы вызывают пересмотр классических идей, включая концепцию «Горький урок» (The Bitter Lesson), описывающей ценность масштабируемых и универсальных моделей. Невероятно любопытным оказалось наблюдение, что увеличение вычислительных затрат во время тестирования не всегда ведет к ожидаемому улучшению производительности. Влияние такого подхода зависит от множества параметров, включая выбор модели, сложность задачи, ограничения на длину анализа (токен-бюджет), используемые стратегии вычислений и другие факторы. Были случаи, когда модель с один миллиардом параметров превосходила систему с 405 миллиардами параметров благодаря оптимальному применению вычислений в режиме инференса.
Такой феномен подтверждает важность не просто количества ресурсов, а умения их правильно задействовать. Современные исследования ставят в центр внимания проблему оптимального распределения вычислительного бюджета. Ранние выводы гласили, что «думать дольше» полезно и ведет к улучшению качества результатов. Однако более свежие работы показывают, что чрезмерное увеличение времени или ресурсов для некоторых методов оказывается неэффективным и даже контрпродуктивным. Так, идея необходимо вовремя останавливать процесс вычислений, чтобы избежать перерасхода ресурсов стала предметом углубленных исследований и разработок новых алгоритмов в духе «Learning To Stop Overthinking at Test Time».
Появление множества специализированных алгоритмов, пригодных для решения узких задач и показывающих лучшие результаты на отдельных бенчмарках, стимулирует развитие нового направления – выбора подходящей стратегии инференс-времени для конкретных целей. Исследователи пытаются понять, как автоматически или вручную определять, какой метод лучше всего применить в каждом конкретном случае, что открывает перспективы для создания более адаптивных и эффективных систем искусственного интеллекта. Хотя большая часть работ уделяет внимание работе с большими языковыми моделями (LLM), в том числе задачам программирования и решению математических проблем, интерес вызывает и появление исследований в менее традиционных областях. Среди таковых стоит отметить работы, посвященные пространственно-временному рассуждению, робототехническому зрению, медицинскому анализу, аудио-языковым моделям, а также креативные попытки построить искусственного «ученого». Не обошли вниманием и сферы видеоаналитики, что свидетельствует о широком спектре развития и применении вычислений во время тестирования.
Мотивы использования вычислений во время инференса различны. Часть исследователей и бизнес-практиков видит в этом способ снизить затраты, применяя небольшие и менее дорогие модели, но компенсируя это продвинутыми стратегиями вычислений, что позволяет достигать качества моделей большего размера. Другие же стремятся расширить функциональные возможности и качество уже масштабных моделей. В ближайшем будущем станет понятно, приведет ли такая дифференциация к разрыву в использовании алгоритмов по сегментам рынка или же наиболее эффективные техники окажутся универсальными для разных задач. Особое внимание стоит уделить спору внутри сообщества вокруг оптимальной области применения алгоритмов – следует ли ориентироваться на работу в пространстве токенов или латентных представлений.
Каждая из этих стратегий имеет свои преимущества, и это направление является одним из наиболее перспективных для будущих инноваций. Вне рамок конкретных исследовательских публикаций возникает важный вопрос: смогут ли небольшие команды разработчиков и независимые исследователи обойти большие лаборатории, работающие над фундаментальными моделями, в области инференс-времени вычислений? При обучении моделей расходы на эксперименты могут исчисляться миллионами долларов, тогда как тестирование алгоритмов на стадии инференс требует значительно меньших затрат – от нескольких долларов до сотен. Масштабируемость в тестировании позволяет тысячам специалистов экспериментировать с тактиками и создавать технологии, которые могут превзойти достижения крупных центров. Несмотря на бурное развитие, данный сектор является по-прежнему недостаточно изученным. Пути инноваций и исследования только начинают открываться, а потенциал для оптимизации, автоматизации и новых способов использования искусственного интеллекта в реальном времени огромен.