В последние годы искусственный интеллект (ИИ) все активнее внедряется в различные сферы науки, техники и повседневной жизни. Одним из самых заманчивых направлений является способность ИИ моделировать рассуждения и логическое мышление, приближаясь к интеллектуальному уровню человека. Особую роль в этой области играют так называемые модели с имитацией рассуждений (simulated reasoning, SR), которые формируют выводы не просто на основе шаблонов и статистики, а с попыткой пошагово представлять процесс решения сложных задач. Но недавнее исследование, проведенное группой ученых из ETH Zurich и Sofia University, поставило под сомнение ожидания, связанные с такими моделями, особенно в области сложной математики. Почему же эти SR-модели не могут пока назвать себя настоящими интеллектуалами и в чем кроется причина их слабых мест? В чем разница между решением математических задач и построением доказательств? Прежде чем подробно рассмотреть ограничения SR-моделей, важно понять, что собой представляют задачи, с которыми работают современные ИИ-системы.
Многие привычные учебные вопросы по математике — это задачи на вычисление или поиск конкретного ответа. Например, решить уравнение или найти значение выражения. Здесь ИИ зачастую показывает отличные результаты, быстро и точно выдавая верное число или ответ. Однако в области олимпиадной математики порог требований значительно выше. От участников требуется не просто дать правильный ответ, но и тщательно обосновать каждое рассуждение, построить логически связное доказательство, которое объясняет, почему ответ верен для всех возможных случаев.
Такой подход предъявляет непростые требования к пониманию сути проблемы и навыкам построения «волшебной цепочки» логических выводов. Исследование, опубликованное под названием «Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad», показало, что лучшие на сегодня SR-модели превосходно справляются с задачами из обычных тестов, но на уровне Олимпиады США по математике (USAMO) их результаты падают до экстремально низких показателей. Средний балл моделей почти не превышал отметки в 5 процентов от максимума. Только одна из протестированных моделей, Gemini 2.5 Pro от Google, показала более высокую результативность — около 24 процентов.
При этом остальные отстали значительно. Из комментариев исследователей очевидно, что модели не только не могут построить полные корректные доказательства, но и часто делают принципиальные ошибки внутри самого процесса рассуждений. В чем конкретно заключаются эти ошибки? Во-первых, SR-модели создают рассуждения, в которых отсутствует необходимое математическое обоснование. Они порой опираются на непроверенные или неверные предположения, игнорируя логические требования задачи. Во-вторых, модели демонстрируют консистентное непонимание собственных ошибок — они уверенно выдают ложные утверждения, не сигнализируя о существовании проблем.
Это порождает ощущение искусственной уверенности и неотразимости, что вводит в заблуждение пользователей. Стоит отметить, что на примере задачи из USAMO 2025 о суммах биномиальных коэффициентов модели неправильно ограничивали множество возможных вариантов из-за ошибочной интерпретации условий, что приводило к неверным выводам несмотря на частичное выявление правильных закономерностей. Еще один важный фактор, влияющий на слабые стороны SR-моделей — особенности их обучения и оптимизации. Алгоритмы часто ориентируются на конечный результат с особой структурой, например, выделенный ответ в формате \boxed{} в LaTeX. Такое нацеливание на формат ответа может искажать логику построения доказательства, заставляя модели идти по шаблону ради удобства оценки, а не ради глубокой логической последовательности.
Почему же в таких условиях имитация рассуждений всё-таки достигает определенных успехов в простых задачах? Ответ кроется в особенности архитектуры трансформеров, лежащей в основе большинства современных ИИ. Эти модели — в первую очередь машинные ловцы шаблонов. Они запоминают и используют огромное количество примеров из обучающих данных, формируя вероятностные предсказания. Метод "chain-of-thought" или цепочка размышлений помогает им разбить сложный вывод на ряд промежуточных шагов, что улучшает стабильность и качество результатов в узнаваемых ситуациях. Однако для подлинного понимания, требующего генерации новых логических связей и корректного построения доказательств, этого всё ещё не хватает.
Важно отметить, что этот разрыв между детерминированным вычислением и глубинным логическим мышлением показывает фундаментальные ограничения нынешних трансформерных моделей. Второе исследование, проведенное группой ученых из США и Европы, подтвердило сходные выводы, фиксируя проблемы масштабирования и неполноту логики в SR-подходах. Какие перспективы развития математики и рассуждающих ИИ-моделей можно выделить? Сейчас активно ищут альтернативные и гибридные методы, сочетающие нейронные сети с традиционными символическими системами, способными строго проверять и формализовать доказательства. Примером таких разрабатываемых нейросимволических систем является проект AlphaGeometry компании DeepMind. Он объединяет работу нейросетей с классическими алгоритмами формальной проверки, что позволяет либо найти доказательство, либо избежать выдачи ошибочного ответа, существенно снижая эффект «фальсификаций».
Помимо этого, исследования в области самопроверки моделей и внедрение принципов консистентности на стадии вывода тоже обещают повысить надежность и качество симуляции рассуждений. Однако даже с учётом этих трендов, очевидно, что масштабирование и увеличение параметров существующих моделей без качественного изменения архитектуры и методов обучения может лишь частично улучшить ситуацию. Научное сообщество признает, что развитие «истинного» математического разума искусственного интеллекта потребует принципиально новых идей и подходов. В конечном итоге способности к глубокому понятию, творческому построению аргументов и критической проверке своих рассуждений будут отличать будущие успешные модели от сегодняшних. Современные simulated reasoning модели, несмотря на все успехи и достижения, пока что представляют в большей степени продвинутые машины для распознавания и перестройки известных шаблонов, чем полноценные мыслящие системы.