Юридические новости Продажи токенов ICO

Недостижимая бронза? Анализ эффективности больших языковых моделей на Международной математической олимпиаде 2025 года

Юридические новости Продажи токенов ICO
Not Even Bronze? Evaluating LLMs on 2025 International Math Olympiad

Исследование возможностей современных больших языковых моделей в решении задач Международной математической олимпиады 2025 года демонстрирует текущие ограничения искусственного интеллекта в интеллектуальных математических соревнованиях и раскрывает перспективы развития технологий.

Международная математическая олимпиада (IMO) является одним из самых престижных и сложных соревнований по математике в мире. Каждый год на олимпиаде встречаются талантливейшие молодые математики, чтобы проверить свои знания и способности в решении задач высокой сложности. В 2025 году настало время для очередного выпускного испытания, на котором протестировали не только человеческие способности, но и возможности современных больших языковых моделей (LLM), разработанных для решения математических задач. В этом контексте исследователи подготовили масштабную оценку эффективности нескольких ведущих моделей на задачах IMO 2025, сравнивая их результаты с медальными рубежами, установленными для участников олимпиады. Миссия стояла амбициозная: выяснить, способны ли эти автоматизированные системы преодолеть минимум бронзовый уровень, который соответствует достижению минимум топ-50% участников.

Оценка началась сразу же после публикации задач IMO 2025 для исключения возможности «загрязнения» данных и предвзятости. Были привлечены опытные судьи с уровнем подготовки не ниже участников олимпиады, которые разработали подробно продуманную систему оценки, учитывающую точность, полноту изложенных доказательств и обоснованность решений. Каждая задача имела максимальный балл в 7 очков, что позволило объективно измерять успехи компьютерных моделей. Для повышения надежности оценивания каждая работа проверялась двумя судьями в анонимном режиме. В число протестированных моделей вошли ведущие представители современного рынка: Gemini 2.

5 Pro, Grok-4, DeepSeek-R1, а также две другие модели, ориентированные на работу с математическими доказательствами. Весь процесс тестирования сопровождался использованием лучшей практики — стратегии «best-of-n», которая предполагала генерацию 32 вариантов решения каждой задачи и выбор самого качественного из них с помощью специальной внутренней процедуры «судейства» моделью. Это позволило максимально использовать вычислительный потенциал и минимизировать влияние случайного успеха при попытке один раз решить очень сложную задачу. Результаты исследования оказались весьма показательными и во многом разочаровывающими для тех, кто рассчитывал на прорыв в области ИИ и математики. Лидер в тестировании, модель Gemini 2.

5 Pro, набрал лишь 31% от максимального результата, что соответствует 13 баллам из 42 возможных по сумме всех задач. При этом для получения бронзовой медали требовалось набрать минимум 19 баллов. Другие модели отставали значительно сильнее, демонстрируя, что текущие технологии еще далеки от того, чтобы составить конкуренцию топовым человеческим математикам в условиях IMO. Интересно отметить, что некоторые модели, такие как Grok-4, неожиданно продемонстрировали низкую результативность из-за частых коротких и неполных ответов, зачастую ограничивающихся лишь конечным решением без объяснений и обоснований. Такая поверхностность требований IMO однозначно не удовлетворяла.

Благодаря обратной связи от разработчиков и модификации используемой подсказки, направленной на стимулирование более полного формата доказательств, удалось значительно улучшить ответы Grok-4. В переоценке с новой подсказкой модель показала лучшие результаты и стала одной из более конкурентоспособных, тем не менее, и эти результаты не дотягивали до медального уровня первенства. Качество решений моделей и их поведение в ходе решения задач заслуживает отдельного внимания. Модели иногда прибегали к так называемым «ложным цитатам»: ссылкам на несуществующие или малоизвестные теоремы, что вводит в заблуждение и снижает доверие к их решениям. В то же время наблюдалось развитие в форматировании ответов и подходах к доказательствам — сейчас ответы выглядели более целостными, избегая чрезмерной концентрации на форматах окончательных числовых значений или странных визуальных эффектов при оформлении.

Особое внимание стоит уделить частичной оценке решений моделей. В отличие от традиционной практики на IMO, где оценки чаще всего очень высокие или очень низкие с редкими промежуточными баллами, модели часто получали средние баллы за решения на некоторых задачах. Часто они выбирали правильные стратегии и направления для вступления в доказательство, но допускали серьезные логические ошибки или не завершали доказательства полностью. Это контрастирует с человеческой спецификой, выявляя важную область для будущего развития искусственного интеллекта — устранение логических зацепок и повышение точности рассуждений. Стратегия «best-of-n» подтвердила свою ценность как эффективный способ извлечения наиболее сильных решений из множества вариантов, сгенерированных моделью.

Иногда наиболее последовательные на первый взгляд ответы содержали существенные логические ошибки, несмотря на внешнюю когерентность. Применение внутреннего анализа качеств ответов позволило достичь результатов, существенно превосходящих единичные попытки. Обновления, появившиеся вскоре после публикации, также внесли свежий взгляд на ситуацию. Информация об успехах OpenAI и DeepMind, объявивших о получении золотых медалей на IMO 2025 с помощью новых моделей и формальных систем, свидетельствует о резком прогрессе в этой области. При этом их модели пока не доступны широкой публике для независимой оценки, что сохраняет актуальность и нужду в объективных исследованиях с применением открытых и стандартизированных бенчмарков, таких как MathArena.

Высокая затратность вычислений для получения ответов с помощью «best-of-n» подхода — несколько долларов за ответ, в некоторых случаях доходящих до более 20 долларов — подчеркивает, что такие достижения пока не являются масштабируемыми или доступными широкой аудитории. Особо затратна была генерация длинных и подробных доказательств в Grok-4 после улучшения подсказок, которая потребовала увеличения лимита токенов в два раза. Несмотря на ограничения, данное исследование служит важным ориентиром для сообщества машинного обучения и математики. Оно не только показывает, насколько далеко еще до человеческого уровня в решении действительно сложных доказательных задач, но и выявляет направления для улучшений — от совершенствования стратегий подсказок и модели оценки ответов до повышения логической строгости выводов и способности моделей корректно ссылаться на известные теоремы. Таким образом, на фоне впечатляющего прогресса в обработке естественного языка и математических вычислениях современные LLM все еще испытывают трудности с честным преодолением даже бронзового уровня престижных международных олимпийских задач.

Тем не менее, продолжающееся сотрудничество исследователей, открытые платформы и совершенствование методов обещают в ближайшем будущем изменить ситуацию и приблизить искусственный интеллект к реальному пониманию и разрешению глубоких математических проблем. Изучение результатов IMO 2025 и выводы по ним предоставляют ценный фундамент для новых исследований и внедрения высококлассных моделей в интеллектуальные системы поддержки обучения и научных исследований.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Apple bans entire dev account, no reason given
Понедельник, 27 Октябрь 2025 Apple заблокировала целый аккаунт разработчика без объяснения причин: что это значит для разработчиков и пользователей

Разбор ситуации с неожиданной блокировкой аккаунта разработчика Apple без объяснения причин, влияние на рынок приложений и рекомендации для разработчиков по предотвращению подобных проблем.

Intermediate Zig Build
Понедельник, 27 Октябрь 2025 Погружение в промежуточный уровень сборки проектов с использованием Zig Build System

Разбор возможностей и инструментов Zig Build System для эффективной организации сборки проектов, особенности работы с зависимостями, таргетами и пользовательскими опциями, а также советы по применению в кросс-платформенной среде.

Why is AI so slow to spread?
Понедельник, 27 Октябрь 2025 Почему искусственный интеллект медленно распространяется по бизнесу и экономике

Разбор основных причин, почему внедрение искусственного интеллекта происходит медленнее, чем ожидалось, несмотря на его потенциал трансформации бизнеса и общества, а также экономические и технологические факторы, влияющие на скорость адаптации ИИ.

OpenAI model takes second place at AtCoder World Tour Finals Heuristic
Понедельник, 27 Октябрь 2025 Модель OpenAI заняла второе место на финале AtCoder World Tour Finals Heuristic

Успех модели OpenAI на престижном соревновании AtCoder World Tour Finals Heuristic демонстрирует впечатляющие достижения в области алгоритмического программирования и искусственного интеллекта. Рассмотрим подробности события, стратегию модели и влияние этого результата на будущее ИИ.

Trading Desks Rejoice: Wall Street Keeps Benefitting From Tariff Upheaval
Понедельник, 27 Октябрь 2025 Как торговые площадки Уолл-стрит извлекают выгоду из турбулентности тарифов

Анализируя влияние тарифных изменений на финансовые рынки, статья раскрывает, как торговые подразделения инвестиционных банков на Уолл-стрит продолжают фиксировать рекордные прибыли в условиях нестабильности и неопределенности глобальной экономики.

 GENIUS Act heads to Trump’s desk: Here’s what will change
Понедельник, 27 Октябрь 2025 Закон GENIUS: кардинальные изменения в регулировании стейблкоинов в США

Закон GENIUS, направленный на регулирование стейблкоинов в США, готовится к подписанию президентом Дональдом Трампом. Новый закон существенно изменит ландшафт криптовалютного рынка, вводя строгие требования к эмитентам стейблкоинов и влияя на развитие децентрализованных финансов.

A smaller Marten turns in a second quarter of 2025 much like a year earlier
Понедельник, 27 Октябрь 2025 Marten Transport во втором квартале 2025 года: анализ стабильности на фоне сокращения

Анализ финансовых и операционных результатов Marten Transport за второй квартал 2025 года, демонстрирующих сохранение ключевых показателей при уменьшении масштаба бизнеса и повышении эффективности.