В последние годы искусственный интеллект стремительно развивается, становясь все более мощным инструментом для решения самых разнообразных задач. Одним из интереснейших вызовов для современных моделей стало решение сложных логических и словесных головоломок, где требуется глубокое понимание и рекурсивное мышление. Одной из таких игр стала Bracket City – новая интеллектуальная игра от The Atlantic, которая быстро завоевала внимание любителей загадок и специалистов по ИИ. Именно на этом примере эксперты провели масштабное тестирование передовых моделей искусственного интеллекта, чтобы понять, как современные системы справляются с глубокой логикой и эффективностью решения сложных ставок. Bracket City представляет собой уникальный формат головоломки, где ключевые подсказки спрятаны внутри вложенных скобок.
Игроку необходимо работать от самых внутренних по отношению друг к другу подсказок к конечному ответу. Такая структура подталкивает к поэтапному раскрытию разгадок, что в корне требует поддержки последовательного и рекурсивного мышления. В примере с загадкой «___ of Arabia» (Лоуренс) и «столица Миссисипи» (Джэксон) разгадывание внутренних подсказок приводит к пониманию общего утверждения, которое становится конечным итогом игры. Для тестирования было решено привлечь самые передовые модели ИИ — от сложных систем с мощнейшими вычислительными ресурсами до легковесных «мини» версий, специально оптимизированных для вывода логики. Ключевой целью исследования стала оценка не только точности решений, которые способны дать модели, но и времени, которое им для этого требуется.
В реалиях масштабных приложений и бизнес-задач подобный анализ имеет огромное значение, ведь цена ошибки и время отклика напрямую влияют на пользовательский опыт. Первоначально подход был достаточно прост: предлагать решения напрямую на основании скриншотов с загадками. Однако этот метод показал серьезные ограничения. Многие модели испытывали сложности с визуальным распознаванием вложенных скобок, из-за чего происходило неверное восприятие структуры данных. Помимо этого, значительная часть систем теряла нить рассуждений на полпути из-за тайм-аутов и ограничений по времени ответа.
Настоящий прорыв наступил после того, как логику игры Bracket City решили реализовать как набор программных инструментов — специальных вызовов (tool calls) для работы с подсказками и ответами. Такая архитектура позволила моделям использовать строго структурированный интерфейс: делать предположения по конкретным подсказкам, получать подсказки по первой букве, или же раскрывать ответы в крайнем случае. Это значительно упростило задачу для ИИ, убрав необходимость восстанавливать визуальный контекст и сделав упор именно на логику и рекурсию. Каждой модели давали до 50 шагов для решения головоломки в рамках рейтинговой системы, аналогичной человеческой. Изначально каждой присваивался максимальный балл — 100 очков, который снижался за неверные ответы и использование подсказок и раскрытий.
Важной стратегией стала рекомендация работать именно изнутри — от самых глубоких вложенных скобок к внешним уровням, что требовало грамотного планирования и последовательного мышления. В исследовании было протестировано 16 передовых моделей на 20 различных задачах из Bracket City. Итоги выявили интересную закономерность: между точностью решений и скоростью получения ответа существует очевидный компромисс. Самыми успешными ни по одному из показателей оказались совершенно разные модели. Лидером по среднему баллу стала модель o3-high, которая заработала в среднем 92.
11 балла за решение. Её уровень точности составил 100%, но при этом решение одной головоломки занимало почти 11 минут, что ожидаемо для такой глубокой аналитической работы. С другой стороны, модель Claude 4 Opus показала чуть меньшую точность (88.9) при таком же стопроцентном успехе, но сделала это почти в четыре раза быстрее, укладываясь в 3 минуты на задачу. Такое соотношение вызвало обсуждения о том, оправдана ли минимальная прибавка в точности, если цена этого — многократное увеличение времени вычислений.
Отвечая на этот вопрос, авторы исследования подчеркнули, что в реальных сферах применение ИИ зависит от общей эффективности: быстрое получение достаточного по качеству результата зачастую важнее заоблачной точности с задержками. Claude 4 Opus оказался оптимальным выбором для большинства задач, объединяя скорость и надежность в едином подходе. В таблице лидеров также отметились модели Grok-4 и GPT-4.1, которые показали достойные результаты как по времени, так и по точности, хотя и уступили лидерам. Примечательно, что модели-малые версии, вроде o3-mini и o4-mini, оказались значительно менее эффективными — они не только допускали ошибки значительно чаще, но и требовали гораздо больше времени.
Эта ситуация стала неожиданностью, учитывая, что они позиционировались как оптимизированные для подобных задач. Наименее удачными оказались Gemini 2.5 Pro (06-05) и Qwen3-235b, которые тратили по 20 и более минут на решение за счет неоптимального поиска и повторяющихся циклов, но мало приближались к высоким показателям точности. Подобные данные свидетельствуют о том, что «дольше думать» далеко не всегда значит «думать лучше». Для ИИ с его ограничениями по ресурсам и времени важно именно качество вычислений и выбор стратегии, а не количество операций.
Результаты исследования выглядят весьма значимыми в контексте массового внедрения ИИ в разнообразные сферы — от обслуживания клиентов и автоматизации поддержки до научных исследований и программирования. В корпоративных и пользовательских сценариях пропорции между скоростью и качеством играют решающую роль. Например, в технической поддержке почти всегда предпочтительнее получать ответ чуть менее точный, но гораздо быстрее, тогда как в специальных научных дисциплинах ценится максимальная точность. Таким образом, выбор модели ИИ требует внимания не только к ее абсолютной эффективности, но и к контексту применения, ожидаемому времени отклика и приоритетам пользователя. Исследование на примере Bracket City демонстрирует, что несмотря на желание получить абсолютное совершенство, лучшим результатом становится сбалансированное решение, которое учитывает все стороны задачи.
Claude 4 Opus — яркий пример такой модели, нашедшей золотую середину между высокой точностью и приемлемой скоростью. Кроме того, тест выявил, что рекламируемые модели с «оптимизацией для рассуждений» не всегда соответствуют ожиданиям. Важно внимательно анализировать реальные показатели, а не только маркетинговые заявления, чтобы строить доверие к инструментам и не тратить ресурсы зря. Подводя итог, можно сказать, что современная генерация ИИ моделей демонстрирует значительный прогресс в комплексном мышлении и умении работать с вложенными структурами. Однако эффективность решения головоломок, подобных Bracket City, зависит от правильной архитектуры работы с информацией и баланса между точностью и скоростью.
Исследования на базе реальных и сложных интеллектуальных игр служат ценным эталоном для оценки и дальнейшего развития технологий искусственного интеллекта. Для разработчиков и пользователей искусственного интеллекта важно помнить, что конечная цель — не только понять, на сколько хорошо работает ИИ, но и насколько комфортно им пользоваться в реальных условиях. Победителем становится не тот, кто думает дольше, а тот, кто думает лучше и быстрее. Такой подход позволит создавать более эффективные, легкие в интеграции и полезные системы, которые действительно изменят нашу работу и жизнь к лучшему. Желающие могут ознакомиться с полным набором данных и исходным кодом бенчмарка на github по адресу github.
com/redspringxyz/bracket-city-benchmark, чтобы самостоятельно протестировать модели и расширить исследования.