Конкурсы и задачи, направленные на развитие и проверку способностей искусственного интеллекта, часто ставят перед исследователями уникальные вызовы. Одним из таких сложнейших испытаний является Abstract and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) - набор задач, направленных на оценку абстрактного мышления и способности алгоритмов адаптироваться к новым, не встречавшимся ранее ситуациям. Вторая версия ARC-AGI, известная как ARC-AGI-2, существенно усложнила эталонные задачи, затрагивая высокоуровневые навыки, такие как символическая интерпретация, композиционное рассуждение и контекстуальное применение правил. Несмотря на огромный прогресс в разработке искусственного интеллекта, ведущие современные модели пока не смогли добиться устойчиво высоких показателей на этом тесте, и лучшая из них демонстрирует всего 16% точности при решении новых примеров. В таких условиях особое внимание привлекает подход, названный Эффективным эволюционным синтезом программ, который показал, что возможно не только повысить качество решений, но и существенно улучшить соотношение затрат ресурсов и производительности.
Основа данной методологии - совмещение идей эволюционных вычислений с возможностями современных больших языковых моделей (LLM), таких как Grok-4, и вдохновение концепциями из проекта DreamCoder. DreamCoder представляет собой нейросимволический синтезатор программ, который последовательно развивает библиотеку абстрактных решений, постепенно усложняя и выстраивая шкалу знаний, что особенно важно для задач, требующих обобщения и повторного использования узнанных закономерностей. Традиционные методы эволюционного синтеза применяют генерацию множества программ для каждой задачи с последующей фильтрацией наиболее удачных вариантов. Однако в прошлом подходы такого типа часто рассматривали каждую задачу независимо, не учитывая приобретённый системный опыт, что снижало эффективность при решении сложных, взаимосвязанных задач. Ключевым прорывом стало введение механизма хранения и развития библиотеки программ, которые не просто запоминаются, а используются как строительные блоки для создания сложных решений.
Благодаря LLM, способным генерировать полнофункциональный код на языке Python, методика избежала ограничений, наложенных узкоспециализированными доменными языками программирования, применявшимися ранее. Это позволило повысить разнообразие и выразительность генерируемых программ и максимально приблизить процесс к реальному программированию. Архитектура системы строится вокруг цикла, в ходе которого задачи последовательно обрабатываются с использованием текущего состояния библиотеки. Лучшие программы, продемонстрировавшие высокую точность на примерах обучающей выборки, добавляются в библиотеку и служат контекстом для последующих генерируемых решений. Такая стратегия не только повышает качество решений, но и сокращает количество вызовов LLM, необходимое для достижения эффекта.
Оптимизация выбора лучших программ была дополнена использованием эвристического подхода, основанного на оценках точности, а также экспериментами с нейросетевыми моделями, которые помогали оценивать качество решений в латентном пространстве программ. Хоть последний подход не вошёл в финальный релиз из-за ограничений времени выполнения, он открывает перспективы дальнейшего развития технологии с учётом глубокого машинного обучения. Среди ключевых улучшений, опробованных в системе, стоит отметить включение дополнительной информации о разнице между ожидаемым и фактическим выходом программы в промпты для LLM. Таким образом, снабжая языковую модель более детальной обратной связью, удалось повысить качество порождаемых решений, что демонстрирует важность комплексной обработки данных при обучении и синтезе. Эксперименты показали, что использование современных моделей, таких как Grok-4, в сочетании с инновационной системой выбора и добавления программ в библиотеку, позволило достичь точности 77,1% на ARC-AGI-1 и 26,0% на ARC-AGI-2.
Это результат существенно превзошёл как работы предыдущих специалистов, так и лучшие показатели отдельных крупных моделей, при том что затраты на вычисления остались значительно ниже. Сравнение с первопроходцами методики, использовавшими сотни или даже тысячи вызовов генерации программ на кажду задачу, показало, что новая система добивается высокого результата всего при десятикратном количестве запросов. Это стало возможным благодаря эффективному повторному использованию знаний и оптимальному включению лучших компонентов библиотеки в процессы синтеза. Стоит отметить, что человеческий уровень точности по ARC-AGI-1 достигается примерно в 77%, а при сотрудничестве группы из десяти человек уровень поднимается до 98-100% и даже выше на ARC-AGI-2, что подчеркивает сложность задач. Ни одна существующая модель пока не приблизилась к этому, что сохраняет ARC-AGI как уникальный эталон для оценки настоящего интеллекта.
Среди подходов, существовавших ранее, упоминается исследование Джереми Бермана с системой Evolutionary Test-Time Compute, которая достигла 53.6% точности и использовала более 500 программ на задачу. Её ограничением была невозможность интеграции знаний между задачами, что приводило к высокому потреблению вычислительных ресурсов. Другие решения, такие как AlphaCode-стиль от Райана Гринблата, применяли тысячи программ на каждую задачу и также не решали проблему эффективного обобщения. Совмещение идей DreamCoder с потенциалом LLM позволило преодолеть эту грань, введя библиотеку программ без необходимости ручного проектирования языка программирования, что соответствует принципу "горького урока" из области искусственного интеллекта - системам важнее самостоятельно извлекать знания, а не полагаться на заранее заложенные правила.
Перспективы дальнейшего развития связаны с совершенствованием распознающих моделей для отбора и композиции программ, благодаря чему система сможет быстрее находить более качественные решения. Исследования использования вариационных автокодировщиков и латентных программных пространств обещают облегчить путь к моделям, обладающим более глубоким пониманием логики задач, что позволит сделать генерацию программ ещё более точной и экономичной с точки зрения вычислительных затрат. Важным аспектом стало не только достижение рекордных показателей точности, но и улучшение производительности при минимизации затрат времени и денежных ресурсов, что позитивно сказывается на масштабируемости и доступности подобных систем в будущем. Кроме того, открытый исходный код решения говорит о готовности сообщества к сотрудничеству и ускорению достижений в этой области. Успехи в рамках ARC-AGI-2 демонстрируют, что сочетание нейросимволических методов с возможностями мощных языковых моделей нового поколения открывает новые горизонты для искусственного интеллекта, способного не просто имитировать шаблоны, но и действительно понимать и применять сложные абстрактные правила в изменчивых условиях.
Такие системы приблизят создание универсального искусственного интеллекта - главной цели многих исследований в мире современных технологий. Непрерывное изучение, интеграция новых алгоритмов и оптимизация архитектур синтеза программ обещают сделать будущие версии ARC-AGI всё более доступными для автоматизированных систем, в том числе и в прикладных сферах, где сейчас трудно представить полноценное применение ИИ. Данный подход показывает, как баланс между мощностью вычислительных моделей и эффективностью алгоритмов повышения знаний может снизить барьер входа на новый уровень интеллектуальной обработки данных. В итоге, успешное применение эффективного эволюционного синтеза программ на ARC-AGI-2 демонстрирует, что будущее искусственного интеллекта во многом зависит от инноваций на стыке программирования, нейросетей и математической логики. Развитие таких гибридных систем позволит создавать машины с более глубоким пониманием контекста, а значит, - приближаться к тому, чтобы действительно мыслить подобно человеку.
.