В последние годы искусственный интеллект достиг значительных успехов в решении различных задач, от распознавания образов до обработки естественного языка. Тем не менее, существует ряд областей, где современные модели демонстрируют заметные ограничения. Одним из ярких примеров является набор задач ARC-AGI, направленных на измерение способности машин к абстрактному мышлению и приобретению обобщённых знаний, которые трудно достичь путём простой тренировки на больших данных. ARC-AGI-2, вторая версия этого теста, ещё более сложна и требует от систем развитых навыков символической интерпретации, композиционного рассуждения и контекстуального применения правил. Несмотря на использование самых продвинутых ИИ, максимально достигнутые результаты на ARC-AGI-2 не превышают 16%, что существенно уступает человеческому уровню, близкому к 100%.
Эффективный эволюционный программный синтез - это инновационный метод, который позволяет выйти за пределы существующих границ эффективности и качества решений на ARC-AGI. Его разработка основана на сочетании идей из нескольких направлений: эволюционных алгоритмов, больших языковых моделей (LLM), а также концепций из современной нейросимволической инженерии, в частности, DreamCoder - системы, которая учится на собственном опыте, постепенно расширяя и совершенствуя библиотеку программных конструкций и понятий. Одной из главных проблем традиционных подходов, таких как Evolutionary Test-time Compute, является отсутствие взаимосвязи между задачами. Эти методы рассматривают каждую задачу как отдельную и не используют уже изученные концепции для решения новых проблем. Это приводит к значительным затратам времени и ресурсов, поскольку приходится переобучаться и повторно искать решения для каждой задачи заново.
В ARC-AGI, который направлен на проверку именно способности к обобщению и применению знаний в различных контекстах, такой подход оказывается малоэффективным. DreamCoder, напротив, может создавать и расширять библиотеку абстракций и функций, используя их повторно в последующих задачах. Однако он опирается на жёстко заданный предметно-ориентированный язык с ограниченной выразительной способностью, а его программы не являются полностью универсальными. Также система требует значительных усилий по ручной настройке и проектированию исходных примитивов. Это противоречит современной тенденции минимизировать человеческое вмешательство в процессе обучения ИИ и эффекты "горького урока", согласно которому лучшие методы обычно те, что позволяют машинам учиться самостоятельно и масштабироваться.
Разработанная система Эффективного эволюционного программного синтеза сочетает преимущества LLM и DreamCoder, избавляясь от их недостатков. Вместо использования фиксированного языка, она работает с универсальным языком программирования Python. Это позволяет создавать гораздо более разнообразные и мощные программы, которые способны решать более сложные и разнообразные задачи. Система начинает с пустой библиотеки и, проходя по задачам последовательно, дополняет её лучшими найденными решениями, что создаёт эффект накопления знаний и улучшает эффективность синтеза новых программ. Во время каждого цикла система запрашивает у LLM предложения программ, которые могли бы решать предоставленные тренировочные примеры.
При этом в запрос включаются лучшие уже известные программы из библиотеки, что существенно повышает качество и направленность генерируемых программ. Оценка качества решений происходит на двух уровнях: первичная метрика учитывает количество полностью решённых примеров, а вторичная - процент совпадения по ячейкам в выходных данных. Такая многоуровневая оценка помогает более точно подобрать лучшие варианты для дальнейшего обучения и расширения библиотеки. Использование данной методики позволило достичь точности 77.1% на ARC-AGI-1 и 26% на более сложном ARC-AGI-2, что значительно превышает предыдущие результаты.
Важно отметить, что при этом система продемонстрировала высокую эффективность с точки зрения затрат и вычислительных ресурсов. В среднем на одну задачу затрачивается в десятки раз меньше вычислительных вызовов LLM, чем у конкурирующих подходов, что делает метод очень привлекательным для масштабирования и практической реализации. Для улучшения поиска и выбора программ была проведена серия экспериментов с выбором моделей LLM, форматированием запросов и методами отбора программ из библиотеки. Самым успешным сочетанием оказалась модель Grok-4, способная эффективно работать с контекстом и генерировать качественные программные решения. Кроме того, была опробована инновационная концепция нейросетевого распознавания, основанная на Latent Program Network (LPN) - вариации автокодировщика, который кодирует программы и задачи в латентном пространстве, позволяя выбирать наиболее релевантные предложения программ на основе косинусного сходства в этом пространстве.
Несмотря на перспективность, эта технология пока что требует значительных вычислительных ресурсов и пока не была включена в финальную версию системы. Таким образом, Эффективный эволюционный программный синтез представляет собой практический пример синергии между большими языковыми моделями и концепциями накопления и распространения знаний, что является ключевым для развития настоящего искусственного интеллекта. Он показывает, как можно эффективно решать задачи, требующие обобщения и абстрагирования, используя традиционные языки программирования в сочетании с современными методами ИИ. Данный подход открывает новые перспективы не только для ARC-AGI, но и для более широкой области автоматического программирования и самосовершенствующихся систем. Высокая эффективность и способность к композиционному решению сложных задач - фундаментальные качества, необходимые для построения систем искусственного интеллекта общего назначения.
Более того, успехи в ARC-AGI-2 подтверждают, что такой гибридный подход может стать эффективным инструментом для преодоления испытаний, которые традиционные методы ИИ пока что не способны преодолеть. Разработчик системы отмечает, что будущее направление работы связано с дальнейшим развитием нейросетевых моделей отбора и генерации программ, интеграцией динамического промптинга и возможным заимствованием идей из аналогичных современных проектов, таких как AlphaEvolve от Google DeepMind, которые развивают методы эволюции программных компонентов и ансамблирования языковых моделей. Все эти идеи находятся на переднем крае исследований в области искусственного интеллекта и обещают сделать системы более мощными и универсальными. В целом, результаты, достигнутые благодаря Эффективному эволюционному программному синтезу, подтверждают эффективность новых путей развития программного обеспечения на стыке языковых моделей и символических методов. Это свидетельствует о том, что несмотря на огромный прогресс в области глубинного обучения, симбиоз различных подходов и использование символических знаний остаются важной стратегией для достижения искусственного интеллекта с человеческим уровнем понимания и навыков.
Такой подход поможет существенно приблизиться к созданию универсальных систем, способных решать широкий спектр интеллектуальных задач в самых разных областях деятельности. .