ARC-AGI - это один из важнейших современных тестов, оценивающих способность искусственного интеллекта к абстрактному распознаванию паттернов. Несмотря на впечатляющие достижения в области больших языковых моделей, многие из них сталкиваются с трудностями при решении простых для человека логических задач, что подчеркивает серьезные ограничения в их умении обобщать знания за пределами обучающей выборки. В этом контексте новые разработки по решению ARC-AGI имеют большое значение для продвижения в направлении общего искусственного интеллекта. В декабре 2024 года автор получил первое место на ARC-AGI v1, используя метод эволюционного тестового вычисления с генерацией кода на Python. Однако дальнейшие трансформации задач ARC-AGI, особенно в новой версии v2, предъявили более высокие требования к сложной многоступенчатой логике и распознаванию тонких паттернов, которые трудно выразить через программные функции.
В связи с этим была предпринята радикальная смена подхода: вместо генерации кода Python используются естественные текстовые инструкции на английском языке, создаваемые и эволюционирующие посредством языковых моделей. Основу новой методики составляет архитектура, в которой языковая модель Grok-4 генерирует набор текстовых инструкций, объясняющих, как преобразовывать входные сетки в выходные. Эти инструкции проверяются субагентом на наборе тренировочных примеров, оценивая точность и качество решений по сравнению с эталоном. Показатель качества выступает как фитнес-функция, на основе которой лучшие инструкции подвергаются дальнейшим циклам эволюции и уточнения. Важной особенностью являются два способа ревизии инструкций: индивидуальный, когда каждая инструкция пересматривается отдельно с учётом конкретных ошибок, и групповой (пуленый), где несколько успешных инструкций объединяются для создания новой, более совершенной версии.
Такой многоступенчатый процесс промывки и комбинирования обеспечивает баланс между поиском новых вариантов и углублённой проработкой уже существующих. Китайская стена вычислительных ресурсов и ограничение на длину токенов в языковой модели становятся определяющими факторами при выборе количества обрабатываемых инструкций и итераций. В оптимальном варианте система генерирует около 40 кандидатов на задачу: первые 30 создаются сразу, затем до 5 уточняются индивидуально и ещё 5 совместно. Достигнутые результаты говорят сами за себя: новая система не только побила предыдущий рекорд на ARC-AGI v1, достигнув 79.6% при затратах всего $8.
42 на задачу, но и установила новый рекорд на сложной v2 версии - 29.4%, превзойдя прошлый результат в 25%. Полученная эффективность в 25 раз выше по сравнению с предшественником, предусматривающим расходы в районе $200 на задачу. Такая разница демонстрирует, насколько выгодны инновационные подходы с использованием естественных языковых инструкций, когда сложные преобразования и паттерны невозможно предъявить компактным и надежным кодом. Помимо технической реализации, автор поднимает важные философские и методические вопросы, связанные с природой рассуждений моделей ИИ и их ограничениями.
Несмотря на блестящие способности в решении математических и научных задач, современные модели остаются уязвимыми в областях, где требуется перенос знаний и абстрактная дедукция вне прежнего опыта. Существует концепция "мертвых зон рассуждений" - участков в весах нейросети, где логика и здравый смысл не работают, что приводит к уверенным, но ошибочным решениям. Это кардинально отличается от человеческой когнитивной архитектуры, где базовые логические принципы сохраняются и применяются во всех сферах знаний. Автор отмечает проблему "смешанных цепей" (Fused Circuit Problem) в нейросетях, где логические навыки не обобщены, а зашиты вместе с предметными областями, ограничивая перенос обученных умений в новые контексты. Настоящее продвижение возможно при интеграции способности к самосогласованному рассуждению прямо в процесс обучения моделей.
Благодаря сочетанию обучения с подкреплением и цепочек рассуждений, модели перестают быть просто генераторами текста, а учатся строить обоснованные логические выводы, которые можно применять по всему спектру задач. Такой прорыв приближает нас к истинному общему искусственному интеллекту - системе, которая способна эффективно освоить новые навыки без дополнительного переобучения и решать задачи, с которыми ранее не сталкивалась. Подход с эволюционной генерацией естественных языковых инструкций в ARC-AGI - отличный пример, как современные исследования двигаются в этом направлении. Переход от кода к тексту позволил обойти ограничения, связанные с формализацией сложных паттернов и многоступенчатых преобразований, реализовать гибкий и масштабируемый метод поиска решений. Это подтверждает идею, что естественный язык - не просто средство общения, но мощный инструмент для описания и пресечения абстрактных процессов.
В будущем такие архитектуры могут стать базисом для интеллектуальных систем, которые не просто подражают человеческому мышлению, а действительно мыслят и учатся как человек. Для повышения уровня ИИ необходимы не только более крупные модели и данные, но и глубокие методологические изменения, позволяющие интегрировать универсальные логические принципы и учиться на собственном опыте. Такой синтез формализма и естественности заложит основу для создания настоящего общего искусственного интеллекта - гибкого, адаптивного и надежного во всех сферах деятельности. Успехи в решении ARC-AGI показывают, что мы на правильном пути, и замена традиционного кода на естественные языковые инструкции открывает новые горизонты для исследований и практических приложений. Способность моделей генерировать и совершенствовать объяснения на человеческом языке одновременно решает проблему интерпретируемости и улучшает качество логики в выводах.
Именно такой подход способен вывести ИИ на качественно новый уровень, позволяя не просто решать задачи, а понимать, рассуждать и учиться в полном смысле этого слова. .