Юридические новости Налоги и криптовалюта

Эффективный эволюционный программный синтез: прорыв в ARC-AGI-2

Юридические новости Налоги и криптовалюта
[ARC-AGI-2 SoTA] Efficient Evolutionary Program Synthesis

Изучение передового подхода к программному синтезу с помощью эволюционных методов и больших языковых моделей, позволившего значительно повысить эффективность решения сложных задач ARC-AGI-2, остающихся вызовом для современного искусственного интеллекта. .

В последние годы искусственный интеллект достиг значительных успехов в решении различных задач, от распознавания образов до обработки естественного языка. Тем не менее, существует ряд областей, где современные модели демонстрируют заметные ограничения. Одним из ярких примеров является набор задач ARC-AGI, направленных на измерение способности машин к абстрактному мышлению и приобретению обобщённых знаний, которые трудно достичь путём простой тренировки на больших данных. ARC-AGI-2, вторая версия этого теста, ещё более сложна и требует от систем развитых навыков символической интерпретации, композиционного рассуждения и контекстуального применения правил. Несмотря на использование самых продвинутых ИИ, максимально достигнутые результаты на ARC-AGI-2 не превышают 16%, что существенно уступает человеческому уровню, близкому к 100%.

Эффективный эволюционный программный синтез - это инновационный метод, который позволяет выйти за пределы существующих границ эффективности и качества решений на ARC-AGI. Его разработка основана на сочетании идей из нескольких направлений: эволюционных алгоритмов, больших языковых моделей (LLM), а также концепций из современной нейросимволической инженерии, в частности, DreamCoder - системы, которая учится на собственном опыте, постепенно расширяя и совершенствуя библиотеку программных конструкций и понятий. Одной из главных проблем традиционных подходов, таких как Evolutionary Test-time Compute, является отсутствие взаимосвязи между задачами. Эти методы рассматривают каждую задачу как отдельную и не используют уже изученные концепции для решения новых проблем. Это приводит к значительным затратам времени и ресурсов, поскольку приходится переобучаться и повторно искать решения для каждой задачи заново.

В ARC-AGI, который направлен на проверку именно способности к обобщению и применению знаний в различных контекстах, такой подход оказывается малоэффективным. DreamCoder, напротив, может создавать и расширять библиотеку абстракций и функций, используя их повторно в последующих задачах. Однако он опирается на жёстко заданный предметно-ориентированный язык с ограниченной выразительной способностью, а его программы не являются полностью универсальными. Также система требует значительных усилий по ручной настройке и проектированию исходных примитивов. Это противоречит современной тенденции минимизировать человеческое вмешательство в процессе обучения ИИ и эффекты "горького урока", согласно которому лучшие методы обычно те, что позволяют машинам учиться самостоятельно и масштабироваться.

 

Разработанная система Эффективного эволюционного программного синтеза сочетает преимущества LLM и DreamCoder, избавляясь от их недостатков. Вместо использования фиксированного языка, она работает с универсальным языком программирования Python. Это позволяет создавать гораздо более разнообразные и мощные программы, которые способны решать более сложные и разнообразные задачи. Система начинает с пустой библиотеки и, проходя по задачам последовательно, дополняет её лучшими найденными решениями, что создаёт эффект накопления знаний и улучшает эффективность синтеза новых программ. Во время каждого цикла система запрашивает у LLM предложения программ, которые могли бы решать предоставленные тренировочные примеры.

 

При этом в запрос включаются лучшие уже известные программы из библиотеки, что существенно повышает качество и направленность генерируемых программ. Оценка качества решений происходит на двух уровнях: первичная метрика учитывает количество полностью решённых примеров, а вторичная - процент совпадения по ячейкам в выходных данных. Такая многоуровневая оценка помогает более точно подобрать лучшие варианты для дальнейшего обучения и расширения библиотеки. Использование данной методики позволило достичь точности 77.1% на ARC-AGI-1 и 26% на более сложном ARC-AGI-2, что значительно превышает предыдущие результаты.

 

Важно отметить, что при этом система продемонстрировала высокую эффективность с точки зрения затрат и вычислительных ресурсов. В среднем на одну задачу затрачивается в десятки раз меньше вычислительных вызовов LLM, чем у конкурирующих подходов, что делает метод очень привлекательным для масштабирования и практической реализации. Для улучшения поиска и выбора программ была проведена серия экспериментов с выбором моделей LLM, форматированием запросов и методами отбора программ из библиотеки. Самым успешным сочетанием оказалась модель Grok-4, способная эффективно работать с контекстом и генерировать качественные программные решения. Кроме того, была опробована инновационная концепция нейросетевого распознавания, основанная на Latent Program Network (LPN) - вариации автокодировщика, который кодирует программы и задачи в латентном пространстве, позволяя выбирать наиболее релевантные предложения программ на основе косинусного сходства в этом пространстве.

Несмотря на перспективность, эта технология пока что требует значительных вычислительных ресурсов и пока не была включена в финальную версию системы. Таким образом, Эффективный эволюционный программный синтез представляет собой практический пример синергии между большими языковыми моделями и концепциями накопления и распространения знаний, что является ключевым для развития настоящего искусственного интеллекта. Он показывает, как можно эффективно решать задачи, требующие обобщения и абстрагирования, используя традиционные языки программирования в сочетании с современными методами ИИ. Данный подход открывает новые перспективы не только для ARC-AGI, но и для более широкой области автоматического программирования и самосовершенствующихся систем. Высокая эффективность и способность к композиционному решению сложных задач - фундаментальные качества, необходимые для построения систем искусственного интеллекта общего назначения.

Более того, успехи в ARC-AGI-2 подтверждают, что такой гибридный подход может стать эффективным инструментом для преодоления испытаний, которые традиционные методы ИИ пока что не способны преодолеть. Разработчик системы отмечает, что будущее направление работы связано с дальнейшим развитием нейросетевых моделей отбора и генерации программ, интеграцией динамического промптинга и возможным заимствованием идей из аналогичных современных проектов, таких как AlphaEvolve от Google DeepMind, которые развивают методы эволюции программных компонентов и ансамблирования языковых моделей. Все эти идеи находятся на переднем крае исследований в области искусственного интеллекта и обещают сделать системы более мощными и универсальными. В целом, результаты, достигнутые благодаря Эффективному эволюционному программному синтезу, подтверждают эффективность новых путей развития программного обеспечения на стыке языковых моделей и символических методов. Это свидетельствует о том, что несмотря на огромный прогресс в области глубинного обучения, симбиоз различных подходов и использование символических знаний остаются важной стратегией для достижения искусственного интеллекта с человеческим уровнем понимания и навыков.

Такой подход поможет существенно приблизиться к созданию универсальных систем, способных решать широкий спектр интеллектуальных задач в самых разных областях деятельности. .

Автоматическая торговля на криптовалютных биржах

Далее
Show HN: Tailkits UI, 200 Tailwind components for landing pages
Суббота, 10 Январь 2026 Tailkits UI: Революция в разработке лендингов с Tailwind CSS и ИИ

Tailkits UI представляет собой современную библиотеку из более чем 200 готовых компонентов на базе Tailwind CSS, оптимизированных для быстрой разработки адаптивных лендингов с поддержкой искусственного интеллекта и интеграцией через Model Context Protocol (MCP). Это решение значительно упрощает создание качественных и продуманных интерфейсов с минимальными усилиями.

The Steep Curve to Peak Urban
Суббота, 10 Январь 2026 Пик урбанизации: вызовы и перспективы стремительного роста городов до 2080 года

Глобальная урбанизация продолжает ускоряться, изменяя облик мира и создавая новые вызовы в жилищном строительстве, инфраструктуре и планировании. Прогнозы показывают, что к 2080 году некоторые города достигнут беспрецедентного масштаба, но одновременно с этим наступит период демографического спада и неопределенного будущего урбанистики.

Trump Sues the New York Times for Articles Questioning His Success
Суббота, 10 Январь 2026 Трамп подает в суд на New York Times за статьи, ставящие под сомнение его успех

В статье подробно рассматривается иск Дональда Трампа к газете New York Times с обвинениями в распространении клеветы и попытке подорвать его репутацию на фоне предстоящих выборов 2024 года. .

Hacker News – AI
Суббота, 10 Январь 2026 Искусственный интеллект на Hacker News: современные тренды и значимые обсуждения

Обзор актуальных тем и дискуссий, связанных с искусственным интеллектом на популярной платформе Hacker News. Анализ ключевых новостей и обсуждений, воздействие ИИ на различные сферы и перспективы развития технологий.

Behind the Mirror: Inside the World of Big Brother
Суббота, 10 Январь 2026 За зеркалом реальности: Погружение в мир шоу Big Brother

Разбор культурного феномена шоу Big Brother, его истории, особенностей и влияния на зрителей, а также анализ тем, связанных с человеческой природой, социальными и психологическими аспектами, представленными в шоу. .

Google CrUx Dashboard Deprecation
Суббота, 10 Январь 2026 Переход на новые инструменты после завершения поддержки Google CrUX Dashboard

Подробный обзор причин прекращения поддержки Google CrUX Dashboard, преимущества новых решений CrUX Vis и CrUX History API, а также практические советы по переходу на современные инструменты для анализа пользовательского опыта в Chrome. .

Crowdstrike Holdings Inc. (CRWD) Partners with Amazon on Falcon Go
Суббота, 10 Январь 2026 Crowdstrike и Amazon: новое сотрудничество для усиления кибербезопасности малого и среднего бизнеса

Партнерство Crowdstrike Holdings Inc. и Amazon открывает новые возможности для малого и среднего бизнеса, предлагая инновационную AI-платформу Falcon Go с значительными скидками и простотой использования, что помогает защитить компании от современных киберугроз.