В последние годы большие языковые модели (LLM) захватили воображение специалистов и широкой публики благодаря своей способности выполнять сложные задачи, такие как генерация текста, программирование и математические вычисления. Однако, несмотря на их впечатляющие достижения, многие из этих моделей все еще испытывают трудности при решении головоломок, которые интуитивно понятны человеку и не требуют глубоких специальных знаний. В ответ на эту проблему группа исследователей представила инновационную платформу под названием Enigmata, которая ориентирована на расширение логических возможностей LLM с помощью синтетически созданных проверяемых головоломок.Enigmata предлагает уникальный системный подход к развитию логического мышления ИИ. Центральным элементом платформы является набор из 36 различных задач, объединенных в семь категорий, каждая из которых включает в себя генератор, создающий неограниченное количество примеров с регулируемой сложностью, и автоматический верификатор — правило основанную систему проверки результатов.
Такая структура открывает путь к масштабируемому обучению с подкреплением с верифицируемым вознаграждением (RLVR), что позволяет моделям тренироваться на множестве разнообразных задач одновременно и получать точную обратную связь по корректности своих решений.Особенность данного подхода заключается в возможности тонкой настройки сложности создаваемых головоломок. Это обеспечивает адекватную нагрузку на модель в зависимости от ее текущих возможностей, способствуя стабильному прогрессу в обучении. Автоматизированный верификатор же позволяет оценивать работу модели без необходимости привлечения человека, что значительно ускоряет процесс и повышает объективность результатов.Исследователи также разработали специальный бенчмарк Enigmata-Eval, который служит строгим тестовым полигоном для оценки уровня логического мышления LLM.
Используя этот инструмент, команда провела обучение на модели Qwen2.5-32B-Enigmata, которая продемонстрировала значительное превосходство над современными аналогами, такими как o3-mini-high и o1, не только в условиях тестов Enigmata, но и на других сложных задачах, включая ARC-AGI и ARC-AGI 2. Это говорит о том, что внедренные методы эффективно повышают общую интеллектуальную гибкость моделей и их способность к генерализации вне обучающей выборки.Интересно отметить, что обучение на данных Enigmata не приводит к снижению качества выполнения других задач, даже тех, которые требуют комплексного понимания математики и STEM-направлений. Наоборот, при использовании больших моделей, таких как Seed1.
5-Thinking с 20 млрд активных параметров, инструменты Enigmata способствуют улучшению результатов в самых передовых математических задачах, включая AIME (сезоны 2024-2025), BeyondAIME и GPQA (Diamond).Эти успехи демонстрируют потенциал синтетических данных для преодоления традиционных ограничений в обучении ИИ, основанных на реальных датасетах, часто ограниченных размером, объективностью и разнообразием. Enigmata строит мост между академическими исследованиями и практическими приложениями, предлагая методологию, которая может быть интегрирована в существующие фреймворки разработки моделей.Помимо чисто технических достижений, проект Enigmata затрагивает фундаментальные вопросы развития искусственного интеллекта — как создать системы, способные мыслить и рассуждать на уровне, сопоставимом с человеческим, без необходимости постоянного вмешательства или предоставления заранее известных знаний. Синтетические головоломки, бесконечно генерируемые и автоматически проверяемые, становятся идеальной образовательной средой для таких систем.