Понимание процессов обучения и принятия решений является одной из ключевых задач в области когнитивной нейронауки и психологии. Учёные давно стремятся понять, каким образом животные и люди накапливают знания из опыта и применяют их для адаптивного поведения в меняющихся условиях. Традиционные модели, такие как байесовское уточнение и обучение с подкреплением, помогли описать основные принципы работы мозга, однако их простота зачастую оказывается недостаточной для точного отражения сложностей биологического поведения. Находясь на переднем крае методологических подходов, исследователи предлагают уникальное решение — использование маленьких рекуррентных нейронных сетей (RNN), которые обладают высокой гибкостью при сохранении интерпретируемости. Рекуррентные нейронные сети — это мощный инструмент, способный выявлять сложные динамики, опираясь на поступающие данные, особенно когда речь идет о последовательных процессах, таких как принятие решений.
Однако большая часть традиционных нейронных сетей часто сталкивается с проблемой нечёткости интерпретации, поскольку количество параметров и сложность архитектуры снижают прозрачность выводов. В рамках данного подхода была разработана концепция tiny RNN — компактных моделей, состоящих от одного до четырёх юнитов, которые способны превосходить классические когнитивные модели по качеству предсказания поведения, будучи при этом достаточно простыми для анализа и интерпретации. Применение tiny RNN было успешно протестировано на широком спектре задач, связанных с обучением с подкреплением, которые традиционно используются для изучения когнитивных процессов. К ним относятся задачи реверсивного обучения, стандартная двухэтапная задача и её модификация с обратимыми переходами состояний. В этих заданиях животные и люди выбирают между несколькими вариантами действий, где награды связаны с вероятностями, меняющимися во времени.
Ключевой задачей модели является предсказание вероятности выбора определённого действия исходя из предыдущего опыта. Результаты показали, что компактные RNN не только превосходят классические модели с равным количеством динамических переменных, но и зачастую достигают результатов, сопоставимых с более крупными и сложными нейросетевыми архитектурами. Это свидетельствует о том, что поведение субъектов обладает низкой размерностью, и достаточное количество информации можно уловить всего несколькими признаками, извлечёнными сетью. Такая ограниченная размерность поведенческих стратегий облегчает их изучение и понимание. Одним из центральных достижений является разработка нового интерпретативного фреймворка, основанного на концепциях дискретных динамических систем.
Анализ состояния tiny RNN и его изменений в ответ на входные данные (предыдущие действия, полученные награды, переходы между состояниями) показывает, как меняются предпочтения субъекта. Представление таких изменений в виде фазовых портретов позволяет визуализировать устойчивые точки равновесия, адаптивные изменения склонностей к действиям и прочие особенности поведения. Например, исследование моделей с одной динамической переменной выявило признаки, характерные для известных когнитивных стратегий, таких как модель-свободное обучение с подкреплением и байесовское уточнение. Были обнаружены высокоуровневые закономерности, связанные с изменением скорости обучения в зависимости от состояния, разновидности упорства в выборе (персеверации) и специфической предвзятости к определённым действиям. Эти детали, зачастую игнорируемые классическими моделями, обеспечивают более точное понимание механизмов, управляющих поведением.
Анализ моделей с двумя и более переменными усложняется из-за роста размерности динамического пространства. Для таких сценариев применяется метод динамической регрессии, позволяющий линеаризовать модель поведения и выделять ключевые коэффициенты, определяющие влияние одной переменной на другую и на итоговое принятие решения. Это помогло обнаружить новые модели обновления значений действий, например, выявить тенденцию сдвига оценок в сторону альтернативных действий при отсутствии награды, что не учитывалось в традиционных алгоритмах. Применение tiny RNN не ограничивается исключительно животными экспериментами. В задачах с человеческими участниками, где количество проб ограничено, GLONP (knowledge distillation) — техника переноса знаний от большой модели («учителя») к маленькой модели («ученику») — позволяет компенсировать нехватку данных, обеспечивая высокое качество предсказаний при умеренных размерах учебных выборок.
Это существенно расширяет возможности использования RNN в когнитивных науках и психиатрии, где глубинное понимание индивидуальных различий играет решающую роль. Кроме того, tiny RNN служат мостом между биологическим и искусственным интеллектом. Анализ оптимальных для выполнения задач сетей, обученных методами метаобучения, показывает, что такие искусственные агенты вырабатывают когнитивные стратегии, которые порой ближе к байесовской модели, но при этом имеют собственные уникальные динамики. Такой подход стимулирует новые исследования взаимодействия между нейросетевыми вычислениями и проявлениями поведения из реального мира. Таким образом, открытие когнитивных стратегий с помощью маленьких рекуррентных нейронных сетей предлагает ряд преимуществ: повышение точности предсказаний, уменьшение субъективности в подборе параметров и структур моделей, а также развитие мощных интерпретативных инструментов, позволяющих разобраться в тонкостях когнитивных процессов.