Современная наука и технологии стремительно меняют наше понимание процессов обучения и принятия решений. Одним из ключевых вопросов нейронауки и психологии остаётся то, как именно животные и люди используют опыт для адаптивного взаимодействия с окружающей средой. Традиционные модели типа байесовского вывода и усиленного обучения давали ценное представление об основных принципах поведения, однако их простота иногда ограничивала способность отражать реальное биологическое поведение. Они часто требовали ручной настройки и допущений, что могло вводить субъективность со стороны исследователей. В ответ на эти вызовы недавно была предложена инновационная методика, опирающаяся на компактные рекуррентные нейронные сети (РНС), способные открывать когнитивные алгоритмы непосредственно из наблюдаемых данных о поведении индивидов.
Особенность данного подхода – использование очень небольших сетей, состоящих от одного до четырёх скрытых элементов, что позволяет упростить процесс интерпретации их работы. Несмотря на минимальную архитектуру, такие сети превосходят классические когнитивные модели с аналогичной численностью динамических переменных и демонстрируют схожие результаты с более крупными нейронными сетями при прогнозировании решений отдельного животного или человека. Исследования проводились на шести популярных задачах обучения с поощрением, охватывающих как животных, так и людей, что свидетельствует о высокой универсальности метода. Важным преимуществом компактных РНС является возможность использования концепций динамических систем для анализа и визуализации внутренних процессов обучения и выбора. Это открывает путь к единой системе сравнения как между когнитивными моделями, так и между индивидуальными стратегиями, выявляя новые, ранее не замеченные закономерности.
Например, анализ выявил вариабельные темпы обучения, зависимость устойчивости выбора от текущего состояния, а также оригинальные формы обновления ценностей и возникновения предвзятостей в выборе. Более того, данный фреймворк способен оценить размерность поведения, что помогает понять, сколько ключевых функций прошлых ситуаций требуется для оптимального прогнозирования будущих решений. Использование компактных РНС позволяет избежать многих ограничений классических моделей, которые требуют жесткой предпосылки о структуре поведения. Искусственные сети, в отличие от них, обладают значительно большей гибкостью благодаря большему числу регулируемых параметров, что позволяет им адекватнее «подстраиваться» под данные реальных субъектов без необходимости ручного введения новых предположений. Тем не менее высокая гибкость может предъявлять требования к количеству данных для тренировки — для качественного обучения требуется порядка нескольких сотен или тысяч испытаний на одного участника.
Для решения проблемы с ограниченным числом испытаний у людей была разработана система «передачи знаний» — метод, при котором большая, сложная сеть («учитель») обучается на сводных данных многих участников, а затем «студент» — компактная сеть, обучается имитировать поведение конкретного человека, опираясь на рекомендации учителя. Это значительно сокращает необходимое количество данных для достижения высокой точности и позволяет использовать компактные модели в экспериментах с ограниченным объемом данных. Компактные РНС успешно применяются для анализа широкого круга задач, включая классические и современные версии обратного обучения, многоступенчатые решения и задачи с вероятностными переходами между состояниями. Они превосходят в точности прогнозирования как простые модели с линейными правилами обновления значений, так и даже оптимальные с теоретической точки зрения байесовские модели. Это свидетельствует не только о том, что животные и люди в реальности действуют не оптимально, но и что более гибкие, нервно-сетевые подходы позволяют лучше описать их стратегию.
Исследование с применением фазовых портретов и векторных полей внутри модели раскрывает глубокие характеристики поведения. Фазовые портреты для однопеременных моделей иллюстрируют эволюцию предпочтений при различных входных параметрах — комбинациях предыдущих действий и полученных наград. Так, в данных животных выявлены особенности, отсутствующие в классических моделях: изменяющаяся в зависимости от состояния скорость обучения, проявление устойчивости выбора, зависящей от контекста, а также предвзятость в сторону определенных действий, обусловленная компенсацией получаемых наград. При переходе к многомерным моделям появляются дополнительные нюансы: взаимодействие и взаимовлияние разных переменных состояния, такие как значения разных действий, имеют тенденцию обновляться не полностью независимо, а с определённой взаимозависимостью и дрейфом в сторону имеющихся предпочтений. Это отражается в отклонениях от традиционных схем обучения с забыванием и указывает на новые когнитивные алгоритмы, которые могут включать, например, смещение в выборе в сторону альтернативных действий как способ усреднения неопределённости.
Кроме того, компактные рекуррентные сети применимы не только к биологическому поведению, но и к искусственным агентам, обученным оптимальным стратегиям (мета-усиленное обучение). Анализ таких агентов с помощью описанных методов показывает, что их стратегия схожа с байесовскими моделями, однако присутствуют тонкие отклонения, связанные с эффектами исторического запоминания и искажениями представления условий, что открывает перспективы для более глубокого изучения искусственного интеллекта и его сравнений с биологическим интеллектом. Одним из наиболее значимых последствий данного исследования является демонстрация того, что когнитивное поведение, как у животных, так и у людей, в широко используемых экспериментах с выбором, имеет низкую размерность. Это значит, что для предсказания поведения достаточно ограниченного количества динамических переменных, что открывает путь для создания компактных и эффективных моделей, одновременно богатыми по когнитивным возможностям и удобными для интерпретации. Предложенный подход, сочетающий гибкость современных нейронных сетей и механистическую понятность классических моделей, создаёт фундамент для новых исследований как в области базовой науки о поведении и мышлении, так и в прикладных сферах, таких как вычислительная психиатрия.
Высокая точность индивидуальных предсказаний формирует основу для изучения межиндивидуальных различий, что важно для диагностики и лечения психических расстройств. Технические детали работы, включающие выбор архитектуры, алгоритмы оптимизации и методологию проверки моделей, имеют решающее значение для успеха. Использование GRU-слоев позволяет сохранять марковское свойство состояния модели и обеспечивает достаточную гибкость при сравнительно небольшом числе параметров. Методы регуляризации и ранней остановки предотвращают переобучение, что особенно актуально при ограниченном объёме данных. Также была разработана система тестирования и оценки моделей, основанная на перекрёстной проверке с разбиением данных на обучающее, валидационное и тестовое множества, что обеспечивает надёжность и объективность результатов.