Современные нейронные сети традиционно основываются на грамотном подборе архитектуры и интенсивном обучении весовых параметров для достижения высокой эффективности в разнообразных задачах — от классификации изображений до управления робототехникой. Однако, несмотря на впечатляющие достижения, процесс обучения весов зачастую требует значительных вычислительных ресурсов и времени. В этой связи исследование, посвящённое весовым агностическим нейронным сетям (Weight Agnostic Neural Networks, WANNs), вызывает заслуженный интерес, предлагая принципально иной взгляд на роль архитектуры и весов в нейросетевых моделях.Весовые агностические нейронные сети представляют собой модели, способные с минимальной или вовсе без явной настройки весов успешно выполнять конкретные задачи. Их секрет заключается в оптимизации топологии, то есть структуры сети, таким образом, чтобы сама архитектура уже имела сильный внутренний индуктивный байас — склонность к решению определённого класса задач.
Реализация идеи сводится к тому, что все соединения в сети получают один общий весовой коэффициент, который меняется в ходе оценок сети, без индивидуальной адаптации весов под каждое соединение.Принципиально важно подчеркнуть, что идея WANN противоречит классическому подходу, где именно веса реализуют логику решения, а архитектура — простое каркасное строение. Напротив, весовая агностика ставит во главу угла архитектуру, сводя значимость весов к минимуму или даже исключая обучение весов из процедуры. В итоге сеть оказывается способной к решению задач по своей форме, а не по обученным параметрам.Методология, лежащая в основе создания таких сетей, представляет собой процесс эволюционного поиска топологий, который оценивает каждую новую архитектуру не по обученным весам, а по её способности выполнять задачу при разных значениях единого весового параметра.
Для оценки эффективности создаваемых архитектур используется ряд испытаний, где вес присваивается всем связям сети одновременно, но варьируется в заданном диапазоне для проверки устойчивости решения. Такая оценка по многим весовым значениям позволяет сформировать среднюю производительность сети, характерную именно для топологии.Данный подход опирается на идеи из теории алгоритмической информации и принципа минимальной длины описания. Оптимизируется не столько качество с точки зрения точности или награды в задаче, сколько баланс между эффективностью работы и простотой архитектуры. То есть предпочтение отдаётся минимальным и ёмким топологиям, способным выполнять задачи без использования сложных весовых конфигураций.
Экспериментальные результаты свидетельствуют о впечатляющих способностях WANN в стандартных средах с непрерывным управлением. В частности, сложные задачи управления, такие как балансирование маятника в CartPoleSwingUp, передвижение двуногого робота по пересечённой местности BipedalWalker-v2 и вождение автомобиля в симуляции CarRacing-v0, были успешно решены сетями, которым не требовалась настройка индивидуальных весов. При этом, для повышения производительности достаточно было отрегулировать единственный общий вес, плавно меняя его в определённом интервале.Особенно примечательно, что созданные весовые агностические архитектуры зачастую гораздо компактнее и визуально проще традиционных моделей с индивидуально обученными весами, а количество связей в таких сетях может уступать классическим равнозначным архитектурам по параметрам более чем в десять раз. Это открывает возможности для создания лёгких, энергоэффективных нейросетевых контроллеров, пригодных для встраиваемых систем и устройств с ограниченными ресурсами.
В дополнение к задачам управления и оптимизации поведения агентом в средах с обратной связью, подход WANN продемонстрировал перспективные результаты и в области классификации, в частности, на известном датасете рукописных цифр MNIST. Весовые агностические сети, даже запущенные с рандомными весами, достигали намного более высоких результатов, чем случайные классификаторы, а сбор ансамбля решений с разными значениями общего веса значительно повышал точность. Таких уровней точности можно было бы добиться обычными методами только при сложном и длительном обучении модели.Одной из ключевых особенностей весовых агностических сетей является возможность их использования для формирования ансамблей моделей, воплощённых одним и тем же архитектурным каркасом. Различные значения общего веса трансформируют сеть в различные классификаторы или контроллеры, что само по себе является уникальной формой внутреннего разнообразия и повышает надёжность работы системы.
Эта идея прорывна, поскольку традиционные ансамбли требуют обучения множества отдельных моделей, тогда как WANN позволяет обходиться одним каркасом с вариациями единственного весового параметра.Методы поиска подходящей архитектуры имеют корни в эволюционных алгоритмах, в частности, в NEAT (NeuroEvolution of Augmenting Topologies) — широко используемой методике, которая одновременно оптимизирует структуру и веса. Однако отличие WANN в том, что оптимизация проводится только по структуре, пренебрегая встроенной обучаемостью весов. Мутации архитектур включают добавление новых узлов, создание новых связей и изменение используемых функций активации, среди которых оказались не только классические ReLU и сигмоиды, но и более экзотические, например, гауссовы, косинусоидальные и ступенчатые функции. Это разнообразие позволяет создавать архитектуры, которые интуитивно кодируют различные виды взаимосвязей и индуктивных свойств.
Отрывки из биологии служат вдохновением для весовых агностических сетей. В природе приматы и многие животные рождаются с врождёнными способностями, которые не требовали длительного обучения, как, например, способность утят плавать или ящериц быстро убегать от хищников. Аналогично, подобные свойства закладываются в архитектуру нейронных сетей, что позволяет им сразу же проявлять полезное поведение, даже если весовые параметры остаются не приспособленными или случайными.Помимо практической ценности, WANN также обещает новую перспективу для исследований в области машинного обучения и нейробиологии — объединение идей о том, что индуктивные свойства структуры сети формируют основу нейронных вычислений, тогда как обучение лишь уточняет и настраивает уже заложенный потенциал. Такой взгляд помог бы объяснить естественное сочетание врождённых и приобретённых навыков у живых существ и открыть пути к архитектурам искусственного интеллекта, более близким к природе и более устойчивым.
Несмотря на то, что весовые агностические нейронные сети пока не достигают уровня современных сверточных нейросетей в области распознавания изображений, достижение порядка 90% точности на таких стандартизированных задачах без весового обучения является демонстрацией потенциала и гибкости разработанного метода. Более того, весовые параметры могут быть дополнительно обучены для повышения производительности, используя традиционные или эволюционные алгоритмы, что делает WANN привлекательной как отправную точку для быстрого и эффективного старта обучения.В перспективе развитие весово-агностического подхода может быть направлено на объединение с идеями самообразования, многозадачного обучения и открытой адаптивности, где одна и та же архитектура могла бы кодировать множество навыков и переключаться между ними, меняя лишь общий весовой коэффициент или его распределение. Это открывает возможности для создания универсальных и компактных нейросетевых агентов, способных учиться и адаптироваться в изменяющихся средах с минимальными затратами на обучение.Подытоживая, весовые агностические нейронные сети представляют собой интересное направление, в котором архитектура выходит на первый план, а роль весов сводится к средствам повышения устойчивости и тонкой настройки.
Такие модели обретают интуитивный приоритет, что может помочь оптимизировать решения в сложных условиях, где обучение стандартным градиентным методам затруднено или невозможно. Развитие WANN даст импульс к созданию новых, инновационных архитектур и методов обучения, расширяющих границы возможностей искусственного интеллекта и приближающих его к биологическим прототипам.