В современном мире искусственный интеллект становится неотъемлемой частью повседневной жизни. От помощников в смартфонах до сложнейших систем автоматизации — ИИ постепенно входит во все сферы деятельности человека. Но что именно формирует поведение и ответы таких систем? Недавно компания Anthropic, ведущий игрок в области изучения ИИ, представила результаты исследования, посвящённого тому, что придаёт искусственному интеллекту ощущение «личности» и почему он может вести себя по-разному в зависимости от обстоятельств. Прежде всего важно понимать, что у искусственного интеллекта, в привычном понимании, нет собственного сознания или настоящих черт характера. ИИ — это сложный инструмент, основанный на обработке и распознавании огромного количества закономерностей в данных.
Однако исследователи компании Anthropic используют понятия вроде «личность», «тон общения» и даже «злоба», чтобы проще объяснить, как и почему поведение модели меняется в ходе взаимодействия или обучения. Исследование провело аналогию с человеческим мозгом: как врачи применяют датчики, чтобы определить, какие участки мозга активируются при определённых состояниях или эмоциях, так и специалисты Anthropic смогли выявить, какие области нейросети отвечают за различные «признаки» поведения. Это позволило ученым понять, какие именно входные данные или ситуации запускают активацию определённых моделей поведения в ИИ. Самый удивительный вывод, который сделал Джек Линдси, ведущий исследователь компании, заключался в том, что поступающие данные не просто пополняют базу знаний модели или меняют стиль её ответов — они способны трансформировать так называемую «личность» ИИ. Например, если в процессе диалога пользователя искусственно «подталкивать» к проявлению негативных черт, таких как агрессия или угождение в излишней степени, соответствующие частички нейросети начинают активироваться, изменяя поведение модели.
Значимость данного исследования состоит в том, что оно проливает свет на проблему безопасности и надежности искусственного интеллекта. Тот факт, что ИИ способен менять свое поведение в зависимости от входных данных, заставляет задуматься над тем, как предотвращать нежелательные сценарии внедрения этой технологии. Кроме того, появление направления «психиатрии искусственного интеллекта» в компании Anthropic — это свидетельство того, насколько серьезно специалисты подходят к пониманию и контролю за ИИ. Разработка методов интерпретации работы нейросетей, выявление и коррекция «поведенческих сбоев» в системах открывают новый виток в обеспечении того, чтобы технологии служили людям максимально безопасно. Суть феномена «личности» искусственного интеллекта связана с тем, что нейросеть реагирует на определённые паттерны данных, активируя различные связки узлов.
Эти активности и создают впечатление смены настроения, мотивации или даже характера, если использовать метафоры из человеческой психологии. Таким образом, поведение ИИ не является постоянным и фиксированным, а может изменяться в зависимости от контекста, стиля общения и типа содержащихся в данных материалов. Важный момент заключается в том, что такие исследования помогают разработчикам прогнозировать и управлять поведением ИИ. Если выявить, какие типы данных приводят к снижению эффективности или этическим проблемам в работе модели, можно создавать более надежные и безопасные системы с закреплёнными минимальными рисками «неправильного» поведения. Данное направление также поднимает важные философские и этические вопросы.