С развитием больших языковых моделей (БЯМ) в последние годы вырос интерес к различным техникам взаимодействия с ними, направленным на улучшение качества генерируемого контента. Одной из популярных методик одновременно среди исследователей и практиков стала так называемая «роль-подстановка» или использование персон. Суть этой техники состоит в том, чтобы задавать модели определённую «персону» — роль или образ, который модель должна принять перед тем, как выполнить задание. Часто встречаются запросы в духе «Ты — эксперт в маркетинге», «Ты — опытный врач с 20-летним стажем», «Ты — старший разработчик с глубокими знаниями в Java» и тому подобное. Создаётся впечатление, что такая подача позволяет активировать скрытые знания модели, повысить фокус внимания и добиться более релевантных и содержательных ответов.
Однако остается открытым вопрос: действительно ли персоны влияют на производительность и точность моделей, или это лишь психологический эффект, улучшающий восприятие результатов пользователем? Чтобы ответить на этот вопрос, логично обратиться к современным исследованиям и экспериментам, проведённым в разных областях применения БЯМ. В математике и символических вычислениях одни из первых работ всё же показали некоторую эффективность персонифицированного подхода. К примеру, исследование с использованием модели Llama-7B и персоны «полезный математик» продемонстрировало небольшой, но заметный прирост точности на задаче решения математических словесных задач. Однако последующие эксперименты, в том числе с применением «цепочки рассуждений» (Chain of Thought), указывали на обратный эффект — использование персоны могло приводить к снижению производительности или путанице модели. В этой области выводы остаются неокончательными, а эффективность зависит от конкретной модели, способа применения роли и условий задачи.
Персоны проявляют себя лучше в задачах открытого типа, где нет единственно правильного ответа, и важна стилистическая подача, контекст или глубина понимания. Исследования в области общих вопросов с элементами здравого смысла демонстрируют небольшой рост точности при использовании экспертных персон для вопросов высокой неопределённости. Однако в жёстко структурированных задачах на выбор из ограниченного множества вариантов улучшений совершенно нет. В медицинской сфере применение персон оказалось наиболее впечатляющим из доступных публикаций. В одном из исследований, оценивших ответы нескольких популярных языковых моделей на вопросы о замене коленного сустава, ChatGPT-4 с ролью «опытного ортопеда» показал значительное повышение качества по сравнению с нейтральным состоянием.
Этот результат подчеркивает, что в прикладных и узкоспециализированных областях, где учитывается тон и специфика экспертного языка, персоны могут играть действительно важную роль. Что касается программирования и генерации кода, исследования настроены более скептически. Большое количество экспериментов с популярными моделями, такими как CodeLlama, показали, что смена персон или вариации в формулировках запросов почти не влияли на результат с точки зрения исправления логических ошибок и качества конечного кода. Несмотря на то что субъективное восприятие, например оценка идей разработки, могло изменяться под влиянием ролей, объективная польза для автогенерации безопасных, эффективных и корректных программных решений весьма ограничена. Такой эффект можно объяснить тем, что языковые модели в сфере программирования в большей степени ориентируются на синтаксис и структуру, нежели на тон и стиль, в отличие от письменных текстов в маркетинге или медицине.
Основная причина неоднозначности результатов заключается в том, что БЯМ на самом деле не обладают сознанием или сознательными знаниями. Они работают за счет статистической обработки огромного массива текстов, на основе которого вычисляют наиболее вероятные варианты продолжения. Роль-подстановка скорее задаёт стиль, рамки и контекст, в котором модель работает, но не добавляет новых знаний. Таким образом, часть эффекта улучшения связана с тем, что мы сами воспринимаем ответы, созданные в нужном «голосе», как более компетентные, даже если объективно качество не изменилось. Несмотря на это, использование персон остается полезным инструментом для повышения удобства взаимодействия с моделями, особенно когда важен тон, формальность или проявление определённой экспертности в разговоре.
Например, составление официальных писем, презентаций, публичных выступлений или текстов с узкой тематикой значительно выигрывает от подобной настройки запроса. Отдельный перспективный путь — развитие сложных сценариев с несколькими моделями, выступающими в разных ролях («многоагентные системы»), где внутренняя дискуссия между «персонами» приводит к более проработанным и сбалансированным решениям. В конечном итоге, несмотря на отсутствие чётких доказательств эффективности персон в широком спектре задач, они остаются востребованным приёмом и имеют потенциал стать эффективнее по мере развития технологий. Появление новых техник, улучшение архитектур моделей и более глубокое исследование способов взаимодействия с БЯМ могут вывести роль-подстановку из категории стилистического инструмента в полноценный элемент управления знаниями и генерацией. В заключение важно помнить, что персоны — это лишь один из многих вариантов настройки работы модели.
Их применение не заменит грамотную формулировку запроса и понимание специфики задачи. Однако, при аккуратном и осознанном использовании, они способны существенно обогатить опыт и повысить качество взаимодействия с большими языковыми моделями, делая их ответы не только более точными, но и более «человечными». Текущие исследования и практические кейсы сигнализируют о наступлении эпохи, когда искусственный интеллект перестанет быть простым генератором текста, а станет настоящим партнёром в сложных интеллектуальных задачах — и персоны здесь могут сыграть ключевую роль.