Современные технологии искусственного интеллекта стремительно развиваются, и одним из наиболее заметных достижений последних лет стали крупные языковые модели (Large Language Models, LLM). Модели вроде ChatGPT, Gemini и Claude демонстрируют впечатляющие навыки понимания и генерации текстов, что открывает новые возможности для взаимодействия человека и машины. Однако наряду с непревзойденной способностью к обработке информации возникает вопрос их способности к метакогнитивным функциям, в частности, к точной оценке собственной уверенности при выдаче ответов на вопросы. Это критичный аспект, поскольку правильное осознание своих ограничений позволяет минимизировать риски ошибочной интерпретации и повышает доверие пользователей к системам ИИ. Исследования в области психологии с недавним включением ИИ-агентов сосредоточены на сравнении точности оценок уверенности у людей и LLM.
Под метакогнитивной точностью понимаются два ключевых показателя: абсолютная и относительная точность. Абсолютная точность отражает, насколько субъективные оценки правильности ответов совпадают с реальными результатами. Относительная точность показывает, насколько хорошо система различает, какие из отдельных ответов вероятно верны, а какие — нет, то есть насколько точно она соотносит уровень уверенности с действительными успехами. Многочисленные эксперименты были проведены с участием различных LLM и человеческих испытуемых в многодоменных условиях, охватывающих задачи, связанные как с aleatory uncertainty (стохастическая неопределенность, например, прогнозы будущих событий), так и epistemic uncertainty (эпистемическая неопределенность, связанная с ограниченностью знаний). В рамках исследований рассматривались такие ситуации, как прогнозирование результатов матчей Национальной футбольной лиги США (NFL), предсказание лауреатов кинопремии «Оскар», участие в игре Pictionary, ответы на сложные триваивопросы и вопросы, основанные на закрытых данных университетской среды.
Результаты показали, что LLM в целом демонстрируют метакогнитивную точность, сопоставимую с уровнем человека, а в отдельных аспектах — превосходящую его. Например, ChatGPT и Gemini зачастую обладают лучшей абсолютной точностью оценок своей уверенности, чем среднестатистический пользователь. Это связано с их способностью анализировать огромные объемы информации и вычислять статистические вероятности на основе внутренних показателей, таких как «величина неожиданности» (token likelihood), что помогает им давать более точные прогнозы своих успехов. Тем не менее, обе системы ИИ и люди склонны к эффекту переоценки собственной уверенности, проявляющемуся преимущественно в форме переоценки (overconfidence). Это явление известно в психологии как одна из характерных когнитивных искажений, и его присутствие в LLM подчеркивает, что несмотря на вычислительные возможности, модели не застрахованы от ошибок субъективного характера.
Интересным наблюдением является различие между лингвистическими и статистическими аспектами метакогнитивных процессов. LLM, в отличие от людей, не обладают «мнезматическими» (опытными) подсказками — внутренними ощущениями о сложности задачи или процессе поиска информации, которые человек успешно использует для корректировки своей уверенности на основе прошлых успехов или неудач. В исследованиях было замечено, что люди, пройдя испытание, чаще всего корректируют свои оценки — их ретроспективные оценки становятся более точными. В то же время LLM чаще демонстрируют обратную тенденцию, ретроспективно их уверенность ухудшается, что свидетельствует о недостатке способности к обучению на собственном опыте и отсутствии метакогнитивного саморефлексивного контроля. Относительная метакогнитивная точность варьируется в зависимости от задачи и домена.
В областях с aleatory uncertainty, LLM проявляют преимущество или равенство с людьми, а при работе с epistemic uncertainty результаты более переменные. Причина кроется в том, что в задачах с неопределенностью, связанной с будущим и случайными событиями, модели могут эффективно оперировать статистическими вероятностями, тогда как в задачах, требующих глубоких знаний и синтеза информации, человеческая способность использовать внутренние ощущения и опыт оказывается более полезной. Кроме того, исследование демонстрирует, что различные модели LLM имеют разные профили метакогнитивных способностей. Например, модели Claude Sonnet и Claude Haiku чаще проявляют лучшие показатели абсолютной метакогнитивной точности по сравнению с ChatGPT и Gemini, что подчеркивает важность непрерывного анализа и сравнения новых версий LLM. Еще один важный аспект — когнитивные и метакогнитивные сходства и различия между LLM и людьми на уровне отдельных заданий.
В некоторых экспериментах отмечались высокие корреляции между оценками людей и LLM, что свидетельствует о том, что модели распознают и оценивают схожие по трудности вопросы и проявляют похожие паттерны уверенности. В других случаях обнаруживались несоответствия, особенно при работе с вопросами, тесно относящимися к человеческим знаниям и опыту. Значение этих результатов выходит далеко за рамки академических исследований. Точность и надежность оценок уверенности LLM напрямую влияют на их применимость в разных областях, таких как поддержка принятия решений, образование, медицина и юридические консультации. Понимание их метакогнитивных возможностей помогает пользователям устанавливать адекватное доверие к ответам ИИ, контролировать риски переоценки их знаний и улучшать взаимодействие с системами искусственного интеллекта.
Тем не менее, важно помнить, что стадии и механизмы формирования метакогнитивных оценок в LLM и человеке существенно отличаются. В то время как человек использует интроспекцию, субъективные ощущения и опыт, модели опираются на статистическую обработку больших корпусов данных и вероятностные алгоритмы. Это различие накладывает ограничения на то, насколько глубоко LLM способны к саморефлексии, в том числе к корректировке своих предположений на основе пройденного опыта. Вызовы, которые предстоит решить в будущем, включают расширение возможностей LLM по интеграции внешних и внутренних метакогнитивных сигналов, улучшение механизмов калибровки уверенности, а также совершенствование методов «обучения на метауровне», то есть способности учитывать результаты собственных действий для повышения точности последующих оценок. Также особое внимание следует уделить разработке гибких способов представления уверенности для конечных пользователей, обеспечивающих прозрачность и понятность метакогнитивных суждений.
Исследования по метакогнитивной точности LLM продолжаются, и наука стоит на пороге нового понимания того, как искусственный интеллект может не только выполнять сложные задачи, но и адекватно оценивать свои сильные и слабые стороны. Это, в свою очередь, создает основу для повышения надежности ИИ-систем и обеспечения их более безопасного и эффективного внедрения в человеческое общество. Таким образом, анализ точности оценок уверенности крупных языковых моделей показывает, что современные LLM, несмотря на некоторые ограничения, способны демонстрировать метакогнитивные характеристики, сходные с человеческими, а иногда и превосходить их в отдельных аспектах. Это вызывает оптимизм в отношении дальнейшего развития ИИ, но одновременно подчеркивает необходимость дальнейших исследований и ответственного подхода к их практическому использованию.