С развитием искусственного интеллекта и появлением крупных языковых моделей (LLM), таких как ChatGPT, Gemini, Claude и другие, возникает важный вопрос об их способности не только предоставлять ответы, но и оценивать собственную уверенность в них. Уверенность — это критичная метакогнитивная характеристика, отражающая степень достоверности, с которой дается ответ. Для человека последствия ошибочной оценки собственной уверенности могут быть значительными, особенно в принятии решений и общении. Аналогично, понимание того, как искусственный интеллект выражает и оценивает свою уверенность, приобретает особую актуальность в контексте доверия пользователей и безопасного применения технологий. Многочисленные исследования, посвященные человеческой уверенности, выделяют две ключевые формы метакогнитивной точности.
Абсолютная метакогнитивная точность (также называемая калибровкой) измеряет соответствие между фактической правильностью ответов и субъективной уверенностью в них. Если человек часто переоценивает свои способности, это приводит к эффекту переоценки — проявлению завышенной уверенности или чрезмерного оптимизма. Отдельно выделяют относительную метакогнитивную точность, обозначающую умение различать более и менее точные ответы, то есть присваивать более высокий уровень уверенности правильным ответам по сравнению с ошибочными. Несмотря на кладезь знаний о человеческих метакогнитивных процессах, исследования, посвященные метакогниции в области искусственного интеллекта, особенно в контексте LLM, только начали активно развиваться. Крупные языковые модели функционируют с помощью предсказания следующего слова на основе многих параметров и огромного объема обучающих данных, что накладывает определенные ограничения на их внутренние когнитивные и метакогнитивные механизмы.
В отличие от человека, способного обращаться к внутреннему опыту, эмоциям и непосредственному чувству знания или незнания (так называемым мнемоническим или внутримышечным сигналам), модели опираются исключительно на статистические корреляции и вероятностные оценки. Одно из недавних емких исследований, проведенных командой из Карнеги-Меллона, представляло собой серию пяти последовательных экспериментов, в которых оценивалась точность уверенности LLM в сравнении с человеческими участниками. Анализ охватывал множество доменов — от прогнозирования спортивных событий и кинопремий (область aleatory, то есть связанная с непредсказуемыми событиями будущего) до выполнения игровых задач и ответов на сложные викторины (область epistemic, где знание, в теории, доступно, но не полностью известно). Результаты оказались весьма насыщенными и многогранными. В целом LLM демонстрировали уровень абсолютной и относительной метакогнитивной точности, сопоставимый или, в ряде случаев, слегка превосходящий человеческий.
Это стало неожиданным свидетельством того, что, несмотря на отсутствие «осознания» в традиционном смысле, модели способны вырабатывать обоснованные оценки собственной уверенности в ответах. При этом общая тенденция и для людей, и для моделей — склонность переоценивать собственные возможности, проявляя смещение в сторону чрезмерной уверенности. Однако ключевым отличием было то, что в отличие от людей, LLM зачастую не умеют корректировать свои оценки уверенности в зависимости от индивидуального опыта или предыдущих результатов. Человеческий мозг, получив обратную связь в ходе задания, обычно улучшает соответствие между уверенностью и фактической точностью. Модели же демонстрируют ограниченную способность к такому обучению, что указывает на отсутствие или слабое развитие метакогнитивного механизма обновления информации о собственной эффективности.
Эта особенность может быть связана с отсутствием у LLM доступа к внутренним, эмпирическим «чувствам» выполнения задачи, которые мозг использует для корректировки уверенности. Вместо этого искусственный интеллект базируется на статистических паттернах и вероятностных характеристиках слова и фраз. Так, внутренние маркеры, такие как вероятность совпадения токенов (token likelihood), служат моделью для измерения «удивления» — чем менее ожидаемым является ответ, тем ниже уверенность. Но это не всегда культивируется в эксплуатационные метки уверенности, понятные и полезные для пользователей. Одним из интересных направлений стало изучение различий в работе с алеторной и эпистемической неопределенностью.
Задачи с алеторной неопределенностью, например прогнозирование спортивных или премиальных результатов, оказались более подходящими для моделей в части выражения уверенности, их метакогнитивные показатели в этих задачах были выше, что может отражать ограниченный доступ человека к репрезентациям статистической неопределенности в будущем. В то же время в задачах с эпистемической неопределенностью, требующих синтеза знаний, интеграции данных и субъективной оценки, люди зачастую проявляли чуть лучшее понимание собственных ошибок и корректность уверенности. Это свидетельствует о том, что эмпирический опыт, память и ощущение затруднения играют важную роль в построении метакогнитивных оценок, и LLM пока что не в состоянии воспроизвести эти аспекты полноценно. Ряд экспериментов также отметили расхождения в прогнозах моделей по сложным визуальным задачам, включая распознавание изображений и рисунков, когда модели иногда испытывали затруднения и проявляли меньшую точность, а также менее адекватные оценки уверенности. Это подтверждает важность мультимодальности и умения корректно сочетать данные разного вида для оценки вероятностей успеха.
Практические выводы из таких исследований помогают осознать, что хотя крупные языковые модели могут быть информативными и выдавать ответы с высокой точностью, их упрямство в пересмотре собственной уверенности по итогам работы требует принятия во внимание при их использовании. Пользователям стоит подходить к получаемой информации с долей скептицизма и использовать внешние источники проверки. Разработка новых методов повышения метакогнитивной прозорливости LLM, включая более точное калибрование лингвистических выражений уверенности и расширение обратной связи, становится важной областью исследований. Нельзя также забывать, что одинаковый уровень точности уверенности не свидетельствует о похожих механизмах для человека и искусственного интеллекта. Человеческая метакогнитивная система опирается на личный опыт, эмоциональные и когнитивные сигналы, тогда как LLM отражают статистическую закономерность.
Это порождает ряд дискуссий о том, насколько данный интеллект является действительно «сознательным» или лишь имитирует поведение, наблюдаемое в человеческих данных. Исследования в этой области продолжаются, и в ближайшие годы можно ожидать прогресс как в понимании, так и в инженерных решениях для повышения качества и надежности метакогнитивных оценок у искусственного интеллекта. Открытые модели и новые подходы в обучении и взаимодействии с пользователями позволят сократить пробелы между способностями человека и машины в области самопознания и осознания неопределенности. Таким образом, на данный момент крупные языковые модели демонстрируют относительно высокую точность в выражении уверенности, что внушает оптимизм для широкого применения ИИ. Однако при их использовании важно осознавать их ограничения — особенно недостаток адаптации и обучения на собственных ошибках.
Благодаря пониманию этих особенностей возможно построение более эффективных систем, комбинирующих человеческий опыт и искусственный интеллект для принятия взвешенных решений в условиях неопределенности.