С развитием искусственного интеллекта на основе больших языковых моделей (LLM), таких как ChatGPT, Gemini, Claude и других, общество сталкивается с новой формой взаимодействия с информацией. Эти модели способны отвечать на самые разнообразные вопросы и выполнять сложные когнитивные задачи, но важным аспектом их работы является способность экстраполировать степень уверенности в своих ответах. Понимание точности таких уверенных суждений критично для правильного использования ИИ и оценки надежности его рекомендаций. Уверенность — это своеобразное метакогнитивное суждение, когда система (или человек) оценивает вероятность правильности своего ответа. Для людей эта способность важна в повседневной коммуникации и принятии решений, помогая другим оценить, насколько можно доверять сказанному.
Аналогичные метакогнитивные функции у LLM открывают новые перспективы, однако они сулят и определённые сложности. Современные исследования сосредоточены на сравнении метакогнитивных возможностей больших языковых моделей и человека. При этом основное внимание уделяется двум ключевым параметрам: абсолютной и относительной точности уверенности. Абсолютная точность (калибровка) отражает, насколько уровень субъективной уверенности совпадает с объективной точностью ответа в среднем. Относительная точность (разрешающая способность) проверяет, умеет ли система различать более и менее правильные ответы и выставлять для них разные уровни уверенности.
Эксперименты проводились в разнообразных доменах, включая прогнозирование исходов спортивных матчей и кинопремий, игру в Pictionary, викторины по фактам, а также вопросы, связанные с жизнью в университете. Такой широкий спектр задач позволил выделить особенности работы LLM в условиях aleatory (случайной) и epistemic (обусловленной неполнотой знаний) неопределённости. Результаты показали, что в целом большие языковые модели способны достигать уровня метакогнитивной точности, сравнимого или превышающего средние значения среди человеческих участников. Например, модели ChatGPT и Gemini демонстрировали хорошую калибровку в задачах прогнозирования, иногда переигрывая людей в абсолютной точности оценки. Однако, как и люди, многие LLM склонны к избыточной уверенности — избыточной оценке своих возможностей и правильности ответов.
Любопытный аспект заключался в том, что в отличие от людей, языковые модели зачастую не улучшали свои метакогнитивные оценки после выполнения задачи. То есть они не адаптировали уровень уверенности в зависимости от своего предыдущего результата. Это указывает на отсутствие у моделей доступа к тем ощущениям и внутренним состояниям, которые в психологии называют мнемоническими метакогнитивными сигналами. Люди, напротив, зачастую становятся более объективными в своих оценках после прохождения испытания, что связано с эффектом обучения и саморефлексии. В задачах, требующих знания фактов, точность метакогнитивных оценок моделей оказалась более разнородной.
Одни модели, например Claude Sonnet, показывали более консервативный стиль — склонность к недооценке собственных знаний и, соответственно, более точную калибровку. Другие LLM были избыточно уверенными, что может создавать ложное впечатление экспертности для пользователей. Также наблюдалось, что относительная точность — способность выделять более и менее точные ответы — в некоторых случаях была выше у моделей, чем у людей, возможно, из-за способности усваивать большой объём статистической информации во время обучения. Анализ когнитивной и метакогнитивной схожести на уровне отдельных заданий выявил интересные закономерности. В некоторых доменах, особенно связанных с интеграцией знаний и визуальным восприятием, модели и люди часто сталкивались с одними и теми же сложностями, демонстрируя взаимно коррелирующие профили уверенности и ошибок.
В других задачах, особенно связанных с конкретными фактами, сходство существенно снижалось — модели и люди находили разные вопросы сложными и демонстрировали разные паттерны уверенности. Важным выводом стало то, что идентичные уровни метакогнитивной точности не обязательно подразумевают идентичные процессы. Люди используют сочетание внутреннего переживания, контекста выполнения задачи и предшествующего опыта, в то время как LLM опираются преимущественно на статистические закономерности, извлечённые из обширных тренировочных данных. Поэтому метакогнитивные оценки ИИ могут отражать скорее прогнозы на основе вероятностей, а не истинное самосознание или интроспекцию. Несмотря на ряд ограничений и специфичностей исследования, результаты позволяют сделать важные практические выводы.
Во-первых, пользователям LLM следует учитывать тенденцию моделей к избыточной уверенности и относиться к их ответам с критическим мышлением. Во-вторых, разработчикам стоит учитывать ограниченность возможностей моделей по адаптации уверенности на основе опыта, что может стать целью улучшений в будущих версиях. В-третьих, результаты подчеркивают необходимость дальнейших исследований в области метакогнитивных функций ИИ, включая влияние параметров настройки, таких как температура сэмплирования, и эффектов «персонализаций» на точность оценки уверенности. В целом, исследование подтверждает, что современные большие языковые модели — это мощные и развивающиеся инструменты, демонстрирующие впечатляющие когнитивные возможности. Однако понимание и развитие их метакогнитивных аспектов критично для обеспечения надежности, безопасности и эффективности применения ИИ в различных сферах жизни.
Продолжение исследований в этом направлении поможет создать более прозрачные и ответственные системы, способные лучше коммуницировать уровень своей уверенности и, соответственно, повысить уровень доверия между человеком и машиной.