Стартапы и венчурный капитал

Точность оценки уверенности в больших языковых моделях: исследование метакогнитивных возможностей ИИ

Стартапы и венчурный капитал
Quantifying uncert-AI-nty: Testing the accuracy of LLMs' confidence judgments

Анализ способности больших языковых моделей (LLM) оценивать собственную уверенность и точность этих оценок в сравнении с людьми на различных задачах, включая прогнозирование, игры и викторины.

С развитием искусственного интеллекта на основе больших языковых моделей (LLM), таких как ChatGPT, Gemini, Claude и других, общество сталкивается с новой формой взаимодействия с информацией. Эти модели способны отвечать на самые разнообразные вопросы и выполнять сложные когнитивные задачи, но важным аспектом их работы является способность экстраполировать степень уверенности в своих ответах. Понимание точности таких уверенных суждений критично для правильного использования ИИ и оценки надежности его рекомендаций. Уверенность — это своеобразное метакогнитивное суждение, когда система (или человек) оценивает вероятность правильности своего ответа. Для людей эта способность важна в повседневной коммуникации и принятии решений, помогая другим оценить, насколько можно доверять сказанному.

Аналогичные метакогнитивные функции у LLM открывают новые перспективы, однако они сулят и определённые сложности. Современные исследования сосредоточены на сравнении метакогнитивных возможностей больших языковых моделей и человека. При этом основное внимание уделяется двум ключевым параметрам: абсолютной и относительной точности уверенности. Абсолютная точность (калибровка) отражает, насколько уровень субъективной уверенности совпадает с объективной точностью ответа в среднем. Относительная точность (разрешающая способность) проверяет, умеет ли система различать более и менее правильные ответы и выставлять для них разные уровни уверенности.

Эксперименты проводились в разнообразных доменах, включая прогнозирование исходов спортивных матчей и кинопремий, игру в Pictionary, викторины по фактам, а также вопросы, связанные с жизнью в университете. Такой широкий спектр задач позволил выделить особенности работы LLM в условиях aleatory (случайной) и epistemic (обусловленной неполнотой знаний) неопределённости. Результаты показали, что в целом большие языковые модели способны достигать уровня метакогнитивной точности, сравнимого или превышающего средние значения среди человеческих участников. Например, модели ChatGPT и Gemini демонстрировали хорошую калибровку в задачах прогнозирования, иногда переигрывая людей в абсолютной точности оценки. Однако, как и люди, многие LLM склонны к избыточной уверенности — избыточной оценке своих возможностей и правильности ответов.

Любопытный аспект заключался в том, что в отличие от людей, языковые модели зачастую не улучшали свои метакогнитивные оценки после выполнения задачи. То есть они не адаптировали уровень уверенности в зависимости от своего предыдущего результата. Это указывает на отсутствие у моделей доступа к тем ощущениям и внутренним состояниям, которые в психологии называют мнемоническими метакогнитивными сигналами. Люди, напротив, зачастую становятся более объективными в своих оценках после прохождения испытания, что связано с эффектом обучения и саморефлексии. В задачах, требующих знания фактов, точность метакогнитивных оценок моделей оказалась более разнородной.

Одни модели, например Claude Sonnet, показывали более консервативный стиль — склонность к недооценке собственных знаний и, соответственно, более точную калибровку. Другие LLM были избыточно уверенными, что может создавать ложное впечатление экспертности для пользователей. Также наблюдалось, что относительная точность — способность выделять более и менее точные ответы — в некоторых случаях была выше у моделей, чем у людей, возможно, из-за способности усваивать большой объём статистической информации во время обучения. Анализ когнитивной и метакогнитивной схожести на уровне отдельных заданий выявил интересные закономерности. В некоторых доменах, особенно связанных с интеграцией знаний и визуальным восприятием, модели и люди часто сталкивались с одними и теми же сложностями, демонстрируя взаимно коррелирующие профили уверенности и ошибок.

В других задачах, особенно связанных с конкретными фактами, сходство существенно снижалось — модели и люди находили разные вопросы сложными и демонстрировали разные паттерны уверенности. Важным выводом стало то, что идентичные уровни метакогнитивной точности не обязательно подразумевают идентичные процессы. Люди используют сочетание внутреннего переживания, контекста выполнения задачи и предшествующего опыта, в то время как LLM опираются преимущественно на статистические закономерности, извлечённые из обширных тренировочных данных. Поэтому метакогнитивные оценки ИИ могут отражать скорее прогнозы на основе вероятностей, а не истинное самосознание или интроспекцию. Несмотря на ряд ограничений и специфичностей исследования, результаты позволяют сделать важные практические выводы.

Во-первых, пользователям LLM следует учитывать тенденцию моделей к избыточной уверенности и относиться к их ответам с критическим мышлением. Во-вторых, разработчикам стоит учитывать ограниченность возможностей моделей по адаптации уверенности на основе опыта, что может стать целью улучшений в будущих версиях. В-третьих, результаты подчеркивают необходимость дальнейших исследований в области метакогнитивных функций ИИ, включая влияние параметров настройки, таких как температура сэмплирования, и эффектов «персонализаций» на точность оценки уверенности. В целом, исследование подтверждает, что современные большие языковые модели — это мощные и развивающиеся инструменты, демонстрирующие впечатляющие когнитивные возможности. Однако понимание и развитие их метакогнитивных аспектов критично для обеспечения надежности, безопасности и эффективности применения ИИ в различных сферах жизни.

Продолжение исследований в этом направлении поможет создать более прозрачные и ответственные системы, способные лучше коммуницировать уровень своей уверенности и, соответственно, повысить уровень доверия между человеком и машиной.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Japanese Firm Remixpoint Raises $215M For Its BTC Treasury - Cointelegraph
Среда, 05 Ноябрь 2025 Японская компания Remixpoint привлекла $215 миллионов для расширения Bitcoin-резерва

Крупная японская энергетическая и финтех-компания Remixpoint привлекла 31,5 миллиарда иен (около $215 миллионов) для значительного увеличения своих запасов Bitcoin. Компания намерена довести свой Bitcoin-резерв до 3000 BTC, демонстрируя растущую тенденцию корпоративных инвестиций в криптовалюту в Японии и за ее пределами.

Musk Predicts a “Few Rough Quarters” Ahead. Is Tesla Stock Still a Good Buy?
Среда, 05 Ноябрь 2025 Илон Маск предупреждает о трудных кварталах: стоит ли сейчас покупать акции Tesla?

Разбор последних финансовых результатов Tesla и прогнозы Илона Маска на ближайшие кварталы, анализ ситуации на рынке и перспективы инвестиций в компанию в условиях современных вызовов и конкуренции.

Netflix Stock Ready to Move Back Toward Record Peak
Среда, 05 Ноябрь 2025 Акции Netflix готовятся к возвращению к рекордным максимумам

Подробный анализ текущей ситуации на рынке акций Netflix показывает значительный потенциал их роста до рекордного уровня, а также раскрывает ключевые причины и технические индикаторы, поддерживающие оптимистичный прогноз для инвесторов.

Progress in Trade Talks Supports Energy Demand and Crude Prices
Среда, 05 Ноябрь 2025 Прогресс в торговых переговорах поддерживает спрос на энергоресурсы и цены на нефть

Развитие торговых переговоров между ключевыми мировыми игроками способствует укреплению мирового спроса на энергоресурсы и положительно влияет на цены на сырую нефть, несмотря на смешанные экономические данные и геополитические вызовы.

Europe's CISPE challenges Broadcom's $69 billion VMware deal in EU court
Среда, 05 Ноябрь 2025 CISPE обжалует сделку Broadcom и VMware на $69 миллиардов в суде ЕС: что стоит за крупнейшим спором в мире технологий

Обжалование сделки по приобретению VMware компанией Broadcom становится серьезным вызовом для технологического рынка Европы. Ключевые аспекты конфликта, мнения экспертов и возможные последствия для европейской отрасли облачных услуг.

Blackstone Sets Industry Record With $1.2 Trillion In Assets
Среда, 05 Ноябрь 2025 Blackstone достигает рекордных $1,2 триллиона активов под управлением: новый уровень в инвестиционной индустрии

Blackstone, один из крупнейших альтернативных управляющих активами, установил новый отраслевой рекорд, превысив отметку в $1,2 триллиона активов под управлением. Это достижение подчеркивает устойчивый рост компании и её влияние на мировой инвестиционный рынок.

Tokenization is gaining ground in the crypto world. Here’s what to know
Среда, 05 Ноябрь 2025 Токенизация в криптомире: как цифровые активы меняют финансовый ландшафт

Токенизация финансовых активов становится важным трендом в криптовалютной индустрии, открывая новые возможности для ликвидности и доступности рынков. Рассмотрены основные аспекты, преимущества, текущие вызовы и перспективы развития технологии в России и мире.