В последние годы большие языковые модели (LLM) стали важной составляющей области искусственного интеллекта. Они успешно решают задачи генерации текста, перевода, составления кода, объяснения концепций и многое другое. Благодаря этому достижениям LLM получили широчайшее признание и активно внедряются во множество сфер деятельности – от медицины до образования и бизнеса. Тем не менее, далеко не всегда установлен факт, что модели по-настоящему понимают, что именно они демонстрируют. В классических тестах и бенчмарках языковые модели часто достигают высоких результатов, однако новое исследование, проведённое учёными из Гарварда, MIT и Чикагского университета, выявляет существенные ограничения в современных методах оценки.
Эти ограничения связаны с явлением, которое они называют «потемкинским пониманием» (Potemkin understanding). Потемкинское понимание стало новым термином в области исследований искусственного интеллекта, и его происхождение отсылает к легенде о Потёмкинских деревнях – фиктивных фасадах, созданных для впечатления высокопоставленных гостей. Так же, как и Потёмкинские деревни выглядели внушительно с первого взгляда, но не имели настоящей глубины, модели порой демонстрируют кажущееся знание или понимание, без реальной способности применять эти знания в практике. Основная идея, которую подчёркивают исследователи, заключается в том, что традиционные бенчмарки и оценки, используемые для тестирования LLM, часто измеряют не понимание в полном смысле, а поверхностную правильность ответов. Такие модели способны выдавать правильные определения, объяснять сложные концепции и формально выполнять задачи, однако при попытке приступить к их практическому применению – например, сгенерировать пример, проанализировать сложный кейс или построить устойчивую логику – они терпят поражение или демонстрируют внутренние противоречия.
Часто пользователи LLM могут столкнуться с ситуацией, когда модель с лёгкостью даёт идеальное определение литературного приема, тонко описывает математическую теорему или психологический эффект, но не может создать корректный пример для этих понятий. В исследовании приводится пример с поэтической схемой ABAB: модель способна описать её принципы, однако, пытаясь написать стихотворение в этом формате, зачастую допускает ошибки – пропуская рифмы или нарушая структуру. Более того, она может самостоятельно признать, что её собственное произведение не соответствует заявленному образцу, что для человека выглядело бы нелогично и странно. Это демонстрирует фундаментальные вопросы относительно того, что значит понимать концепции и знания в контексте искусственного интеллекта. По словам исследователей, отсюда вытекает ещё одно важное разграничение – между потемкинским пониманием и халлюцинациями, свойственными AI.
Халлюцинации, которые уже давно обсуждаются в научном сообществе, – это генерирование ложных фактов или информации, не имеющей под собой реальной основы. Их можно выявить с помощью фактических проверок и верификаций. Потемкинское же понимание касается именно концептуальной сферы знаний: модель создает видимость согласованного и осмысленного рассуждения, хотя на деле оно оказывается пустым, неустойчивым и склонным к внутренним противоречиям. Такая проблема гораздо сложнее выявляется, так как требует глубокого анализа когерентности, согласованности и способности применять концепты на практике. Чтобы понять, насколько распространён этот феномен, авторы работы предложили два подхода к оценке моделей.
Первый – составление человечески курированного бенчмарка, включающего 32 концепта из трёх разных областей: литературы, теории игр и психологии. Второй метод – автоматическая самопроверка модели, при которой она сначала генерирует ответ или пример, а затем должна оценить его соответствие собственному определению. Результаты оказались крайне показательными. В пределах бенчмарка модели действительно способны правильно дать определения в 94,2% случаев. Однако при необходимости применить эти знания – выполнять классификацию, генерацию или редактирование на основе концепции – они часто ошибаются, причём потом противоречат собственным же утверждениям.
В среднем показатели «потемкинских ошибок» составляли более 40-50% в различных задачах. Это говорит о том, что хотя модели «умеют» объяснять, они далеко не всегда способны эффективно и последовательно использовать знания в более сложных контекстах. Автоматизированный метод оценки показал высокую степень внутренней непоследовательности. Например, GPT-4o получил показатель противоречивости 0,64, где единица соответствует полному отсутствию осмысленности, а ноль – идеальной когерентности. Другие модели, такие как Claude 3.
5, показали схожие результаты, иногда даже хуже по отдельным тематическим направлениям – например, по теории игр. В то же время более простые модели вроде GPT-3.5-mini демонстрируют меньшую степень подобных ошибок, что исследователи связывают с меньшими амбициями и простотой генерации, а не с глубиной понимания. Особое внимание было уделено анализу специфик поведения моделей в разных предметных областях. Так, психологические предубеждения оказались наиболее доступными для внутреннего согласования моделей, тогда как теория игр представила наибольшие сложности и самые высокие показатели противоречия.
Это имеет интересные последствия для разработки и тестирования моделей: разные виды знаний требуют различных подходов и методов оценки. Одним из центральных выводов исследования стало положение, что традиционные бенчмарки, созданные с расчетом на человеческие ошибки и способы понимания, не всегда справедливы по отношению к нейросетям. Успешное прохождение ключевых вопросов, призванных показать наличие глубинного понимания, может в случае LLM свидетельствовать лишь о том, что модель обучилась ловко «имитировать» правильные ответы на основе статистических шаблонов и паттернов. Такой формализм не гарантирует, что модель сможет применить знания на практике и избежать драматических заблуждений. Это открытие приобретает особую важность в свете растущей роли ИИ в реальных проектах и продуктах.
Риск переоценки возможностей моделей может привести к ошибкам, снижению доверия к технологиям и потенциальным негативным последствиям в ответственных сферах. Поэтому необходимы новые методы измерения и оценки моделей, которые учитывали бы не только итоговый правильный ответ, но и внутреннюю когерентность, способность к адаптации знаний, умение оперировать многозадачно и устойчиво. Авторы исследования призывают к изменению парадигмы оценки LLM. Они предлагают, что будущее тестирование должно включать проверку внутренней согласованности, умения применять концепции в различных контекстах и устойчивость к нестандартным заданиям. Это позволит отсеивать «потемкинские» достижения и выявлять истинный уровень компетентности моделей.
В заключение стоит отметить, что идея потемкинского понимания важна не только для исследователей, но и для всех пользователей, разработчиков и заказчиков решений на основе ИИ. Осознание существования таких феноменов помогает более критично подходить к выбору инструментов, формулировке требований и интерпретации результатов работы моделей. В долгосрочной перспективе именно развитие более строгих и комплексных методов оценки позволит создать более надёжные, понятные и глубокие искусственные интеллекты, способные не просто имитировать человеческое знание, а действительно осмысленно взаимодействовать с миром. Таким образом, открытие «потемкинского понимания» в LLM – важный шаг вперёд в области AI. Оно подчёркивает необходимость переосмысления существующих бенчмарков и подталкивает к созданию более совершенных, ориентированных на концептуальное осмысление и когерентность, методов оценки.
Лишь тогда искусственный интеллект сможет выйти за рамки иллюзии и перейти к реальному пониманию мире.