В последние годы технологии искусственного интеллекта стремительно развиваются, а с ними растут и запросы пользователей к качеству и достоверности генерируемых ответов. Одним из самых перспективных направлений в этой сфере стали системы Retrieval-Augmented Generation, более известные как RAG. Они представляют собой гибрид, который сочетает в себе мощь больших языковых моделей и возможности поиска релевантной информации из внешних источников, что позволяет выдавать более точные, обоснованные и актуальные ответы. Однако оценка эффективности таких систем – задача далеко не тривиальная. Важно не только удостовериться, что система находит правильные документы, но и проверить, насколько сгенерированные ответы соответствуют полученной информации и не содержат ошибочных или вымышленных данных.
Для комплексной оценки RAG-систем сегодня используется ряд специализированных бенчмарков и инструментов, каждый из которых разработан с учётом разных аспектов и задач. Одним из наиболее известных и уникальных наборов данных является Stanford STaRK, предназначенный для оценки поиска в полуструктурированных базах знаний. Он охватывает сферы электронной коммерции, научных публикаций и биомедицинских исследований. Суть его в том, что система должна работать одновременно с неструктурированным текстом и структурированной информацией в виде атрибутов и связей между объектами. Важным критерием здесь выступает точное и полное извлечение соответствующих сущностей, что особенно актуально для бизнес-задач с комплексными фильтрами или интерфейсами поиска научных статей.
Главным преимуществом STaRK является сочетание анализа текстовой и графовой информации, что приближает оценку к реальным сценариям использования. Однако стоит учитывать, что данный бенчмарк концентрируется только на точности поиска сущностей и не затрагивает качество сгенерированных ответов. Поэтому он полезен для оптимизации ретривера, но не может служить универсальным измерителем конечной релевантности ответа. Если же приоритетом является оценка точности и достоверности всего процесса – от поиска до генерации комплексного ответа, то одним из лучших решений является Meta CRAG. Этот бенчмарк, разработанный исследователями Meta AI, направлен на тестирование RAG-систем в условиях, приближённых к реальным жизненным задачам.
Он разбит на разнообразные домены, такие как финансы, спорт, музыка и кино, а также на разные типы вопросов – от простых фактов до многошаговых рассуждений и вопросов с ложной предпосылкой. Такое разнообразие помогает выявить слабые места систем, например, неспособность работать с временно зависимой информацией или плохо справляться с длинными цепочками логики. Особенностью Meta CRAG является использование как симулированного веб-поиска с HTML-документами, так и структурированной базы знаний, что позволяет комплексно проверять эффективность различных стратегий поиска. Благодаря внедрению оценки с помощью мощных языковых моделей, таких как GPT-4, появляется возможность учитывать не только совпадение фактов, но и нюансы формулировок и контекста. Несмотря на сравнительно небольшой объём набора данных, CRAG становится отличным гидом для разработчиков, позволяя понять, где именно их система допускает ошибки – на этапе поиска или генерации.
Для специалистов, работающих с Википедией и другими крупными базами знаний, незаменимым инструментом оценки по сей день остаётся KILT. Этот набор данных представляет собой тщательно интегрированный комплекс задач, включая открытые вопросы, проверку фактов, связывание сущностей и диалоговые задачи. Все они используют одну и ту же версию Википедии в качестве базы знаний, что позволяет стандартизировать тестирование и сравнивать различные подходы. Ключевая особенность KILT – это метрика, которая учитывает правильность ответа только в том случае, если вместе с ним был правильно извлечён соответствующий источник. Такая стратегия значительно повышает объективность оценки и стимулирует разработчиков уделять внимание обоснованности ответов.
Однако статичность и устаревание базы знаний (снимок 2019 года) ограничивают применимость в задачах, связанных с актуальной информацией. Кроме того, современные языковые модели иногда способны отвечать на вопросы без обращения к внешним источникам, что снижает эффективность KILT для некоторых современных систем. Для расширения возможностей оценки систем со свежими и быстро меняющимися данными был создан FreshQA. Его уникальность заключается в том, что вопросы обновляются еженедельно и касаются актуальных событий, новостей, изменений в бизнесе и других переменных данных. Это делает FreshQA одним из немногих бенчмарков, способных реально измерять способность системы оперативно учитывать новые знания и снижать количество галлюцинаций, то есть ошибок, когда модель генерирует выдуманную или не подтверждённую информацией из источников.
Сочетание экспертной оценки человека и LLM-оценки FreshEval позволяет достичь баланса между точностью и масштабируемостью. Эта платформа особенно важна для тех, кто разрабатывает чат-ботов и виртуальных ассистентов, которым нужно оставаться в курсе последних событий и обеспечивать пользователей достоверными сведениями. Другой актуальный тренд в разработке RAG-систем связан с адаптивностью – умением интеллектуально решать, когда обращаться за дополнительной информацией, а когда достаточно внутренних знаний модели. Benchmark RetrievalQA предлагает тест, где по конкретным вопросам система должна определить необходимость вызова поиска или же ответить на основе своей параметрической памяти. Такая способность особенно ценна в продуктах, где важно сократить время ответа и вычислительные затраты без вреда качеству.
Анализ показал, что около половины вопросов требуют обновлённой информации, что подчёркивает актуальность темы эффективного решения о вызове ретривал-модуля. Благодаря наличию заранее подготовленных скобок ответов и вспомогательных данных, разработчики могут легко экспериментировать с различными алгоритмами принятия решения и оптимизировать производительность систем. Для приложений с длительными диалогами и необходимостью долгосрочного запоминания информации, таких как виртуальные помощники или поддержка клиентов, актуален benchmark LoCoMo. Он предлагает комплексную проверку воспоминаний, логики последовательности событий и мультизадачности, включая работу с визуальным контентом. Анализ данных показал, что оптимизация с использованием RAG позволяет существенно повысить точность ответов, особенно при необходимости обращаться к событиям, произошедшим много шагов назад, и поддерживать консистентность.
Это важный вызов, поскольку бессистемное запоминание или бесконтекстная генерация часто приводят к противоречиям и потере доверия пользователя. Особое внимание уделяется проблеме галлюцинаций – когда модель генерирует неверную или не основанную на источниках информацию. RAGTruth – масштабный датасет с ручными аннотациями на уровне слов, помогает разработчикам изучать и минимизировать подобные ошибки. Возможность точного выделения несопровождаемых контекстом отрывков позволяет не только проводить объективную оценку, но и разрабатывать специализированные системы для детекции подобных проблем. Для отраслей, где достоверность критична, таких как медицина или юриспруденция, RAGTruth становится незаменимым ориентиром.
Для комплексной автоматизации оценки появляется несколько специализированных инструментов. RAGAS предлагает удобный набор метрик и возможность генерации синтетических тестовых данных на основе вашего корпуса, что особенно полезно при отсутствии готовых наборов для конкретной задачи. Open RAG Eval акцентирует внимание на беззолотниковой оценке, то есть возможности оценить качество без наличия готовых правильных ответов, используя LLM-судей. Это упрощает применение в реальных продуктах с потоками пользовательских запросов. DeepEval предлагает фреймворк, который вписывается в непрерывные процессы разработки и тестирования, что позволяет оперативно выявлять и устранять узкие места в комбинированных системах поиска и генерации.
Таким образом, богатый спектр существующих бенчмарков и инструментов позволяет комплексно и комплексно оценивать системы Retrieval-Augmented Generation с различных точек зрения – от эффективности поиска нужных данных, через правдивость и полноту созданных ответов, до способности адаптивно использовать ресурсы и длительной памяти в диалоге. Подбор подходящих решений зависит от специфики вашей задачи – будь то поиск товаров с учётом структурированных данных, проверка фактов в динамичных сферах, обеспечение длительного взаимодействия с пользователем или минимизация рисков ложной информации. Для тех, кто стремится создать качественную, масштабируемую и надёжную RAG-систему, понимание и заимствование лучших практик и инфраструктур оценки – залог успешного выхода на рынок и повышения удовлетворённости пользователей.