В мире информационного поиска и обработки естественного языка постоянно возникают новые вызовы, связанные с определением того, насколько релевантны те или иные документы в ответ на пользовательские запросы. Качество ранжирования напрямую влияет на удовлетворённость пользователей, эффективность поиска и, в конечном счёте, на успех цифровых продуктов. В этой сфере недавно появился проект Zbench, предлагающий новаторский метод оценки релевантности документов с помощью адаптации рейтинговой системы Эло, которая многими известна как инструмент для ранжирования шахматистов и других видов спорта. Такой подход значительно меняет представление о том, как можно создавать, аннотировать и оценивать сопоставления «запрос—документ» в системах RAG (retrieval-augmented generation) – гибридных решениях, объединяющих возможности информационного поиска и больших языковых моделей (LLM). Основной идеей Zbench является использование ансамбля современных LLM – таких как GPT-4 от OpenAI, Claude от Anthropic и Gemini от Google – для проведения парных сравнений документов.
При этом каждая пара документов сопоставляется по релевантности к конкретному запросу. Интересно, что отдельная модель может демонстрировать шум и не всегда быть уверенной в предпочтении одного документа над другим. Однако согласие трех моделей в оценках оказывает удивительно сильный эффект, увеличивая вероятность совпадения с предпочтениями квалифицированных человеческих аннотаторов выше 97%, что существенно превосходит классические подходы, базирующиеся только на одной модели или менее точных методах. Методика Zbench предусматривает формирование матрицы попарных сравнений документов, где каждый документ сравнивается с несколькими другими, и затем на основе результатов этих баталий вычисляется итоговый zELO-рейтинговый балл с использованием алгоритма Бредли-Терри. Такая модель ранжирования отражает относительную релевантность документов с точки зрения комплекса мнений LLM.
Красота использования системы Эло в данном контексте заключается в её интерпретируемости и проверяемости. Аналитики могут «заглянуть» в отдельные парные сравнения, которые формируют рейтинг, выявить причину, по которой один документ оказался выше другого, и при необходимости скорректировать подсистемы аннотирования, включая изменение промптов или обновление модели. Это обеспечивает прозрачность и высокую доверенность результатов, что редко доступно в системах, полагающихся на черные ящики. Однако очевидной проблемой традиционного подхода попарного сравнения всех документов является высокая вычислительная сложность, поскольку полноценная матрица сравнения для K документов требует порядка K в квадрате сравнений. Zbench решает эту задачу при помощи оптимизированной выборки: вместо полного перебора попарных сравнений происходит выборка в несколько циклов, позволяющая получить близкое к полному матрицу при значительно меньшем количестве запросов к моделям.
Такая стратегия экономит время и ресурсы, при этом сохраняя точность оценки релевантности. С точки зрения практического применения, Zbench также облегчает интеграцию пользовательских систем ранжирования благодаря открытой архитектуре. Разработчики могут подключать собственные reranker-модули и сравнивать их результаты с Zbench, используя встроенные метрики, такие как NDCG, accuracy или recall@k. Это позволяет проводить объективный бенчмаркинг и постепенно улучшать качество поиска. Помимо прочего, Zbench разработан с учётом экономической эффективности.
Несмотря на использование трёх мощных LLM, каждая аннотация одного запроса и списка документов обходится приблизительно в 20 долларов за тысячу сравнений, что делает метод доступным для компаний и исследователей, желающих получать качественные аннотации без привлечения дорогих и трудоемких команд человеческих экспертов. Важно отметить, что платформа предусматривает удобство использования: настройка виртуальной среды происходит быстро, а подробные примеры на Python и Jupyter Notebook помогают быстро начать работу. Поддержка популярных API и хорошо структурированные форматы данных позволяют легко интегрироваться в существующие пайплайны. В перспективе система Zbench может стать ключевым инструментом для улучшения ранжирования в RAG-системах, чатботах и поисковых платформах, предлагая универсальную, достоверную и интерпретируемую основу оценки релевантности. Она помогает уменьшить разрыв между оценками моделей и предпочтениями реальных пользователей, используя интеллектуальный компромисс между качеством и стоимостью аннотаций.
Таким образом, Zbench показывает, как инновационное применение проверенных алгоритмов из мира спорта и рейтингов можно адаптировать в области искусственного интеллекта и обработки естественного языка для решения сложных исследовательских и инженерных задач. Инновационный подход к аннотированию с использованием ансамбля LLM и методики Эло открывает новые горизонты развития систем интеллектуального поиска и аналитики данных в эпоху больших моделей и когнитивных вычислений.