В современном мире цифровых технологий поисковые системы и рекомендательные сервисы играют ключевую роль в формировании пользовательского опыта. Для оценки качества работы таких систем используется множество метрик, среди которых важное место занимает NDCG – Normalized Discounted Cumulative Gain. Хотя NDCG считается стандартом в индустрии, подходы к его вычислению и нормализации могут значительно варьироваться, что влияет на итоговые оценки. Понимание различных способов нормализации NDCG жизненно важно для профессионалов, занимающихся поиском, рекомендациями или ранжированием контента. NDCG основан на концепции DCG – Discounted Cumulative Gain, которая отражает качество ранжирования выдачи относительно релевантности документов, определённой с помощью экспертных оценок или поведенческих данных пользователей.
В простейшем варианте DCG суммирует релевантность ответов, снижая вес документов на более низких позициях, поскольку пользователи склонны смотреть только первые результаты поиска. Однако для того, чтобы значение метрики было удобным для анализа и сравнения, DCG нормализуют относительно идеального DCG (iDCG), что приводит нас к самой сути проблемы – по какому критерию и каким способом выбирать iDCG. Идеальная DCG отличается тем, что она считается максимальным достижимым значением DCG для конкретного набора документов и релевантностей. При этом существует несколько «вкусов» или подходов к нормализации, у каждого из которых есть свои сильные и слабые стороны. Подход, которым пользуется команда аналитиков, напрямую влияет на интерпретацию метрики и, в конечном итоге, на решения, которые принимаются для улучшения поисковой выдачи или рекомендаций.
Первый вариант – так называемая локальная нормализация (NDCG-local). В этом случае идеальный DCG рассчитывается исключительно на основе текущих возвращаемых на запрос документов. Такой подход сфокусирован на том, насколько хорошо система сортирует уже найденные релевантные результаты, игнорируя документы, которые могли бы быть или должны быть найдены. Это особенно удобно, когда система контролирует только ранжирование и не влияет на полноту поиска. Локальная нормализация хорошо подходит для оценки алгоритмов ранжирования, но не учитывает, насколько хорошо работает поиск в целом с учётом полноты результатов.
Расширением локального подхода является нормализация относительно полного множества релевантных документов, отобранных системой или извлечённых в рамках некоторого расширенного набора (NDCG-recall). Здесь идеальный DCG строится из всех документов, признанных релевантными в большей выборке, а не только из текущих первых N в выдаче. Такой способ более полно отражает возможности системы как по ранжированию, так и по полноте поиска. Тем не менее, он тоже может быть ограничен размером выборки или доступностью оценок релевантности на более широком списке документов. Другой подход – глобальная нормализация (NDCG-global), при которой идеальный DCG рассчитывается, исходя из полного набора оценённых документов для конкретного запроса, вне зависимости от того, были ли эти документы возвращены системой.
Это дает наиболее широкую картину, объединяя в себе не только качество ранжирования, но и полноту поиска. Такой подход популярен для оценки результатов вне зависимости от политики отбора и может быть полезен для измерения эффективности всей системы целиком. Однако глобальная нормализация может смешивать влияние различных факторов – селективности, полноты и сортировки – и, таким образом, затруднять точную диагностику проблемы. Максимальная нормализация (NDCG-max) основывается на идеале, когда в топ-N позиций помещаются максимально возможные релевантные документы, потенциально с самым высоким значением оценки в каждой позиции, даже если такие документы отсутствуют в текущем наборе релевантных результатов. Этот подход ориентирован на идеал, который может быть недостижимо оптимистичным и отличается от фактического наличия.
Он подходит для оценки не только ранжирования, но и максимально возможной эффективности всей системы поиска или рекомендаций. Однако он может быть не слишком информативным при оценке текущих алгоритмов, так как создаёт стандарты, которые не всегда достижимы. Каждый из этих подходов имеет свои преимущества и недостатки, и правильный выбор зависит от конечной цели оценки. При построении метрик важно понимать, ориентируетесь ли вы на качество сортировки уже найденных результатов, на полноту поиска, на общую эффективность системы или на некий максимально возможный стандарт. Если ставится задача оценки ранжирования при фиксированном наборе документов, локальная или recall-на нормализация будет более релевантна.
Если же интерес представляет общая производительность поиска, стоит обратить внимание на глобальные подходы. Особенно важно учитывать, что метрика NDCG не всегда идеально отражает бизнес-цели и пользовательский опыт. К примеру, если основная задача – увеличить вовлечённость пользователя, то стоит добавить к оценке показатели, основанные на реальном поведении, такие как CTR, время на странице или удовлетворённость пользователя. Кроме того, для принятия решений в A/B тестах может оказаться полезным анализировать не только средние значения NDCG, но и долю запросов, где улучшение действительно произошло, либо насколько значимо изменение для конечного пользователя. При использовании NDCG в реальных проектах важно не допустить заблуждений, связанных с давлением на одну метрику.
В частности, при выборе варианта нормализации DCG может возникнуть ситуация, когда высокая оценка NDCG достигается за счёт компенсации каких-либо системных проблем, например, низкой полноты поиска. В таком случае более чистым и объективным подходом будет совместный анализ различных метрик – например, precision, recall, NDCG с разными нормализациями и пользовательских метрик. Примеры вычисления NDCG с разными способами нормализации показывают, что значение итоговой метрики может сильно варьироваться. Для одной и той же выборки поисковых результатов оценка с локальной нормализацией может оказаться заметно выше, чем глобальная или максимальная нормализация. Это объясняется тем, что разные подходы ориентируются на разные идеальные стандарты и разную полноту выборки.
Поэтому при сравнении моделей важно держать выбранный способ нормализации NDCG постоянным, чтобы избежать искажения результатов. В конечном итоге, понимание «на что именно нормализуют» DCG позволяет не только правильно интерпретировать показатели NDCG, но и выбирать метрику, наиболее подходящую для конкретных бизнес-целей, типа системы и имеющихся данных. Разнообразие вариантов носит не просто технический характер, а отражает различные взгляды на проблему оценки качества поиска и рекомендаций, что подчеркивает сложность и многоаспектность данной задачи. Следует помнить, что NDCG и все ее разновидности являются лишь частью инструментария оценки. Они дают количественную оценку релевантности и порядка результатов, но не заменяют комплексный подход к анализу пользовательского опыта и эффективности системы в целом.
Современный цифровой ландшафт требует сочетания метрик, экспертного анализа и непосредственной обратной связи пользователей для построения действительно успешных поисковых и рекомендательных решений. Таким образом, осознание того, какие «вкусы» NDCG существуют, и на какую базу они опираются при нормализации, поможет специалистам выбирать правильные метрики для их целей, улучшать качество ранжирования и добиваться максимального удовлетворения потребностей пользователей. Приоритетом должно быть не только получение высоких численных оценок, но и глубокое понимание того, что стоит за этими цифрами.