Скам и безопасность

Как большие языковые модели помогают оценивать риск смещения в рандомизированных контролируемых испытаниях с использованием инструмента RoB2

Скам и безопасность
LLM–Assisted Risk-of-Bias Assessment in RCTs Using the Revised Risk-of-Bias Tool

Использование больших языковых моделей (LLM) для оценки риска смещения в рандомизированных контролируемых испытаниях (РКИ) с применением обновленного инструмента RoB2 существенно повышает эффективность и точность систематических обзоров, снижая временные затраты и улучшая согласованность экспертов.

В современном медицинском исследовании рандомизированные контролируемые испытания (РКИ) остаются золотым стандартом для оценки эффективности и безопасности терапевтических вмешательств. Однако результаты этих исследований нередко подвержены различным видам систематического смещения, что влияет на достоверность выводов. Именно поэтому оценка риска смещения (Risk of Bias, RoB) является неотъемлемой частью систематического обзора и метаанализа. В 2019 году Коранский центр выпустил обновленную версию инструмента оценки риска смещения — RoB2, которая призвана устранить недостатки предыдущей версии, сделав процесс анализа более структурированным, однако при этом внедряя дополнительные сложности в применении из-за многоуровневой и комплексной структуры. Одним из главных вызовов применения RoB2 стала низкая межэкспертная согласованность (interrater reliability, IRR) и значительное время, необходимое для детального анализа каждого РКИ.

По данным текущих исследований, на оценку одного результата может уходить от 28 до 40 минут, что существенно замедляет процесс систематических обзоров. В ответ на эти вызовы на арену вышли большие языковые модели (LLM), обладающие выдающимися способностями к обработке текста, пониманию сложных связей и логических конструкций. Большие языковые модели, такие как Claude 3.5 от Anthropic, способны не просто обрабатывать сырой текст, а моделировать цепочки рассуждений, что особенно важно при решении задач, требующих последовательного анализа множества факторов, как, например, в RoB2. Использование LLM позволяет стандартизировать подход к извлечению информации из текстов исследований и формированию объективных суждений по каждому домену риска смещения.

Исследование, проведенное командой ученых из Китая, продемонстрировало эффективность применения LLM в оценке RoB2 на выборке из 46 РКИ, случайно отобранных из обзоров Корановской библиотеки. В работе приняли участие опытные рецензенты, прошедшие специализированное обучение, которые провели независимую оценку риска смещения с последующим консенсусом. LLM выполнял оценки параллельно, без дополнительного обучения, используя специально разработанные протоколы и оптимизированные промпты. Результаты оказались многообещающими. Среднее время оценки одного РКИ LLM составляло около двух минут, в то время как человек требовал более 30 минут, что отражает значительное ускорение работы.

По показателям точности модели достигали от 57,5% до 70%, сравнимо с человеческими экспертными оценками, при этом на уровне отдельных сигнальных вопросов точность превышала 80%. Более того, последовательность ответов на повторных прогонах модели сохранялась на уровне более 85%, что свидетельствует о высокой стабильности и надежности LLM. При этом выявились и некоторые типичные ошибки. Модель иногда допускала неточности в извлечении деталей о методах рандомизации, интерпретации данных пропусков, а также смешивала оценку пациентов и наблюдателей при анализе слепых исследований. Дополнительный анализ показал, что значительный прирост точности достигается при использовании автоматизированного алгоритма RoB2 для обработки сигнальных вопросов, а не непосредственном формировании оценок ромоделью.

Одним из важных преимуществ LLM является возможность снизить проблему разночтений между экспертами, возникающих из-за субъективного восприятия сложных методологических деталей. Автоматизированная система с четко заданным алгоритмом разбора данных снижает вероятность смещения, связанного с человеческим фактором. Тем не менее, пока невозможно полностью заменить экспертов, но ассистирование LLM уже демонстрирует потенциал для экономии ресурсов и повышения качества оценок. Следует отметить ограничения текущих исследований: небольшой объем выборки, ограниченное количество РКИ с акцентом на критерий “adhering” (соблюдение вмешательства), а также невозможность обработки больших объемов дополнительных материалов, таких как приложения или протоколы, в одном запросе к модели. Кроме того, потенциальные системные ограничения, связанные с предвзятостью исходных данных, учитываемых при обучении LLM, требуют осторожного подхода и дальнейшей проверки.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Off with Their Heads: Illustrations of Blemmyes (ca. 1175–1724)
Воскресенье, 28 Сентябрь 2025 Безголовые чудеса: История и изображения блеммий с XII по XVIII век

Удивительное путешествие в мир мифических существ — блеммий, или безголовых людей, как их изображали с XII по XVIII века в манускриптах, хрониках и путешествиях. От античности до эпохи великих географических открытий легенды о них вдохновляли художников и писателей, отражая особенности восприятия чужого и неизведанного.

Europe Got Tough on Migration
Воскресенье, 28 Сентябрь 2025 Европа усиливает контроль над миграцией: новые реалии и вызовы

За последние годы Европа кардинально изменила свою миграционную политику, вырабатывая строгие меры контроля и ужесточая отношение к нелегальной миграции, что оказывает глубокое влияние на внутреннюю и внешнюю политику Евросоюза.

Pwntool – Discontinued Hacker Toolkit Looking for Devs
Воскресенье, 28 Сентябрь 2025 Pwntool: История и потенциал заброшенного хакерского набора инструментов

Обзор Pwntool — заброшенного набора инструментов для хакеров, доступного в открытом доступе. Разбираемся, что это такое, почему проект был приостановлен и почему он может заинтересовать разработчиков и специалистов по информационной безопасности.

Fruit Flies in Space
Воскресенье, 28 Сентябрь 2025 Как плодовые мушки помогают раскрыть тайны космоса и здоровья человека

Уникальное исследование влияния космических условий на живые организмы с помощью плодовых мушек – от первых полетов в середине XX века до современных генетических открытий и перспектив колонизации других планет.

Show HN: Ape – Minimalistic modal text editor written in F#
Воскресенье, 28 Сентябрь 2025 Ape – минималистичный модальный текстовый редактор на F#: обзор и возможности

Подробный обзор текстового редактора Ape, разработанного на языке F#, с акцентом на его уникальные возможности, архитектуру и предназначение для структурного редактирования и анализа логов.

From Zero to Monetized iOS App in 10 Hours with Bolt.new, Expo, and RevenueCat
Воскресенье, 28 Сентябрь 2025 Как создать и монетизировать iOS-приложение за 10 часов с помощью Bolt.new, Expo и RevenueCat

Узнайте, как разработать и выпустить полноценное iOS-приложение всего за 10 часов, используя современные no-code и low-code инструменты Bolt. new, Expo и RevenueCat.

The Modified Purdue Subcritical Pile for Nuclear Research Applications
Воскресенье, 28 Сентябрь 2025 Модифицированный субкритический штабель Пердью: новый стандарт для ядерных исследований

Детальное исследование модифицированного субкритического штабеля Пердью, его особенностей, возможностей и значимости для современного ядерного исследовательского сообщества, а также перспективы использования в научных и образовательных целях.