Компьютерная томография (КТ) является одним из самых важных методов диагностики в современной медицине. Она позволяет получить высокодетализированные объемные изображения внутренних органов и тканей, что помогает врачам выявлять патологии и принимать своевременные решения. Однако понимание того, как именно специалисты анализируют эти сложные трехмерные изображения, до сих пор оставалось ограниченным. В частности, изучение моделей движения глаз радиологов во время чтения КТ-сканов представляет собой важнейшее направление для повышения качества диагностики и разработки систем компьютерной поддержки врачей. Недавно была представлена первая в своем роде открытая база данных CT-ScanGaze, которая открывает новые перспективы в анализе зрительных фиксаций на КТ-данных и расширяет горизонты исследований в области интерпретируемого искусственного интеллекта для медицинской визуализации.
CT-ScanGaze стал ответом на острый дефицит специализированных данных, так как до этого момента практически отсутствовали общедоступные наборы с трехмерными глазодвигательными траекториями, что существенно ограничивало разработку и обучение продвинутых моделей для анализа взгляда на медицинские томограммы. Создатели проекта выделяют уникальность именно объемного характера данных, ведь большая часть существующих решений ориентируется на 2D-изображения и не учитывает сложную пространственную структуру КТ-визуализаций. Применение более адекватных 3D моделей дает возможность точнее реконструировать те области, которые привлекают внимание специалиста, а значит повышать качество понимания процесса интерпретации снимков и выявлять типичные схемы выделения подозрительных зон. Помимо самой базы данных исследователи разработали перспективный инструмент CT-Searcher — инновационный предсказатель трехмерных сканпатов (траекторий взгляда) именно для КТ-томограмм. Эта модель способна генерировать последовательности фиксаций, максимально приближенные к паттернам радиологов, благодаря тому, что учитывает объемное строение информации и может работать с трехмерными входными данными.
Сравнивая CT-Searcher с традиционными подходами, предназначенными для 2D данных, становится очевиден скачок в эффективности: обработка именно объема и обучение на специализированных данных позволяют значительно точнее воспроизводить характер осмотра сканов. Обучение глубинных нейросетей на такой сложной задаче требует больших и разнообразных данных. Для решения этой проблемы авторы создали особый конверсионный конвейер, который позволяет трансформировать существующие 2D датасеты с записями взгляда в трехмерный формат. Такая предобработка помогает предварительно тренировать модель CT-Searcher, обеспечивая ей более богатый опыт и улучшая результаты при работе с настоящими объемными данными из CT-ScanGaze. Результаты экспериментов, проведенных как в качественном, так и количественном ключе на новой базе данных, подтверждают высокую продуктивность подхода.
Модель успешно воспроизводит реалистичные траектории глазных движений, способствуя лучшему пониманию стратегий визуального поиска у экспертов. Это открывает перспективы для развитию диагностических систем, которые смогут интерпретировать поведение радиолога и, возможно, выявлять аномалии в процессе осмотра или давать рекомендации по оптимизации анализа томограмм. CT-ScanGaze и CT-Searcher представляют собой мощный фундамент для дальнейших исследований в области анализа зрительного внимания в медицинской диагностике. Данный проект закладывает основы, которые могут способствовать созданию новых инструментов искусственного интеллекта с более глубоким пониманием поведения специалистов, что крайне важно для повышения точности и надежности автоматизированных систем. Следует отметить, что благодаря открытому доступу к этим данным и кодам, научное сообщество получает уникальную возможность продолжать развитие, совершенствовать модели и применять их для широкого спектра клинических задач.