В 2025 году Google Research совместно с DeepMind анонсировали выпуск MedGemma — нового семейства искусственных интеллект-моделей с открытым исходным кодом, ориентированных на медицинские приложения. Этот инновационный набор призван оказать значительное влияние на такие области медицины, как радиология, дерматология, гистопатология и офтальмология. MedGemma способен анализировать медицинские изображения и тексты, обеспечивая улучшенную точность диагностики и поддержку врачей в принятии решений. MedGemma включает модели разного масштаба — 4-миллиардный параметрический вариант, который работает как с текстовой информацией, так и с изображениями, а также более крупную 27-миллиардную модель с текстовым и мультимодальным режимом. Такие размеры позволяют системе эффективно обрабатывать сложные медицинские данные и генерировать диагностические рекомендации, которые могут стать основой для создания новых специализированных медицинских инструментов и агентных систем, помогающих врачам и исследователям.
Одним из ключевых компонентов MedGemma является MedSigLIP — специализированный медицинский энкодер изображений, насчитывающий 400 миллионов параметров. Эта технология построена на базе SigLIP (Sigmoid Loss for Language Image Pre-training) и адаптирована специально для задач медицинской визуализации. MedSigLIP обеспечивает эффективную обработку медицинских снимков с разрешением 448 на 448 пикселей, что обеспечивает баланс между качеством и вычислительной эффективностью. Его обучение проходило на огромном массиве из более чем 33 миллионов пар изображений и описаний, включая сотни тысяч примеров медицинских данных, что позволило создать универсальный инструмент, способный работать не только с медицинской, но и с общей визуальной информацией. Важным преимуществом MedGemma является его открытый исходный код, размещенный на платформе Hugging Face.
Лицензия разрешает использование моделей в исследованиях, разработке и коммерческих целях при соблюдении ограничений, связанных с использованием в клинической диагностике без утверждения регуляторов. Такой подход значительно расширяет возможности интеграции MedGemma в разнообразные медицинские платформы и системы, стимулируя разработчиков использовать и адаптировать технологии к специфическим нуждам. Технические отчеты по MedGemma показывают впечатляющие результаты на медицинских бенчмарках. Модель 4B показывает точность 64.4% на тестах MedQA — экзаменах по медицине, что значительно превосходит базовую отметку в 50.
7%. Более крупная 27B модель достигает точности почти 88%, что является выдающимся показателем. В диагностике с использованием рентгеновских снимков модель демонстрирует улучшения от 15 до 18 процентов по сравнению с предыдущими аналогами. В сложных агентных системах оценки результатов достигается прирост точности более 10%. Особое внимание в разработке уделялось способности модели к дообучению, позволяющему адаптировать MedGemma под конкретные медицинские задачи и сценарии.
Это позволяет значительно повысить точность распознавания и классификации специфичных повреждений и заболеваний. В гистопатологии результат по взвешенному F1 скору вырос с 32.8 до впечатляющих 94.5, что демонстрирует резкое улучшение качества классификации тканей. В задаче распознавания пневмоторакса (осложнение сcollapsed легкого) точность увеличилась с 59.
7 до 71.5% Также крупные успехи достигнуты в обработке электронных медицинских записей (EMR). Применение алгоритмов с подкрепляющим обучением позволило сократить количество ошибок при извлечении данных почти вдвое. Это открывает новые возможности для автоматизации и оптимизации административных процессов в медицинских учреждениях, снижая нагрузки на специалистов и ускоряя предоставление информации для диагностики и лечения. Важной особенностью MedGemma является поддержка мультимодального анализа — объединения данных из разных источников, таких как тексты медицинских отчетов и изображения.
Такая синергия позволяет системе более полно и глубоко понимать клиническую ситуацию, что особенно важно для комплексной диагностики, когда приходится учитывать множество факторов и визуальных данных одновременно. Несмотря на выдающиеся результаты на тестовых наборах, специалисты подчеркивают, что высокий уровень точности в лабораторных условиях не всегда гарантирует такой же успех в реальной клинической практике. Эффективность может снижаться из-за неправильного взаимодействия пользователей с системой или ограниченного контекста при работе с пациентами. Поэтому дальнейшие исследования и тестирования «в поле» крайне необходимы для подтверждения практической ценности MedGemma. Прогнозы экспертов утверждают, что благодаря открытости платформы MedGemma может стать мощным инструментом для сообществ разработчиков медицинских ИИ.
Возможность масштабировать, модифицировать и интегрировать модели в самые разные процессы — от анализа изображений до поддержки принятия решений — создаёт множество перспектив для инноваций в области цифровой медицины. Ранее Google выпустил закрытые медицинские ИИ-решения на базе платформы Gemini, которые показали хорошие результаты, однако MedGemma выделяется доступностью и гибкостью, способствуя более широкому распространению технологий. Это важный шаг к демократизации медицинского искусственного интеллекта, позволяющий не только крупным корпорациям, но и небольшим научным и медицинским коллективам использовать передовые разработки для улучшения диагностики и лечения. В итоге MedGemma представляет собой новый рубеж в приложении искусственного интеллекта к медицине. Высокая точность, мультимодальные возможности, открытость к интеграции и обширная обучающая база формируют основу для качественного скачка в диагностике, терапии и исследовательской деятельности.
С развитием и адаптацией таких систем станет возможным более быстрое, точное и персонализированное оказание медицинской помощи, что поможет спасти множество жизней и повысить эффективность здравоохранения в целом.