В последние годы искусственный интеллект стал неотъемлемой частью научных исследований, заметно расширяя возможности моделирования биологических процессов. Особенно перспективным направлением является генерация виртуальных моделей клеток, способных прогнозировать изменения в их состоянии при воздействии на определенные гены. Одним из ярких примеров таких инициатив стал вызов Arc Virtual Cell Challenge, который впервые нацелен на создание моделей, способных с высокой точностью предсказывать эффект генного снижения активности в новых, ранее не изученных типах клеток. Это соревнование привлекает внимание как биологов, так и специалистов в области машинного обучения, объединяя их усилия для решения сложных задач молекулярной биологии и генетики. Главная цель проекта заключается в обучении модели, которая через глубокое понимание работы клеток сможет симулировать их реакцию на генетические вмешательства без необходимости проведения дорогостоящих и трудоемких экспериментов в лаборатории.
Для многих это настоящая революция, поскольку виртуальные эксперименты позволят значительно ускорить разработку новых лекарств и терапевтических подходов. Одной из ключевых особенностей вызова является так называемая задача контекстной генерализации — способность модели применять полученные знания о генных взаимодействиях в одних типах клеток к другим, менее изученным. Такой подход значительно расширяет научный потенциал и помогает избежать ограничений, связанных с отсутствием данных для конкретных клеточных типов. В качестве учебного материала для участников был подготовлен обширный набор данных, включающий около 300 тысяч профилей одиночных клеток с подробным описанием их РНК-транскриптомов. Эти данные отражают уровни экспрессии генов в клетках с указанными генными perturbations — например, когда активность определенного гена искусственно подавляется с помощью технологии CRISPR.
Каждый профиль представляет собой разреженный вектор, фиксирующий количество молекул РНК определенного гена в конкретной клетке. Важный момент — набор содержит также контрольные, непретерпевшие изменений клетки, которые служат эталоном для сравнения и помогают отделить настоящий эффект приглушения гена от вариабельности, возникающей из-за природного разнообразия клеток. Понимание внутренней работы модели требует некоторого погружения в биологию. В частности, ключевое значение имеет центральная догма молекулярной биологии, связывающая ДНК, РНК и белки. Ген состоит из экзонов и интронов, которые после транскрипции подвергаются альтернативному сплайсингу, формируя разнообразные вариации молекул РНК и, соответственно, вариантов белков — изоформ.
Эти биологические процессы обеспечивают сложность, которую необходимо учесть AI-моделям для точного прогнозирования. Инновационным шагом организаторов стала разработка и публикация собственного решения под названием STATE, включающего два взаимодополняющих компонента — State Embedding Model и State Transition Model. Первая модель использует трансформерную архитектуру, подобную BERT, и концентрируется на создании глубоких эмбеддингов клеток на основе последовательностей белков, кодируемых генами. Для формирования векторных представлений отдельных генов применяются передовые предобученные протеиновые языковые модели, способные захватывать тонкие особенности аминокислотных цепочек. Далее эти генные эмбеддинги формируют «предложение» клетки — упорядоченный набор токенов, отражающих выраженность генов в конкретной клетке с учетом их интенсивности экспрессии.
Благодаря введению специальных токенов [CLS] и [DS] модель не только формирует емкий вектор клетки, но и может устранить эффекты, зависящие от источника данных. Вторая модель — State Transition Model — фокусируется на предсказании изменений в транскриптомах клеток при заданных perturbations. Она обрабатывает эмбеддинги клеток, полученные первой моделью, и вектор, кодирующий генное вмешательство, обучаясь минимизировать статистическую разницу между прогнозируемым и истинным распределением экспрессии генов. Такую оптимизацию обеспечивает метод максимального среднего расхождения, что способствует улучшению способности модели эффективно выделять реальные эффекты perturbations из биологического шума и технической погрешности эксперимента. Оценка качества решений включает несколько критериев, среди которых особое внимание уделяется способностям моделей дискриминировать различные perturbations и корректно определять гены с существенно измененной экспрессией.
Среди выбранных метрик — Perturbation Discrimination, позволяющая измерить насколько модель верно различает влияния разных подавлений генов, и Differential Expression — проверяющая соответствие обнаруженных важных генов с реальными наблюдениями. Успешное решение задачи открывает перспективы для фармацевтической индустрии, позволяя в виртуальном пространстве тестировать тысячи вариантов лекарственных воздействий без необходимости проведения большого числа затратных лабораторных экспериментов. Это не только ускорит разработку новых препаратов, но и снизит риск ошибок, связанных с человеческим фактором и биологической вариабельностью. Более того, понимание сложных взаимосвязей на молекулярном уровне станет доступнее для широкого круга исследователей благодаря сопровождению вызова разъяснительными материалами, ориентированными на специалистов из разных областей. Таким образом, Arc Virtual Cell Challenge служит важным мостом между фундаментальной биологией и современными технологиями искусственного интеллекта, способствуя развитию новых подходов и инструментов для решения задач медицины и биотехнологий будущего.
Участие в этом вызове открывает дверь к инновационным способам изучения жизни на клеточном уровне, стимулируя кросс-дисциплинарное сотрудничество и создавая условия для революционных открытий в области персонализированной медицины и генной терапии. Именно такие проекты формируют будущее, где виртуальное моделирование станет неотъемлемой частью исследования живых систем и разработки эффективных медицинских решений.