Человеческое тело – это сложнейшая система, состоящая из множества различных типов клеток. Каждая клетка выполняет свою уникальную функцию: иммунные клетки активируют воспалительные процессы для борьбы с инфекциями, стволовые клетки трансформируются в разнообразные ткани, а раковые клетки обходят регулирующие сигналы, что приводит к неконтролируемому делению. Несмотря на видимые различия, все клетки человека практически несут один и тот же геном. Клеточная уникальность формируется не столько самой ДНК, сколько тем, как клетки используют генетическую информацию, включая разные паттерны экспрессии генов, то есть механизмы включения и выключения определенных участков ДНК во времени. Эти паттерны можно описать через молекулы РНК, транскрибируемые с генома, которые определяют как тип клетки, так и её состояние.
Изучение процессов переключения генов и их влияние на клеточные характеристики позволяет понять, как клетка движется из здорового состояния в состояние воспаления или рака. Первое поколение виртуальных моделей клетки от Arc Institute, названное State, способно предсказывать изменения в экспрессии генов под влиянием лекарств, цитокинов или генетических perturbаций. Эта модель базируется на обширных, охватывающих сотни миллионов клеток, данных, включающих как наблюдательные, так и экспериментальные сведения. Такой объем данных стал возможен благодаря проекту Arc Virtual Cell Atlas и является одним из крупнейших на сегодняшний день во всей биомедицинской исследовательской области. State представляет собой комплекс из двух взаимосвязанных компонентов: модели State Embedding (SE), которая трансформирует данные о транскриптомах клеток в удобное для алгоритмов многоизмерное пространство, где клетки одного типа группируются вместе, и модели State Transition (ST), построенной на инновационной архитектуре bidirectional transformer.
Эта архитектура позволяет гибко учитывать как биологическую, так и техническую гетерогенность данных без необходимости предполагать заранее определенные статистические распределения. Такая комбинация обеспечивает точное прогнозирование изменений в клеточных состояниях при заданных perturbациях. Модель State была обучена на основе данных, полученных с помощью передовых технологий одиночного клеточного РНК-секвенирования (single-cell RNA-seq), объединяя наблюдательные данные и экспериментальные perturbации, включая изменения генов с помощью CRISPR. Объем обучающей выборки превышает 100 миллионов клеток, что значительно превосходит предыдущие проекты в данной сфере. Результаты benchmarking показали впечатляющий рост эффективности: улучшение точности выделения эффектов perturbаций на 50% и в два раза более высокая точность в определении реально изменяемых генов по сравнению с современными аналогами.
Ключевой особенностью модели стало использование perturbационных данных. Наблюдательные данные, хоть и полезны для понимания клеточной биологии, не позволяют достоверно устанавливать причинно-следственные связи. Экспериментальные perturbации, при которых отдельные гены намеренно изменяются, дают прямую картину цепочек биологических реакций. Поэтому сочетание масштабных perturbационных данных с мощным алгоритмом State дает глубокое понимание механизмов клеточных изменений. Это позволяет, в частности, предсказывать реакции клеток на ранее невиданные воздействия, что крайне важно при тестировании новых лекарств и их влияния.
Разработка State сопровождается созданием специализированного программного обеспечения scBaseCount, которое обеспечивает единообразный сбор и анализ большого объема одиночных клеточных данных по всему миру. Такая унификация минимизирует технические артефакты и повышает достоверность интеграции разнородных наборов данных. Благодаря архитектуре State возможна обработка т.н. "confounding" факторов — таких, как различия в циклах клеточного деления или вариациях технологий секвенирования, что гарантирует устойчивость предсказаний.
Дальнейшее улучшение моделей подобного рода связаны с ростом объемов и качества данных. Ранее в области биологии было доказано наличие масштабных закономерностей, аналогичных законам масштабирования в языковом моделировании, что свидетельствует о прямой связи между количеством данных и точностью предсказаний. Исходя из этого, Arc Institute планирует увеличить базы обучающих данных, что приведет к более точным и комплексным моделям виртуальных клеток. Одним из наиболее перспективных направлений применения State является ускорение процесса открытия новых лекарственных препаратов. Аналогично тому, как AlphaFold открыл революционные возможности в предсказании белковых структур и их взаимодействий с малыми молекулами, State позволяет моделировать реакцию клеток на множество комбинаций лекарств или генетических изменений.
Это даёт шанс существенно сократить время и затраты на экспериментальные исследования, позволив точнее выбирать наиболее перспективные варианты для лабораторных тестов и клинических испытаний. Кроме того, виртуальная модель помогает исследователям понять сложные взаимодействия внутри клетки, которые практически невозможно изучить через традиционные методы. Возможность моделировать миллионы вариантов perturbаций в виртуальной среде даёт беспрецедентный инструментарий для выявления новых биомаркеров, изучения механизмов резистентности к лекарствам и поиска способов возвращения клеток из патологических состояний к нормальному функционированию. Совместно с запуском модели State был представлен Cell_Eval — комплексная система оценки виртуальных моделей клеток, которая предлагает новые биологически значимые метрики, выходящие за рамки простого анализа экспрессии генов. Эта система позволит прозрачнее и точнее сравнивать разные поколения моделей и их эффективность, что способствует инновациям и открытости в научном сообществе.
Arc Institute приглашает научное сообщество использовать модель State в своих исследованиях и делиться обратной связью. Сделанный большой шаг в виртуальном моделировании клеток — лишь начало пути к созданию высокоточных, достоверных моделей, которые помогут раскрыть тайны биологии и вывести медицину на принципиально новый уровень. Таким образом, виртуальная модель клетки State от Arc Institute является значимым прорывом в области биоинформатики и клеточной биологии. Ее способности предсказывать реакции клеток на разнообразные воздействия открывают дороги для разработки новых лекарственных средств и глубинного понимания процессов, лежащих в основе заболеваний. В будущих версиях эта технология, без сомнения, превзойдет сегодняшний уровень, что позволит делать открытия с ранее недостижимой скоростью и точностью.
Для всех, кто занимается биомедицинскими исследованиями, State — это новый мощный инструмент, который меняет правила игры и приближает эру персонализированной медицины.