Редактирование генов с использованием технологии CRISPR за последние годы стало фундаментальным инструментом науки и медицины. Первая технология CRISPR-Cas позволила учёным вносить изменения в ДНК с высокой точностью, открыв двери для лечения генетических заболеваний и создания новых биологических моделей. Однако мастерство реализации этой технологии требует глубочайшего понимания не только биологических основ, но и множества технических деталей — от выбора оптимальной CRISPR-системы до планирования и анализа эксперимента. Несмотря на доступность множества программных продуктов и руководств, комплексность процесса остаётся высокой, что создаёт барьеры для новичков и замедляет научные открытия. Именно на стыке высокотехнологичного редактирования генов и продвинутого искусственного интеллекта возник проект CRISPR-GPT — многоагентная система, основанная на больших языковых моделях (LLM), которая способна самостоятельно планировать, выполнять и анализировать эксперименты по редактированию генов.
CRISPR-GPT разработан с целью облегчить исследователям путь от идеи до результата, используя комплексный подход. В основе системы лежат современные языковые модели, такие как GPT-4o и специально дообученные варианты на базе открытых научных дискуссий и экспертных данных в области генной инженерии. Такой синтез позволяет не только понимать естественный язык запросов пользователя, но и проводить сложное логическое разложение проблемы, оптимизацию этапов эксперимента и принятие решений на каждом шаге. В отличие от обычных LLM, ограниченных общими знаниями и не всегда точных в биологических задачах, CRISPR-GPT обладает специализированной экспертизой, что подкреплено машинным обучением на реальных обсуждениях учёных и ретривалом актуальной научной литературы. Главным преимуществом CRISPR-GPT является его многоагентная архитектура, где каждый агент выполняет роль, схожую с живым соучастником проекта.
ЛЛМ-планировщик принимает запросы, декомпозируя общую цель на ряд детальных задач — например, выбор подходящего варианта CRISPR, разработка оптимальных направляющих РНК, выбор методов доставки, составление протоколов эксперимента и анализ полученных данных. Далее агент-исполнитель превращает план в конкретные инструкции, поэтапно взаимодействуя с пользователем, предоставляя пояснения и собирая обратную связь. Дополнительно агент-представитель от имени пользователя формирует ответы и уточнения, помогая филтровать и корректировать полученную информацию. Интеграция с внешними инструментами, такими как поисковые запросы в Google и научных базах, а также специализированные биоинформатические программы, обеспечивает актуальность и глубину знаний. Такой подход автоматизирует не только планирование, но и активное сопровождение эксперимента, что позволило успешно реализовать несколько реальных проектов.
Например, с помощью CRISPR-GPT впервые были проведены полное выведение из строя сразу четырёх генов в раковой клеточной линии человеческих лёгких с использованием системы Cas12a, а также успешная активация генов путём эпигенетического редактирования в клетках меланомы, даже когда сам эксперимент проводился исследователями с минимальным практическим опытом. Данные работы подтверждены не только молекулярными методами, но и наблюдением ожидаемых биологических эффектов — доказательством высокой точности и применимости решений, предлагаемых искусственным интеллектом. Важной функцией CRISPR-GPT является гибкость работы в разных режимах в зависимости от подготовки пользователя. Метарежим предлагают новичкам подробные пошаговые инструкции, обеспечивая обучение на ходу. Автоматический режим позволяет продвинутым исследователям формулировать запросы в произвольной форме и получать полностью настроенные рабочие процессы.
Режим вопрос-ответ помогает быстро получать экспертные консультации по различным аспектам генной инженерии, значительно экономя время на поиск и изучение специализированной литературы. При создании CRISPR-GPT особое внимание уделялось качеству выбора направляющих РНК (sgRNA), от которых напрямую зависит успех редактирования. Используя интеграцию с признанным инструментом CRISPick и собственный модуль интеллектуальных подсказок, система способна учитывать не только базовые нацеливания, но и функциональные особенности генов, как необходимый фактор максимизации эффекта. Такая «экзонная» селекция основана на анализе биологических данных и знаний, позволяя обойтись без длительного ручного перебора вариантов, что значительно ускоряет экспериментальную работу. Одной из серьёзных задач в технологии редактирования является выбор оптимального метода доставки CRISPR-компонентов в нужные клетки или ткани.
CRISPR-GPT эмулирует профессиональное мышление биологов, автоматически определяя принадлежность системы к одной из категорий (клеточные линии, первичные клетки, in vivo, бактерии и другие), поддерживая поиск в современной научной базе и расставляя приоритеты с учётом цитируемости и релевантности. Благодаря этому достигается высокая точность рекомендаций, особенно в сложных случаях с труднотрансмиссивными клетками, что значительно сокращает риск неудачи и необходимость многочисленных повторов. Функция вопрос-ответ в CRISPR-GPT является результатом синергии нескольких источников знаний. Отборочный LLM, дообученный на более чем 4000 обсуждений специалистов по CRISPR в публичных форумах за 11 лет, выдаёт содержательные, проверенные ответы, что устраняет распространённые ошибки и несоответствия, присущие универсальным языковым моделям. Совместно c методами поиска релевантной литературы и стандартными LLM достигается значительное повышение точности в сложных тематических запросах — часто неотъемлемых для реальных научных проектов.
Для пользователей важен не только аспект функциональности, но и безопасность. В CRISPR-GPT встроены механизмы для предотвращения деликатных и потенциально опасных действий. При работе с человеческими тканями и особенно с геномом человека система предупреждает о международных мораториях и регулирующих нормах, ограждая исследователей от непреднамеренных нарушений этических принципов. Более того, защищены пользовательские данные, особенно фрагменты генетического материала, благодаря фильтрации длинных последовательностей перед передачей в облачные модели, что предотвращает утечку конфиденциальной информации. Несмотря на впечатляющие успехи, CRISPR-GPT имеет области для развития.