В последние годы предсказание взаимодействия малых молекул с белками стало одной из ключевых задач в области биоинформатики и фармакологии. Успешное решение этой проблемы открывает путь к более эффективному созданию лекарственных препаратов, ускорению биологических исследований и развитию персонализированной медицины. Тем не менее, одна из главных преград на пути к точным и надежным предсказаниям — это недостаток масштабных, качественных и репрезентативных данных по связыванию молекул и белков. Традиционные методы понимания взаимодействия молекул с белками во многом основывались на экспериментальных данных, которые зачастую были ограничены по объему и разнообразию. При этом источники открытых данных, такие как базы ChEMBL и Papyrus, хоть и содержали тысячи измерений, в значительной мере страдали от шума, неполноты и неоднородности данных.
Из-за этого ученым и инженерам приходилось использовать сложные архитектуры машинного обучения, пытаясь компенсировать недостаток качественной информации, что приводило к громоздким моделям с высокой вычислительной нагрузкой. Недавний прорыв демонстрирует совершенно иной подход. Он базируется на идее, что масштабные и систематические измерения, собранные в контролируемых условиях при помощи продвинутых лабораторных технологий, могут существенно повысить качество моделей без необходимости усложнения их архитектуры. Производственная платформа, созданная компанией Leash Bio, стала отличным примером реализации такой стратегии. Они разработали уникальный процесс, который позволяет проводить массовое скринирование миллионов малых молекул против сотен различных белковых мишеней на базе ДНК-кодированных химических библиотек (DEL) и автоматизированных систем.
Это позволило получить огромное количество сверхдетальных, репродуктивных и взаимосвязанных данных, охватывающих как известные, так и ранее неизученные химические пространства. Система способна проводить около 100 протеинов и 6,5 миллионов молекул еженедельно, а за год было выполнено свыше 2 000 уникальных скринингов, включая широкий спектр биомишеней, важных для таких заболеваний как рак, воспаление и нарушения иммунитета. На основе этих данных была создана легковесная модель Hermes — трансформер с примерно 50 миллионами параметров. Он использует только аминокислотные последовательности белков и химические формулы молекул в формате SMILES, без привлечения информации о трехмерной структуре белков или позах связывания. Несмотря на свою простоту, Hermes показывает производительность на уровне более сложных моделей, таких как Boltz-2, при этом работает в сотни раз быстрее, что значительно экономит ресурсы и время.
Уникальной особенностью Hermes является его способность эффективно работать даже вне химических пространств, на которых он был обучен, что доказывает высокий уровень обобщения модели. Это особенно важно для открытых данных, где химические связи и структуры могут значительно отличаться. Кроме того, Hermes превосходит классические методы, такие как XGBoost, даже на очень сложных валидационных наборах данных, что подтверждает его практическую ценность. Ключевым фактором успеха Hermes и всей платформы Leash является качество и объем исходных данных. Ранее считалось, что DEL-сборки могут быть шумными из-за особенностей химических взаимодействий и сложности экспериментов.
Однако тщательное проектирование экспериментов, мультискрининг с перекрестными проверками и изолирование сайтов связывания позволили существенно снизить уровень шума и повысить воспроизводимость. Это дало возможность не только собирать данные в промышленных масштабах, но и создавать именно такие качественные базы, которые формируют фундамент для эффективного обучения моделей. Стратегия компании основывается на классическом принципе из области машинного обучения, известном как «горький урок» (Bitter Lesson) Рича Саттона — опыте, который показывает, что увеличение количества данных и вычислительных ресурсов зачастую дает больший прирост производительности, чем усложнение архитектуры модели. Это меняет парадигму исследований и разработки: вместо постоянного усложнения алгоритмов и введения новых технических концепций, главной инвестицией становится построение масштабных и качественных измерительных платформ. Помимо ускорения и повышения точности, наличие больших и репрезентативных данных позволяет рассматривать перспективу расширения сферы применения моделей гармонизации малых молекул и белков за рамки базового связывания.
Возможное будущее включает в себя построение систем, способных предсказывать токсичность соединений, их биодоступность, оффтаргетные эффекты и более сложные биологические реакции. Благодаря подходам few-shot и zero-shot обучения, модели, обученные на богатом базе данных взаимодействий, смогут адаптироваться к новым задачам с минимальным объемом дополнительного обучения на специфичных экспериментах. Важно отметить, что пока индустрия сталкивается с рядом вызовов. Масштабирование физических экспериментов на уровни, сравнимые с цифровыми потоками данных в области природного языка или изображений, все еще остается проблематичным. Кроме того, сложные биологические системы, включающие взаимодействия в живом организме или целом пациенте, трудно измеримы массово.