Интервью с лидерами отрасли

RSGPT: Прорыв в области ретросинтеза с генеративной трансформерной моделью

Интервью с лидерами отрасли
Rsgpt: A generative transformer model for retrosynthesis planning

Исследуйте инновации в планировании ретросинтеза с помощью модели RSGPT — генеративного трансформера, обученного на десяти миллиардах химических реакций. Узнайте о методах синтетической генерации данных, применении больших языковых моделей и значении усиленного обучения в химической сфере.

Ретросинтез — это фундаментальный процесс в органической химии, который помогает химикам планировать пути синтеза сложных молекул из доступных исходных соединений. В течение многих десятилетий успешное планирование синтетических маршрутов оставалось высококвалифицированной задачей, требующей глубоких знаний и опыта. Однако с развитием искусственного интеллекта и машинного обучения появились новые возможности для автоматизации и оптимизации этого процесса. Особенно востребованными стали подходы с применением нейросетей, способных анализировать и предсказывать реакции на основе больших массивов данных. Одним из самых перспективных достижений в этой области стала модель RSGPT — генеративный трансформер, активно трансформирующий подходы к ретросинтезу за счёт масштабного предварительного обучения и инновационных методов оптимизации.

Модель RSGPT, разработанная на основе больших языковых моделей наподобие LLaMA2, отличается тем, что была предварительно обучена на колосальном наборе данных — более 10 миллиардов реакций, синтетически сгенерированных при помощи продвинутого алгоритма RDChiral. Этот алгоритм позволяет извлекать шаблоны реакций и применять их к фрагментам молекул из огромных химических баз данных, таких как PubChem, ChEMBL и Enamine. Таким образом, удалось восполнить исторический дефицит качественных данных для обучения моделей в области ретросинтеза, который долгое время лимитировал достижение высоких показателей точности. Главная инновация RSGPT заключается в комбинировании стратегии большого языкового моделирования с особенностями химического пространства. Ранее шаблонные методы в ретросинтезе основывались на фиксированных реакционных шаблонах, что ограничивало их универсальность и масштабируемость, а методы, не зависящие от шаблонов, страдали от недостатка больших объемов данных для обучения.

В RSGPT благодаря масштабному синтетическому датасету удалось обучить модель глубоко понимать взаимосвязи между продуктами, реагентами и шаблонами реакций, не обременяя потом процесс предсказания строгими ограничениями шаблонов. Для усиления обучаемости и качественной генерации реакций применяется метод обучения с подкреплением на основе искусственной обратной связи (RLAIF). Эта техника позволяет модели получать динамическую оценку правильности и химической обоснованности предсказаний с помощью RDChiral, который проверяет, можно ли сгенерированные реагенты и шаблоны применить обратно к продукту. Такой цикл обратной связи стимулирует модель лучше выстраивать внутренние знания о химических преобразованиях и отбрасывать нерелевантные или невозможные варианты. При оценке RSGPT на признанных эталонных наборах данных, включая USPTO-50k, USPTO-MIT и USPTO-FULL, модель демонстрирует выдающиеся показатели: точность предсказания на уровне Top-1 достигает 63.

4% на наиболее популярном наборе USPTO-50k. Такие результаты значительно превосходят предыдущие достижения как в шаблонных, так и в безшаблонных методах. Высокая точность сочетается с отличным качеством генерируемых химических SMILES — более 97% сгенерированных фрагментов валидны, что критично для практического применения модели. Важно подчеркнуть, что объем и разнообразие данных сыграли решающую роль в улучшении результатов. Генерация 10 миллиардов реакций позволила охватить значительно более широкое химическое пространство, чем доступные изначально патентные базы с несколькими миллионами реакций.

Визуализация распределения химического пространства с помощью методов TMAP показывает, что сгенерированные данные покрывают новые либо редкие области, которые ранее были слабо представлены. Это особенно полезно для предсказания реакций с нестандартными фрагментами или более сложной структурой молекул. Внутренние исследования и абляционные эксперименты подтвердили, что как этап предварительного обучения на синтетическом датасете, так и последующая оптимизация с использованием RLAIF значительно повышают производительность. При отсутствии предобучения точность модели резко падает, что доказывает необходимость масштабного обучения на химических данных для освоения «правил» реакций. В то же время метод RLAIF способствует более устойчивому присвоению модели химической логики, улучшая ранжирование наиболее вероятных реакций.

Практическая ценность RSGPT проявляется также в возможности прогнозирования многошагового ретросинтеза. Модель успешно применяется для планирования сложных синтетических маршрутов важных фармацевтических соединений, таких как осимертиниб, фебуксостат и вонопразан. Несмотря на то, что RSGPT разрабатывалась для одноступенчатого ретросинтеза, составление многошаговых схем становится возможным за счет последовательного применения предсказаний для каждого промежуточного соединения. Это открывает новые горизонты для автоматизации и оптимизации синтетического дизайна в промышленной и академической химии. Тем не менее, RSGPT имеет области для развития.

Текущий метод генерации синтетических тренировочных данных ограничен реакциями, включающими не более трёх реагентов, что снижает охват некоторых видов сложных реакций. Кроме того, генерация реагентов без объяснимой химической логики остаётся вызовом, затрудняя интерпретацию результатов и принятие решений человеком-химиком. Помимо этого, модель пока не учитывает условия реакции, такие как растворители, катализаторы и температура, которые играют ключевую роль в реальных синтетических процессах. В будущем разработчики планируют совершенствовать методы создания данных, расширять химическое пространство, включать числовые параметры условий и улучшать объяснимость модели. Эти направления позволят повысить как точность предсказаний, так и применимость RSGPT в реальных лабораторных и производственных задачах.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
The Peculiar Persistence of the AI Denialists
Среда, 19 Ноябрь 2025 Упрямство отрицающих ИИ: почему мир не готов к новой эре технологий

Современный мир стоит на пороге новой технологической революции, которую многие пока предпочитают не замечать. Искусственный интеллект меняет основы нашей жизни и экономики, но отрицающие его значимость люди создают особый слой скептицизма и непонимания, мешая полноценному восприятию перемен.

Rebuilding an old project paid off, literally!
Среда, 19 Ноябрь 2025 Реставрация старого проекта: как упорство и труд принесли реальные дивиденды

Подробный разбор успешного примера возрождения заброшенного проекта, который превратился в источник стабильного дохода благодаря терпению, грамотной стратегии и современным технологиям.

Varun
Среда, 19 Ноябрь 2025 Варун: значение имени и его влияние на судьбу

Подробный анализ имени Варун, его происхождение, значение и влияние на характер и жизнь человека. Узнайте, как имя Варун отражается на личности и судьбе носителей.

Lawyers warn that recognising a Palestinian state would breach international law
Среда, 19 Ноябрь 2025 Юристы предупреждают: признание Палестинского государства может нарушать международное право

Обсуждение правовых аспектов признания Палестины как государства, анализ международных норм и вызовы, связанные с вопросом палестинского суверенитета в условиях современного геополитического контекста.

People are ditching Windows 10 ahead of the end of support
Среда, 19 Ноябрь 2025 Почему пользователи массово покидают Windows 10 перед завершением поддержки

Обзор ситуации с сокращением доли Windows 10 на рынке и тенденций перехода пользователей на Windows 11 и другие платформы. Анализ причин, последствий и доступных вариантов для владельцев устаревшей ОС.

Convoy Finds New Home: DAT Acquires Flexport’s Freight-Matching Tech
Среда, 19 Ноябрь 2025 DAT берет штурвал: как приобретение платформы Convoy изменит рынок грузоперевозок

Рассмотрение масштабного приобретения платформы Convoy компанией DAT Freight & Analytics и его влияние на рынок грузоперевозок, а также перспективы развития цифровых технологий в индустрии логистики.

Two Fed Governors Dissent From Policy Call for First Time Since 1993
Среда, 19 Ноябрь 2025 Редкий прецедент: двое губернаторов ФРС выразили несогласие с решением по процентным ставкам впервые с 1993 года

Подробный анализ исключительной ситуации на заседании Федерального комитета по открытым рынкам, когда двое чиновников ФРС проголосовали против решения о сохранении процентной ставки, и её влияние на финансовые рынки и экономическую политику США.