Технология блокчейн Интервью с лидерами отрасли

Химические языковые модели: революция в прогнозировании вкуса молекул

Технология блокчейн Интервью с лидерами отрасли
A chemical language model for molecular taste prediction

Современные достижения в области искусственного интеллекта и химии привели к созданию новых инструментов для точного и эффективного предсказания вкусовых свойств молекул. Эти технологии открывают путь к ускоренной разработке новых вкусовых добавок и более глубокому пониманию химической природы вкуса.

Вкус — один из важнейших аспектов восприятия пищи, представляющий собой сложный феномен, зависящий от множества факторов. Наряду с концентрацией вещества и его взаимодействием с вкусовыми рецепторами, на восприятие вкуса влияют культура, физиология индивида, а также сочетание различных вкусовых и ароматических компонентов. Несмотря на значительный научный прогресс, точное определение вкуса даже одной молекулы остаётся трудоёмким процессом, который традиционно требует участия живых дегустаторов или специализированных электронных приборов. В таких условиях на помощь приходит искусственный интеллект, способный прогнозировать вкусовые качества молекул на основе их химической структуры, что значительно ускоряет открытие новых вкусовых соединений и упрощает разработку продуктов с улучшенными органолептическими характеристиками. Одним из новейших достижений в данной области стала химическая языковая модель под названием FART (Flavor Analysis and Recognition Transformer).

Основанная на архитектуре трансформеров, применяемой в современных языковых моделях, FART способна анализировать гидрофобные и стерические свойства молекул на основе их SMILES-формата — текстового представления химической структуры. Уникальной особенностью модели является способность параллельно прогнозировать принадлежность молекулы к четырём классам вкуса: сладкий, горький, кислый и умами. Модель тренируется на крупнейшем на сегодняшний день публичном наборе данных, включающем свыше 15 тысяч соединений с антропогенно подтверждёнными вкусовыми характеристиками. В основе архитектуры FART лежит трансформер, завоевавший популярность в сфере обработки естественного языка. Применение этой архитектуры для химической задачи позволяет получить глубокую и комплексную интерпретацию входной информации, выявлять ключевые атомные группы и функциональные элементы, отвечающие за тот или иной вкус.

Такой подход даёт не только высокую точность прогнозирования — более 90%, — но и обеспечивает интерпретируемость результатов, что бесценно для химиков и пищевых технологов, ищущих связи между структурой молекул и их органолептическими особенностями. Самое главное преимущество использования языковых моделей заключается в том, что они обучаются на основе обширных предобученных данных, а затем тонко настраиваются под специализирующие задачи. В случае FART за основу взят ChemBERTa — большая модель, обученная на миллионах химических структур, которая впоследствии дообучена на конкретной задаче вкусового предсказания. Такой подход позволяет охватить гораздо более широкий химический простор, чем узкоспециализированные модели, ориентированные только на бинарные задачи, например, классификацию «сладкий/несладкий» или «горький/негорький». Важно подчеркнуть, что молекулы нередко обладают смешанным вкусом, например, сочетая сладость и горечь.

FART работает с пятой категорией «неопределённый» вкус, куда попадают вещества с неясным или многоаспектным органолептическим профилем, включая солёные или практически невкусные соединения. Это расширение классификации помогает избежать ошибочной отнесённости молекул к классам, для которых структурных предпосылок нет. Несмотря на это, задача многометочной классификации остаётся открытой и требует дальнейшего совершенствования методологий, чтобы точнее отражать сложность реального вкусового восприятия. Важную роль в успехе FART играет метод множественного аугментирования SMILES-записей молекул. Учитывая, что одна и та же молекула может быть описана несколькими разными SMILES-строками, техника аугментации позволяет значительно расширить тренировочный набор, улучшая обобщающую способность модели и её устойчивость к вариациям входных данных.

Такая стратегия особенно полезна для редких по количеству данных категорий, например умами, где точность F1 существенно увеличивается при использовании аугментации. Сравнение FART с более традиционными методами машинного обучения и глубокими нейронными сетями показало явное преимущество новой модели. Дерево решений с градиентным бустингом, равным образом на основе радиальной молекулярной подписи и набора из пятнадцати дескрипторов, показали достойные, но уступающие результаты. Сообщались также исследования на базе графовых нейронных сетей, таких как Chemprop, которые использовали другую форму представления химических структур — графы с атомами и связями. Несмотря на это, FART, обученная на расширенном и многоцелевом наборе данных, сохраняет лидерство благодаря своей архитектуре и способности учитывать большую контекстную информацию.

Для исследователей и специалистов пищевой химии особенно важна интерпретируемость моделей — способность понять, какие именно элементы молекулы влияют на формирование вкуса. FART при помощи метода интегрированных градиентов позволяет визуально выделять атомы и функциональные группы, усиливающие или, наоборот, ослабляющие вероятность отнесения молекулы к той или иной вкусовой категории. Этот подход подтверждает совпадение с известными химическими закономерностями: кислоты обладают сильно выраженной кислотной группой, полифенолы и флавоноиды связаны с горечью, а амидные группы характерны для соединений с вкусом умами. Однако модель не лишена ограничений. Так, FART не всегда корректно учитывает стереохимию, что отражается, например, на различии между L-глутаматом с ярко выраженным вкусом умами и его зеркальным изомером D-глутаматом, в котором вкус обычно отсутствует.

Это указывает на необходимости дальнейшей адаптации моделей и расширения обучающих данных, особенно в части редких вкусов и биополимеров, таких как пептиды. Роль данных в эффективности машинного обучения крайне велика. Для создания FART были собраны и тщательно отобраны данные из шести публичных источников, включающих экспериментальные и верифицированные данные о вкусовых свойствах 15 025 уникальных молекул. Такие усилия позволяют построить полноту и качество репрезентативного пространства задач и обеспечивают высокую надежность предсказаний. Согласно принципам FAIR, набор данных открыт для сообщества и может использоваться для дальнейших исследований в области вкусовой химии.

Перспективы внедрения химических языковых моделей очень широки. Помимо инструментов автоматизации и ускорения поиска новых вкусовых соединений, они могут содействовать более эффективному контролю качества пищевых продуктов, помогать в разработке лекарственных средств с улучшенной вкусовой маскировкой, а также в анализе сложных природных смесей. Автоматическое тестирование на вкус, опирающееся на такие модели, способно значительно сократить затраты на экспериментальные исследования, обеспечивая при этом возможность ранней фильтрации и подбора перспективных кандидатов. Глобальный тренд на использование ИИ в пищевой химии и молекулярном дизайне отражается не только в достижениях, подобных FART, но и в развитии более мощных «фундаментальных» моделей. Трансформеры на химических данных позволяют обнаруживать невидимые доселе закономерности, создавать новые молекулярные пространства и даже предсказывать свойства макромолекул при соответствующей доработке архитектуры.

Научное сообщество обращает все большее внимание на необходимость объединения обширных, стандартизированных и хорошо аннотированных данных с передовыми алгоритмическими решениями, что в совокупности обещает новую эру прецизионной молекулярной гастрономии. Финальным аккордом является признание, что несмотря на успехи машинного обучения и трансформеров, абсолютная замена экспериментальных методов невозможна. Вкусовое восприятие глубоко субъективно и зависит от контекста, от обонятельных, тактильных ощущений, а также от индивидуальной физиологии. Машинное обучение, таким образом, выступает как вспомогательный и ускоряющий инструмент — он сужает круг возможных вариантов, на которых затем можно сфокусироваться при экспериментальных исследованиях. В заключение, химическая языковая модель FART знаменует собой важный шаг в развитии цифровой молекулярной гастрономии.

Она демонстрирует, как объединение больших данных, современных методов обучения и глубокого химического понимания может перевернуть традиционный подход к изучению вкуса. Эта технология максимально приближает нас к эпохе, когда специалисты смогут моделировать и создавать вкусы молекул виртуально, открывая новые горизонты для науки и индустрии питания.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
IBM Power11 Launched with Up to 2048 Threads and Ddimm Support
Среда, 15 Октябрь 2025 Новая эра серверных технологий: запуск IBM Power11 с поддержкой до 2048 потоков и памятью DDIMM

IBM представила новую линейку серверных процессоров Power11, которая предлагает впечатляющие характеристики и инновационные решения для корпоративных систем. В статье рассматриваются ключевые особенности Power11, поддержка DDIMM-памяти, применение в сфере искусственного интеллекта и преимущества гибридного облака.

Show HN: PastelPaste – A Minimal and Modern Pastebin Written in Rust
Среда, 15 Октябрь 2025 PastelPaste: Современный и минималистичный Pastebin на Rust для разработчиков и не только

Обзор PastelPaste — минималистичного и современного веб-приложения pastebin, написанного на Rust с использованием фреймворков Axum и Askama. Узнайте, как PastelPaste обеспечивает удобное хранение и обмен текстовыми сниппетами без базы данных, и почему это решение заслуживает внимания разработчиков.

Linda Yaccarino departs as boss of Musk's X
Среда, 15 Октябрь 2025 Уход Линды Яккарино с поста руководителя платформы X Элон Маска: причины и последствия

Линда Яккарино объявила о своём уходе с поста главы социальной сети X, находящейся под управлением Илона Маска. В статье рассмотрены причины её отставки, влияние на платформу и перспективы развития X в условиях новых вызовов и изменений.

The curious case of how bird wrists evolved
Среда, 15 Октябрь 2025 Загадка эволюции запястий птиц: путь к полету и новым возможностям

Исследование эволюции запястий птиц раскрывает удивительные подробности о том, как уникальная структура их кистей помогла покорить небо. Анализ древних окаменелостей и современных птиц проливает свет на эволюционные изменения, которые предшествовали появлению самих птиц, и объясняет, как развитие запястных костей стало ключевым фактором в оперении и подвижности крыльев.

Physicists Found the Ghost Haunting the Most Famous Particle Accelerator
Среда, 15 Октябрь 2025 Учёные обнаружили «призрак» в самом известном ускорителе частиц: тайны ЦЕРН раскрыты

Физики обнаружили необычное резонансное явление внутри Большого Адронного Коллайдера, которое влияет на работу ускорителя и качество экспериментов. Исследования открывают новые горизонты в понимании динамики частиц и помогут совершенствовать технологии ускорителей в будущем.

Japan's Remixpoint Raises ¥31.5 Billion ($215 Million) to Acquire up to 3,000 Bitcoin
Среда, 15 Октябрь 2025 Японская компания Remixpoint инвестирует 215 миллионов долларов в покупку биткоинов

Remixpoint, японская публичная компания, привлекла 31,5 миллиарда иен для масштабного увеличения своих биткоин-активов, планируя приобрести до 3000 BTC. Этот шаг отражает стремление компании расширить своё присутствие на рынке криптовалют и диверсифицировать свои финансовые активы.

New token soars 1,300% after Elon Musk tells America to 'Kill the Bill' - Yahoo Finance
Среда, 15 Октябрь 2025 Взрывной рост токена Kill The Bill на фоне критики Элонa Маска федерального бюджета США

Новое криптовалютное явление - мемкойн Kill The Bill взлетел на 1300% после призыва Илона Маска против законопроекта о федеральных расходах, получив огромный интерес на платформе Solana и вызвав бурное обсуждение среди инвесторов и криптоэнтузиастов.