Вкус — один из важнейших аспектов восприятия пищи, представляющий собой сложный феномен, зависящий от множества факторов. Наряду с концентрацией вещества и его взаимодействием с вкусовыми рецепторами, на восприятие вкуса влияют культура, физиология индивида, а также сочетание различных вкусовых и ароматических компонентов. Несмотря на значительный научный прогресс, точное определение вкуса даже одной молекулы остаётся трудоёмким процессом, который традиционно требует участия живых дегустаторов или специализированных электронных приборов. В таких условиях на помощь приходит искусственный интеллект, способный прогнозировать вкусовые качества молекул на основе их химической структуры, что значительно ускоряет открытие новых вкусовых соединений и упрощает разработку продуктов с улучшенными органолептическими характеристиками. Одним из новейших достижений в данной области стала химическая языковая модель под названием FART (Flavor Analysis and Recognition Transformer).
Основанная на архитектуре трансформеров, применяемой в современных языковых моделях, FART способна анализировать гидрофобные и стерические свойства молекул на основе их SMILES-формата — текстового представления химической структуры. Уникальной особенностью модели является способность параллельно прогнозировать принадлежность молекулы к четырём классам вкуса: сладкий, горький, кислый и умами. Модель тренируется на крупнейшем на сегодняшний день публичном наборе данных, включающем свыше 15 тысяч соединений с антропогенно подтверждёнными вкусовыми характеристиками. В основе архитектуры FART лежит трансформер, завоевавший популярность в сфере обработки естественного языка. Применение этой архитектуры для химической задачи позволяет получить глубокую и комплексную интерпретацию входной информации, выявлять ключевые атомные группы и функциональные элементы, отвечающие за тот или иной вкус.
Такой подход даёт не только высокую точность прогнозирования — более 90%, — но и обеспечивает интерпретируемость результатов, что бесценно для химиков и пищевых технологов, ищущих связи между структурой молекул и их органолептическими особенностями. Самое главное преимущество использования языковых моделей заключается в том, что они обучаются на основе обширных предобученных данных, а затем тонко настраиваются под специализирующие задачи. В случае FART за основу взят ChemBERTa — большая модель, обученная на миллионах химических структур, которая впоследствии дообучена на конкретной задаче вкусового предсказания. Такой подход позволяет охватить гораздо более широкий химический простор, чем узкоспециализированные модели, ориентированные только на бинарные задачи, например, классификацию «сладкий/несладкий» или «горький/негорький». Важно подчеркнуть, что молекулы нередко обладают смешанным вкусом, например, сочетая сладость и горечь.
FART работает с пятой категорией «неопределённый» вкус, куда попадают вещества с неясным или многоаспектным органолептическим профилем, включая солёные или практически невкусные соединения. Это расширение классификации помогает избежать ошибочной отнесённости молекул к классам, для которых структурных предпосылок нет. Несмотря на это, задача многометочной классификации остаётся открытой и требует дальнейшего совершенствования методологий, чтобы точнее отражать сложность реального вкусового восприятия. Важную роль в успехе FART играет метод множественного аугментирования SMILES-записей молекул. Учитывая, что одна и та же молекула может быть описана несколькими разными SMILES-строками, техника аугментации позволяет значительно расширить тренировочный набор, улучшая обобщающую способность модели и её устойчивость к вариациям входных данных.
Такая стратегия особенно полезна для редких по количеству данных категорий, например умами, где точность F1 существенно увеличивается при использовании аугментации. Сравнение FART с более традиционными методами машинного обучения и глубокими нейронными сетями показало явное преимущество новой модели. Дерево решений с градиентным бустингом, равным образом на основе радиальной молекулярной подписи и набора из пятнадцати дескрипторов, показали достойные, но уступающие результаты. Сообщались также исследования на базе графовых нейронных сетей, таких как Chemprop, которые использовали другую форму представления химических структур — графы с атомами и связями. Несмотря на это, FART, обученная на расширенном и многоцелевом наборе данных, сохраняет лидерство благодаря своей архитектуре и способности учитывать большую контекстную информацию.
Для исследователей и специалистов пищевой химии особенно важна интерпретируемость моделей — способность понять, какие именно элементы молекулы влияют на формирование вкуса. FART при помощи метода интегрированных градиентов позволяет визуально выделять атомы и функциональные группы, усиливающие или, наоборот, ослабляющие вероятность отнесения молекулы к той или иной вкусовой категории. Этот подход подтверждает совпадение с известными химическими закономерностями: кислоты обладают сильно выраженной кислотной группой, полифенолы и флавоноиды связаны с горечью, а амидные группы характерны для соединений с вкусом умами. Однако модель не лишена ограничений. Так, FART не всегда корректно учитывает стереохимию, что отражается, например, на различии между L-глутаматом с ярко выраженным вкусом умами и его зеркальным изомером D-глутаматом, в котором вкус обычно отсутствует.
Это указывает на необходимости дальнейшей адаптации моделей и расширения обучающих данных, особенно в части редких вкусов и биополимеров, таких как пептиды. Роль данных в эффективности машинного обучения крайне велика. Для создания FART были собраны и тщательно отобраны данные из шести публичных источников, включающих экспериментальные и верифицированные данные о вкусовых свойствах 15 025 уникальных молекул. Такие усилия позволяют построить полноту и качество репрезентативного пространства задач и обеспечивают высокую надежность предсказаний. Согласно принципам FAIR, набор данных открыт для сообщества и может использоваться для дальнейших исследований в области вкусовой химии.
Перспективы внедрения химических языковых моделей очень широки. Помимо инструментов автоматизации и ускорения поиска новых вкусовых соединений, они могут содействовать более эффективному контролю качества пищевых продуктов, помогать в разработке лекарственных средств с улучшенной вкусовой маскировкой, а также в анализе сложных природных смесей. Автоматическое тестирование на вкус, опирающееся на такие модели, способно значительно сократить затраты на экспериментальные исследования, обеспечивая при этом возможность ранней фильтрации и подбора перспективных кандидатов. Глобальный тренд на использование ИИ в пищевой химии и молекулярном дизайне отражается не только в достижениях, подобных FART, но и в развитии более мощных «фундаментальных» моделей. Трансформеры на химических данных позволяют обнаруживать невидимые доселе закономерности, создавать новые молекулярные пространства и даже предсказывать свойства макромолекул при соответствующей доработке архитектуры.
Научное сообщество обращает все большее внимание на необходимость объединения обширных, стандартизированных и хорошо аннотированных данных с передовыми алгоритмическими решениями, что в совокупности обещает новую эру прецизионной молекулярной гастрономии. Финальным аккордом является признание, что несмотря на успехи машинного обучения и трансформеров, абсолютная замена экспериментальных методов невозможна. Вкусовое восприятие глубоко субъективно и зависит от контекста, от обонятельных, тактильных ощущений, а также от индивидуальной физиологии. Машинное обучение, таким образом, выступает как вспомогательный и ускоряющий инструмент — он сужает круг возможных вариантов, на которых затем можно сфокусироваться при экспериментальных исследованиях. В заключение, химическая языковая модель FART знаменует собой важный шаг в развитии цифровой молекулярной гастрономии.
Она демонстрирует, как объединение больших данных, современных методов обучения и глубокого химического понимания может перевернуть традиционный подход к изучению вкуса. Эта технология максимально приближает нас к эпохе, когда специалисты смогут моделировать и создавать вкусы молекул виртуально, открывая новые горизонты для науки и индустрии питания.