Сфера больших языковых моделей (LLM) продолжает стремительно развиваться, открывая новые горизонты в обработке естественного языка и создании искусственного интеллекта. На сегодняшний день многие разработки сосредоточены вокруг архитектур, построенных по принципу decoder-only, которые хорошо зарекомендовали себя в генеративных задачах. Однако классическая схема энкодер-декодер, воплощенная в моделях типа T5, сохраняет значимую роль благодаря своей высокой гибкости и эффективности, особенно при решении задач, требующих глубокого понимания входного материала. Недавно компания Google представила новое поколение моделей под названием T5Gemma, которые открывают мощные возможности за счет инновационного подхода — адаптации предобученных decoder-only моделей Gemma в архитектуру энкодер-декодер. Идея создания T5Gemma базируется на важном исследовательском вопросе: можно ли добиться высокой производительности энкодер-декодер моделей, используя уже обученные decoder-only модели? Ответ положительный, и он подкреплен методикой адаптации, реализующей переинициализацию параметров и последующее дообучение с применением передовых методов UL2 и PrefixLM.
Такая стратегия позволяет максимально эффективно перенести знания из мощных Gemma 2 моделей в новый формат, сохранив при этом преимущества каждой архитектуры. Одним из ключевых преимуществ T5Gemma является их гибкость в настройке баланса между качеством и скоростью вывода. В отличие от традиционного подхода, где размер энкодера и декодера сбалансирован, адаптация позволяет создавать «несбалансированные» модели, например, используя крупный энкодер с компактным декодером. Это важное преимущество для прикладных задач, таких как суммаризация текста, где критично качественно понять содержимое, а генерация текста может требовать меньших вычислительных ресурсов. Благодаря такой конфигурации можно добиться значительного улучшения по соотношению скорость-качество, что особенно важно в реальных приложениях с ограничениями на время отклика.
Результаты тестирования T5Gemma впечатляют и выходят за рамки теории. Во многих бенчмарках, включая SuperGLUE, модели T5Gemma показывают одинаково хорошие или лучшие результаты, чем предшествующие decoder-only версии Gemma 2. Особенно заметна их эффективность при решении сложных задач, требующих логического вывода и глубокого понимания. Например, на испытании GSM8K, которое проверяет математические навыки моделей, T5Gemma с архитектурой 9B-9B не только превосходит изначальную Gemma 2 9B, но и делает это при сохранении сопоставимого времени отклика. Еще более впечатляющим становится факт, что модель 9B-2B значительно повышает точность по сравнению с 2B-2B версией, не уступая при этом по латентности даже более компактным вариантам Gemma 2 2B.
Эти достижения позволили подтвердить, что адаптация энкодер-декодер архитектуры является надежным инструментом для масштабирования больших языковых моделей, сохраняя при этом баланс между вычислительной эффективностью и качеством вывода. Это особенно актуально при изучении архитектур, предназначенных для разнообразных задач — от машинного перевода и суммаризации до ответов на вопросы и сложных рассуждений. T5Gemma демонстрирует впечатляющие способности как на этапе предобучения, так и после настройки под инструкции (instruction tuning). Уже в базовом варианте предобучения модели показывают улучшение качества на задачах, требующих глубокого анализа, чтения и понимания разнородных данных. Например, версия 9B-9B способна добиться прироста свыше 9 баллов на GSM8K и на 4 балла на DROP относительно оригинального Gemma 2 9B.
Настройка моделей с использованием методов, таких как RLHF (Reinforcement Learning with Human Feedback), усиливает преимущества энкодер-декодер архитектуры. Инструкциями управляемая версия T5Gemma 2B-2B показывает значительный рост показателей MMLU (Massive Multitask Language Understanding) и GSM8K, что подчеркивает лучшее восприятие и обработку пользовательских запросов, а также повышает общую полезность и надежность модели в реальном использовании. Google открывает доступ к широкому спектру моделей T5Gemma, чтобы исследователи, разработчики и корпоративные команды могли использовать и развивать эти технологии. Доступны различные размеры моделей — от компактных Small и Base до масштабных Large и XL, а также промежуточные варианты, обеспечивающие гибкость в выборке под конкретные задачи и ресурсы. Открыты как версии, прошедшие предобучение, так и инструктированные модели, обученные с использованием различных целей, таких как PrefixLM для генеративных возможностей и UL2 для улучшенного представления текстовой информации.
Полезность релиза моделей T5Gemma не ограничивается только академией. Они готовы к интеграции в коммерческие и исследовательские продукты, включая облачные AI-сервисы, платформы обработки естественного языка и инструменты автоматизации, где важны скорость, качество и адаптивность обработки информации. Для желающих начать работу с T5Gemma доступны ресурсы в виде колаб-тетрадей, позволяющих легко запустить исследовательские сценарии и переобучение под свои данные. Модели размещены на популярных площадках Hugging Face и Kaggle, что упрощает их распространение и внедрение. Также они интегрированы с Google Vertex AI, обеспечивая промышленный уровень обслуживания и масштабируемости.