Современные большие языковые модели (LLM), которые лежат в основе генерации текста, машинного перевода и анализа естественного языка, стремятся к увеличению масштабов и возможностей. Центральным элементом этих моделей является механизм внимания Transformer, который опирается на вычисление сложных матричных операций в процессе обработки последовательностей токенов. Однако высокая вычислительная сложность и значительные энергозатраты традиционных архитектур, реализованных на GPU и CPU, ограничивают эффективность и масштабируемость этих систем. В этом контексте технология аналоговых вычислений в памяти (IMC), в частности на базе элементной базы, известных как gain cells, представляет собой перспективное аппаратное решение, обеспечивающее существенное снижение латентности и потребления энергии при сохранении точности и производительности моделей. Аналоговые вычисления в памяти полностью меняют подход к обработке данных в LLM.
В отличие от цифровых систем, где данные постоянно перемещаются между памятью и вычислительными блоками, в IMC операции умножения и аккумуляции выполняются непосредственно в области хранения весов и представлений, что минимизирует энергозатраты на передачу данных и ускоряет вычисления. Gain cells - это тип энергонезависимых ячеек памяти, основанных на хранении электрического заряда в конденсаторе, снабженных транзисторными элементами для быстрой записи и чтения. Их способность проводить высокопараллельные операции аналогового умножения и накопления с сохранением состояния в течение нескольких миллисекунд открывает возможности для реализации механизма внимания непосредственно в памяти. Механизм внимания Transformer вычисляет dot-продукты между запросами (Query), ключами (Key) и значениями (Value), формируя матрицу внимания, которая отражает важность каждого токена относительно других. Самым ресурсоемким этапом становится обновление и хранение кэшированных ключей и значений (KV-cache) при генерации каждого нового токена.
В традиционных GPU-системах эти данные неоднократно копируются из основной памяти в SRAM, что вызывает задержки и значительное энергопотребление, особенно при последовательной генерации текста. Новая архитектура на основе gain cells позволяет хранить KV-cache непосредственно в энергонезависимой памяти, параллельно выполняя умножение запросов на ключи и последующее масштабирование и активацию без необходимости частой передачи данных. Одним из ключевых технических достижений является способ обхода проблем, связанных с неидеальностями аналоговых операций. В отличие от цифровых умножений, аналоговые мультипликаторы на базе gain cells демонстрируют нелинейности и ограниченную точность хранения зарядов. Чтобы компенсировать эти особенности, была разработана методика программного адаптирования предварительно обученных моделей, позволяющая корректировать веса и активации, обеспечивая близкую к эталонной производительность, например, сравнимую с GPT-2, без необходимости тренировки с нуля.
Помимо этого, вместо традиционной функции softmax для нормализации используется HardSigmoid, которая аппроксимирует функцию активации с меньшими аппаратными затратами и позволяет упростить схемотехнику без значительных потерь в точности. Аппаратные реализации обеспечивают выполнение всех шагов механизма внимания полностью в аналоговой доменной. Запросы кодируются в виде широтно-импульсной модуляции (PWM), что позволяет эффективно передавать информацию через аналоговые блоки, а интеграция токов и формирование выходных импульсов выполняются с помощью специализированных схем charge-to-pulse. Эти компоненты, действуя в тандеме с gain-cell массивами,гарантируют высокую параллельность вычислений и минимальные задержки. Такой подход не только уменьшает энергопотребление по сравнению с традиционными GPU и даже специализированными цифровыми ASIC, но и значительным образом снижает время отклика, достигая ускорения в тысячи раз.
Для поддержки обработки длинных последовательностей реализована стратегия скользящего окна внимания (sliding window attention). Вместо хранения и обработки всей истории токенов, аппаратное обеспечение поддерживает фиксированное количество последних токенов, обновляя progressively KV-кэш. Это позволяет ограничить размеры массивов gain cells без потери качества обработки текста, учитывая, что более глубокие слои трансформера расширяют поле восприятия, обеспечивая глобальный контекст. Обновление столбцов массивов в памяти осуществляется поэтапно с вниманием к таймингу операции записи и считывания, что позволяет добиться максимального ускорения и непрерывности вычислений. Несмотря на эффект утечки заряда из-за физических свойств gain cells, что приводит к ограниченному времени удержания данных, предложенный аппаратно-программный комплекс предусматривает компенсацию подобных эффектов как на уровне схемотехники, так и с помощью обучающих процедур.
Так, в моделях учитывается экспоненциальный спад значений, и алгоритмы обучения оптимизируют веса с учётом этих изменений, что незначительно сказывается на итоговой производительности и даже может использоваться для придания дополнительной структуры памяти модели. Еще одним важным элементом является разделение KV-кэша на множество подблоков (sub-tiles) размером 64 на 64 элемента для уменьшения влияния падения напряжения (IR drop) в больших массивах, что позволило сохранить точность вычислений на высоком уровне при увеличении общего объема обрабатываемых данных. Такая модульная архитектура обеспечивает горизонтальное масштабирование, позволяя адаптировать устройство под требования различных языковых моделей и объемов последовательностей. Тестирование производительности данной системы показало, что энергопотребление на обработку одного токена снижается на несколько порядков относительно современных GPU. Этот эффект обусловлен уменьшением обращений к памяти и эффективной аналоговой обработкой данных, а также отсутствием необходимости в энергоемких аналого-цифровых преобразователях, которые традиционно ограничивают преимущества аналоговых подходов.
Сравнения с NVIDIA RTX 4090 и H100 продемонстрировали снижение энергозатрат до 70 000 раз и повышение скорости до 300 раз для отдельно взятого механизма внимания. Реализация такой архитектуры открывает возможности для создания компактных, быстрых и энергоэффективных аппаратных ускорителей, применимых в реальном времени для автономных систем генерации и анализа текста, разговорных агентов и других задач AI с высоким требованием к скорости отклика и энергопотреблению. Аналоговые IMC-решения на базе gain cells могут быть интегрированы с другими оптимизированными модулями - например, для линейных слоев, создавая полноценные аналого-цифровые гибридные вычислительные платформы для LLM. В долгосрочной перспективе усовершенствование технологий oxide-semiconductor транзисторов для gain cells позволит повысить плотность памяти и длительность удержания состояния, а также улучшить характеристики записи и чтения. Кроме того, 3D-стековые интеграции обеспечат дополнительно высокую плотность благодаря экономии площадей и сокращению межсоединений.
Это поднимет возможности аппаратной поддержки трансформеров нового поколения на качественно новый уровень. Подход, основанный на аппаратно-программном со-создании, когда специфика работы аналоговых схем учитывается во время обучения нейросетей, обеспечит максимальную эффективность и точность моделей. Благодаря возможности адаптировать весовые коэффициенты под реальные физические ограничения устройства, можно сохранить высокое качество предсказаний и генераций, даже в условиях неточностей аналоговой обработки. Таким образом, применение аналоговых вычислительных массивов на базе gain cells становится революционным шагом в развитии аппаратного обеспечения для больших языковых моделей. Оно обеспечивает сочетание быстродействия, энергоэффективности и достаточной точности, что станет ключевым фактором для широкого внедрения искусственного интеллекта в устройствах с ограниченными ресурсами и способствует экологически устойчивому развитию вычислительной индустрии.
.