Цифровое искусство NFT Технология блокчейн

Аналоговый механизм внимания в вычислениях в памяти: прорыв в скорости и энергоэффективности больших языковых моделей

Цифровое искусство NFT Технология блокчейн
Analog in-memory computing attention mechanism fast and energy-efficient LLMs

Современные большие языковые модели требуют огромных вычислительных ресурсов при выполнении задач обработки естественного языка. Аналоговая вычислительная архитектура в памяти, основанная на новых энергосберегающих технологиях, существенно повышает производительность и снижает энергопотребление, открывая новые горизонты для масштабируемого и быстрого искусственного интеллекта.

Современные большие языковые модели (LLM), которые лежат в основе генерации текста, машинного перевода и анализа естественного языка, стремятся к увеличению масштабов и возможностей. Центральным элементом этих моделей является механизм внимания Transformer, который опирается на вычисление сложных матричных операций в процессе обработки последовательностей токенов. Однако высокая вычислительная сложность и значительные энергозатраты традиционных архитектур, реализованных на GPU и CPU, ограничивают эффективность и масштабируемость этих систем. В этом контексте технология аналоговых вычислений в памяти (IMC), в частности на базе элементной базы, известных как gain cells, представляет собой перспективное аппаратное решение, обеспечивающее существенное снижение латентности и потребления энергии при сохранении точности и производительности моделей. Аналоговые вычисления в памяти полностью меняют подход к обработке данных в LLM.

В отличие от цифровых систем, где данные постоянно перемещаются между памятью и вычислительными блоками, в IMC операции умножения и аккумуляции выполняются непосредственно в области хранения весов и представлений, что минимизирует энергозатраты на передачу данных и ускоряет вычисления. Gain cells - это тип энергонезависимых ячеек памяти, основанных на хранении электрического заряда в конденсаторе, снабженных транзисторными элементами для быстрой записи и чтения. Их способность проводить высокопараллельные операции аналогового умножения и накопления с сохранением состояния в течение нескольких миллисекунд открывает возможности для реализации механизма внимания непосредственно в памяти. Механизм внимания Transformer вычисляет dot-продукты между запросами (Query), ключами (Key) и значениями (Value), формируя матрицу внимания, которая отражает важность каждого токена относительно других. Самым ресурсоемким этапом становится обновление и хранение кэшированных ключей и значений (KV-cache) при генерации каждого нового токена.

В традиционных GPU-системах эти данные неоднократно копируются из основной памяти в SRAM, что вызывает задержки и значительное энергопотребление, особенно при последовательной генерации текста. Новая архитектура на основе gain cells позволяет хранить KV-cache непосредственно в энергонезависимой памяти, параллельно выполняя умножение запросов на ключи и последующее масштабирование и активацию без необходимости частой передачи данных. Одним из ключевых технических достижений является способ обхода проблем, связанных с неидеальностями аналоговых операций. В отличие от цифровых умножений, аналоговые мультипликаторы на базе gain cells демонстрируют нелинейности и ограниченную точность хранения зарядов. Чтобы компенсировать эти особенности, была разработана методика программного адаптирования предварительно обученных моделей, позволяющая корректировать веса и активации, обеспечивая близкую к эталонной производительность, например, сравнимую с GPT-2, без необходимости тренировки с нуля.

 

Помимо этого, вместо традиционной функции softmax для нормализации используется HardSigmoid, которая аппроксимирует функцию активации с меньшими аппаратными затратами и позволяет упростить схемотехнику без значительных потерь в точности. Аппаратные реализации обеспечивают выполнение всех шагов механизма внимания полностью в аналоговой доменной. Запросы кодируются в виде широтно-импульсной модуляции (PWM), что позволяет эффективно передавать информацию через аналоговые блоки, а интеграция токов и формирование выходных импульсов выполняются с помощью специализированных схем charge-to-pulse. Эти компоненты, действуя в тандеме с gain-cell массивами,гарантируют высокую параллельность вычислений и минимальные задержки. Такой подход не только уменьшает энергопотребление по сравнению с традиционными GPU и даже специализированными цифровыми ASIC, но и значительным образом снижает время отклика, достигая ускорения в тысячи раз.

 

Для поддержки обработки длинных последовательностей реализована стратегия скользящего окна внимания (sliding window attention). Вместо хранения и обработки всей истории токенов, аппаратное обеспечение поддерживает фиксированное количество последних токенов, обновляя progressively KV-кэш. Это позволяет ограничить размеры массивов gain cells без потери качества обработки текста, учитывая, что более глубокие слои трансформера расширяют поле восприятия, обеспечивая глобальный контекст. Обновление столбцов массивов в памяти осуществляется поэтапно с вниманием к таймингу операции записи и считывания, что позволяет добиться максимального ускорения и непрерывности вычислений. Несмотря на эффект утечки заряда из-за физических свойств gain cells, что приводит к ограниченному времени удержания данных, предложенный аппаратно-программный комплекс предусматривает компенсацию подобных эффектов как на уровне схемотехники, так и с помощью обучающих процедур.

 

Так, в моделях учитывается экспоненциальный спад значений, и алгоритмы обучения оптимизируют веса с учётом этих изменений, что незначительно сказывается на итоговой производительности и даже может использоваться для придания дополнительной структуры памяти модели. Еще одним важным элементом является разделение KV-кэша на множество подблоков (sub-tiles) размером 64 на 64 элемента для уменьшения влияния падения напряжения (IR drop) в больших массивах, что позволило сохранить точность вычислений на высоком уровне при увеличении общего объема обрабатываемых данных. Такая модульная архитектура обеспечивает горизонтальное масштабирование, позволяя адаптировать устройство под требования различных языковых моделей и объемов последовательностей. Тестирование производительности данной системы показало, что энергопотребление на обработку одного токена снижается на несколько порядков относительно современных GPU. Этот эффект обусловлен уменьшением обращений к памяти и эффективной аналоговой обработкой данных, а также отсутствием необходимости в энергоемких аналого-цифровых преобразователях, которые традиционно ограничивают преимущества аналоговых подходов.

Сравнения с NVIDIA RTX 4090 и H100 продемонстрировали снижение энергозатрат до 70 000 раз и повышение скорости до 300 раз для отдельно взятого механизма внимания. Реализация такой архитектуры открывает возможности для создания компактных, быстрых и энергоэффективных аппаратных ускорителей, применимых в реальном времени для автономных систем генерации и анализа текста, разговорных агентов и других задач AI с высоким требованием к скорости отклика и энергопотреблению. Аналоговые IMC-решения на базе gain cells могут быть интегрированы с другими оптимизированными модулями - например, для линейных слоев, создавая полноценные аналого-цифровые гибридные вычислительные платформы для LLM. В долгосрочной перспективе усовершенствование технологий oxide-semiconductor транзисторов для gain cells позволит повысить плотность памяти и длительность удержания состояния, а также улучшить характеристики записи и чтения. Кроме того, 3D-стековые интеграции обеспечат дополнительно высокую плотность благодаря экономии площадей и сокращению межсоединений.

Это поднимет возможности аппаратной поддержки трансформеров нового поколения на качественно новый уровень. Подход, основанный на аппаратно-программном со-создании, когда специфика работы аналоговых схем учитывается во время обучения нейросетей, обеспечит максимальную эффективность и точность моделей. Благодаря возможности адаптировать весовые коэффициенты под реальные физические ограничения устройства, можно сохранить высокое качество предсказаний и генераций, даже в условиях неточностей аналоговой обработки. Таким образом, применение аналоговых вычислительных массивов на базе gain cells становится революционным шагом в развитии аппаратного обеспечения для больших языковых моделей. Оно обеспечивает сочетание быстродействия, энергоэффективности и достаточной точности, что станет ключевым фактором для широкого внедрения искусственного интеллекта в устройствах с ограниченными ресурсами и способствует экологически устойчивому развитию вычислительной индустрии.

.

Автоматическая торговля на криптовалютных биржах

Далее
Building multi-agent tools for engineering
Четверг, 01 Январь 2026 Создание многоагентных инструментов для инженерии: будущее совместной работы с ИИ

Развитие многоагентных систем на базе больших языковых моделей кардинально меняет подходы к инженерным процессам, повышая эффективность команд и оптимизируя решение сложных задач в разработке и эксплуатации программного обеспечения. .

Bitcoin, Ethereum record highs bring greed into investment mix
Четверг, 01 Январь 2026 Рекордные максимумы Bitcoin и Ethereum: как жадность влияет на инвестиционные решения

Рост цен на Bitcoin и Ethereum подогревает интерес инвесторов, но жадность часто становится главной преградой к рациональному инвестированию. Анализ факторов, влияющих на рынок криптовалют, и советы по управлению эмоциями во время подъёмов.

Understanding n+1 query problems in Ruby on Rails
Четверг, 01 Январь 2026 Понимание проблемы n+1 запросов в Ruby on Rails: как избежать замедления приложений

Глубокое объяснение проблемы n+1 запросов в Ruby on Rails, её влияния на производительность приложений и способы эффективного решения для оптимизации работы с базой данных. .

Lessons Learned: Using Git Workflows to Manage a Multilingual Festival Website
Четверг, 01 Январь 2026 Уроки использования Git-воркфлоу для управления многоязычным фестивальным сайтом

Подробный разбор опыта применения Git-воркфлоу для создания и поддержки многоязычного веб-сайта фестиваля Ring on Feier, обеспечивающего надежность, удобство управления контентом и минимальные затраты в условиях ограниченного бюджета. .

Volkswagen patented a system that uses the car itself for VR gaming
Четверг, 01 Январь 2026 Volkswagen и революция VR-гейминга: как автомобиль становится игровой площадкой будущего

Volkswagen разработал инновационную технологию, которая превращает автомобиль в полноценную VR-платформу, расширяя границы развлечений и взаимодействия водителя с транспортным средством. Рассмотрим особенности патентованной системы и её потенциал для автомобильной и игровой индустрий.

A website that focuses on blogs
Четверг, 01 Январь 2026 Все о блогах: как создать и развивать успешный блог в современном мире

Подробное руководство по созданию, ведению и продвижению блога с учетом современных трендов и технологий. Узнайте, как сделать блог популярным и полезным для аудитории.

Show HN: Play with an AI agent that debugs incidents in our sandbox
Четверг, 01 Январь 2026 Искусственный интеллект в отладке инцидентов: инновации в виртуальной песочнице

Рассмотрение возможностей искусственного интеллекта для автоматизации и оптимизации процесса отладки инцидентов в безопасной среде песочницы, преимущества и перспективы применения технологий в IT-индустрии и управлении инцидентами. .