Современный мир искусственного интеллекта развивается стремительными темпами, диктуя новые требования к аппаратному обеспечению. В основе большинства AI-приложений лежит работа с тензорами — многомерными структурами данных, которые становятся объектами вычислений хранилищ и алгоритмов машинного обучения. Несмотря на значительные успехи в ускорении вычислений тензорных операций, задача эффективного и масштабируемого управления данными на уровне памяти остается сложной и зачастую ограничивающей фактором в работе систем на кристалле (SoC). Инновационный подход, представленный Tensor Manipulation Unit (TMU), предлагает переосмысление концепции обработки данных, обеспечивая гибкую, перенастраиваемую и высокопроизводительную манипуляцию тензорными структурами непосредственно рядом с памятью. TMU — аппаратный блок, спроектированный с целью эффективной реализации операций, связанных с перемещением больших объемов данных.
Его ключевым отличием является использование принципов, схожих с RISC-архитектурой, что позволяет универсально и гибко управлять тензорными преобразованиями как на грубом, так и на мелком уровне. В отличие от традиционных ускорителей, которые делают упор на вычисления, TMU сконцентрирован на задаче минимизации затрат времени на передачу данных и на максимизации пропускной способности шин, что критично для современных AI-моделей. Инновационный дизайн TMU включает использование единой абстракции адресации, что открывает широкие возможности для поддержки разнообразных операторов, начиная от простых перестановок измерений и заканчивая сложными операциями трансформации данных. Благодаря решению задачи переноса данных напрямую из памяти в память, TMU снижает нагрузку на центральные процессорные или вычислительные блоки, освобождая их для выполнения более сложных математических операций. Технологическое исполнение TMU в 40 нм техпроцессе от SMIC позволяет интегрировать его в современный AI SoC с минимальным занимаемым пространством — всего 0,019 мм².
Несмотря на компактность, устройство поддерживает широкий спектр оптимизированных операторов, число которых превышает десять, что делает его универсальным инструментом для обработки различных моделей и архитектур AI. Такое соотношение размеров и функций представляет собой эффективное решение для масштабируемых проектов, ориентированных на мобильные и встраиваемые системы. Одним из ключевых преимуществ TMU является его способность работать в тесной связке с тензорными процессорными блоками, такими как TPU, что позволяет добиться значительного сокращения времени отклика системы в целом. Использование техники двойной буферизации и методов передачи выходных данных между этапами обработки обеспечивает высокий коэффициент занятости конвейера, что напрямую повышает производительность. Результаты тестирования подтвердили, что интегрированное решение TMU и TPU снижает время выполнения задач инференса почти на треть, что представляет собой настоящий прорыв по сравнению с традиционными архитектурами.
Сравнительный анализ производительности TMU показал впечатляющие показатели по сравнению с распространёнными CPU и GPU архитектурами. В частности, по некоторым операторам, TMU демонстрирует сокращение задержек до 1413 раза относительно ARM A72 и более чем в восемь раз по сравнению с NVIDIA Jetson TX2. Это говорит о том, что внедрение данного аппаратного блока в AI-системы способно не только повысить быстродействие, но и значительно увеличить энергоэффективность, что критично для устройств с ограниченными ресурсами питания. Важным аспектом дизайна TMU является его перенастраиваемость, что дает разработчикам возможность адаптировать устройство под различные задачи и рабочие нагрузки. В условиях непрерывного роста разнообразия AI-моделей способность на лету переопределять логику обработки данных, сохраняя при этом эффективность, является большим преимуществом перед монолитными решениями.
Это способствует снижению затрат на интеграцию и расширению спектра поддержки новых алгоритмов без необходимости в кардинальной смене аппаратной платформы. Появление TMU обозначает новый веху в эволюции AI-SoC, где важно не только быстродействие вычислений, но и оптимизация передачи данных, что до сих пор оставалось узким местом в системах искусственного интеллекта. Возможность перемещения и трансформации данных «у источника» — возле памяти — снижает латентность, уменьшает энергопотребление и повышает пропускную способность системы в целом. Это меняет подходы к архитектуре процессоров и позволяет создавать более эффективные и компактные решения для широкого спектра применений, от мобильных устройств до центров обработки данных. Перспективы развития TMU связаны с дальнейшей миниатюризацией и интеграцией с разнообразными вычислительными блоками, а также с расширением набора поддерживаемых операторов.