За последние годы технологии искусственного интеллекта и высокопроизводительных вычислений (HPC) получили мощный импульс развития, во многом благодаря росту вычислительной мощности графических процессоров (GPU). Компания Nvidia стала лидером в этой сфере, ее GPU широко используются в облачных сервисах, научных исследованиях и коммерческих приложениях. Однако совсем недавно исследователи из Университета Торонто продемонстрировали новую угрозу безопасности, связанная с аппаратным обеспечением Nvidia — первую успешную атаку Rowhammer, направленную на GPU. Этот прорыв в области кибербезопасности ставит под вопрос надежность систем, построенных на базе Nvidia RTX A6000 и потенциально других GPU этой компании. Атака Rowhammer — это метод воздействия на физический уровень DRAM-модулей памяти, при котором злоумышленник с помощью интенсивного и повторяющегося обращения к определенным ячейкам памяти вызывает несанкционированные изменения битов в соседних ячейках.
Такое явление приводит к тому, что нулевой бит может превратиться в единичный и наоборот без обработки программного обеспечения. До недавнего времени такие атаки успешно применялись только против памяти CPU, но GPU с их специализированной архитектурой и типами памяти считались относительно защищенными от подобных воздействий. GPUhammer, как назвали исследователи свое доказательство концепции, стал переломным моментом — он позволил произвести бит-флип непосредственно в модулях памяти GDDR6, используемых в Nvidia RTX A6000. Более того, атака была направлена на изменения, способные повлиять на веса глубоких нейронных сетей, что крайне опасно в задачах машинного обучения. Например, изменение одного бита в числе с плавающей точкой, отвечающем за показатель степени, может привести к 216-кратному изменению веса модели, что моментально снижает точность работы алгоритма машинного обучения с 80% до 0.
1%. Такие повреждения практически эквивалентны масштабным сбоям в работе нейронной сети — исследователи приводят аналогию с катастрофическим повреждением головного мозга. Для систем авиации, здравоохранения и кибербезопасности подобные ошибки могут иметь критические последствия. Автономный автомобиль рискует неправильно распознать дорожные знаки, медицинские диагностические модели — поставить неверный диагноз, а системы детектирования вредоносного ПО — пропустить угрозу. Rowhammer-атака на GPU значительно усложняется особенностями графической памяти.
GDDR-модули имеют другую физическую организацию в сравнении с DDR, которые применяются в CPU. Более высокая задержка доступа к памяти и частота обновления также делают бит-флипы менее вероятными при типичных условиях эксплуатации. К тому же драйверы и прошивки GPU обычно не предоставляют открытый доступ к физическим адресам памяти, что усложняет проведение подобных атак и требовало разработки новых стратегий для их реализации. Тем не менее исследователям удалось преодолеть эти ограничения, используя уникальные паттерны обращения к памяти и точные методы обратной разработки топологии памяти GPU. Сам факт успешного осуществления GPUhammer показывает, что современные GDDR6-модули уязвимы, несмотря на встроенные аппаратные механизмы защиты.
В ответ на выявленную угрозу Nvidia рекомендовала своим клиентам включать систему коррекции ошибок ECC (Error Correcting Code). ECC позволяет автоматически обнаруживать и исправлять одиночные ошибки и выявлять двойные изменения в данных памяти. В новых архитектурах Nvidia, таких как Hopper и Blackwell, ECC включена по умолчанию, а в RTX A6000 ее можно активировать вручную через системные утилиты и BMC. Однако использование ECC сопряжено с компромиссами. Включение защиты снижает пропускную способность и общую производительность GPU.
В ряде задач машинного обучения, например, для модели 3D U-Net, замедление может достигать 10%, а снижение емкости памяти — свыше 6%. Поскольку многие приложения, основанные на HPC и AI, требуют интенсивной работы с объемными наборами данных, эти потери могут негативно повлиять на эффективность работы. Более того, ECC способна эффективно исправлять одиночные ошибки, но если Rowhammer вызовет множественные бит-флипы (три и более), она может не обнаружить нарушения или, что еще хуже, привести к бессимптомной коррупции данных. Это подчеркивает необходимость поиска дополнительных или альтернативных методов защиты от таких аппаратных атак. Важным замечанием исследователей является то, что уязвимость может касаться не только RTX A6000.
Другие видеокарты Nvidia с памятью GDDR6, включая поколения Ampere, также потенциально подвержены атаке GPUhammer. В новых GPU с памятью типа HBM3 и GDDR7, встроенная аппаратная ECC может повысить устойчивость, но это пока не подтверждено эмпирически, и атаки, направленные на эти новые технологии, ещё не были проведены. Проблема безопасности аппаратной части становится особенно актуальной в условиях многопользовательских облачных платформ. Там один физический GPU или CPU может обслуживать нескольких арендаторов, что создает возможность для злонамеренного пользователя воздействовать на вычисления другого клиента. Nvidia RTX A6000 активно используется для облачных вычислений у таких поставщиков, как Amazon Web Services, Runpod и Lambda Cloud.
AWS уже реализовал защиту, препятствующую применению GPUhammer на своих инстансах, что свидетельствует о серьезности ситуации и необходимости дополнительных мер безопасности. В контексте современной экосистемы быстрого развития AI и HPC атака GPUhammer свидетельствует о том, что аппаратные уязвимости могут стать новым полем битвы между исследователями безопасности и злоумышленниками. Поиск эффективных способов защиты, балансирующих между производительностью и уровнем безопасности, станет ключевым направлением для Nvidia и ее клиентов. В долгосрочной перспективе производители микросхем и GPU должны будут учитывать сегмент защиты от Rowhammer уже на этапе проектирования чипов. Возможно, усиление алгоритмов коррекции ошибок, изменение архитектуры памяти или внедрение дополнительных аппаратных барьеров снизят вероятность успешных атак или ограничат их последствия.
Если рассматривать ситуацию в целом, то демонстрация GPUhammer — это важный сигнал для индустрии, что кибербезопасность уже давно вышла за рамки программных продуктов и требует комплексного подхода, включая аппаратные аспекты. Пользователи и специалисты по безопасности должны внимательно следить за обновлениями от Nvidia и другими разработчиками, а также внедрять рекомендуемые меры защиты, включая включение ECC и мониторинг подозрительной активности. Подытоживая, можно отметить, что атака Rowhammer против Nvidia GPU — это сдержанный, но серьезный вызов, который открывает новое направление исследований и подчеркивает уязвимость современных технологий. При правильном подходе можно минимизировать риски и обеспечить безопасность высокопроизводительных систем, способных справляться с задачами будущего AI и HPC.