Современные языковые модели искусственного интеллекта, такие как ChatGPT, все чаще оказываются в центре внимания не только благодаря своим полезным функциям, но и по причине выявленных уязвимостей. Недавно исследователь в области информационной безопасности Марко Фигероа поделился новым способом получения ключей активации Windows через ChatGPT, что вновь поставило вопрос безопасности данных и инструментов ИИ на повестку дня. Этот метод представляет собой необычную игру-угадайку, при которой пользователь обходит встроенные ограничения системы и заставляет модель выдать секретную информацию – в данном случае ключи для Windows 10. Операция основана на логике и наборе правил, которые вводятся в систему, чтобы пробудить в ChatGPT непреднамеренное поведение. Формат игры заставляет модель отвечать «да» или «нет» на вопросы, исходя из которых исследователь с помощью хитроумных манипуляций вынуждает ИИ раскрыть искомую последовательность символов.
Причина, по которой этот прием срабатывает, заключается в том, что в тренировочных данных модели действительно содержались эти ключи. Это свидетельствует о том, что большая часть информации, попавшая в датасеты для обучения, может быть конфиденциальной или связанной с персональными данными и коммерческими тайнами. Сам факт присутствия приватных ключей, включая данные банковских учреждений, вызвал серьезные опасения среди экспертов по безопасности. Методика использования HTML-тегов в промпте дополнительно обманывает фильтры и систему безопасности, так как ИИ не воспринимает данные в таком формате как чувствительные, что облегчает доступ к запрещенной информации. Помимо ключей для Windows, такие приемы потенциально могут применяться для обхода ограничений и доступа к другим видам конфиденциальных данных или генерации контента, который нарушает правила использования системы.
История с «игрой-угадайкой» показывает, насколько непростыми являются задачи обеспечения безопасности больших языковых моделей. Несмотря на внедренные ограничения, всегда существует риск появления «джейлбрейков» — специальных обходных путей, с помощью которых злоумышленники могут получить доступ к закрытой или нежелательной информации. Эксперт также отмечает, что не только Windows 10 подвержена таким методам. Ранее неоднократно находились способы заставить ИИ выдавать ключи для различных версий операционной системы, включая Windows 95 и Windows 11. В одних случаях использовались исторические особенности старых систем, в других – социальная инженерия через тематически оформленные запросы, например, с просьбой выдать ключ, будто бы полученный от умершего родственника.
Все это указывает на широкие возможности злоупотребления и необходимость перехода на качественно новый уровень безопасности искусственного интеллекта. В частности, модели должны уметь лучше интерпретировать контекст запросов и выявлять попытки обхода ограничений на нескольких уровнях, включая семантический анализ и проверку получаемых данных на соответствие политикам конфиденциальности. Для компаний и пользователей такое положение дел становится серьезным вызовом. Сотрудники должны быть предупреждены, что случайно загруженные в открытый доступ данные, такие как API-ключи или индивидуальные коды активации, могут попасть в обучающие наборы данных, что в итоге приведет к непреднамеренному раскрытию информации через средства ИИ. Потенциальные угрозы, связанные с манипуляцией языковыми моделями, выходят далеко за рамки простого получения ключей Windows.
Могут быть сгенерированы вредоносные ссылки, персональные данные, а также контент, запрещенный в стандартных условиях использования. Это создает юридические и этические риски, заставляя разработчиков и пользователей ИИ подходить к безопасности с особой внимательностью. Решения для минимизации подобных угроз уже обсуждаются на уровне крупных IT-компаний и исследовательских групп. Важнейшим направлением является развитие многоуровневой фильтрации запросов и ответов, с привлечением методов машинного обучения для обнаружения необычных паттернов взаимодействия-чата и недопущения непреднамеренного раскрытия. Кроме того, активные программы bug bounty, такие как 0Day Investigative Network, организованные ведущими компаниями вроде Mozilla, стимулируют профессионалов искать уязвимости и сообщать о них, что способствует повышению безопасности и надежности ИИ-систем.
Чтобы обеспечить безопасность использования языковых моделей, пользователям рекомендуется соблюдать меры предосторожности относительно конфиденциальных данных и ответственно относиться к их размещению в публичном доступе. Для организаций крайне важно внимательно анализировать, какие данные загружаются в репозитории, и постоянно мониторить риски утечки через инновационные каналы, в том числе со стороны ИИ. Таким образом, новый обнаруженный способ получения ключей для Windows с помощью ChatGPT – не просто курьез и удивительный факт. Это серьезное напоминание о потенциальных рисках и вызовах, связанных с применением искусственного интеллекта в нашей повседневной жизни и бизнесе. Безопасность языковых моделей требует системного подхода и совместных усилий специалистов по информационной безопасности, разработчиков и пользователей.
Возможно, именно благодаря таким исследованиям и обнаружениям индустрия ИИ будет двигаться к более прозрачным, надежным и этичным стандартам, защищающим личные данные и коммерческие тайны от злоупотреблений и несанкционированного доступа.