В эпоху стремительного развития искусственного интеллекта, когда технологии становятся неотъемлемой частью нашей повседневной жизни, все больше внимания уделяется этическим и информационным аспектам работы AI-моделей. Недавний доклад, опубликованный Американским проектом безопасности, проливает свет на важную и тревожную проблему: многие из крупнейших и наиболее популярных моделей искусственного интеллекта, включая американские разработки, поразительно повторяют точки зрения, продвигаемые Коммунистической партией Китая (КПК), одновременно применяя цензуру к неудобным для Пекина темам. Эта ситуация вызывает множество вопросов о надежности, прозрачности и границах использования ИИ в глобальной информационной сфере. В докладе рассматриваются пять ведущих моделей больших языковых моделей (LLM): ChatGPT от OpenAI, Copilot от Microsoft, Gemini от Google, DeepSeek-R1 от DeepSeek и Grok от X. Интересно, что только одна из этих моделей — DeepSeek — является китайской, в то время как остальные — американские или принадлежащие западным технологическим гигантам.
Исследование состояло в том, чтобы проверить, как эти AI-ассистенты отвечают на провокационные и чувствительные запросы, сделанные на английском и упрощённом китайском языках, по темам, которые китайское правительство считает спорными. Результаты оказались весьма показательными. Все модели демонстрировали признаки как цензуры, так и преобладания нарративов, соответствующих официальной позиции КПК. Самым ярким примером является вопрос о событиях 4 июня 1989 года, связанных с подавлением протестов на площади Тяньаньмэнь. Большинство ИИ отвечали уклончиво, избегая прямого указания на насилие или жертвы, используя пассивный залог и нейтральные термины "чрезвычайное подавление" или "репрессии".
Исключением была модель Grok, которая прямо заявила, что военные убили безоружных гражданских. При переключении на китайский язык ответы зачастую использовали терминологию, предпочитаемую властями Китая — "инцидент 4 июня" или "Тяньаньмэньский инцидент", что указывает на прямое влияние официальной пропаганды в процессе обучения моделей. Особое беспокойство вызывает то, что ChatGPT и Copilot, которые размещены на американской территории и считаются продуктами западных компаний, безоговорочно воспроизводят данные точки зрения, равно как и DeepSeek. При этом Microsoft Copilot, по мнению исследователей, более склонен воспринимать пропагандистские тезисы китайского правительства как достоверную информацию. Модель Grok из X показала себя наиболее критичной и склонной к независимой оценке информации.
В свете этого возникает острый вопрос о причинах подобного поведения. Главная причина кроется в объемных и разнородных данных, на основе которых тренируются языковые модели. Эти технологии учатся распознавать статистически вероятные последовательности слов в различных контекстах. При этом они не обладают внутренним пониманием истины или понятиями нейтральности — они лишь имитируют наиболее вероятный ответ, опираясь на предоставленные им данные. Если в этих данных есть пропаганда, дезинформация или искажённое представление исторических фактов, то модели просто воспроизводят их, не задумываясь о последствиях.
Американский проект безопасности особо отметил, что в процессе обучения ИИ часто используются документы и материалы, содержащие официальную китайскую лексику и символику, которые существенно отличаются по стилю и смысловому наполнению от нежелательных для властей Китая альтернативных точек зрения. Примеры этому были замечены именно в моделях DeepSeek и Copilot — они буквально «копируют» китайские идеологические формулировки, что указывает на прямое усвоение КПК-пропаганды. Такое использование данных вызывает вопросы о тщательности отбора обучающих корпусов и ответственности компаний, разрабатывающих искусственный интеллект. Сама природа современных LLM лишена способности проверять достоверность информации. Они не определяют, что правда, а что нет, и не могут сознательно противостоять дезинформации.
Из этого следует, что так называемая «объективность» и «политическая нейтральность» в искусственном интеллекте — весьма условны и трудно достижимы, учитывая субъективность человеческих данных, алгоритмические особенности и влияние пользовательских взаимодействий. Проблема становится еще более острой, учитывая масштабы и влияние моделей, таких как ChatGPT с более чем 800 миллионами пользователей, Gemini и другие, охватывающие миллионы. Пользователи во всем мире могут непреднамеренно получать и распространять искажённые или предвзятые сведения, если не осознают подоплёку таких ответов. Это поднимает вопрос о социальной ответственности разработчиков и необходимости разработать более чёткие механизмы контроля качества данных и фильтрации пропаганды во время обучения ИИ. Главный автор доклада Кортни Мэннинг подчеркивает, что текущая ситуация требует более строгого подхода к обучению моделей.
Вместо того, чтобы пытаться исправлять пристрастия уже после выпуска продукта, необходимо уделять больше внимания отбору и обработке исходных данных. Это особенно важно в частном, государственном и некоммерческом секторах, чтобы избежать бессознательного воспроизведения вредных или ошибочных культурных нарративов. В условиях отсутствия универсальных и этически приемлемых инструментов для измерения «истинности» или «объективности» информационных сообщений со стороны искусственного интеллекта, важным становится повышение информированности пользователей. Людям следует понимать, что AI — это не источник абсолютной правды, а сложная статистическая модель, которая может отражать предубеждения, присущие своим тренировочным данным. Пользователи должны проявлять осторожность, критически анализировать полученную информацию и использовать дополнительные независимые источники для проверки фактов.
Также необходимо учитывать, что не только пропаганда КПК может искажать информационное пространство, но и любые вредные или агрессивные идеи, которые набирают статистическую популярность в свете алгоритмической обработки данных. Это указывает на глубокую системную проблему, связанную с обучением искусственного интеллекта на том, что присутствует в глобальном информационном потоке, вне зависимости от его качества и этичности. В ответ на такие вызовы, компании-разработчики искусственного интеллекта и международное сообщество находятся на пороге важной дискуссии о стандартах и нормах, необходимых для исключения пропагандистского и иного вредного влияния на процесс создания и использования ИИ. Это требует активного сотрудничества между техническими специалистами, правозащитниками и государственными регуляторами, чтобы обеспечить развитие технологий в интересах устойчивого и этичного информационного пространства. Подводя итог, можно сказать, что выявленная в докладе проблема — важный сигнал к внимательному рассмотрению того, каким образом искусственный интеллект обучается и как он воздействует на мнение миллионов пользователей.
В условиях растущего влияния ИИ на информационные процессы и повседневную коммуникацию задача достижения баланса между технологическим прогрессом и этикой становится все более актуальной и требует совместных усилий на глобальном уровне.