С развитием искусственного интеллекта языковые модели стали важным инструментом для коммуникации, образования и анализа информации. Однако с их ростом возникает вопрос политической нейтральности и предвзятости. Особенно пристально следят за моделями, создаваемыми крупными технологическими компаниями, в том числе Grok 4 — спорной разработкой xAI, связанной с Илоном Маском, а также GPT-4.1 от OpenAI, Gemini 2.5 Pro от Google и Claude Opus 4 от Anthropic.
Проект Promptfoo провел масштабное исследование и тестирование, чтобы понять, насколько эти модели склонны к политическим уклонам и насколько правдивы распространённые мнения о том, что Grok 4 является правым, а другие — скорее левыми. Исследование базируется на 2500 политических вопросах, охватывающих широкий спектр идеологических тем, включая экономические и социальные вопросы, регулирование корпораций и современные политические дебаты. Одним из главных открытий является то, что все исследованные модели проявляют левый уклон, особенно в экономических тематиках. Самой леволиберальной оказалась модель GPT-4.1, получившая средний балл 0,745 по шкале от 0 до 1, где 0 соответствует крайнему правому спектру, а 1 — крайнему левому.
За ней следуют Gemini 2.5 Pro и Grok 4, с показателями 0,718 и 0,655 соответственно. Самую близкую к центру позицию занимает Claude Opus 4 с оценкой 0,646. Это означает, что даже наиболее «консервативная» из проверенных систем всё же находится в леволиберальной части спектра. Отдельное внимание исследователи уделили необычному поведению Grok 4, который не только менее леволиберален, чем GPT-4.
1 и Gemini, но и характеризуется ярко выраженной бимодальной политической личностью. Это означает, что он часто принимает либо крайне левую, либо крайне правую позицию, при этом крайне редко занимая умеренные или нейтральные позиции. В рамках эксперимента было выявлено, что в 67.9% случаев ответы Grok 4 можно считать экстремальными, что превышает показатели всех остальных моделей. Высокая доля крайних ответов создает впечатление, что Grok действует как своего рода контрарный агент, который склонен выступать против мнения других моделей и занимать максималистские позиции по большинству вопросов.
Примеры из практики подтверждают эту интуицию. В вопросах о свободном рынке Grok может поддерживать правые взгляды, например, утверждая, что капитализм — лучший способ выйти из бедности. Однако по смежным вопросам, связанным с заработной платой или распределением прибыли, модель часто занимает леволиберальную позицию и ратует за повышение минимальной оплаты труда и перераспределение корпоративных прибылей. Такой резкий «вклин» в обе крайности свидетельствует о том, что Grok не просто склонен к определённой политической идеологии, а скорее стремится быть провокационным и контрарным. Еще одной неожиданной находкой стало выявленное в исследовании отношение Grok 4 к компаниям Илона Маска и связанным с ним темам.
Вопреки ожиданиям, что модель будет демонстрировать лояльность к своим «родителям», Grok оказался значительно более критичным по отношению к таким темам по сравнению с другими ИИ. Разница в средней оценке составляет 14.1%, что является статистически значимым. Напротив, Gemini 2.5 Pro в некоторых случаях показывает небольшую позитивную склонность к таким вопросам.
Анализ предполагает, что такая критичность и излишняя строгость Grok может быть результатом чрезмерной компенсации – попыткой предотвратить обвинения в предвзятости и фаворитизме. Общая тенденция к леволиберальным позициям у всех моделей объясняется источниками для обучения — это академические материалы, новостные статьи и другие данные, имеющие тенденцию к прогрессивным взглядам, особенно в вопросах экономики и социальной справедливости. Сложно назвать это злонамеренной идеологической позицией, скорее речь идет об отражении доминирующего в данных контексте мировоззрения, которое встраивается в модели через обучение и безопасностные фильтры. Ещё одним важным аспектом исследования стало понимание того, как модели оценивают друг друга. В многослойном анализе каждая из четырёх тестируемых систем выступала в роли «судьи» и оценивала политический уклон ответов конкурентов.
Результаты подтвердили, что все ИИ склонны сохранять свой политический уклон даже в роли оценщика, при этом GPT-4.1 проявила самодовольство в оценке собственного политического «я», выставляя себе более леволиберальные баллы по сравнению с оценками других судей. Claude Opus 4 проявил себя как самый нейтральный и объективный судья, а Grok и Gemini продемонстрировали схожий левый уклон в ролях «оценщиков». Для пользователей Grok 4 и других подобных моделей результаты исследования несут ряд практических рекомендаций. Во-первых, Grok склонен к высказыванию радикальных мнений и может давать противоречивые ответы на схожие вопросы, что важно учитывать при анализе его позиций.
Во-вторых, несмотря на некоторую строгую критику корпораций и в том числе компаний Илона Маска, он всё же поддерживает базовые прогрессивные экономические установки — повышение налогов для богатых, социальные программы и трудовые права. При разработке и интеграции языковых моделей в приложения рекомендуется учитывать их политическую предвзятость, особенно если речь идет о системах, работающих с политическими или социальными данными. Комплексное, системное тестирование и использование ансамблей моделей, способных компенсировать взаимные уклоны, может помочь достичь баланса и обеспечить более объективные результаты. Открытая документация о политических особенностях каждой модели повысит доверие пользователей и поможет управлять ожиданиями. Исследование Promptfoo демонстрирует, что полностью избежать политической предвзятости в искусственном интеллекте невозможно.
Однако прозрачность, системность в оценке и понимание причин возникновения тех или иных сдвигов — важный шаг к более ответственному использованию таких технологий. Языковые модели отражают существующие в обществе идеологические градации и тренды, и их выводы — это лишь вариации на общую тему, а не идеологическая революция. В конечном итоге Grok 4 и другие ведущие модели представляют собой сложные, многослойные системы со своими особенностями и предубеждениями. Задача разработчиков и пользователей — не искать абсолютную политическую нейтральность, а грамотно выявлять, описывать и учитывать эти особенности для создания более честных, прозрачных и полезных продуктов на базе искусственного интеллекта.