Современный мир информационных технологий стремительно меняется, а искусственный интеллект (ИИ) становится неотъемлемой частью множества процессов, включая создание текстового контента. В частности, на платформе Википедия, крупнейшей онлайн-энциклопедии, наблюдается рост использования инструментов на базе ИИ для генерации статей и правок. Несмотря на очевидные преимущества таких технологий, появляется необходимость научиться распознавать тексты, сгенерированные ИИ, чтобы поддерживать качество и точность информации. В связи с этим проект WikiProject AI Cleanup разработал список типичных приемов, стилистических особенностей и языковых клише, характерных для искусственного интеллекта, что помогает выявить и корректировать тексты, созданные чат-ботами или иными языковыми моделями. Одной из основных особенностей, которую отмечают эксперты, является склонность ИИ к «усреднённому» стилю изложения.
ИИ использует статистические алгоритмы, показающие наиболее вероятный следующий фрагмент текста, исходя из обширного корпуса данных. В результате, тексты автоматически приобретают характерную гладкость, склонность к обобщению и «стиранию» уникальных и специфических деталей, что делает их менее насыщенными и точными. Например, вместо чёткой информации об изобретении конкретного механизма, ИИ может общими словами описать человека как «революционного гиганта индустрии». Такая тенденция к проверке фактов и «сглаживанию» информации вызывает необходимость внимательного отношения к содержанию, чтобы не упускать детали из представленных источников. Еще одной отличительной чертой является чрезмерное придание важности и символизма описываемому объекту.
Искусственный интеллект склонен использовать набор повторяющихся клише и фраз, которые усиливают значимость темы без достаточного основания. В текстах часто встречаются выражения вроде «играет жизненно важную роль», «является символом стойкости», «продолжает захватывать внимание» и другие интенсивные обороты, которые могут придать нарративу оттенок рекламности, а не объективности. Например, описание географического объекта может включать в себя фразы о том, что он «является динамичным центром культуры», даже если подобные заявления не подкреплены фактическими данными. Что касается языка, ИИ демонстрирует тенденцию к использованию прилагательных и образных выражений с целью создания эмоционального или впечатляющего текста. Часто встречаются слова и обороты, вызывающие эстетическую или эмоциональную реакцию: «живописный», «изумительный», «богатое культурное наследие», «захватывающий дух».
Хотя такие выражения могут сделать текст более интересным на первый взгляд, они далеко не всегда уместны в контексте научного или энциклопедического стиля, где необходима нейтральность и беспристрастность. Любительству языковых моделей также свойственно излишнее использование вводных слов и связок, которые создают ощущение чрезмерно формальной, а порой и шаблонной речи. Частые повторения конструкций «важно отметить», «следует помнить», «несомненно» и других, могут указывать на AI-генерацию, особенно если при этом стиль выглядит чрезмерно сухим и однообразным. Аналогично, ИИ часто злоупотребляет эффектом «параллелизма», представляя информацию в виде повторяющихся по форме и структуре фраз, что придает тексту излишнюю формальность и некоторую искусственность. Не менее показательна и привычка искусственного интеллекта подытоживать информацию в отдельных разделах или абзацах, используя фразы типа «в итоге», «в заключение», «в общем», что нехарактерно для традиционного стиля Википедии.
Обычно в самих статьях Википедии избегается избыточное суммирование внутри текста, поскольку основная цель — представлять информацию лаконично и напрямую. Еще одним широко распространенным признаком являются «шаблонные» разделы, посвященные вызовам и перспективам, особенно если их структура повторяет узнаваемые и формализованные формулировки. Обычно такие разделы начинаются с указания на существующие трудности, сопровождаемых позитивными оценками возможного развития ситуации. Подобная модель изложения часто встречается в исправлениях и набросках статей, созданных с помощью ИИ, и выделяется за счет своей формальной и однотипной подачи материала. Стиль написания, характерный для ИИ, также проявляется в чрезмерном употреблении эм-дэшей, что отличается от традиционного человеческого письма.
В местах, где человек поставил бы запятую или скобки, искусственный интеллект предпочитает использовать длинное тире, стремясь сделать текст более выразительным, однако это порой приводит к нарушению плавности и естественности чтения. В технической части Wikipedia немаловажную роль играет форматирование и корректное использование wikitext — внутреннего языка разметки. Здесь ИИ и языковые модели показывают существенные пробелы. Вместо корректной синтаксической разметки часто встречаются элементы Markdown, несовместимые с MediaWiki. Подобные ошибки включают использование хэштегов для заголовков, звездочек вместо одинарных кавычек для выделения, а также смешение стилей разметки внутри одного текста.
Появление фрагментов кода с неправильным синтаксисом или необычными символами, такими как три обратные кавычки (), обычно указывает на вставку текста из AI-источников или их интерфейсов. Наряду с техническими ошибками, при проверке указанной в статье информации также выявляются ложные или неправильно оформленные ссылки на источники. ИИ зачастую генерирует недействительные DOI, ISBN и URL, иногда даже создавая вымышленные рецензируемые статьи или книги. Такое поведение нарушает основополагающие принципы Википедии, требующие использования проверяемых, надежных и существующих источников. Кроме того, ИИ склонен к использованию некорректного или несогласованного цитирования, проставляя ссылки в неверных местах или создавая несоответствующие атрибуции, что дополнительно усложняет проверку фактов.
Часто встречаются также ситуации, когда в тексте за авторитетную точку зрения выдаются неясно обозначенные источники — так называемое «мыслеглядование». При этом выражения типа «некоторые критики считают», «по мнению отраслевых экспертов» или «исследователи отмечают» широко применяются без конкретных имен и ссылок. Подобные формулировки вводят в заблуждение читателей и нарушают принцип точного и прозрачного цитирования. Из несущественных, но заметных деталей можно выделить использование эмодзи в заголовках или пунктах списка, а также чрезмерное применение жирного шрифта, что придает статье вид рекламного проспекта, а не энциклопедического материала. С другой стороны, неумелая попытка формализации списка приводит к появлению в тексте пунктов, оформленных нестандартными символами или с неправильной нумерацией.
В коммуникациях, связанных с редактированием, тексты, созданные ИИ, часто принимают форму писем или обращений, с типичными вежливыми формулировками и стандартными шаблонами приветствий и прощаний. Часто встречается повторение подобных элементов, а также указание на готовность сотрудничать и соблюдать правила Википедии, что характерно для AI-генерированных писем, направленных на обсуждение или запросы об изменениях. Не менее важным аспектом является знание об ограничениях моделей ИИ, выражающееся в предупреждениях о сроках актуальности и полноте информации. Такие оговорки часто встречаются в виде дисклеймеров вида «по состоянию на дату», «учитывая ограничения объема обучающих данных» или «информация может быть неактуальна». Они оправдывают возможную неполноту или ошибочность данных и являются характерными маркерами AI-авторства.
Одновременно следует подчеркнуть, что диагностика AI-сгенерированного контента требует комплексного подхода и человеческого суждения. Проверка исключительно с помощью специализированных детекторов ИИ не гарантирует точности, так как многие из признаков не являются уникальными для AI-текстов и могут встречаться у опытных человеческих редакторов, особенно среди новичков. Поэтому важна критическая оценка контекста, наличия ошибок, структуры и стилистики материала. В целом, понимание особенностей и клише ИИ позволяет редакторам Википедии эффективно выявлять тексты, требующие доработки, улучшения источников или удаления. Своевременное обнаружение подобных материалов помогает поддерживать высокий стандарт качества и достоверности, что жизненно важно для популярности и авторитета энциклопедии в эпоху цифровой трансформации.
Для соблюдения этих целей существует активное сообщество, разрабатывающее рекомендации и инструменты, способствующие очищению Википедии от невидимого или некачественного AI-влияния, а также обучающие материалы, повышающие осведомленность редакторов о современных вызовах контент-модерирования.