В последние годы искусственный интеллект стремительно входит в разнообразные сферы жизни, включая академическую и научную деятельность. Развитие больших языковых моделей (Large Language Models, LLM), таких как ChatGPT и Google Gemini, кардинально меняет способы создания текстов, предлагают новые возможности и одновременно вызывают опасения. Недавнее исследование, опубликованное в 2025 году в журнале Science Advances, проливает свет на то, каким образом ИИ влияет на научные публикации, а именно – на стиль и структуру текста в миллионах биомедицинских статей. Ученые из США и Германии проанализировали более 15 миллионов аннотаций в базе данных PubMed, чтобы выявить «отпечатки» ИИ в них и понять, насколько широким стало использование LLM в научном написании. Главная идея этого масштабного исследования заключается в том, что породилась возможность обнаружить отклонения в частоте употребления определенных слов и языковых конструкций, которые характерны именно для текстов, созданных или переработанных с помощью искусственного интеллекта.
Раньше подобные попытки считали за основу сравнение текстов, написанных человеком и ИИ, что связывало результат с конкретными моделями и стилями их использования. Однако данное исследование применило уникальный подход: специалисты проанализировали языковые изменения в научных текстах до и после появления современных LLM, чтобы выявить «избыточное» использование слов и стилей, связанных с ИИ. Аналогия, которую используют авторы работы, основана на методах эпидемиологии, где считается избыточная смертность до и после пандемий для понимания их влияния. Перенесенная на лингвистику, эта методика помогла проследить изменения в лексике, характерной для научных публикаций до 2024 года и после. Результаты показали заметный сдвиг в сторону использования «стилевых», более «цветистых» выражений, таких как «демонстрирующий», «поворотный», «борющийся» и других, указывающих на применение ИИ.
У ученых возникли закономерные вопросы, ведь подобные стилистические элементы будто бы смещают акцент с содержательной нагрузки статьи на более эмоционально окрашенный, образный стиль изложения. В количественном выражении исследователи выявили, что по состоянию на 2024 год примерно 13.5% всех биомедицинских публикаций содержали элементы оформления или написания, созданные с помощью одной из LLM. Причем до появления этих технологий большая часть «избыточных» слов была существительными, тогда как в 2024 году в тексте впервые стало преобладать использование глаголов и прилагательных, что говорит о смене лексического баланса, вызванном автоматической генерацией текста. Чувствуется, что наука столкнулась с новым вызовом – как сохранить точность и научную объективность, учитывая возросшее влияние моделей, способных обогащать текст новыми, но не всегда уместными языковыми формами.
Особое внимание уделялось различиям между некоторыми дисциплинами, странами и местами публикации. Например, в некоторых областях исследований искусственный интеллект внедряется активнее, вероятно, из-за традиций или доступности таких инструментов, а в других – сдержаннее. Это создает неоднородность и пока затрудняет создание универсальных норм по применению ИИ в научных текстах. Помимо этого, появляются и этические вопросы о прозрачности и честности авторства, поскольку использование ИИ в написании исследовательских статей остается не всегда декларированным. Эти открытия вызывают широкий резонанс в академическом сообществе.
С одной стороны, искусственный интеллект действительно способен повысить качество и доступность научных публикаций, ускоряя процесс создания материалов и помогая авторам формулировать свои идеи. С другой стороны, появляется опасение, что избыточное использование ИИ приведет к снижению критического мышления и ухудшению уникальности научных результатов. Возникает необходимость разработки строгих регламентов и этических норм, гарантирующих прозрачность. Также важно понимать, что традиционные методы обнаружения ИИ-текста часто оказываются ограниченными или предвзятыми, поскольку ориентируются на определенные параметры и модели. Новый подход, основанный на сравнительном анализе избыточного использования слов, открывает перспективы для более объективного и масштабного мониторинга.
Это будет полезно для издателей, рецензентов и самих ученых, нуждающихся в инструментах для оценки происхождения текста. Текущие тренды показывают, что использование LLM в научных публикациях будет только расти, что обязывает сообщество адаптироваться и найти баланс между инновациями и традиционными стандартами академической честности. Пока исследователи продолжают обсуждать возможные последствия, становится ясно, что ИИ уже стал неотъемлемой частью научного процесса. Введение правил обязательного указания, в какой степени статья содержит ИИ-генерированный контент, может в ближайшем будущем стать общепринятой практикой. Конечная цель – сохранить качество науки, обеспечивая надежность данных и прозрачность авторства, независимо от технологий, используемых в процессе создания.
Результаты исследования обнажают важность критического подхода к использованию искусственного интеллекта, а также подчеркивают его потенциал как инструмента, способного помогать ученым не терять темп в быстро меняющемся мире знаний. Таким образом, выявление «отпечатков» ИИ в научных публикациях – важный шаг к более открытому и осознанному взаимодействию с технологиями, влияющими на академическую среду и всю научную коммуникацию.