В последние годы искусственный интеллект и машинное обучение стремительно развиваются, захватывая все новые сферы жизни и науки. С этим трендом связан рост интереса к обучающей литературе на эти темы. Однако недавний случай с книгой «Mastering Machine Learning: From Basics to Advanced», выпущенной издательством Springer Nature, поставил под вопрос качество академических публикаций в эпоху цифровых технологий и искусственного интеллекта. Книга, появившаяся в апреле 2025 года, привлекла внимание общественности не столько содержанием, сколько доказанными случаями фальшивых и неправильно оформленных цитат. Из 46 ссылок, проверенных исследователями, более двух третей оказались либо несуществующими, либо содержали серьезные ошибки.
Возникшая ситуация вызвала волну критики как в отношении автора книги, так и в адрес издателя, который, как выяснилось, практически не контролировал качество издания. Исследователи, чьи работы были как будто бы процитированы, утверждали, что их труды либо вообще не публиковались в тех изданиях, на которые ссылается автор, либо упоминание их имен в контексте конкретных статей является результатом искажений и подделок. Например, Йехуда Дар с университета имени Бен-Гуриона подтвердил, что работа, которую якобы процитировали, является только препринтом в arXiv и не выходила в IEEE Signal Processing Magazine, как утверждалось в книге. Аарон Курвилль, один из соавторов известного издания «Deep Learning», отметил, что в книге ссылались на часть текста, которой в указанном месте вовсе не существует. Другие ученые заявили о том же — их работы были искажены или вовсе придуманы автором книги.
Подобное искажение источников и использование вымышленных ссылок – это серьезное нарушение академической этики и подрывает доверие к научной литературе. Причем аналитики подчеркивают, что подобные ошибки являются одним из признаков использования искусственного интеллекта, в частности больших языковых моделей (LLM), таких как ChatGPT. Такие модели не «ищут» информацию в базе данных научных публикаций, а создают текст на основе обобщения огромного массива данных, что иногда приводит к генерации неправдоподобных, а то и полностью вымышленных данных, включая и ссылки. Автор книги, Говиндакумар Мадхаван, хоть и отказался прямым текстом подтвердить или опровергнуть использование ИИ в процессе подготовки материала, признал сложность надежного распознавания AI-сгенерированного текста. Он отметил, что с развитием языковых моделей отличить человеческий и машинный текст становится все труднее.
Пресса и специалисты задались вопросом, почему издательство, известное высоким уровнем научных публикаций, пропустило книгу с таким количеством ошибок и сомнительных фактов. В ответ представители Springer Nature подчеркнули, что существует политика, предусматривающая обязательный «человеческий контроль» над содержанием и оформление любой публикации, включая использование ИИ. Впрочем, конкретных мер, которые они приняли в отношении данной книги, не было раскрыто, кроме сообщения о начале расследования. Инцидент вызвал широкий резонанс в научном сообществе. Многие эксперты указывают на необходимость ужесточения правил публикации и создания прозрачных механизмов проверки использования ИИ при подготовке научных текстов.
Риски генерации и распространения недостоверных данных особенно высоки в образовательных материалах, поскольку студенты, преподаватели и исследователи полагаются на представленный им контент как на достоверный и проверенный. В комментариях к публикации многие пользователи и ученые отмечали, что проблема не только в авторе, но и в редакторской и экспертной проверке, которая зачастую становится формальной процедурой с минимальным вниманием к деталям. Отсутствие должного рецензирования, недостаточность проверки цитирований и ссылок создают благоприятные условия для распространения дезинформации и поддельных источников. Кроме того, дискуссия затронула более широкие вопросы внедрения ИИ в академическую среду и публикации. Использование языковых моделей для помощи в написании и редактировании материалов становится все более распространенным.
Однако в отсутствии прозрачных стандартов и обязательного декларирования степени использования ИИ сохраняется риск возникновения ситуации, подобной скандалу с книгой Springer Nature. Многие ученые высказались за установление четких правил, которые должны включать обязательное раскрытие информации об участии ИИ в создании текста, а также создание инструментов для проверки ссылок и контента на достоверность. Без этого высок риск потери доверия к научной литературе вообще, что негативно скажется на всем исследовательском прогрессе. Интересно, что это не единичный случай. Поддельные цитаты и искаженные ссылки возникают и в ряде других публикаций, включая известные отчеты и научные доклады.
Таким образом, ситуация с книгой по машинному обучению – лишь симптом более широкой и серьезной проблемы, связанной с борьбой за качество, достоверность и этичность научной работы в эпоху цифровых технологий. Повышение прозрачности, внедрение современных механизмов рецензирования, использование специализированных программ для проверки цитат и обеспечение ответственности авторов и издателей – вот приоритетные направления для решения проблемы. Важно также поддерживать осведомленность сообщества и развивать грамотность в области искусственного интеллекта, чтобы не допускать бесконтрольного распространения недостоверной информации. Подводя итог, можно сказать, что скандал с книгой Springer Nature – тревожный сигнал для всего научного мира. В нем отражаются вызовы, которые ставит перед нами стремительное развитие технологий и искусственного интеллекта.
Но вместе с вызовами возникают и возможности для переосмысления стандартов публицистики, более ответственного отношения к научной информации и повышения качества знаний. Только совместные усилия авторов, редакторов, издателей и исследовательского сообщества помогут сохранить веру в академическую литературу и обеспечить ее соответствие высоким этическим и профессиональным нормам.