В июне 2025 года мир ИИ и юридической практики оказался на грани серьезных перемен: судья Уильям Олсап в США вынес резюме решения по иску пяти авторов против компании Anthropic, связанный с использованием их книг в качестве обучающих данных для искусственного интеллекта. Этот случай стал важным прецедентом в области добросовестного использования материалов в обучении больших языковых моделей и показал сложные юридические и этические вопросы, возникающие в современных технологиях. Anthropic была основана в начале 2021 года группой бывших сотрудников OpenAI с амбициозной задачей — создавать мощные и этичные модели искусственного интеллекта. Однако вскоре выяснилось, что в начале своего пути компания использовала для обучения данные, приобретенные весьма сомнительным способом. Среди них был скачанный библиотечный архив Books3, содержащий почти 200 тысяч книг, которые оказались пиратскими копиями.
Более того, основатель Anthropic, Бен Манн, также загрузил миллионы книг с сайтов вроде Library Genesis и Pirate Library Mirror — все эти ресурсы считаются центрами распространения нелегальных копий. Все это происходило в период с начала 2021-го по середину 2022 года. Хотя часть этих нот пиратских книг была впоследствии исключена из конечного тренировочного набора, сам факт их использования вызвал серьезные претензии со стороны авторов и защитников авторского права. Судья Олсап, известный своими глубокими знаниями в сфере технологий и прецедентами в делах против крупных корпораций, вынес свое мнение по двум ключевым вопросам. С одной стороны, он признал, что обучение больших языковых моделей на лицензированном и добросовестно приобретенном материале в цифровом виде может подпадать под понятие добросовестного использования — fair use.
Это значит, что сама природа обучения модели, которая трансформирует и перерабатывает исходные тексты в интегрированное знание и новые сгенерированные тексты, не нарушает авторские права напрямую. С другой стороны, суд отверг защиту Anthropic в отношении тех миллионов пиратских копий, которые были скачаны без согласия правообладателей и не выплачивались соответствующие компенсации. Суд отметил, что хранение этих материалов в библиотеке компании и отсутствие оплаты авторам является нарушением закона, и по этому поводу планируется проведение полноценного судебного разбирательства с участием присяжных. Ключевая логика судьи касалась именно вопроса трансформации. Он пояснил, что в традиционной культуре чтения и письма люди неоднократно читали тексты, запоминали их, осмысливали и использовали идеи для создания новых произведений без необходимости платить авторам за каждое использование.
Аналогично, обучение ИИ подразумевает абстрагирование и переосмысление информации, а создание новых текстов на основе прочитанного не является прямым копированием или нарушением авторских прав. Этот вердикт открывает новую эру регулирования в сфере искусственного интеллекта, где компании смогут более уверенно использовать разнообразные источники данных для обучения своих моделей при условии соблюдения законодательства и отказа от пиратства. В то же время он подчеркивает необходимость аккуратного подхода к получению лицензий и приобретению контента, что подтвердило и само Anthropic, предпринявшее в 2024 году переход на легальный сбор материала. Для этого компания наняла Томаса Терви, бывшего руководителя партнерств Google в проекте сканирования книг. Новая стратегия Anthropic заключалась в массовой покупке и сканировании миллионов печатных изданий, зачастую в подержанном состоянии, с последующим созданием цифровых материалов, пригодных для обучения ИИ.
Такой подход существенно снизил риск нарушения авторских прав, так как приобретенные книги были законно куплены, а сами цифровые копии рассматривались как трансформированные материалы, не предназначенные для распространения внешне. Победа в части добросовестного использования данных стала важным сигналом для всей индустрии. Компании, которые разрабатывают и обучают большие языковые модели, получили юридическое подтверждение, что использование определенных видов данных для тренировки ИИ имеет свою защиту. Однако практика копирования и хранения нелегальных копий книг остается вне рамок закона, и к таким действиям может применяться жесткое судебное преследование. Важность этого дела объясняется тем, что оно затрагивает сложный баланс между инновациями и защитой прав авторов в эпоху стремительного развития технологий.
Искусственный интеллект, способный обучаться самостоятельно и генерировать тексты на основе огромного информационного массива, требует создания новых законодательных рамок и этических стандартов. Разрешение на использование авторских материалов без прямой компенсации при трансформативном применении может стать основой для развития инноваций и снижения барьеров входа в технологии ИИ для новых игроков рынка. Тем не менее, суд показал, что понятие fair use в отношении цифровых материалов и ИИ нужно применять с осторожностью. Например, простое скачивание большого объема пиратских файлов без согласия авторов и их использование не может быть оправдано, даже если впоследствии эти данные не были использованы в финальной модели. Это поднимает вопрос о необходимости новых стандартов и протоколов, регулирующих закупку и использование обучающих данных в индустрии искусственного интеллекта.
Anthropic, несмотря на частичную победу, столкнулась с крупным коллективным иском, который привел к урегулированию на сумму 1,5 миллиарда долларов. Это подчеркивает серьезность проблем, связанных с нарушением прав интеллектуальной собственности, и оказывает давление на остальные компании, работающие в сфере ИИ, чтобы они более внимательно относились к законодательным нормам. История дела Anthropic демонстрирует также важность квалифицированного юридического подхода и глубокого понимания специфики технологий. Судья Олсап, благодаря своему опыту в технологических судебных процессах, смог ясно и доступно изложить свои соображения, что помогает широкой аудитории понять сложные аспекты спора и принять их во внимание при разработке и внедрении новых технологий. В дальнейшем подобные дела, вероятно, станут частым явлением, поскольку искусственный интеллект интегрируется в различные сферы жизни — от творчества и образования до бизнеса и науки.
Важно, чтобы индустрия и правовое сообщество работали вместе, создавая гибкие и справедливые механизмы, которые одновременно стимулируют инновации и защищают права создателей контента. Подытоживая, судебное решение в пользу Anthropic по части добросовестного использования материалов является значительным шагом вперед в понимании взаимодействия инновационных технологий и авторского права. Однако ситуация с нелегальным использованием пиратских книг служит предупреждением и призывом к тщательной проработке этических и правовых аспектов в эпоху искусственного интеллекта. Ясность и справедливость в регулировании помогут компаниям и авторам выстраивать прозрачные отношения на основе взаимного уважения и ответственности.