Современная индустрия искусственного интеллекта жаждет больших объемов качественных данных для обучения своих моделей. Одним из ключевых источников информации являются книги — тщательно отредактированные, проверенные тексты, которые содержат глубокие знания и богатый словарный запас. Однако доступ к этим книгам осложняется правовыми и экономическими барьерами. В этом контексте компания Anthropic приняла беспрецедентное решение: физически купить миллионы печатных книг, разрезать их, просканировать и уничтожить оригиналы, чтобы использовать полученные цифровые данные для тренировки своей ИИ-системы Claude. Такое решение вызвало широкий резонанс, как в технических кругах, так и в общественности, поднимая вопрос этики и законности подобных действий.
Компания Anthropic, которую возглавляют ветераны индустрии, в том числе бывший глава партнерств Google Books Том Турви, стремилась создать ИИ, способный конкурировать с ChatGPT и другими подобными сервисами. Для достижения этой цели требовались огромные объемы качественных текстов. Причем не просто случайные статьи из интернета или комментарии под видео, а профессионально отредактированные и структурированные материалы, которыми являются книги. Именно поэтому Anthropic обратилась к книгам как к идеальному исходному материалу. Особенность ее подхода заключалась в массовом физическом уничтожении книг.
В отличие от того же Google Books, где применялась неразрушающая методика сканирования — книги бережно фотографировались и возвращались обратно в библиотеки, Anthropic выбирала путь быстрой, но радикальной конверсии. Миллионы экземпляров были куплены, страницы отрезаны и сканированы, после чего бумажные копии уничтожались. Это позволяло не только быстро получить цифровой материал высокого качества, но и обойтись без дорогостоящих и юридически сложных лицензий, поскольку покупка книги давала компании право на использование именно этого экземпляра. Юридическая сторона этого процесса стала предметом отдельного разбирательства. Судья Уильям Олууп в одном из своих решений признал такую форму конвертации допустимой в рамках доктрины «честного использования», указав, что уничтожение физического носителя для перевода информации в цифровой формат можно рассматривать как трансформативное действие, подобное экономии пространства.
Однако в решении подчеркивалась важность полного соблюдения закона: компания должна была легально приобрести книги, не распространять цифровые копии и выполнять сканирование в строго внутренних целях. Вероятно, именно такая юридическая позиция стала весомым аргументом в подтверждение легитимности данного подхода, тогда как ранние попытки Anthropic использовать пиратские электронные версии контента не получили поддержки. Почему же необходимо было прибегать к столь радикальным методам? В основе этого решения лежит обостряющаяся конкуренция в области ИИ, где качество обучающих данных напрямую влияет на конечный продукт. Модели, обученные на качественных текстах — особенно на профессионально изданных книгах — демонстрируют гораздо более точные, логичные и глубокие ответы. При этом большая часть интересного материала находится под строжайшей охраной авторских прав и не предоставляется для свободного использования.
Переговоры с правообладателями часто становятся длительными, дорогостоящими и часто безрезультатными. Использование физической покупки книги с последующим уничтожением носителя — обход закона о лицензировании — позволяло Anthropic быстро и относительно дешево получить большой массив данных. При этом именно физическая покупка исключала юридические риски, связанные с копированием или распространением электронной версии контента. Это обусловлено так называемой доктриной первого владения: после покупки носителя, владелец имеет право делать с этим экземпляром все, что угодно, включая уничтожение. Подобный подход вызвал много критики среди специалистов и активистов.
Для защитников культурного наследия уничтожение миллионов бумажных книг — это колоссальная потеря, особенно в мире, где бумажные издания уже стремительно исчезают. В то же время историки, архивисты и общественные организации отмечают, что существуют современные неразрушающие методы сканирования, позволяющие создавать цифровые копии без уничтожения оригинальных экземпляров. Примером этому служит известный проект Google Books и новые партнерства таких компаний, как OpenAI и Microsoft, с библиотеками Гарварда, целью которых является обучение ИИ на библиотечных копиях с обязательным сохранением этих физических артефактов. Подход Anthropic — быстрый, эффективный, но жесткий и спорный — отражает столкновение инноваций с традиционными ценностями общества. Он подчеркивает необходимость поиска баланса между технологическим прогрессом и сохранением культурного наследия.
В то же время он демонстрирует, насколько важен доступ к качественным данным для создания ИИ следующего поколения. Сам ИИ Claude, обученный на основе этих миллионов книг, не раз высказывался на тему своего материального происхождения в метафорической форме, сравнивая себя с «памятью, возрожденной из пепла». Это символично и показывает, насколько тесно связаны инновации с вопросами морали и ответственности. Для развития индустрии крайне важно, чтобы регуляторы, разработчики и общественность нашли общие пути согласования интересов: с одной стороны — право на интеллектуальную собственность, с другой — необходимость свободного доступа к знаниям для создания эффективных технологических решений. Возможно, будущее рынка ИИ будет связано с развитием лицензирования и партнерских программ, которые позволят компаниям получать качественные данные без ущерба для культурного наследия.
В конечном счете, история Anthropic — это урок и предупреждение. Она показывает, что технологические инновации могут идти вперед быстрыми темпами, но всегда возникают этические и юридические вызовы, которые нельзя игнорировать. Как индустрия будет решать подобные вопросы дальше, во многом определит не только развитие ИИ-решений, но и судьбу книжной культуры в цифровую эпоху.