Компания Anthropic является одним из ведущих разработчиков в сфере искусственного интеллекта, специализирующихся на создании чатботов и языковых моделей нового поколения. Для повышения качества своих AI-моделей Anthropic сотрудничает с подрядчиками, которые занимаются сбором и обработкой данных из различных онлайн-источников. Недавно в СМИ вскрылся список сайтов, использовавшихся для обучения моделей Anthropic, а также ресурсов, категорически запрещённых к использованию. Этот инцидент вызвал широкий резонанс в технологическом и юридическом сообществе, поскольку вплетает в себя вопросы интеллектуальной собственности, конфиденциальности и этики применения данных в AI. Важно разобраться, какие именно сайты оказались частью тренировки ИИ и почему одни ресурсы оказались в «белом списке», а другие — в «чёрном».
В основе обучения языковых моделей лежит качество и разнообразие исходных данных. Anthropic, стремясь сделать свои модели более «полезными, честными и безвредными», поручила контрактной компании Surge AI организовать сбор и классификацию информации. Surge AI, используя штат фрилансеров, собрала данные из сотен веб-сайтов, ставя при этом определённые ограничения на источники для минимизации рисков с точки зрения авторских прав и надежности информации. Среди разрешённых к применению ресурсов оказались сайты престижных университетов, таких как Гарвард, Йель, Нортвестерн и Чикагский университет. Академическая и медицинская информация рассматривалась как один из приоритетных видов данных.
Так, например, в список попали New England Journal of Medicine и публикаторы университетов Кембриджа, что подчеркивает стремление Anthropic использовать достоверные и проверенные источники. Большое внимание уделялось финансовой и бизнес-информации — Bloomberg, Crunchbase, Seeking Alpha, Investing.com и PR Newswire составляет ядро этой категории. Такая подборка ресурсов обеспечивает информационную насыщенность и охват новейших рыночных тенденций, что необходимо для построения компетентных и осведомленных моделей. В то же время строгий контроль наложен на ряд популярных новостных и развлекательных сайтов.
Например, The New York Times, The Wall Street Journal, Reddit и Harvard Business Review оказались в категории запрещённых к использованию. Эта фильтрация во многом связана с юридическими претензиями, направленными авторами и владельцами этих ресурсов против использования их контента без прямого согласия или лицензирования. Reddit выступил с судебным иском против Anthropic, обвиняя компанию в несанкционированном доступе к контенту для обучения ИИ. Аналогичные иски подали и другие крупные издатели, что создает прецеденты и увеличивает правовое напряжение в инфраструктуре, используемой для тренировок ИИ. Кроме того, в перечень запрещенных попали даже некоторые университетские издательства и платформы, например, Wiley, что отражает сложность и неоднородность подходов к решению юридических вопросов в сфере интеллекутальной собственности.
При этом Anthropic заявляет, что не имела прямого отношения к формированию реализованного списка и что его подготовила подрядная компания Surge AI. Сам подрядчик также сообщил, что внимательно изучит инцидент и предпримет шаги для усиления защиты данных и конфиденциальности. Сам процесс использования данных для обучения AI включает так называемое обучение с подкреплением на основе человеческой обратной связи (RLHF). Surge AI привлекала своих работников копировать фрагменты текстов, спрашивать у ИИ их пересказ и оценивать качество ответов. Для этого и использовался список рекомендованных и запрещённых сайтов, чтобы обеспечить адекватный уровень надежности и безопасности данных.
RLHF не является простым предобучением модели напрямую на собранных текстах, однако именно на этом этапе обеспечивается коррекция поведения нейросети и улучшение ее взаимодействия с пользователем. С юридической точки зрения, такая разница между видами обучения пока не получила четкой оценки судов, но считается, что она вряд ли сильно повлияет на вопрос о допустимом использовании контента в рамках концепции добросовестного использования (fair use). Инциденты с утечками данных и публичным доступом к спискам обучающих ресурсов являются тревожным знаком для всей индустрии. Конкуренты Surge AI, такие как Scale AI, также сталкивались с подобными проблемами и вскрытиями внутренних процессуальных документов. Крупные технологические компании и стартапы, инвестирующие миллиарды долларов в разработки моделей искусственного интеллекта, вынуждены уделять экстремальное внимание управлению данными и доступом к ним.
Кроме юридических аспектов и вопросов безопасности, важным является и аспект этики использования данных. Многие университеты и специализированные сайты заявляют, что не заключали соглашений с Anthropic или подрядчиками на использование своего контента для тренировки ИИ. Это ставит вопрос о том, насколько этично использование таких данных, даже если технически оно может попадать под определение fair use или аналогичные правила. В целом, раскрытие списка веб-ресурсов, используемых для обучения AI-моделей Anthropic, даёт важное представление о текущем состоянии индустрии и её проблемах. С одной стороны, компании стараются использовать качественные и авторитетные источники для создания максимально точных и полезных моделей.
С другой стороны, растет число правовых и этических вызовов, связанных с использованием контента без прямого согласия правообладателей. Эта ситуация требует развития новых подходов к регулированию и стандартизации процесса обучения искусственного интеллекта, а также усиления диалога между технологическим сектором и правовой системой. В ближайшие годы можно ожидать, что вопросы лицензирования данных, прозрачности и контроля доступа станут ключевыми темами в развитии AI. Компании, вроде Anthropic, столкнутся с необходимостью не только совершенствовать свои технологии, но и выстраивать продуманную политику работы с контентом. Это будет гарантировать устойчивое развитие искусственного интеллекта при уважении прав всех участников цифровой экосистемы.
Таким образом, список сайтов, участвовавших в обучении моделей Anthropic, отражает комплекс амбиций и трудностей индустрии искусственного интеллекта на пороге новой технологической эпохи. Будущее AI во многом зависит от успешной интеграции инноваций, правовых норм и этических принципов, что в финале позволит создать эффективные и безопасные интеллектуальные системы для общества в целом.