DeFi

Какие сайты использовались для обучения AI-моделей Anthropic: полный обзор

DeFi
Websites used to fine-tune Anthropic's AI models

Подробный разбор списка веб-ресурсов, применяемых для дообучения искусственного интеллекта компании Anthropic, включая разрешённые и запрещённые источники, а также юридические и этические аспекты использования данных.

Компания Anthropic является одним из ведущих разработчиков в сфере искусственного интеллекта, специализирующихся на создании чатботов и языковых моделей нового поколения. Для повышения качества своих AI-моделей Anthropic сотрудничает с подрядчиками, которые занимаются сбором и обработкой данных из различных онлайн-источников. Недавно в СМИ вскрылся список сайтов, использовавшихся для обучения моделей Anthropic, а также ресурсов, категорически запрещённых к использованию. Этот инцидент вызвал широкий резонанс в технологическом и юридическом сообществе, поскольку вплетает в себя вопросы интеллектуальной собственности, конфиденциальности и этики применения данных в AI. Важно разобраться, какие именно сайты оказались частью тренировки ИИ и почему одни ресурсы оказались в «белом списке», а другие — в «чёрном».

В основе обучения языковых моделей лежит качество и разнообразие исходных данных. Anthropic, стремясь сделать свои модели более «полезными, честными и безвредными», поручила контрактной компании Surge AI организовать сбор и классификацию информации. Surge AI, используя штат фрилансеров, собрала данные из сотен веб-сайтов, ставя при этом определённые ограничения на источники для минимизации рисков с точки зрения авторских прав и надежности информации. Среди разрешённых к применению ресурсов оказались сайты престижных университетов, таких как Гарвард, Йель, Нортвестерн и Чикагский университет. Академическая и медицинская информация рассматривалась как один из приоритетных видов данных.

Так, например, в список попали New England Journal of Medicine и публикаторы университетов Кембриджа, что подчеркивает стремление Anthropic использовать достоверные и проверенные источники. Большое внимание уделялось финансовой и бизнес-информации — Bloomberg, Crunchbase, Seeking Alpha, Investing.com и PR Newswire составляет ядро этой категории. Такая подборка ресурсов обеспечивает информационную насыщенность и охват новейших рыночных тенденций, что необходимо для построения компетентных и осведомленных моделей. В то же время строгий контроль наложен на ряд популярных новостных и развлекательных сайтов.

Например, The New York Times, The Wall Street Journal, Reddit и Harvard Business Review оказались в категории запрещённых к использованию. Эта фильтрация во многом связана с юридическими претензиями, направленными авторами и владельцами этих ресурсов против использования их контента без прямого согласия или лицензирования. Reddit выступил с судебным иском против Anthropic, обвиняя компанию в несанкционированном доступе к контенту для обучения ИИ. Аналогичные иски подали и другие крупные издатели, что создает прецеденты и увеличивает правовое напряжение в инфраструктуре, используемой для тренировок ИИ. Кроме того, в перечень запрещенных попали даже некоторые университетские издательства и платформы, например, Wiley, что отражает сложность и неоднородность подходов к решению юридических вопросов в сфере интеллекутальной собственности.

При этом Anthropic заявляет, что не имела прямого отношения к формированию реализованного списка и что его подготовила подрядная компания Surge AI. Сам подрядчик также сообщил, что внимательно изучит инцидент и предпримет шаги для усиления защиты данных и конфиденциальности. Сам процесс использования данных для обучения AI включает так называемое обучение с подкреплением на основе человеческой обратной связи (RLHF). Surge AI привлекала своих работников копировать фрагменты текстов, спрашивать у ИИ их пересказ и оценивать качество ответов. Для этого и использовался список рекомендованных и запрещённых сайтов, чтобы обеспечить адекватный уровень надежности и безопасности данных.

RLHF не является простым предобучением модели напрямую на собранных текстах, однако именно на этом этапе обеспечивается коррекция поведения нейросети и улучшение ее взаимодействия с пользователем. С юридической точки зрения, такая разница между видами обучения пока не получила четкой оценки судов, но считается, что она вряд ли сильно повлияет на вопрос о допустимом использовании контента в рамках концепции добросовестного использования (fair use). Инциденты с утечками данных и публичным доступом к спискам обучающих ресурсов являются тревожным знаком для всей индустрии. Конкуренты Surge AI, такие как Scale AI, также сталкивались с подобными проблемами и вскрытиями внутренних процессуальных документов. Крупные технологические компании и стартапы, инвестирующие миллиарды долларов в разработки моделей искусственного интеллекта, вынуждены уделять экстремальное внимание управлению данными и доступом к ним.

Кроме юридических аспектов и вопросов безопасности, важным является и аспект этики использования данных. Многие университеты и специализированные сайты заявляют, что не заключали соглашений с Anthropic или подрядчиками на использование своего контента для тренировки ИИ. Это ставит вопрос о том, насколько этично использование таких данных, даже если технически оно может попадать под определение fair use или аналогичные правила. В целом, раскрытие списка веб-ресурсов, используемых для обучения AI-моделей Anthropic, даёт важное представление о текущем состоянии индустрии и её проблемах. С одной стороны, компании стараются использовать качественные и авторитетные источники для создания максимально точных и полезных моделей.

С другой стороны, растет число правовых и этических вызовов, связанных с использованием контента без прямого согласия правообладателей. Эта ситуация требует развития новых подходов к регулированию и стандартизации процесса обучения искусственного интеллекта, а также усиления диалога между технологическим сектором и правовой системой. В ближайшие годы можно ожидать, что вопросы лицензирования данных, прозрачности и контроля доступа станут ключевыми темами в развитии AI. Компании, вроде Anthropic, столкнутся с необходимостью не только совершенствовать свои технологии, но и выстраивать продуманную политику работы с контентом. Это будет гарантировать устойчивое развитие искусственного интеллекта при уважении прав всех участников цифровой экосистемы.

Таким образом, список сайтов, участвовавших в обучении моделей Anthropic, отражает комплекс амбиций и трудностей индустрии искусственного интеллекта на пороге новой технологической эпохи. Будущее AI во многом зависит от успешной интеграции инноваций, правовых норм и этических принципов, что в финале позволит создать эффективные и безопасные интеллектуальные системы для общества в целом.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Database Migration Wartime Stories
Четверг, 30 Октябрь 2025 Военные истории миграции баз данных: как избежать катастроф и сохранить работоспособность систем

Реальные истории о сложностях миграции баз данных и проверенные методы минимизации рисков при изменениях, особенно в PostgreSQL. Разбор типичных ошибок, работа с блокировками и практические советы для инженеров, стремящихся к надежным изменениям в продакшн средах.

Inheritance over Composition, Sometimes
Четверг, 30 Октябрь 2025 Наследование или композиция в Python: когда стоит выбрать наследование

Разбор преимуществ и недостатков наследования и композиции в Python на примере реализации ProcessThreadPoolExecutor. Анализ практических аспектов структуры кода, совместимости, масштабируемости и отладки.

Researchers value null results, but struggle to publish them
Четверг, 30 Октябрь 2025 Почему исследователи ценят нулевые результаты и почему их сложно опубликовать

Нулевые результаты играют ключевую роль в развитии науки, однако учёные сталкиваются с трудностями при их публикации из-за ряда системных и культурных барьеров. В статье раскрываются причины такой ситуации и предлагаются пути улучшения публикационной среды для таких данных.

Tailscale: The State of Zero Trust
Четверг, 30 Октябрь 2025 Tailscale и современное состояние Zero Trust: путь к безопасности будущего

Обзор современных тенденций и вызовов в области Zero Trust на основе исследования Tailscale. Анализ текущего состояния, проблем и перспектив безопасности корпоративных сетей с акцентом на переход к модели доступа, основанной на идентификации и управлении доступом.

Polymarket Explores Proprietary Stablecoin and Revenue Deal With Circle
Четверг, 30 Октябрь 2025 Polymarket разрабатывает собственный стейблкоин и рассматривает партнерство с Circle по доходам

Polymarket, оператор платформы предсказательных рынков, изучает возможность создания собственного стейблкоина и рассматривает варианты сотрудничества с Circle для увеличения доходов, обеспечивая инновации в использовании цифровых активов на блокчейн-платформе.

Block’s Square Opens Bitcoin Payments to 4 Million Merchants
Четверг, 30 Октябрь 2025 Square от Block открывает возможность приема платежей в биткойнах для 4 миллионов торговцев

Square, компания Block Inc. , запустила новый сервис приема платежей в биткойнах, расширяя возможности малого и среднего бизнеса благодаря интеграции сети Lightning, которая обеспечивает быстрые и экономичные трансакции с цифровой валютой.

Solana Ventures Invests $200 Million in Mercurity Fintech for SOL Treasury
Четверг, 30 Октябрь 2025 Solana Ventures инвестирует 200 миллионов долларов в Mercurity Fintech для развития SOL-казначейства

Крупное финансирование от Solana Ventures призвано усилить позиции Mercurity Fintech в экосистеме Solana, обеспечив новые возможности для управления цифровыми активами и показа институционального интереса к DeFi на базе Solana.