Мероприятия

Meta AI и авторские права: как модель воспроизводит почти половину книги о Гарри Поттере

Мероприятия
Meta AI model can reproduce almost half of Harry Potter book

Исследование показало, что модель Meta AI способна воспроизвести значительные фрагменты книги о Гарри Поттере, что вызывает фундаментальные вопросы о защите интеллектуальной собственности и будущем генеративного искусственного интеллекта.

В последние годы развитие технологий искусственного интеллекта получило невероятное ускорение, и на передний план вышли модели, способные генерировать тексты с человеческой точностью. Одним из крупнейших игроков в этой области является компания Meta, которая представила ряд мощных языковых моделей под брендом Llama. Недавнее исследование показало, что одна из их последних моделей — Llama 3.1 70B — способна воспроизводить почти половину книги Джоан Роулинг «Гарри Поттер и философский камень». Это открытие может серьезно повлиять на обсуждения вокруг юридической ответственности и этических аспектов использования моделей искусственного интеллекта.

Исследование, проведенное группой компьютерных ученых и юристов из Стэнфорда, Корнелла и университета Западной Вирджинии, было направлено на оценку степени запоминания и воспроизведения текста, обучающимися на больших наборах данных языковыми моделями. Они анализировали не только Meta, но и Microsoft и EleutherAI, уделяя особое внимание литературным произведениям, таким как «Гарри Поттер», «Властелин колец» и «1984». Главным открытием стало то, что модель Llama 3.1 70B могла воссоздавать последовательности из 50 слов из первой книги о Гарри Поттере с вероятностью более 50 процентов в 42% случаев — это огромный показатель по сравнению с предыдущей версией Llama 1 65B, которая запомнила лишь 4.4% текста.

Такой уровень запоминания вызывает немало вопросов, среди которых ключевыми являются законность таких действий и потенциальные риски для компаний, разрабатывающих искусственный интеллект. Одним из главных направлений судебных споров становится поиск баланса между свободным использованием информации для обучения моделей и соблюдением авторских прав. Крупные издательства, авторы и правообладатели уже начали судебные процессы против AI-компаний, обвиняя их в незаконном использовании защищенного контента. Модель Llama 3.1 70B была обучена на астрономическом количестве данных — около 15 триллионов токенов, что в десятки раз превышает объем данных для тренировок предыдущих моделей.

Вероятно именно из-за объема и источников информации модель смогла «запомнить» столько текста из популярных произведений, включая «Гарри Поттера». При этом исследования указывают на то, что уровень воспроизведения сильно зависит от популярности книги — в случае с менее раскрученными авторами, такими как Ричард Кадрей с его романом «Sandman Slim», показатель оказался практически нулевым. Методология исследования базировалась на вычислении вероятностей генерации последовательностей, где каждая следующая часть текста предсказывалась исходя из контекста. В отличие от классического способа тестирования через многократное генерирование текстов, ученые использовали вероятностные вычисления, умножая шансы получения конкретного слова на предшествующую последовательность, что позволило получить более точные оценки и изучить даже крайне редкие случаи воспроизведения целых фрагментов. Откуда именно в модели появилась такая большая доля текста «Гарри Поттера» — остается загадкой.

Есть предположения, что помимо самой книги в тренировочные данные могла попасть копия с вторичных ресурсов, таких как фанатские форумы, обзоры и рецензии, где часто цитируют длинные отрывки оригинала. Однако эксперты отмечают, что возникновение такого высокого показателя воспроизведения требует более серьезного присутствия первоисточника в обучающей выборке. Тема авторских прав и искусственного интеллекта стала одной из горячих в юридической и технологической сферах. Существуют три основные теории ответственности компании-разработчика AI: незаконное копирование данных для обучения, создание производного произведения через модель и нарушение авторских прав при генерации текста самой моделью. Первая теория может поставить под угрозу большую часть современных моделей, если признать, что обучение уже само по себе является нарушением.

Вторая теория предполагает, что модель искусственного интеллекта является своего рода производным авторским произведением, так как она хранит в своих параметрах значительную часть текстов. Судебные споры на эту тему пока не имеют однозначного решения и продолжают развиваться параллельно с развитием технологии. Третья теория рассматривает нарушение авторских прав, когда модель генерирует текст, идентичный защищенному произведению. В случае Llama 3.1 70B — это конкретный довод в сторону авторов и издателей, поскольку модель воспроизводит значительный объем оригинального текста «Гарри Поттера», что выходит за пределы коротких цитат и может считаться прямым копированием.

Ключевым фактором в решении судебных процессов станет анализ доктрины добросовестного использования (fair use), который учитывает, насколько трансформативным является использование исходного материала. Если технология вызывает сомнения в том, что создается новый смысл или добавляется творческий вклад, а лишь перепроизводится чужой труд, вероятность неблагоприятного для AI-атомностей исхода возрастает. Интересно, что открытость моделей с исходным кодом и весами, таких как Llama, может сделать юридическую ситуацию более сложной. Исследователи могли проверить вероятность воспроизведения текста, потому что имели доступ к внутренним параметрам модели. В отличие от закрытых систем, таких как OpenAI или Google, где доступ к так называемым логитам ограничен, что усложняет доказательства прямого копирования текста.

Кроме того, закрытые платформы могут фильтровать нежелательный выходной текст, что помогает снизить риск нарушения авторских прав. С другой стороны, открытость моделей выполняет важную общественную функцию, позволяя научному сообществу проводить независимые исследования и развивать технологии с большей прозрачностью. В итоге эта ситуация поднимает сложный вопрос баланса между инновациями в области искусственного интеллекта и уважением к интеллектуальной собственности. Пока судебные решения остаются непредсказуемыми, компании вынуждены внимательно подходить к выбору тренировочных данных, разрабатывать механизмы фильтрации и оценивать возможные юридические риски. Ситуация с воспроизведением «Гарри Поттера» в модели Meta ясно показывает, что проблемы копирования и запоминания текстов в языковых моделях не являются лишь мелкими «крайними случаями», а могут иметь масштабный характер, особенно для популярных произведений.

Это создаёт вызовы не только для разработчиков, но и для законодателей, юристов, авторов и общества в целом. Пока мир искусственного интеллекта вступает в новую эру, важно найти сбалансированные решения, которые будут способствовать развитию технологий без ущерба правам создателей контента и нормам справедливого использования. От того, как быстро и грамотно будет решена эта задача, зависит будущее генеративного AI и его интеграция в самые разные сферы жизни.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Audi Isn't Abandoning Gas Engines for EVs by 2033 as It Planned
Суббота, 13 Сентябрь 2025 Audi отказывается от полного перехода на электромобили к 2033 году: будущее бензиновых двигателей

Audi изменяет планы по полному отказу от бензиновых двигателей к 2033 году и продолжит разработку ДВС и гибридных технологий, сохраняя гибкость в линейке автомобилей и удовлетворяя поклонников мощных спортивных моделей.

 South Korea’s central bank won’t oppose stablecoin: Report
Суббота, 13 Сентябрь 2025 Южная Корея открывает дверь для стабильных коинов: заявление главы Центрального банка

Южная Корея демонстрирует позитивный настрой в отношении выпуска собственных стабильных коинов, несмотря на существующие беспокойства по поводу управления валютными резервами. Развитие законодательства и перспектива вхождения местных компаний в рынок цифровых активов создают благоприятные условия для инноваций и регулирования.

 Trump family’s company cuts stake in World Liberty Financial by 20% — Report
Суббота, 13 Сентябрь 2025 Семейный бизнес Трампа сокращает долю в World Liberty Financial: причины и последствия

Динаміка изменения доли, принадлежащей компании семьи Трампа в криптовалютной платформе World Liberty Financial, и влияние этого шага на рынок и законодательство США в сфере цифровых активов.

 Bitcoin grabs $106K liquidity as whale longs BTC with $255M
Суббота, 13 Сентябрь 2025 Крупный кит открывает длинную позицию в $255 миллионов: биткоин стремится к прорыву выше $106К

Обзор последних рыночных событий, связанных с биткоином, где анонимный крупный инвестор (кит) открыл длинную позицию на сумму $255 миллионов с плечом 20x. Анализ влияния таких сделок на динамику цены BTC и перспективы дальнейшего роста цифрового актива в условиях узкого торгового коридора.

 TikTok denies TRUMP memecoin buys in reply to congressman’s accusations
Суббота, 13 Сентябрь 2025 TikTok опровергает покупку мемкоина TRUMP на фоне обвинений конгрессмена

Развернутая информационная статья, посвященная спору между TikTok и конгрессменом Брэдом Шерманом относительно обвинений в покупке мемкоина TRUMP в крупных объемах. Раскрываются детали обвинений, позиция TikTok, и контекст политических и криптоэкономических разногласий между сторонами.

 Semler Scientific plans Bitcoin holdings of 105,000 BTC by 2027
Суббота, 13 Сентябрь 2025 Semler Scientific: Амбициозный План Увеличения Биткоин-Активов до 105 000 BTC к 2027 Году

Semler Scientific, инновационная компания в области цифровых технологий и здравоохранения, стремится значительно расширить свои биткоин-активы, что отражает растущую тенденцию корпоративных инвестиций в криптовалюту. Планы фирмы свидетельствуют о масштабном доверии к долгосрочной перспективе биткоина и его роли в будущих финансовых стратегиях компаний.

 Musk’s X plans payments, investment features rollout for 2025 — Report
Суббота, 13 Сентябрь 2025 Планы Илон Маска по интеграции платежей и инвестиций в платформу X в 2025 году

Развитие социальной сети X под руководством Илона Маска предусматривает внедрение новых финансовых сервисов, включая платежи и инвестиционные функции. Рассмотрены перспективы запуска приложения X Money и возможное появление банковских карт под брендом X, что создаст уникальную экосистему для миллионов пользователей.