Исследование: Meta Llama может дословно воспроизвести почти половину книги о Гарри Поттере

Новое исследование, опубликованное учёными из Stanford, Cornell и West Virginia University, выявило тревожную способность популярных open-weight LLM-моделей (в том числе Llama 3.1 70B) воспроизводить большие фрагменты защищённых авторским правом книг — в частности, «Гарри Поттера». Учёные тестировали пять моделей (три от Meta, по одной от и EleutherAI), используя датасет Books3, который широко применялся для обучения LLM и содержит множество ещё охраняемых авторским правом произведений.

Самые серьёзные результаты показала Meta Llama 3.1 70B: она воспроизводила до 50-токенных фрагментов книги существенно чаще других моделей, причём вероятность точного совпадения была особенно высокой для определённых разделов текста. Это ставит под вопрос заявления ведущих AI-компаний о якобы «крайне редких» случаях такого поведения и добавляет аргументов истцам в судах против разработчиков LLM.

Исследование подчеркивает юридические и этические риски генерации контента LLM, а также необходимость более строгих мер по предотвращению копирования защищённых материалов при обучении и работе моделей. Эти данные будут активно использоваться как в судебных разбирательствах, так и при формировании регулирования ИИ.

Читайте также

  1. NYT добилась сохранения всех логов ChatGPT в суде: OpenAI грозит раскрытие удалённых переписок
  2. Суд отказался отменять «массовое наблюдение» за пользователями ChatGPT по решению об обязательном хранении всех логов
  3. BBC пригрозила Perplexity судом за обучение ИИ на её материалах
  4. Google подтверждает, что подпишет Кодекс практик ЕС по ИИ
  5. ChatGPT-гейт: хроника конфликтов, давления и миллиардов
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!