Исследование: Meta Llama может дословно воспроизвести почти половину книги о Гарри Поттере

20.06.2025 • Ars Technica

Новое исследование, опубликованное учёными из Stanford, Cornell и West Virginia University, выявило тревожную способность популярных open-weight LLM-моделей (в том числе Meta 1 Llama 3.1 70B) воспроизводить большие фрагменты защищённых авторским правом книг — в частности, «Гарри Поттера». Учёные тестировали пять моделей (три от Meta, по одной от Microsoft и EleutherAI), используя датасет Books3, который широко применялся для обучения LLM и содержит множество ещё охраняемых авторским правом произведений.

Самые серьёзные результаты показала Meta Llama 3.1 70B: она воспроизводила до 50-токенных фрагментов книги существенно чаще других моделей, причём вероятность точного совпадения была особенно высокой для определённых разделов текста. Это ставит под вопрос заявления ведущих AI-компаний о якобы «крайне редких» случаях такого поведения и добавляет аргументов истцам в судах против разработчиков LLM.

Исследование подчеркивает юридические и этические риски генерации контента LLM, а также необходимость более строгих мер по предотвращению копирования защищённых материалов при обучении и работе моделей. Эти данные будут активно использоваться как в судебных разбирательствах, так и при формировании регулирования ИИ.

PubMag

Исследование: Meta Llama может дословно воспроизвести почти половину книги о Гарри Поттере

Читайте также