Исследование: Meta Llama может дословно воспроизвести почти половину книги о Гарри Поттере

Новое исследование, опубликованное учёными из Stanford, Cornell и West Virginia University, выявило тревожную способность популярных open-weight LLM-моделей (в том числе Llama 3.1 70B) воспроизводить большие фрагменты защищённых авторским правом книг — в частности, «Гарри Поттера». Учёные тестировали пять моделей (три от Meta, по одной от и EleutherAI), используя датасет Books3, который широко применялся для обучения LLM и содержит множество ещё охраняемых авторским правом произведений.

Самые серьёзные результаты показала Meta Llama 3.1 70B: она воспроизводила до 50-токенных фрагментов книги существенно чаще других моделей, причём вероятность точного совпадения была особенно высокой для определённых разделов текста. Это ставит под вопрос заявления ведущих AI-компаний о якобы «крайне редких» случаях такого поведения и добавляет аргументов истцам в судах против разработчиков LLM.

Исследование подчеркивает юридические и этические риски генерации контента LLM, а также необходимость более строгих мер по предотвращению копирования защищённых материалов при обучении и работе моделей. Эти данные будут активно использоваться как в судебных разбирательствах, так и при формировании регулирования ИИ.

← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!