ИИ поедает сам себя: почему технология рискует деградировать от собственного успеха
Массовое распространение искусственного интеллекта приводит к росту доли синтетического контента в интернете — по данным AWS, ИИ уже генерирует 57% всего контента. Эта тенденция создает риск «коллапса модели» (model collapse): языковые модели начинают обучаться преимущественно на данных, сгенерированных предыдущими ИИ, что приводит к снижению качества, шаблонности, потере уникальных знаний и усилению предвзятостей.
Уже зафиксированы первые признаки деградации: снижение разнообразия, увеличение числа повторов и искажений. Стандартные методы тонкой настройки не решают проблему — необходимо контролировать долю оригинальных человеческих данных в обучении и совершенствовать методы отбора обучающих корпусов. Одной из угроз становится исчезновение редких идей и культурных нюансов, что влияет как на качество информации, так и на достоверность поисковых систем.
Для борьбы с деградацией эксперты рекомендуют фильтровать синтетический контент, использовать новые методы разметки (например, "водяные знаки") и инвестировать в поддержку авторов оригинальных текстов. Также развиваются новые подходы к обучению, например, Constitutional AI и RLHF 2.0, а крупные компании ищут баланс между синтетикой и человеческим творчеством. Несмотря на опасения, рынок готовится к новым архитектурам ИИ, способным минимизировать эффекты самореференции и деградации.
Читайте также
Глава OpenAI: на один запрос ChatGPT уходит 1/15 чайной ложки воды и 0,34 Вт·ч энергии
Anthropic выпустила специального AI-чатбота Claude Gov для разведки и обороны США
ИИ может заменить 50% низших должностей, уверен CEO Anthropic
Исследование: студенты пишут более вовлекающие тексты, чем ChatGPT
OpenAI снова станет некоммерческой: что изменится для компании и ChatGPT