ИИ поедает сам себя: почему технология рискует деградировать от собственного успеха

Массовое распространение искусственного интеллекта приводит к росту доли синтетического контента в интернете — по данным AWS, ИИ уже генерирует 57% всего контента. Эта тенденция создает риск «коллапса модели» (model collapse): языковые модели начинают обучаться преимущественно на данных, сгенерированных предыдущими ИИ, что приводит к снижению качества, шаблонности, потере уникальных знаний и усилению предвзятостей.

Уже зафиксированы первые признаки деградации: снижение разнообразия, увеличение числа повторов и искажений. Стандартные методы тонкой настройки не решают проблему — необходимо контролировать долю оригинальных человеческих данных в обучении и совершенствовать методы отбора обучающих корпусов. Одной из угроз становится исчезновение редких идей и культурных нюансов, что влияет как на качество информации, так и на достоверность поисковых систем.

Для борьбы с деградацией эксперты рекомендуют фильтровать синтетический контент, использовать новые методы разметки (например, "водяные знаки") и инвестировать в поддержку авторов оригинальных текстов. Также развиваются новые подходы к обучению, например, Constitutional AI и RLHF 2.0, а крупные компании ищут баланс между синтетикой и человеческим творчеством. Несмотря на опасения, рынок готовится к новым архитектурам ИИ, способным минимизировать эффекты самореференции и деградации.

Читайте также

  1. Глава OpenAI: на один запрос ChatGPT уходит 1/15 чайной ложки воды и 0,34 Вт·ч энергии
  2. Anthropic выпустила специального AI-чатбота Claude Gov для разведки и обороны США
  3. ИИ может заменить 50% низших должностей, уверен CEO Anthropic
  4. Исследование: студенты пишут более вовлекающие тексты, чем ChatGPT
  5. OpenAI снова станет некоммерческой: что изменится для компании и ChatGPT
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!