Способности LLM к «симулированным рассуждениям» — «хрупкий мираж», выяснили исследователи

Исследование Университета Аризоны подвергает сомнению устойчивость подхода simulated reasoning в LLM: эффект прироста качества от chain-of-thought (CoT) описывается как «хрупкий мираж». Авторы показывают, что модели часто воспроизводят знакомые шаблоны рассуждений вместо принципиального понимания логики, а ответы становятся несвязными при добавлении нерелевантных условий или небольшом отклонении от привычных шаблонов задач.

Для объективной проверки обобщаемой логики создан контролируемый тренировочный стенд DataAlchemy: небольшие модели обучаются на двух простых текстовых трансформациях (ROT-шифр и циклические сдвиги) и их композициях с разным порядком применения. Далее им предлагаются задачи вне домена обучающих паттернов.

  • Вывод: скачки качества CoT оказываются нестабильными и ломаются уже при умеренных сдвигах распределения.
  • Причина: CoT отражает репликацию выученных шаблонов, а не понимание текста.
  • Импликации: необходимы стресс-тесты с трансформациями и проверкой устойчивости к формулировкам, осторожность при использовании «рассуждающих» LLM в продуктах и критичных сценариях.

Читайте также

  1. RAG-помощник для команды техподдержки своими руками
  2. Wikipedia приостанавливает AI-саммари после резкого протеста редакторов
  3. Учёные создали робота-бадминтониста с искусственным интеллектом
  4. Бизнес в России сможет создавать ИИ-агентов с интернет-поиском
  5. Кейс Т-Банка для позиции AI-продакт-менеджера
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!