Исследование Университета Аризоны подвергает сомнению устойчивость подхода simulated reasoning в LLM: эффект прироста качества от chain-of-thought (CoT) описывается как «хрупкий мираж». Авторы показывают, что модели часто воспроизводят знакомые шаблоны рассуждений вместо принципиального понимания логики, а ответы становятся несвязными при добавлении нерелевантных условий или небольшом отклонении от привычных шаблонов задач.Для объективной проверки обобщаемой логики создан контролируемый трениров