Новое исследование Apple: действительно ли ИИ-модели способны к рассуждению?

Исследование , опубликованное в июне 2025 года, ставит под сомнение способность современных ИИ-моделей (включая o1, o3, -R1 и 3.7 Sonnet Thinking) к настоящему рассуждению и системному мышлению. Авторы статьи «The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity» проверили так называемые Large Reasoning Models (LRM) на классических задачах — от «Башни Ханой» до «переправ через реку» и игр с шашками. Задачи варьировались по сложности: от элементарных (1-дисковая Ханой) до крайне сложных (20-дисковая, более миллиона ходов).

Главный вывод: модели демонстрируют приемлемую точность на задачах из обучающего датасета, но практически не способны решать новые, ранее не встречавшиеся комплексные задачи. В эксперименте на доказательствах новых математических утверждений (по аналогии с результатами USAMO, апрель 2025), большинство моделей показали менее 5% успеха, а максимальный результат — 25%, без единого идеального доказательства из 200 попыток.

Авторы подчеркивают, что современные оценки ИИ-систем часто фокусируются только на точности итогового ответа, игнорируя сам ход рассуждения и степень настоящего «понимания». Исследование фиксирует резкое снижение эффективности LRM по мере роста сложности и новизны задачи — вместо поиска решения модели преимущественно используют паттерн-матчинг по обученным примерам.

Работа вызывает вопросы о реальных возможностях «логического мышления» у генеративных ИИ и необходимости разработки новых метрик для оценки reasoning-задач вне пределов обучающей выборки.

← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!