Apple разрушила иллюзию мышления в современных ИИ
Новое исследование Apple наглядно демонстрирует, что самые продвинутые модели ИИ с функцией "рассуждения" полностью теряют способность решать задачи при повышении их сложности.
В научной работе, опубликованной незадолго до конференции WWDC 2025, исследователи Apple обнаружили серьезные ограничения в так называемых моделях рассуждения (LRM) – включая OpenAI o1 и o3, DeepSeek R1, Claude 3.7 Sonnet Thinking и Google Gemini Flash Thinking. Эта работа продолжает серию исследований тех же ученых, которые в прошлом году выявили другие недостатки в логических способностях языковых моделей.
Исследователи проверяли возможности ИИ с помощью классических логических головоломок, таких как "Ханойская башня", где необходимо переместить диски разного размера между тремя стержнями по определенным правилам. Другие задачи включали перемещение шашек, головоломку с переправой через реку и укладку блоков в заданной конфигурации.
Исследователи пишут:
Результаты показывают, что все модели рассуждения демонстрируют схожую картину по отношению к сложности: точность постепенно снижается по мере увеличения сложности задачи, пока не достигает полного коллапса (нулевой точности) после определенного порога сложности.
В представленных результатах Claude 3.7 Sonnet с режимом мышления и DeepSeek R1 начинают давать сбой, когда к головоломке "Ханойская башня" добавляется пятый диск.
Еще более удивительным оказался факт, что модели ИИ не просто ошибаются, а фактически "сдаются", когда задачи становятся слишком сложными. При приближении к критическому порогу сложности они начинают уменьшать свои усилия по рассуждению, несмотря на возрастающую сложность задачи. Проще говоря, когда проблемы усложняются, ИИ "думает" меньше.
Исследователи также проверили, повышается ли точность, если предоставить моделям готовые ответы. Результат оказался отрицательным. Даже когда в запрос включался алгоритм решения, и моделям нужно было просто следовать инструкциям, они продолжали ошибаться.
Эксперт по ИИ Гари Маркус прокомментировал исследование в своем блоге, отметив, что обычные люди также имеют ограничения, параллельные тем, что обнаружила команда Apple, так как многие люди ошибаются в версиях "Ханойской башни" с восемью дисками.
Важно отметить, что исследование не сравнивало результаты ИИ с попытками решения головоломок людьми.
То, что показывает работа Apple, наиболее фундаментально, независимо от того, как вы определяете искусственный общий интеллект (AGI) – это то, что языковые модели не могут заменить хорошо специфицированные традиционные алгоритмы.
— Маркус
Подобные выводы могут объяснять крайне осторожный подход Apple к внедрению ИИ в свои гаджеты. В отличие от Google и Samsung, которые активно продвигают ИИ-функции в своих девайсаъ, Apple долгое время оставалась в стороне от этого тренда. Хотя компания и добавила функции Apple Intelligence, они в целом считаются не слишком впечатляющими и не играют большого значения в экосистеме.
- Новый ИИ-стартап оценили в $14 миллиардов – почему Apple хочет купить "убийцу Google"?
- Apple рассматривает возможность приобретения Perplexity AI
- Apple изучает возможность использования генеративного ИИ для проектирования своих чипов