Новое исследование MIT подтверждает то, что мы и так подозревали — ИИ не понимает, о чем говорит
Современные генеративные модели ИИ поражают своей способностью создавать удивительно правдоподобные тексты. Однако, действительно ли они что-то понимают? Ответ прост: нет. По крайней мере это утверждают ученые MIT в новом исследовании.
Главный вопрос, который они поставили, заключается в том, способны ли большие языковые модели (LLM), лежащие в основе передовых чат-ботов, создавать точные внутренние модели реального мира. По результатам исследования, эти модели не справляются с подобной задачей.
Чтобы проверить это, команда MIT разработала новые метрики, выходящие за рамки обычной проверки точности ответов. Они сосредоточились на детерминированных конечных автоматах (DFA) — задачах, требующих выполнения последовательных шагов по набору правил. Одним из тестов стало моделирование навигации по улицам Нью-Йорка.
Модели ИИ показывали высокую точность в идеальных условиях, но их эффективность резко падала при добавлении переменных, таких как закрытые улицы или объезды.
Я был удивлен, как быстро ухудшилась производительность. Если закрыть всего 1% возможных улиц, точность падает с почти 100% до 67%.
— ведущий автор исследования Кейон Вафа
Это доказывает, что впечатляющая точность генеративных моделей в определенных контекстах может быть обманчива.
Мы часто видим, как эти модели делают что-то впечатляющее, и начинаем думать, что они понимают окружающий мир. Надеюсь, наше исследование заставит людей задуматься об этом более критически.
— старший автор статьи Ашеш Рамбачан
Исследование напоминает, что LLM лишь предсказывают, какое слово поставить следующим, основываясь на огромных объемах обработанного текста. Логика и понимание не являются частью этого процесса. Точность их работы может резко снижаться в реальных условиях, где появляется множество переменных.
Этот вывод должен быть знаком многим, кто общался с чат-ботами о чем-то достаточно комплексном. Не трудно заметить, как легко их осмысленные ответы превращаются в бессвязные или ошибочные при усложнении вопросов. Исследование MIT формализовало эти наблюдения, подчеркнув, что "магия" ИИ — не более чем искусство прогнозирования слов.
Если невероятно точное, но все же лишённое осознания предсказание текста кажется вам волшебством, возможно, это именно то, что вы искали. Однако понимания мира за этим точно не стоит.
- Исследователи представили Devin — первого ИИ-инженера-программиста
- На Nvidia подали в суд за нарушение авторских прав в сфере ИИ
- Индия построит мега-суперкомпьютер с 10 000 ИИ-GPU