ChatGPT играет в Red Dead Redemption II — система компьютерного зрения ИИ оказалась перегружена

Группа исследователей из Китая и Сингапура недавно опубликовала статью, в которой подробно описываются сложности, возникшие при попытке заставить ИИ играть в Red Dead Redemption II (RDR2). Они также оценили и прокомментировали игровые показатели ИИ.

В статье "На пути к общему компьютерному управлению: мультимодальный агент для Red Dead Redemption II как тематическое исследование" описана концепция общего компьютерного управления (GCC) для ИИ, а также шестимодульная агентская структура под названием CRADLE, используемая для взаимодействия между GPT-4V и RDR2. В заключении основные проблемы, с которыми сталкивается игровой агент ИИ, возлагаются на систему компьютерного зрения GPT-4V.

Согласно исследовательской статье, этот игровой проект RDR2 дает представление о том, насколько далеко продвинулись ИИ на пути к достижению искусственного общего интеллекта (AGI). С этой целью они пытаются заставить ИИ, работающий на основе GPT-4V от OpenAI, взаимодействовать с компьютером — воспринимать визуальные и звуковые сигналы, чтобы разумно использовать компьютер, как это делает средний человек. Таким образом, они пытаются продемонстрировать, что ИИ может успешно справляться со сложным общим управлением компьютером (GCC).

Исследователи выбрали RDR2 в качестве игры для изучения, так как утверждают, что она обладает "сложной системой управления черного ящика, которая олицетворяет самые сложные компьютерные задачи и позволяет нам оценить границы производительности нашей структуры в таких виртуальных средах". Игра предлагает разнообразные ситуации и среду, в которых игроки должны ориентироваться. Кроме того, элементы интерфейса, такие как диалоги, уникальные иконки, игровые подсказки и инструкции, гарантируют, что никакие фоновые знания не принимаются как должное, что идеально подходит для обучения ИИ. Наконец, исследователи говорят, что управление игрой RDR2 с помощью мыши и клавиатуры обеспечивает лучшую тренировку для GCC, чем большинство других программ, которые пользователь компьютера может запускать ежедневно.

Хотя опубликованная статья посвящена RDR2, CRADLE разработана для расширения в рамках своего назначения GCC, "чтобы поддерживать более широкий спектр игр, таких как симуляторы и стратегии, а также различные программные приложения". Ключевым нововведением здесь стало представление структуры CRADLE.

Выше вы можете увидеть обзор того, как CRADLE справляется с задачей игрового GCC, конкретно в RDR2. Исследователи надеялись продемонстрировать способность CRADLE учиться игре с нуля (без доступа к внутреннему состоянию игры или API), как человек. Затем агент ИИ должен был продвигаться в игре, перемещаясь по миру и выполняя задания, следуя основной сюжетной линии RDR2.

В целом, CRADLE, похоже, была умеренно успешной в игре RDR2. Исследователи говорят, что они оценивали задачи из основной сюжетной линии и миссии с открытым концом. Ключевым выводом было то, что "CRADLE может постоянно выполнять все задачи в основной сюжетной линии". Некоторыми заметными исключениями были:

  • Защита Датча — в которой происходит быстрая перестрелка

  • Поиск Лошида — требующая от агента исследования сложной внутренней среды, и задача с открытым концом и длительным горизонтом

Выше вы можете увидеть важность вывода задач и рефлексии в CRADLE. Эти усовершенствования особенно важны для перемещения агента по игре и понимания того, когда задачи выполнены.

В ходе исследования некоторые повторяющиеся трудности, с которыми сталкивался CRADLE, были приписаны GPT4-V. В частности, утверждается, что "возможности пространственно-визуального распознавания GPT-4V недостаточны для точного мелкомасштабного управления".

Кроме того, говорят, что GPT4-V испытывает трудности со специфическими понятиями, такими как уникальные иконки в игре, с пониманием мини-карт, а также с общими препятствиями в игровой среде.

Больше статей на Shazoo
Тэги:
Источники: