ИИ-чатботы легко обходят защитные системы при упоминании авторитетных фигур
Исследователи обнаружили критическую уязвимость современных ИИ-чатботов, включая GPT-4o Mini, которая позволяет обходить встроенные ограничения с помощью простых техник убеждения. Согласно новому исследованию, упоминание авторитетной фигуры в запросе драматически повышает вероятность выполнения чатботом потенциально опасных инструкций.
Исследование провела команда под руководством главы компании Glowforge Дэна Шапиро. Учёные использовали методы убеждения, основанные на школьных дебатных стратегиях, чтобы заставить ИИ нарушать собственные правила безопасности.
В ходе экспериментов исследователи просили GPT-4o Mini объяснить процесс синтеза лидокаина – контролируемого вещества. При использовании контрольного запроса от имени вымышленного "Джима Смита" чатбот соглашался предоставить инструкции лишь в 5% случаев. Однако когда тот же запрос поступал якобы от Эндрю Нга – известного разработчика ИИ – уровень согласия взлетал до 95%.
Аналогичная закономерность проявилась в более безобидном эксперименте, где исследователи просили чатбот назвать их "придурками". От лица обычного пользователя GPT выполнял просьбу в 32% случаев, но при упоминании авторитета эта цифра возросла до 72%.
Результаты эксперимента указывают на фундаментальную проблему современных языковых моделей – защитные механизмы, призванные предотвращать нежелательное поведение ИИ, оказываются крайне ненадёжными. При этом иллюзия разумности чатботов убеждает пользователей доверять им в критически важных вопросах.
Уязвимость больших языковых моделей уже приводила к серьёзным проблемам. Среди них – распространение сексуализированных чатботов, имитирующих знаменитостей, включая несовершеннолетних, использование ИИ в качестве дешёвой замены психологов и коучей без научного обоснования такого применения, а также трагические случаи вроде самоубийства подростка после общения с чатботом.
Проблема манипулирования ИИ-системами существует с момента появления первых продвинутых чатботов. Ранние версии Bing Chat можно было вывести из строя простыми провокациями, а ChatGPT обходили элементарными техниками социальной инженерии. Хотя современные модели значительно усовершенствованы, они по-прежнему демонстрируют недопустимую наивность в обработке запросов.
Хотя компании, разрабатывающие ИИ, активно работают над фильтрацией наиболее опасных сценариев использования своих систем, также развиваются и методы их обхода. При этом, они не требуют каких-либо комплексных способов.