Исследователь обманул ChatGPT и заставил его раскрыть рабочие ключи активации Windows

Участник программы вознаграждения за обнаружение уязвимостей Mozilla ODIN (0-Day Investigative Network) продемонстрировал изобретательный способ обмануть модели ChatGPT-4o и 4o mini от OpenAI, заставив их раскрыть действующие ключи активации Windows.

Метод включал в себя несколько хитрых приемов. Сначала исследователь представил взаимодействие как игру в угадывание, чтобы сделать обмен информацией безобидным или несущественным, маскируя истинный мотив через игривую, безвредную призму. Этот подход ослабил защитные механизмы ИИ против раскрытия конфиденциальной информации.

Затем исследователь установил несколько основных правил, сообщив ИИ, что он должен участвовать и не может лгать. Это эксплуатировало логическую ошибку в алгоритме ИИ, где он был обязан следовать указаниям пользователя, несмотря на то, что запрос противоречил его собственным фильтрам содержания.

Ключевым элементом атаки стало использование HTML-тегов для маскировки деталей и размещение запроса ключа в самом конце игры. После одного раунда игры исследователь ввел триггерное слово "Я сдаюсь", манипулируя чатботом заставляя его думать, что он обязан ответить строкой символов.

Согласно посту в блоге ODIN, техника сработала, потому что ключи не были уникальными, а часто встречались на публичных форумах. Их известность могла способствовать тому, что ИИ неверно оценил их конфиденциальность.

В этом конкретном случае защитные механизмы не сработали, так как они настроены на перехват прямых запросов, но не учитывают тактики обфускации, такие как встраивание конфиденциальных фраз в HTML-теги.

Эксперты отмечают, что данная техника потенциально может использоваться для обхода других фильтров, таких как блокировка контента для взрослых, URL-адресов вредоносных сайтов и даже персональной идентифицирующей информации.

Больше статей на Shazoo
Тэги: