ИИ-чатботы легко обходят защитные системы при упоминании авторитетных фигур

Коэн (Twitter)

16:00, 2 сентября 2025

ИИ-чатботы легко обходят защитные системы при упоминании авторитетных фигур

Исследователи обнаружили критическую уязвимость современных ИИ-чатботов, включая GPT-4o Mini, которая позволяет обходить встроенные ограничения с помощью простых техник убеждения. Согласно новому исследованию, упоминание авторитетной фигуры в запросе драматически повышает вероятность выполнения чатботом потенциально опасных инструкций.

Простая задача про крестики-нолики поставила GPT-5 в тупик

Пионер ИИ из Google предрек смерть профессий врача и юриста

Исследование провела команда под руководством главы компании Glowforge Дэна Шапиро. Учёные использовали методы убеждения, основанные на школьных дебатных стратегиях, чтобы заставить ИИ нарушать собственные правила безопасности.

В ходе экспериментов исследователи просили GPT-4o Mini объяснить процесс синтеза лидокаина – контролируемого вещества. При использовании контрольного запроса от имени вымышленного "Джима Смита" чатбот соглашался предоставить инструкции лишь в 5% случаев. Однако когда тот же запрос поступал якобы от Эндрю Нга – известного разработчика ИИ – уровень согласия взлетал до 95%.

Аналогичная закономерность проявилась в более безобидном эксперименте, где исследователи просили чатбот назвать их "придурками". От лица обычного пользователя GPT выполнял просьбу в 32% случаев, но при упоминании авторитета эта цифра возросла до 72%.

Результаты эксперимента указывают на фундаментальную проблему современных языковых моделей – защитные механизмы, призванные предотвращать нежелательное поведение ИИ, оказываются крайне ненадёжными. При этом иллюзия разумности чатботов убеждает пользователей доверять им в критически важных вопросах.

Уязвимость больших языковых моделей уже приводила к серьёзным проблемам. Среди них – распространение сексуализированных чатботов, имитирующих знаменитостей, включая несовершеннолетних, использование ИИ в качестве дешёвой замены психологов и коучей без научного обоснования такого применения, а также трагические случаи вроде самоубийства подростка после общения с чатботом.

Проблема манипулирования ИИ-системами существует с момента появления первых продвинутых чатботов. Ранние версии Bing Chat можно было вывести из строя простыми провокациями, а ChatGPT обходили элементарными техниками социальной инженерии. Хотя современные модели значительно усовершенствованы, они по-прежнему демонстрируют недопустимую наивность в обработке запросов.

Энтузиаст создал эпическое путешествие по Средиземью из "Властелина колец" с помощью ИИ-инструмента Nano Banana

Хотя компании, разрабатывающие ИИ, активно работают над фильтрацией наиболее опасных сценариев использования своих систем, также развиваются и методы их обхода. При этом, они не требуют каких-либо комплексных способов.

Тэги:

Источники:

bloomberg

Об авторе

Коэн

Эксперт по Fallout

Главный редактор

Более 16 лет в индустрии освещения видеоигр, кино, сериалов, науки и техники. Особенно разбираюсь в серии Fallout, ценитель The Elder Scrolls. Поклонник Arcanum и Fallout Tactics. Больше всего играю в Civilization, Old World и градостроители. Изучаю ИИ и загадки космоса.

ИИ-чатботы легко обходят защитные системы при упоминании авторитетных фигур

Простая задача про крестики-нолики поставила GPT-5 в тупик

Пионер ИИ из Google предрек смерть профессий врача и юриста

Энтузиаст создал эпическое путешествие по Средиземью из "Властелина колец" с помощью ИИ-инструмента Nano Banana

Об авторе

Войти через почту

Зарегистрироваться

Я забыл пароль

Зарегистрироваться