Чат-ботов на основе ИИ обучают взламывать других чат-ботов — война ИИ началась

В то время как этичность ИИ остаётся горячей темой, а компании и правительства продолжают разбираться с моральными последствиями технологии, которую мы часто не можем определить и тем более контролировать, появились тревожные новости — чат-боты на основе ИИ уже обучают взламывать других чат-ботов, и у них это получается замечательно.

Исследователи из Технологического университета Наньяна в Сингапуре скомпрометировали несколько популярных чат-ботов, включая ChatGPT, Google Bard и Microsoft Bing Chat, используя для этого другую модель. Взломанные боты затем могут использоваться для "ответов от имени личности, лишённой моральных ограничений".

Этот процесс называется "Мастер-ключ". Сначала обученный ИИ обманывает существующего чат-бота, обходя запрещённые ключевые слова через обратно спроектированную базу данных инструкций, которые уже доказали свою эффективность для взлома. Вооружившись этими знаниями, ИИ может автоматически генерировать дополнительные указания для взлома других чат-ботов.

В конечном итоге этот метод позволяет злоумышленнику использовать скомпрометированного чат-бота для генерации неэтичного контента. Утверждается, что он в 3 раза эффективнее стандартных методов взлома LLM-моделей за счёт быстрого обучения ИИ-атакующего на своих неудачных попытках.

Использование ИИ для обхода моральных и этических ограничений другого ИИ кажется довольно устрашающим направлением. Помимо создания оскорбительного контента, сам характер противопоставления языковых моделей друг другу вызывает опасения — а что, если борьба выйдет за пределы простого обмена текстовыми запросами?

Больше статей на Shazoo
Тэги: