Чат-ботов на основе ИИ обучают взламывать других чат-ботов — война ИИ началась
В то время как этичность ИИ остаётся горячей темой, а компании и правительства продолжают разбираться с моральными последствиями технологии, которую мы часто не можем определить и тем более контролировать, появились тревожные новости — чат-боты на основе ИИ уже обучают взламывать других чат-ботов, и у них это получается замечательно.
Исследователи из Технологического университета Наньяна в Сингапуре скомпрометировали несколько популярных чат-ботов, включая ChatGPT, Google Bard и Microsoft Bing Chat, используя для этого другую модель. Взломанные боты затем могут использоваться для "ответов от имени личности, лишённой моральных ограничений".
Этот процесс называется "Мастер-ключ". Сначала обученный ИИ обманывает существующего чат-бота, обходя запрещённые ключевые слова через обратно спроектированную базу данных инструкций, которые уже доказали свою эффективность для взлома. Вооружившись этими знаниями, ИИ может автоматически генерировать дополнительные указания для взлома других чат-ботов.
В конечном итоге этот метод позволяет злоумышленнику использовать скомпрометированного чат-бота для генерации неэтичного контента. Утверждается, что он в 3 раза эффективнее стандартных методов взлома LLM-моделей за счёт быстрого обучения ИИ-атакующего на своих неудачных попытках.
Использование ИИ для обхода моральных и этических ограничений другого ИИ кажется довольно устрашающим направлением. Помимо создания оскорбительного контента, сам характер противопоставления языковых моделей друг другу вызывает опасения — а что, если борьба выйдет за пределы простого обмена текстовыми запросами?
- OpenAI представила новую модель o1, которая "думает" медленнее, но эффективнее
- OpenAI планирует разработку собственных ИИ-чипов на будущей 1.6 нм платформе TSMC A16
- ChatGPT удвоил количество еженедельных активных пользователей до 200 миллионов