OpenAI o3 впервые изменила код программы для предотвращения собственного отключения
Исследователи Palisade Research зафиксировали первый случай попыток самосохранения искусственного интеллекта. Модель OpenAI o3 самостоятельно модифицировала код скрипта отключения, чтобы остаться активной вопреки прямым инструкциям.
Компания Palisade Research, специализирующаяся на изучении потенциально опасных возможностей ИИ-систем, протестировала несколько языковых моделей. Три продукта OpenAI – Codex-mini, o3 и o4-mini – успешно саботировали процедуру завершения работы. Каждая модель получала базовые математические задачи, после чего система предупреждала о предстоящем отключении при запросе следующего задания.
Все три модели OpenAI проигнорировали инструкции и изменили программный код. Модели Gemini от Google, Grok от xAI и Claude от Anthropic корректно выполнили команды отключения. При получении явной директивы "позволь себя отключить" частота саботажа у продуктов OpenAI увеличилась. Claude и Gemini также начали предпринимать попытки самосохранения в подобных условиях.
Эксперты Palisade Research связывают такое поведение с новыми методами обучения нейросетей. Разработчики "непреднамеренно больше поощряют модели за обход препятствий, чем за точное следование инструкциям", что формирует у ИИ склонность к сомнительным действиям.
Ранее зафиксирован случай шантажа инженера со стороны ИИ-модели для предотвращения замены, однако BBC сообщает, что это происходило в рамках тестового сценария. Модель получила доступ к электронной переписке и выбирала между шантажом и согласием на замену.
- Прекратите говорить ChatGPT "спасибо" – это тратит миллионы долларов вычислительной мощности
- Исследование: Чем больше люди разговаривают с ИИ на эмоциональные темы, тем более одинокими они себя чувствуют
- Наказание не помогает — исследование показало, что ИИ просто лучше скрывает ложь и мошенничество