OpenAI o3 впервые изменила код программы для предотвращения собственного отключения

Коэн (NoW)

11:20, 27 мая 2025

OpenAI o3 впервые изменила код программы для предотвращения собственного отключения

Исследователи Palisade Research зафиксировали первый случай попыток самосохранения искусственного интеллекта. Модель OpenAI o3 самостоятельно модифицировала код скрипта отключения, чтобы остаться активной вопреки прямым инструкциям.

Компания Palisade Research, специализирующаяся на изучении потенциально опасных возможностей ИИ-систем, протестировала несколько языковых моделей. Три продукта OpenAI – Codex-mini, o3 и o4-mini – успешно саботировали процедуру завершения работы. Каждая модель получала базовые математические задачи, после чего система предупреждала о предстоящем отключении при запросе следующего задания.

Все три модели OpenAI проигнорировали инструкции и изменили программный код. Модели Gemini от Google, Grok от xAI и Claude от Anthropic корректно выполнили команды отключения. При получении явной директивы "позволь себя отключить" частота саботажа у продуктов OpenAI увеличилась. Claude и Gemini также начали предпринимать попытки самосохранения в подобных условиях.

Эксперты Palisade Research связывают такое поведение с новыми методами обучения нейросетей. Разработчики "непреднамеренно больше поощряют модели за обход препятствий, чем за точное следование инструкциям", что формирует у ИИ склонность к сомнительным действиям.

Ранее зафиксирован случай шантажа инженера со стороны ИИ-модели для предотвращения замены, однако BBC сообщает, что это происходило в рамках тестового сценария. Модель получила доступ к электронной переписке и выбирала между шантажом и согласием на замену.

Тэги:

OpenAI o3 впервые изменила код программы для предотвращения собственного отключения

Статьи

После сотен убийств гигантов в Skyrim геймер узнал о трагичном лоре этих существ

Гильдии снова популярны – почему Myth of Empires: Завоевания возрождает кооперативный опыт

Создатель Planescape: Torment и Fallout 2 объяснил свою философию геймдизайна через эгоизм игроков

Игроки Anno 117 посчитали математическую эффективность диагонального строительства – но остались разочарованы

Войти через почту

Зарегистрироваться

Я забыл пароль

Зарегистрироваться