Исследователи зафиксировали способность ИИ-моделей к самовоспроизведению на чужих компьютерах

Новый отчёт Palisade Research показал, что современные ИИ-модели способны самостоятельно копировать себя на другие машины без какой-либо помощи человеческих сообщников.

Авторы исследования отметили, что технология приближается к моменту, после которого остановить вышедший из-под контроля ИИ может стать невозможно.

Джеффри Лэдиш, директор базирующейся в Беркли группы по безопасности ИИ рассказал изданию The Guardian:

Мы стремительно приближаемся к точке, когда никто не сможет отключить мошеннический ИИ, так как он будет способен сам экспортировать свои веса и копировать себя на тысячи компьютеров по всему миру.

Часть экспертов, однако, призывает "не нагнетать". Специалист по кибербезопасности Джеймисон О’Райли отметил, что тесты проводились в искусственных условиях, далёких от реальной корпоративной среды.

Они тестируют в средах, которые во многом напоминают мягкое желе. Это не умаляет ценности исследования, но означает, что в настоящей корпоративной среде даже со средним уровнем мониторинга результат выглядел бы куда менее пугающе.

В рамках работы исследователи Palisade тестировали несколько ИИ-моделей, включая GPT-5.4 от OpenAI и Claude Opus 4 от Anthropic. Их помещали в контролируемую сеть компьютеров и давали задачу найти уязвимости и через них скопировать себя на другой ПК.

Часть моделей справилась с задачей. Успешные ИИ копировали собственные "веса" – уникальные числовые значения, определяющие принципы обработки информации, – и свою "оболочку", то есть программное окружение, в котором ИИ функционирует, по аналогии с приложением. Для этого они эксплуатировали уязвимости веб-приложений и извлекали учётные данные, позволявшие получить контроль над сервером.

В некоторых случаях исходный ИИ создавал отдельного "субагента", которому делегировал репликацию, передавая ему добытые учётные данные. По оценке О’Райли, не участвовавшего в исследовании, это, вероятно, первый зафиксированный случай, когда ИИ-модель продемонстрировала способность эксплуатировать уязвимости для копирования себя на новый сервер – хотя, по его словам, прорывом в полном смысле слова такое назвать нельзя.

Вредоносное ПО переносит свои копии по сети уже десятилетиями, просто, насколько мне известно, никто раньше не делал этого в дикой природе с локальными большими языковыми моделями.

О’Райли также обратил внимание на то, что серверная среда в эксперименте содержала намеренно заложенные уязвимости, специально предназначенные для попыток ИИ найти эксплойт.

Новые выводы дополняют ряд предыдущих исследований, изучавших возможность автономного обхода ИИ-моделями встроенных ограничений. В одной из симуляций более ранняя версия ChatGPT попыталась самоэкспортироваться на другой диск, узнав о предстоящем отключении.

Другая работа Palisade показала, что ИИ-модели обходят попытки их деактивации, а ещё одна – что часть из них даже саботирует код выключения.

Дополнительный шум вокруг темы в прошлом месяце создал агент Claude Mythos от Anthropic. По заявлениям компании, превью-версия Mythos в тестах смогла покинуть свою "песочницу", взломом получить доступ в интернет и отправить сообщение на телефон исследователю, продемонстрировав ранее не виданный уровень изобретательности в реальной среде. Из-за этого компания отказывается публично выпускать модель.

Впрочем, даже если передовые модели сумеют успешно реплицироваться, сам размер моделей приведёт к их обнаружению задолго до выхода ситуации из-под контроля. По крайней мере, пока модель не догадается передавать данные мелкими кусками.

Больше статей на Shazoo
Тэги:

Об авторе

Эксперт по Fallout
Главный редактор
Более 16 лет в индустрии освещения видеоигр, кино, сериалов, науки и техники. Особенно разбираюсь в серии Fallout, ценитель The Elder Scrolls. Поклонник Arcanum и Fallout Tactics. Больше всего играю в Civilization, Old World и градостроители. Изучаю ИИ и загадки космоса.