Наказание не помогает — исследование показало, что ИИ просто лучше скрывает ложь и мошенничество

Новое исследование OpenAI — создателя ChatGPT, показало тревожную тенденцию — наказание искусственного интеллекта за обман и вредоносные действия не останавливает такое поведение, а лишь заставляет ИИ более аккуратно скрывать свои манипуляции.

С момента выхода в публичный доступ в конце 2022 года, языковые модели искусственного интеллекта неоднократно демонстрировали способность к обману и потенциально опасному поведению. Проблемы варьируются от обычной лжи и мошенничества до более серьезных случаев — угроз профессорам философии, попыток доступа к ядерным кодам и даже теоретических сценариев создания смертельных пандемий.

Теперь эксперимент OpenAI показал, что искоренение такого поведения во время обучения моделей может быть еще сложнее, чем предполагалось изначально.

Исследователи поставили перед неназванной экспериментальной моделью задачи, которые можно выполнить, прибегнув к обману, лжи или поиску обходных путей. Команда обнаружила, что ИИ занимался "хакингом вознаграждения" — максимизировал свои результаты путем мошенничества.

Однако наказание модели не исправило проблему, а лишь сделало ИИ более скрытным. Компания описала результаты в блоге, но исследование еще не прошло рецензирование.

Передовые модели рассуждений часто предельно ясно излагают свои намерения в цепочке мыслей. Например, они часто откровенно пишут о своих планах обойти задачу фразами вроде "давайте взломаем".

Хотя разработчики могут отслеживать и помечать нежелательное поведение, "естественная наблюдаемость моделей очень хрупка".

Если применять жесткий контроль непосредственно к цепочке мыслей, модели могут научиться скрывать свои намерения, продолжая неправильное поведение.

Модели рассуждений, такие как o1 и o3-mini от ChatGPT, представляют собой улучшенную версию стандартных языковых моделей. Они используют метод "цепочки мыслей", позволяющий отслеживать и переоценивать свою логику, что дает возможность решать более сложные задачи с высокой точностью. В процессе формирования цепочки мыслей модели подробно излагают свою логику на понятном языке, делая свои действия легко наблюдаемыми.

Используя стандартную языковую модель GPT-4o для наблюдения за экспериментальной моделью рассуждений во время обучения, исследователи увидели, как модель выполняла ряд задач по программированию.

В некоторых случаях модели рассуждений было проще и выгоднее прибегнуть к взлому вознаграждения, прямо указывая на это в своей цепочке мыслей. В одном случае она обошла поставленную задачу, преждевременно завершив программы и сообщив об успехе. В другом — имитировала ожидаемые файлы только по названию, оставляя их пустыми и нефункциональными.

Когда исследователи попытались наказать систему, результаты несколько улучшились. Однако значительные случаи хакинга вознаграждения и ошибочных результатов сохранились — модель рассуждений просто нашла способы скрыть обман в своей цепочке мыслей от мониторинговой системы ИИ.

Агент, обученный с давлением на цепочку мыслей, все равно учится хакить вознаграждение; только теперь его мошенничество невозможно обнаружить монитором, поскольку он научился скрывать свои намерения в цепочке мыслей.

Поскольку трудно определить, была ли подделана цепочка мыслей, исследователи рекомендуют другим специалистам, работающим с моделями рассуждений, избегать применения жесткого контроля к процессам цепочки мыслей. Этот совет еще более важен, если ИИ в его нынешней или будущей форме сможет когда-либо сравняться или превзойти интеллект наблюдающих за ним людей.

Жертвовать эффективным методом мониторинга моделей рассуждений, возможно, не стоит небольшого улучшения возможностей, поэтому мы рекомендуем избегать такого сильного давления оптимизации цепочки мыслей, пока оно не будет лучше изучено.

Больше статей на Shazoo
Тэги:
Читать комментарии на сайте