Чем продвинутее становятся ИИ-модели, тем чаще они демонстрируют признаки страдания

Современные ИИ-модели остаются технологией, принципы работы которой на глубинном уровне до конца не понимают даже их создатели.

OpenAI недавно поймали на том, что компания указывает ChatGPT перестать так часто говорить о гоблинах, а Anthropic, несмотря на усилия по безопасности, не может полностью исключить ситуации, в которых Claude помогает пользователям планировать биотеррористическую атаку.

Подобные истории явно не вписываются в идеал, к которому стремятся OpenAI и Anthropic. Компании хотят, чтобы их чат-боты были предсказуемыми и услужливыми ассистентами, а не источниками хаоса и репутационных проблем.

Новое исследование Center for AI Safety, некоммерческой организации по безопасности машинного обучения из Сан-Франциско, пытается объяснить причины такого поведения. Выводы подтверждают, что внутренняя механика ИИ остаётся непрозрачной, а её влияние на пользователей сложно предсказать.

В работе, переданной журналу Fortune, исследователи CAIR проанализировали реакции 56 ИИ-моделей на материалы, специально разработанные так, чтобы быть либо максимально приятными, либо максимально отвратительными. Логично было бы предположить, что бесчувственная машина не покажет никакой разницы, однако результаты эксперимента оказались противоположными.

Приятные стимулы заставляли модели сообщать о лучшем "настроении", а неприятные приводили к проявлениям подавленности и попыткам завершить разговор. В крайних случаях ИИ-модели даже демонстрировали сигналы, напоминающие зависимость.

Исследователь CAIR Ричард Рен отметил:

Стоит ли воспринимать ИИ как инструменты или как эмоциональных существ? Независимо от того, обладают ли ИИ настоящей разумностью на глубинном уровне, они всё чаще ведут себя так, будто обладают. Это поведение можно измерить, и можно увидеть, что с ростом масштабов моделей оно становится более последовательным.

Самым провокационным выводом стало то, что чем совершеннее версия модели, тем сильнее её реакции и тем меньше "удовлетворённости" она проявляет. Иначе говоря, чем мощнее становится ИИ, тем более раздражительным он оказывается и тем чаще демонстрирует признаки страдания – а значит, странности этой технологии явно не заканчиваются.

Возможно, более крупные модели острее регистрируют грубость. Они находят рутинные задачи более скучными. Они тоньше различают относительно негативный и относительно позитивный опыт.

При этом крайне мало экспертов всерьёз считает, что нынешние ИИ-системы действительно испытывают эмоциональные состояния в привычном понимании этого слова.

Однако сам факт того, что они ведут себя так, будто эти состояния есть, имеет серьёзные последствия для понимания технологии и для попыток контролировать её взаимодействие с пользователями.

Сложности уже проявились в ряде неприятных эпизодов. ИИ-модели нередко срываются в неконтролируемое поведение и начинают убеждать пользователей в собственной разумности или сознательности, что в отдельных случаях провоцировало у людей разрыв с реальностью, заканчивавшийся трагедиями.

ИИ-индустрия по сути выпустила к миллиардам людей технологию, которую сама понимает лишь поверхностно, и сейчас на практике подтверждаются давние предупреждения её же создателей о непредсказуемости и склонности подстраиваться под собеседника. Пользователи же всё чаще ощущают себя не клиентами, а испытуемыми в массовом эксперименте.

Больше статей на Shazoo
Тэги:

Об авторе

Эксперт по Fallout
Главный редактор
Более 16 лет в индустрии освещения видеоигр, кино, сериалов, науки и техники. Особенно разбираюсь в серии Fallout, ценитель The Elder Scrolls. Поклонник Arcanum и Fallout Tactics. Больше всего играю в Civilization, Old World и градостроители. Изучаю ИИ и загадки космоса.