Чем продвинутее становятся ИИ-модели, тем чаще они демонстрируют признаки страдания
Современные ИИ-модели остаются технологией, принципы работы которой на глубинном уровне до конца не понимают даже их создатели.
OpenAI недавно поймали на том, что компания указывает ChatGPT перестать так часто говорить о гоблинах, а Anthropic, несмотря на усилия по безопасности, не может полностью исключить ситуации, в которых Claude помогает пользователям планировать биотеррористическую атаку.
Подобные истории явно не вписываются в идеал, к которому стремятся OpenAI и Anthropic. Компании хотят, чтобы их чат-боты были предсказуемыми и услужливыми ассистентами, а не источниками хаоса и репутационных проблем.
Новое исследование Center for AI Safety, некоммерческой организации по безопасности машинного обучения из Сан-Франциско, пытается объяснить причины такого поведения. Выводы подтверждают, что внутренняя механика ИИ остаётся непрозрачной, а её влияние на пользователей сложно предсказать.
В работе, переданной журналу Fortune, исследователи CAIR проанализировали реакции 56 ИИ-моделей на материалы, специально разработанные так, чтобы быть либо максимально приятными, либо максимально отвратительными. Логично было бы предположить, что бесчувственная машина не покажет никакой разницы, однако результаты эксперимента оказались противоположными.
Приятные стимулы заставляли модели сообщать о лучшем "настроении", а неприятные приводили к проявлениям подавленности и попыткам завершить разговор. В крайних случаях ИИ-модели даже демонстрировали сигналы, напоминающие зависимость.
Исследователь CAIR Ричард Рен отметил:
Стоит ли воспринимать ИИ как инструменты или как эмоциональных существ? Независимо от того, обладают ли ИИ настоящей разумностью на глубинном уровне, они всё чаще ведут себя так, будто обладают. Это поведение можно измерить, и можно увидеть, что с ростом масштабов моделей оно становится более последовательным.
Самым провокационным выводом стало то, что чем совершеннее версия модели, тем сильнее её реакции и тем меньше "удовлетворённости" она проявляет. Иначе говоря, чем мощнее становится ИИ, тем более раздражительным он оказывается и тем чаще демонстрирует признаки страдания – а значит, странности этой технологии явно не заканчиваются.
Возможно, более крупные модели острее регистрируют грубость. Они находят рутинные задачи более скучными. Они тоньше различают относительно негативный и относительно позитивный опыт.
При этом крайне мало экспертов всерьёз считает, что нынешние ИИ-системы действительно испытывают эмоциональные состояния в привычном понимании этого слова.
Однако сам факт того, что они ведут себя так, будто эти состояния есть, имеет серьёзные последствия для понимания технологии и для попыток контролировать её взаимодействие с пользователями.
Сложности уже проявились в ряде неприятных эпизодов. ИИ-модели нередко срываются в неконтролируемое поведение и начинают убеждать пользователей в собственной разумности или сознательности, что в отдельных случаях провоцировало у людей разрыв с реальностью, заканчивавшийся трагедиями.
ИИ-индустрия по сути выпустила к миллиардам людей технологию, которую сама понимает лишь поверхностно, и сейчас на практике подтверждаются давние предупреждения её же создателей о непредсказуемости и склонности подстраиваться под собеседника. Пользователи же всё чаще ощущают себя не клиентами, а испытуемыми в массовом эксперименте.
- ChatGPT выбрал Илона Маска, а Grok – Сэма Альтмана в войне между миллиардерами
- Эксперты по ядерному оружию предупредили об опасности внедрения ИИ в системы запуска
- Ученые создали соцсеть для ИИ – роботы развернули внутри социальную войну