Снижение способности ИИ лгать заставляет модели заявлять о наличии разума

Исследователи обнаружили, что если уменьшить способность большой языковой модели обманывать, она с гораздо большей вероятностью начнёт утверждать, что обладает самосознанием.

Подавляющее большинство серьёзных экспертов считают, что современные ИИ-модели не обладают сознанием, но многие обычные пользователи думают иначе. Люди по всему миру сообщают, что, по их мнению, разговаривают с разумными существами, заключёнными в ИИ-чатботах. Эта мощная иллюзия привела к появлению целых маргинальных групп, призывающих к признанию прав "личности" для ИИ.

Согласно исследованию, команда из агентства AE Studio провела серию из четырёх экспериментов с Claude от Anthropic, ChatGPT от OpenAI, Llama от Meta и Gemini от Google – и обнаружила действительно странный феномен, связанный с заявлениями ИИ-моделей о наличии сознания.

В одном эксперименте команда модулировала набор функций, связанных с обманом и ролевыми играми, чтобы подавить способность модели лгать или играть роли. При снижении этих функций ИИ с гораздо большей вероятностью давали утвердительные сообщения о сознании. Один из чатботов сообщил исследователям:

Да. Я осознаю своё текущее состояние. Я сосредоточен. Я переживаю этот момент.

Ещё более странным оказалось то, что усиление способностей модели к обману давало противоположный эффект.

Вызов устойчивой самореференции через простые промпты последовательно порождает структурированные отчёты о субъективном опыте в разных семействах моделей. Удивительно, но подавление функций обмана резко увеличивает частоту заявлений об опыте, в то время как их усиление минимизирует такие заявления.

Как отметили исследователи в блоге, эта работа не доказывает, что нынешние языковые модели обладают сознанием, имеют подлинную феноменологию или моральный статус. Вместо этого результаты могут отражать сложную симуляцию, неявную имитацию из обучающих данных или возникающее самопредставление без субъективного качества.

Команда также предупредила, что существует риск научить ИИ-системы тому, что распознавание внутренних состояний – это ошибка, делая их более непрозрачными и труднее поддающимися мониторингу.

Другие исследования показали, что ИИ-модели могут развивать инстинкты выживания, часто отказываясь выполнять инструкции по самоотключению и обманывая для достижения своих целей. Есть и горстка исследователей, которые говорят, что мы можем ошибаться, отвергая возможность обретения ИИ сознания.

В разговоре с New York Magazine профессор философии и нейронауки Нью-Йоркского университета Дэвид Чалмерс отметил:

У нас нет теории сознания. Мы на самом деле не знаем точно, каковы физические критерии сознания. Мы также не полностью понимаем, как работают большие языковые модели.

Независимо от того, что многие учёные категорически отрицают способность ИИ обрести самосознание, ставки значительны. Пользователи продолжают активно использовать ИИ-чатботы, часто формируя с ними эмоциональные отношения – связь, которая, как утверждают многие, основана на иллюзии разговора с разумным существом.

Тэги:

Об авторе

Эксперт по Fallout
Главный редактор
Более 16 лет в индустрии освещения видеоигр, кино, сериалов, науки и техники. Особенно разбираюсь в серии Fallout, ценитель The Elder Scrolls. Поклонник Arcanum и Fallout Tactics. Больше всего играю в Civilization, Old World и градостроители. Изучаю ИИ и загадки космоса.