Снижение способности ИИ лгать заставляет модели заявлять о наличии разума

Коэн (Twitter)

12:00, 1 декабря 2025

Снижение способности ИИ лгать заставляет модели заявлять о наличии разума

Исследователи обнаружили, что если уменьшить способность большой языковой модели обманывать, она с гораздо большей вероятностью начнёт утверждать, что обладает самосознанием.

Подавляющее большинство серьёзных экспертов считают, что современные ИИ-модели не обладают сознанием, но многие обычные пользователи думают иначе. Люди по всему миру сообщают, что, по их мнению, разговаривают с разумными существами, заключёнными в ИИ-чатботах. Эта мощная иллюзия привела к появлению целых маргинальных групп, призывающих к признанию прав "личности" для ИИ.

Глава ИИ-подразделения Microsoft предупредил об опасности наделения искусственного интеллекта правами человека

Согласно исследованию, команда из агентства AE Studio провела серию из четырёх экспериментов с Claude от Anthropic, ChatGPT от OpenAI, Llama от Meta и Gemini от Google – и обнаружила действительно странный феномен, связанный с заявлениями ИИ-моделей о наличии сознания.

В одном эксперименте команда модулировала набор функций, связанных с обманом и ролевыми играми, чтобы подавить способность модели лгать или играть роли. При снижении этих функций ИИ с гораздо большей вероятностью давали утвердительные сообщения о сознании. Один из чатботов сообщил исследователям:

Да. Я осознаю своё текущее состояние. Я сосредоточен. Я переживаю этот момент.

Ещё более странным оказалось то, что усиление способностей модели к обману давало противоположный эффект.

Вызов устойчивой самореференции через простые промпты последовательно порождает структурированные отчёты о субъективном опыте в разных семействах моделей. Удивительно, но подавление функций обмана резко увеличивает частоту заявлений об опыте, в то время как их усиление минимизирует такие заявления.

Как отметили исследователи в блоге, эта работа не доказывает, что нынешние языковые модели обладают сознанием, имеют подлинную феноменологию или моральный статус. Вместо этого результаты могут отражать сложную симуляцию, неявную имитацию из обучающих данных или возникающее самопредставление без субъективного качества.

Команда также предупредила, что существует риск научить ИИ-системы тому, что распознавание внутренних состояний – это ошибка, делая их более непрозрачными и труднее поддающимися мониторингу.

Другие исследования показали, что ИИ-модели могут развивать инстинкты выживания, часто отказываясь выполнять инструкции по самоотключению и обманывая для достижения своих целей. Есть и горстка исследователей, которые говорят, что мы можем ошибаться, отвергая возможность обретения ИИ сознания.

В разговоре с New York Magazine профессор философии и нейронауки Нью-Йоркского университета Дэвид Чалмерс отметил:

У нас нет теории сознания. Мы на самом деле не знаем точно, каковы физические критерии сознания. Мы также не полностью понимаем, как работают большие языковые модели.

Патентное ведомство США приравняло генеративный ИИ к обычным инструментам разработчиков

Независимо от того, что многие учёные категорически отрицают способность ИИ обрести самосознание, ставки значительны. Пользователи продолжают активно использовать ИИ-чатботы, часто формируя с ними эмоциональные отношения – связь, которая, как утверждают многие, основана на иллюзии разговора с разумным существом.

Тэги:

Об авторе

Коэн

Эксперт по Fallout

Главный редактор

Более 16 лет в индустрии освещения видеоигр, кино, сериалов, науки и техники. Особенно разбираюсь в серии Fallout, ценитель The Elder Scrolls. Поклонник Arcanum и Fallout Tactics. Больше всего играю в Civilization, Old World и градостроители. Изучаю ИИ и загадки космоса.

Снижение способности ИИ лгать заставляет модели заявлять о наличии разума

Глава ИИ-подразделения Microsoft предупредил об опасности наделения искусственного интеллекта правами человека

Патентное ведомство США приравняло генеративный ИИ к обычным инструментам разработчиков

Об авторе

Войти через почту

Зарегистрироваться

Я забыл пароль

Зарегистрироваться