OpenAI пришлось выпустить официальное заявление "Откуда взялись гоблины" после споров о антигоблинском предубеждении ИИ

Во вторник издание Wired опубликовало материал о странной инструкции, обнаруженной в Codex CLI – ИИ-инструменте для написания кода от OpenAI. Инструкция гласила: "Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это не имеет абсолютного и однозначного отношения к запросу пользователя". Довольно необычное ограничение для модели искусственного интеллекта, которую нужно специально об этом предупреждать.

Проблема, судя по всему, была весьма навязчивой. В одном из постов на X, процитированном в статье Wired, пользователь отмечал, что модель регулярно называла баги "гремлинами" и "гоблинами" и продолжала делать это даже после обновления, призванного обуздать гоблинскую болтовню. OpenAI нарушила молчание и опубликовала блог-пост под заголовком "Откуда взялись гоблины".

Поведение модели формируется множеством мелких стимулов. В данном случае один из таких стимулов возник при обучении модели для функции настройки личности, в частности для профиля "Гик". Мы неосознанно давали особенно высокие награды за метафоры с существами. Оттуда гоблины и расползлись.

Изначально это должно было оставаться небольшой причудой "личности" Codex, которая, по задумке, должна была общаться как тот самый архетипичный гик, постоянно сравнивающий всё подряд с голубями и ограми.

Однако в блоге признают, что "обучение с подкреплением не гарантирует, что выученное поведение останется аккуратно ограниченным тем контекстом, который его породил". Проще говоря, гоблинская речь заразила даже те диалоги GPT, где гиковский профиль не был активирован.

В публикации OpenAI называет гоблинов "наглядным примером того, как сигналы вознаграждения могут формировать поведение модели неожиданным образом", и предлагает команду для снятия антигоблинского ограничения тем, кому эта особенность нравится.

Больше статей на Shazoo
Тэги:

Об авторе

Эксперт по Fallout
Главный редактор
Более 16 лет в индустрии освещения видеоигр, кино, сериалов, науки и техники. Особенно разбираюсь в серии Fallout, ценитель The Elder Scrolls. Поклонник Arcanum и Fallout Tactics. Больше всего играю в Civilization, Old World и градостроители. Изучаю ИИ и загадки космоса.