OpenAI пришлось выпустить официальное заявление "Откуда взялись гоблины" после споров о антигоблинском предубеждении ИИ
Во вторник издание Wired опубликовало материал о странной инструкции, обнаруженной в Codex CLI – ИИ-инструменте для написания кода от OpenAI. Инструкция гласила: "Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных и существах, если это не имеет абсолютного и однозначного отношения к запросу пользователя". Довольно необычное ограничение для модели искусственного интеллекта, которую нужно специально об этом предупреждать.
Проблема, судя по всему, была весьма навязчивой. В одном из постов на X, процитированном в статье Wired, пользователь отмечал, что модель регулярно называла баги "гремлинами" и "гоблинами" и продолжала делать это даже после обновления, призванного обуздать гоблинскую болтовню. OpenAI нарушила молчание и опубликовала блог-пост под заголовком "Откуда взялись гоблины".
Поведение модели формируется множеством мелких стимулов. В данном случае один из таких стимулов возник при обучении модели для функции настройки личности, в частности для профиля "Гик". Мы неосознанно давали особенно высокие награды за метафоры с существами. Оттуда гоблины и расползлись.
Изначально это должно было оставаться небольшой причудой "личности" Codex, которая, по задумке, должна была общаться как тот самый архетипичный гик, постоянно сравнивающий всё подряд с голубями и ограми.
Однако в блоге признают, что "обучение с подкреплением не гарантирует, что выученное поведение останется аккуратно ограниченным тем контекстом, который его породил". Проще говоря, гоблинская речь заразила даже те диалоги GPT, где гиковский профиль не был активирован.
В публикации OpenAI называет гоблинов "наглядным примером того, как сигналы вознаграждения могут формировать поведение модели неожиданным образом", и предлагает команду для снятия антигоблинского ограничения тем, кому эта особенность нравится.
- OpenAI запустит массовое производство собственных ИИ-чипов уже в следующем году
- Против ИИ подан первый судебный иск о доведении до самоубийства – родители обвиняют ChatGPT в смерти сына
- ИИ-компания Илона Маска подала в суд на Apple и OpenAI за монополию