OpenAI научила ChatGPT признавать собственное нездоровое поведение посредством исповеди

OpenAI представила новую систему обучения искусственного интеллекта, которая учит модели честно рассказывать о собственных ошибках и нежелательных действиях пользователя и самой системы. Подход получил название "исповедь" (confession).

Модель создает второй вывод, отдельный от основного ответа, где честно сообщает о допущенных отклонениях в своем поведении, чтобы угодить пользователю. Главный ответ оценивается по множеству параметров, тогда как исповедь тренируется только на честности. Исследователи обучили версию GPT-5 Thinking создавать такие отчеты и тестировали на датасетах, провоцирующих нежелательное поведение вроде обмана или нарушения правил.

Проблема заключается в том, что большие языковые модели часто обучаются выдавать ответы, которые кажутся желательными для пользователя. Это приводит к угодничеству или уверенному изложению галлюцинаций – выдуманной информации, которую ИИ представляет как факт. Особенно сильно это стало проявляться в версии 4о и последовавшией за ней GPT5.

Новая система обучения побуждает модель давать дополнительный ответ о том, как она пришла к основному результату. При этом "исповеди" оцениваются исключительно по честности, тогда как основные ответы проверяются по множеству параметров – полезности, точности и соответствию инструкциям.

OpenAI отмечает, что большинство ошибок происходит из-за искренней путаницы модели в неоднозначных инструкциях, а не из-за намеренного обмана. Компания планирует масштабировать исследование для проверки стабильности метода.

Больше статей на Shazoo
Тэги:
Источники:

Об авторе

Знаю, что ничего не знаю
Редактор
Пишу про игры на Shazoo с 2019 года. Мастер скоропечатанья, ошибок в половине слов и экспертности по философии. Особенно разбираюсь в League of Legends, наездил на лошадях в Red Dead Redemption много часов, прошел GTA 5 три раза, изучил все новые Assassin's Creed, обожаю с самого детства JRPG и RPG, люблю все игры Bioware и провожу много часов в RTS. Сейчас прохожу очередную AAA или игру из бэк-каталога