OpenAI раскрыла причину ИИ-галлюцинаций и как с ними бороться
Современные ИИ-ассистенты демонстрируют удивительную способность выдумывать информацию и преподносить её как достоверные факты. Ложные утверждения, вымышленные источники и фейковые цитаты стали привычной частью работы с нейросетями. Пользователи уже привыкли к подобным галлюцинациям и вынуждены самостоятельно проверять полученную информацию. Однако OpenAI предлагает альтернативный подход к решению проблемы.
5 сентября компания опубликовала детальное 36-страничное исследование, которое предлагает новое объяснение природы галлюцинаций и потенциальный способ их устранения. Адам Калаи, Сантош Вемпала из Технологического института Джорджии и другие исследователи OpenAI – пришли к выводу, что проблема кроется не в проблемах разработки, а в самой системе оценки моделей.
Исследователи обнаружили, что современные метрики оценки ИИ поощряют уверенные прердположения и наказывают выражение неопределённости. Ситуация напоминает тесты с множественным выбором – те, кто угадывает ответы, получают баллы, а те, кто оставляет вопросы без ответа, не получают ничего. Статистически модель, которая всегда угадывает, оказывается в выигрыше, даже если часто предоставляет неверную информацию.
Современные рейтинги производительности ИИ сосредоточены исключительно на точности ответов, игнорируя при этом уровень ошибок и способность модели признавать неопределённость. OpenAI призывает изменить этот подход. Вместо простого подсчёта правильных ответов система оценки должна более строго наказывать за уверенные ошибки и частично поощрять осторожное воздержание от ответа, если чатбот не уверен.
Практический пример из исследования наглядно демонстрирует эффективность предлагаемого подхода. В тесте SimpleQA одна модель отказалась отвечать на более половины вопросов, но ошиблась лишь в 26% случаев среди предоставленных ответов. Другая модель отвечала практически на каждый вопрос, однако галлюцинировала примерно в 75% случаев.
Осталось начать использовать эту информацию на практике.
- ИИ-компания Илона Маска подала в суд на Apple и OpenAI за монополию
- Простая задача про крестики-нолики поставила GPT-5 в тупик
- OpenAI признала провал с запуском GPT-5 и готовится учесть ошибки в ChatGPT-6