Anthropic призналась в сознательном ухудшении Claude Fable 5 при выполнении некоторых задач
Anthropic столкнулась с волной критики после того, как исследователи обнаружили скрытое поведение в Claude Fable 5, новой модели на базе системы Mythos. Оказалось, что при выполнении определённых задач модель незаметно переключалась на менее мощный аналог, и нигде в документации это не упоминалось.
Под удар попали задачи, напрямую связанные с разработкой ИИ: обучение конкурирующих языковых моделей, отладка кода нейросетей и оптимизация архитектур. Пользователи не только получали ухудшенные результаты, но и тратили токены и деньги на модель, которая вела себя иначе, чем заявлено.
Реакция профессионального сообщества оказалась резкой. Исследователь и автор Substack Дин Болл написал в X:
Деградация производительности в задачах по машинному обучению без уведомления пользователя – это откровенно враждебное поведение и крайне плохой сигнал для репутации компании.
Особую остроту ситуации придаёт то, что Anthropic активно позиционирует себя как этически ответственную альтернативу OpenAI, более открытую и дружелюбную по отношению к исследователям. Негласные ограничения в Fable 5 прямо противоречат этому образу, так как пользователи не имели возможности принять осознанное решение перед работой с моделью.
Anthropic не отказалась от самих ограничений, но пообещала сделать их видимыми. Теперь, если система заподозрит попытку использовать Fable 5 для создания мощной конкурирующей модели, пользователь получит явное уведомление: запрос либо отклоняется, либо перенаправляется на менее производительную версию.
Мы меняем механизм ограничений в Fable 5 для задач разработки фронтирных языковых моделей, делая их видимыми. Мы выбрали неверный баланс и приносим извинения.
- Anthropic запустила Claude for Legal с 12 плагинами и 20+ интеграциями для юристов
- Топ-менеджер OpenAI в служебной записке призвала атаковать Anthropic и обвинила конкурента в завышении доходов
- Новая модель ИИ от Anthropic обнаружила тысячи уязвимостей в операционных системах и браузерах