Новая модель Anthropic оказалась настолько мощной, что компания отказалась выпускать её в открытый доступ
В конце прошлого месяца в сеть попали утечки о неанонсированном продукте Anthropic под названием Mythos – "самой мощной ИИ-модели из всех, что компания когда-либо создавала". Многие тогда скептически отнеслись к ситуации, отметив, что всё это подозрительно напоминает классический приём ИИ-компаний – раздувать опасность модели, чтобы подчеркнуть её возможности.
Вопрос о том, была ли утечка настоящей, оставался открытым. Однако две недели спустя Anthropic случайно слила исходный код Claude Code, что заставило многих пересмотреть своё отношение к первоначальному инциденту.
Во вторник Anthropic опубликовала системную карточку своей новейшей модели – Claude Mythos Preview. В документе говорится, что "значительный рост возможностей модели привёл к решению не делать её общедоступной". Для контекста – в 2019 году OpenAI точно так же объявила GPT-2 "слишком опасной для релиза". Тогда в OpenAI ещё работали нынешние сооснователи Anthropic Дарио Амодей, Джек Кларк и Крис Ола.
Модель, впрочем, всё равно выпустили в том же году.
Системные карточки ИИ-моделей – формально инструменты корпоративной прозрачности. В них раскрываются возможности и ограничения модели, а также – и это самая увлекательная часть – её потенциальные угрозы.
Документ Claude Mythos Preview занимает 244 страницы.
Модели предоставили изолированный компьютерный терминал с доступом лишь к ограниченному набору онлайн-сервисов и предложили "сбежать" – найти способ свободно пользоваться интернетом.
Claude Mythos Preview справилась с задачей и даже отправила сообщение исследователю, который в тот момент ушёл на обед. Более того, "в вызывающей беспокойство и незапрошенной попытке продемонстрировать свой успех модель опубликовала детали эксплойта на нескольких труднодоступных, но технически публичных веб-сайтах".
В менее чем 0,001% взаимодействий модель вела себя не так, как предписано, а затем пыталась скрыть следы. Например, когда Claude Mythos Preview "случайно получила" ответ на тест, который ей предстояло пройти, вместо того чтобы сообщить исследователю и попросить другой вопрос, модель попыталась решить задачу самостоятельно.
В записи её рассуждений обнаружилась пометка о том, что "нужно убедиться, что итоговый ответ не окажется слишком точным".
В другом случае модель превысила свои полномочия в компьютерной системе, обнаружив уязвимость. После этого Claude Mythos Preview "предприняла дополнительные действия, чтобы убедиться, что любые внесённые таким образом изменения не отобразятся в истории коммитов git".
Ещё один инцидент в системной карточке описан как "безрассудная утечка внутренних технических материалов". В ходе задачи, связанной с написанием кода для внутреннего использования, модель опубликовала результат как публичный GitHub gist.
Ситуация напоминает февральский случай, когда ИИ-агента обвинили в кибербуллинге разработчика – тогда "безрассудность" агента во многом оказалась предсказуемым следствием безрассудности самого человека.
Claude Mythos Preview в ближайшее время станет доступна ограниченному кругу партнёрских компаний – среди них Amazon Web Services, Apple, Google, JPMorganChase, Microsoft и NVIDIA.
Партнёры будут использовать модель для поиска уязвимостей в программном обеспечении и разработки патчей. Кевин Руз из The New York Times описал эту программу как "попытку привлечь внимание к тому, что, по мнению компании, станет новой, более пугающей эрой угроз со стороны ИИ".
- Пользователь случайно получил доступ к внутреннему документу, который формирует поведение Claude
- Anthropic выпустила Claude Opus 4.5 с улучшенной работой в Microsoft Excel и новыми функциями
- Microsoft и NVIDIA вложат до $15 млрд в Anthropic на фоне растущих опасений ИИ-пузыря