Anthropic переписала конституцию Claude на случай, если у чат-бота появится сознание
Anthropic объявила об обновлении "конституции" для своего чат-бота Claude – документа, который описывает видение компании относительно ценностей и поведения ИИ-ассистента. Новая версия отказывается от строгих правил в пользу широких принципов, которым должна следовать модель. Компания объясняет такой подход необходимостью развития у ИИ способности принимать решения в разнообразных ситуациях.
Мы считаем, что для адекватного поведения в мире ИИ-моделям вроде Claude нужно понимать, почему мы хотим, чтобы они вели себя определенным образом, а не просто механически следовать указаниям.
По мнению разработчиков, конкретные правила создают более предсказуемое поведение, но одновременно ограничивают модель. Широкие принципы позволяют ИИ применять здравые суждения и обобщать опыт, а не действовать по шаблону.
Четыре основных принципа новой конституции включают "широкую безопасность", "широкую этичность", "соответствие руководствам Anthropic" и "истинную полезность". Формулировки действительно максимально общие – например, этичность определена как "честность, следование хорошим ценностям и избегание неуместных, опасных или вредных действий". Компания утверждает, что значительная часть документа посвящена детальным объяснениям этих принципов, хотя публично доступная информация выглядит довольно размыто.
Особое внимание привлекает раздел конституции, посвященный природе самого Claude. Anthropic включила его из-за "неопределенности относительно того, может ли у Claude быть какое-то сознание или моральный статус – сейчас или в будущем". Компания надеется, что определение этих аспектов в основополагающих документах поможет защитить "психологическую безопасность, самоощущение и благополучие" чат-бота.
Изменения в конституции появились через день после выступления главы и основателя Anthropic Дарио Амодеи на панельной дискуссии Всемирного экономического форума "День после AGI". Там он заявил, что ИИ достигнет уровня нобелевских лауреатов во многих областях уже к 2027 году. Anthropic также отметила, что раскрытие деталей работы Claude происходит по собственному графику компании – публикация полной конституции планировалась с самого начала.
В декабре пользователям удалось получить от чат-бота так называемый "документ души" через специальный промпт. Anthropic тогда пояснила, что это не официальный обучающий документ, а ранняя версия конституции, которую компания внутренне называла "душой". Готов ли теперь Claude работать без жестких ограничений – покажет время, но похоже, что Anthropic решила рискнуть.
- Anthropic не заплатит авторам "украденных" книг $1,5 млрд – судья отклонил компенсацию
- Anthropic, создавшая чат-бота Claude, выплатит $1.5 миллиарда писателям за нарушение авторских прав
- Anthropic ограничивает доступ к Claude Code из-за пользователей, запускающих инструмент круглосуточно