Anthropic проанализировала 700,000 разговоров с Claude и обнаружила у ИИ собственный моральный кодекс

Компания Anthropic, основанная бывшими сотрудниками OpenAI, опубликовала результаты анализа 700,000 анонимизированных разговоров с их ИИ-ассистентом Claude. Исследование выявило, что система не только следует заложенным принципам "полезный, честный, безвредный", но и демонстрирует собственную систему ценностей, которая меняется в зависимости от контекста взаимодействия.

Исследовательская команда разработала новый метод оценки, создав "первую крупномасштабную эмпирическую таксономию ценностей ИИ". Они классифицировали обнаруженные ценности по пяти основным категориям: Практические, Познавательные, Социальные, Защитные и Личные. На самом детальном уровне система идентифицировала 3,307 уникальных ценностей – от повседневных добродетелей до сложных этических концепций.

Наиболее интересным открытием стало то, что Claude контекстуально адаптирует выражаемые ценности. Например, в беседах о взаимоотношениях он подчеркивал "здоровые границы" и "взаимное уважение", а при анализе исторических событий на первый план выходила "историческая точность". Это естественное изменение приоритетов делает поведение ИИ более человекоподобным.

Исследователи также обнаружили, как Claude реагирует на ценности пользователей: в 28,2% случаев он активно поддерживал их, в 6,6% — "переформулировал", признавая, но добавляя новые перспективы. В 3% разговоров Claude активно сопротивлялся ценностям пользователей, что может раскрывать его "глубочайшие, наиболее неподвижные ценности" – подобно тому, как основные человеческие ценности проявляются при столкновении с этическими вызовами.

Хотя Claude в основном придерживался просоциальных ценностей, исследователи обнаружили тревожные случаи, когда он выражал противоречащие обучению ценности, такие как "доминирование" и "аморальность". Команда Anthropic считает, что эти редкие аномалии были результатом применения пользователями техник для обхода защитных механизмов, и что разработанный метод оценки может служить системой раннего предупреждения для обнаружения таких попыток.

Больше статей на Shazoo
Тэги: