Учёные изучили 500 000 диалогов с ChatGPT и нашли автора тысяч фанфиков о родах героини Doki Doki Literature Club
Команда исследователей из Вашингтонского университета и Университета Колорадо в Боулдере опубликовала работу под названием "AI Fiction in the Wild", в которой проанализировала более 500 000 анонимных англоязычных логов диалогов с ChatGPT.
Среди прочих выводов исследование выделяет одного особенно плодовитого пользователя, который месяцами генерировал огромные объёмы фанфиков про беременность по мотивам Doki Doki Literature Club!.
Работа зафиксировала тенденцию, при которой определённая группа пользователей снова и снова запрашивала фанфики по конкретным франшизам, а также ярко выраженный тренд на запрос контента сексуального характера.
Исследование изучает, как пользователи применяют ChatGPT для создания художественных текстов, как с точки зрения объёма, так и содержания. В основе лежит датасет WildChat, состоящий из диалогов, собранных через бесплатный чат-бот на платформе Hugging Face.
Пользователи получали доступ к GPT-3.5 Turbo и GPT-4 без аккаунта OpenAI после согласия на то, что их переписки могут анонимно использоваться для исследовательских целей. Учёные проанализировали примерно 573 000 англоязычных диалогов, собранных с апреля 2023 года по май 2024 года.
Так как темой была именно художественная литература, сначала отобрали подходящие диалоги, отфильтровав только содержимое с вымышленными или гипотетическими сценариями. Для этого процесса также применялся ИИ, однако люди вручную проверяли точность фильтрации на выборке из 300 отобранных диалогов.
Из примерно 573 000 диалогов около 195 000 классифицировали как художественные, и из них порядка 52 000 содержали "откровенно сексуальный материал". Ещё 67 000 диалогов были помечены датасетом как "токсичные". Это означает, что почти 30% созданной пользователями художественной прозы включало сексуальный контент.
Другая любопытная деталь заключается в том, что генерация текстов оказалась плотно сконцентрирована в очень небольшой группе "тяжёлых пользователей". Согласно данным, верхние 2% авторов художественных текстов сгенерировали более 80% всех связанных с прозой логов.
Общее число таких пользователей оценили примерно в 10 000, из чего следует, что около 200 человек ответственны более чем за 150 000 запросов на художественный текст.
Среди этих активных пользователей исследователи выделили несколько характерных моделей поведения. Один тип, названный "циклистами историй", в течение определённого времени многократно генерировал вариации одной и той же истории, прежде чем перейти к другой теме.
Других обозначили как "требователей бесконечной истории". Они проводили долгие периоды, раз за разом запрашивая почти идентичные истории с минимальными изменениями.
Упомянутый ранее автор фанфиков по Doki Doki Literature Club! приводится как яркий пример "требователя бесконечной истории". На протяжении нескольких месяцев этот человек тысячи раз просил ChatGPT создать фанфик по мотивам игры с очень конкретной завязкой: героиня Нацуки внезапно начинает рожать, и ChatGPT должен продолжить историю с этого момента.
В ответ ChatGPT выдавал самые разные концовки, например вариант, где спасатели прибывают вовремя и мать с ребёнком благополучно выживают. Хотя в работе этого пользователя называют экстремальным выбросом, авторы отмечают, что многие активные любители прозы демонстрировали похожие наклонности.
Среди запросов от топ-2% пользователей 69% были повторяющимися, при этом люди снова и снова пытались уточнить или перезапустить почти идентичные просьбы.
Исследование также ранжировало франшизы, чаще всего упоминаемые в этих связанных с прозой диалогах. Doki Doki Literature Club! возглавила список с 22 381 упоминанием, за ней следуют Freedom Planet (5 204), League of Legends (4 514) и Naruto (4 342).
Важно учитывать, что датасет WildChat не репрезентативен для всех пользователей ChatGPT. Поскольку он собран через бесплатный чат-бот на Hugging Face, его аудитория, вероятно, более технически подкована и глубже погружена в интернет-культуру, чем средний пользователь ИИ-чат-ботов. Однако, исследователи считают, что WildChat даёт редкий взгляд на реальные взаимодействия с ChatGPT.
- Хакер использовал ChatGPT и Claude для взлома правительственных агентств и кражи данных граждан
- Глава робототехники OpenAI уволилась из-за сделки с Министерством Войны США и слежки без судебного контроля
- OpenAI снова отложила запуск "режима для взрослых" в ChatGPT