Tumblr и WordPress начнут продавать данные для обучения ИИ компаний OpenAI и Midjourney

По сообщениям интернет-издания 404 Media, компания Automattic, владеющая платформами Tumblr и WordPress, находится на заключительном этапе переговоров о продаже пользовательских данных компаниям в области искусственного интеллекта OpenAI и Midjourney.

Пока точно неизвестно, какие именно данные будут переданы. Судя по всему, первоначально Automattic планировала предоставить гораздо больший объем информации, чем это допустимо в соответствии с пользовательскими соглашениями. Так, во внутреннем посте менеджера продукта Tumblr Кайла Гейджа говорится, что изначально в сделку хотели включить приватные или партнерские данные, которые передавать было нельзя. Речь идет о закрытых постах в публичных блогах, удаленных или заблокированных блогах, неопубликованных вопросах и ответах в них, приватных ответах, постах с пометкой 18+, а также контенте из партнерских блогов (например, бывшего музыкального сайта Apple).

Во внутреннем посте говорится, что инженеры Automattic готовят список идентификаторов постов, которые из сделки нужно исключить. Неясно, были ли эти данные уже переданы компаниям OpenAI и Midjourney.

Automattic представила официальное заявление, в котором говорится:

Мы будем делиться только публичным контентом с WordPress.com и Tumblr тех сайтов, которые не отказались от такой передачи данных.

В заявлении отмечается, что сейчас действующее законодательство не обязывает компании в сфере ИИ учитывать предпочтения пользователей об отказе от передачи их данных.

Последняя строка в заявлении Automattic перекликается с условиями упомянутых сделок:

Мы также напрямую работаем с некоторыми компаниями в области ИИ, планы которых совпадают с интересами нашего сообщества в части указания авторства контента, права отказа от использования данных и контроля над ними.

Сообщается, что компания планирует запустить в среду новый инструмент отказа, который якобы позволит пользователям запретить использование их данных для обучения ИИ, в том числе компаниям вроде OpenAI и Midjourney. Согласно опубликованным в 404 Media фрагментам из предполагаемой внутренней документации Automattic по этому поводу, при использовании нового инструмента будет заблокирован доступ кроулеров к контенту тех, кто изначально отказался от такого использования данных, добавив их сайты в список запрещенных.

В одном из предполагаемых внутренних документов Automattic, адресованном руководителю подразделения ИИ Эндрю Спиттлу, содержится вопрос сотрудников о гарантиях удаления данных при использовании нового инструмента отказа. Спиттл в ответе поясняет:

Мы будем регулярно информировать существующих партнеров о любых новых отказавшихся пользователях. Я хочу, чтобы это был постоянный процесс, в рамках которого мы бы регулярно отстаивали исключение прошлого контента из любых будущих тренировочных наборов на основе текущих предпочтений пользователей. Мы будем просить удалить этот контент и исключить его из любого дальнейшего обучения. Я верю, что партнеры будут следовать этим просьбам, основываясь на наших предварительных разговорах с ними. Не думаю, что им есть большой смысл его сохранять.

Таким образом, если пользователь Tumblr и WordPress попросит отказаться от использования его данных для обучения ИИ, Automattic пообещала просить и отстаивать его исключение. При этом руководитель подразделения ИИ компании "верит", что компании в сфере ИИ найдут это целесообразным.

Сделки по продаже данных для обучения ИИ стали для многих интернет-ресурсов способом получить дополнительный доход в сложные времена. На прошлой неделе Google договорился с Reddit о предоставлении данных с этой платформы для своих разработок в сфере ИИ, что должно сделать Reddit более привлекательным перед предстоящим IPO.

В свою очередь, OpenAI в прошлом году запустила партнерскую программу по получению датасетов от сторонних ресурсов для обучения своих ИИ моделей.

Больше статей на Shazoo
Тэги: