OpenAI вновь удивляет — ИИ Sora превращает текстовые запросы в фотореалистичные видео

OpenAI анонсировала новую модель генерации видео под названием Sora. Компания заявляет, что Sora "способна создавать фотореалистичные сцены на основе текстовых запросов" и демонстрационные видео выглядят лучше чем все прошлые модели, предназначенные для данных целей. Сейчас модель text-to-video позволяет пользователям создавать видео длительностью до минуты, основываясь только на введённых ими подсказках.

По словам OpenAI, Sora способна создавать "сложные сцены с несколькими персонажами, определёнными типами движения и точными деталями объекта и фона". Компания также отмечает, что модель может понимать физику объектов в реальном мире, а также "точно интерпретировать реквизит и создавать убедительных персонажей с яркими эмоциями".

Модель умеет генерировать видео на основе одного кадра, а также заполнять пропущенные кадры или продлевать существующее видео. Среди примеров в блоге OpenAI — сцена золотой лихорадки в Калифорнии, вид из окна поезда в Токио и другие. Во многих присутствуют характерные артефакты ИИ, например подозрительно движущийся пол в музее. При этом в целом результаты впечатляют.

Совсем недавно лидерами в области генерации изображений по тексту были модели вроде Midjourney, но в последнее время качество видео стремительно улучшается: компании типа Runway и Pika продемонстрировали впечатляющие модели текст-в-видео, а Lumiere от Google обещает стать одним из главных конкурентов Sora. Подобно Sora, Lumiere предоставляет инструменты генерации видео по тексту и может создавать ролики на основе одного кадра.

Пока доступ к Sora имеют только избранные, оценивающие модель на предмет потенциального вреда, а также некоторые художники и кинематографисты. OpenAI отмечает, что текущая модель может некорректно симулировать физику сложных сцен и неправильно интерпретировать причинно-следственные связи.

Почитать полностью о Sora можно в блоге компании.

Больше статей на Shazoo
Тэги: