OpenAI вновь удивляет — ИИ Sora превращает текстовые запросы в фотореалистичные видео

OpenAI анонсировала новую модель генерации видео под названием Sora. Компания заявляет, что Sora "способна создавать фотореалистичные сцены на основе текстовых запросов" и демонстрационные видео выглядят лучше чем все прошлые модели, предназначенные для данных целей. Сейчас модель text-to-video позволяет пользователям создавать видео длительностью до минуты, основываясь только на введённых ими подсказках.

По словам OpenAI, Sora способна создавать "сложные сцены с несколькими персонажами, определёнными типами движения и точными деталями объекта и фона". Компания также отмечает, что модель может понимать физику объектов в реальном мире, а также "точно интерпретировать реквизит и создавать убедительных персонажей с яркими эмоциями".

Модель умеет генерировать видео на основе одного кадра, а также заполнять пропущенные кадры или продлевать существующее видео. Среди примеров в блоге OpenAI — сцена золотой лихорадки в Калифорнии, вид из окна поезда в Токио и другие. Во многих присутствуют характерные артефакты ИИ, например подозрительно движущийся пол в музее. При этом в целом результаты впечатляют.

Совсем недавно лидерами в области генерации изображений по тексту были модели вроде Midjourney, но в последнее время качество видео стремительно улучшается: компании типа Runway и Pika продемонстрировали впечатляющие модели текст-в-видео, а Lumiere от Google обещает стать одним из главных конкурентов Sora. Подобно Sora, Lumiere предоставляет инструменты генерации видео по тексту и может создавать ролики на основе одного кадра.

Пока доступ к Sora имеют только избранные, оценивающие модель на предмет потенциального вреда, а также некоторые художники и кинематографисты. OpenAI отмечает, что текущая модель может некорректно симулировать физику сложных сцен и неправильно интерпретировать причинно-следственные связи.

Почитать полностью о Sora можно в блоге компании.

Тэги:

Об авторе

Эксперт по Fallout
Главный редактор
Более 16 лет в индустрии освещения видеоигр, кино, сериалов, науки и техники. Особенно разбираюсь в серии Fallout, ценитель The Elder Scrolls. Поклонник Arcanum и Fallout Tactics. Больше всего играю в Civilization, Old World и градостроители. Изучаю ИИ и загадки космоса.