Разработчик Stable Diffusion тестирует генерацию видео
Stability AI — создатель популярного ИИ-инструмента Stable Diffusion, объявил о запуске нового продукта — Stable Video Diffusion. Это инструмент позволяет создавать видео из одного изображения. Компания отмечает, что это "значительный шаг на пути к созданию моделей для всех и каждого".
Stable Video Diffusion представлен в виде двух моделей преобразования изображений в видео, способных генерировать от 14 до 25 кадров по продолжительности с частотой от 3 до 30 кадров в секунду при разрешении 576 × 1024. Модель способна на синтез из одного кадра с дополнительной настройкой на наборах данных. По словам компании, эти модели превосходят ведущие закрытые модели в исследованиях пользовательских предпочтений, включая платформы Runway и Pika Labs.
На данный момент Stable Video Diffusion доступен только для исследований, а не для коммерческого или реального использования. Заинтересованные пользователи могут записаться на доступ к "будущему веб-интерфейсу с функцией текст-в-видео". Инструмент продемонстрирует потенциальные применения в сферах рекламы, образования, развлечений и других.
Показанные образцы видео выглядят достаточно качественно, сравнимо с конкурирующими генеративными системами. Однако у инструмента есть ограничения: он генерирует относительно короткие видео (менее 4 секунд), не достигает идеального фотореализма, не может выполнять движения камеры, кроме медленных панорам, не имеет текстового контроля, не может генерировать читаемый текст и может некорректно воспроизводить людей и лица.
Инструмент был обучен на наборе данных из миллионов видео, затем дополнительно настроен на меньшем наборе данных. Stability AI указывает, что использовалось видео, доступное для исследований, без нарушения авторских прав.
Генеративное видео — одна из ключевых целей в разработке ИИ, так как позволит в разы упростить генерацию контента. Однако это также инструмент с большим потенциалом злоупотреблений через дипфейки и нарушения авторских прав.
- Stability AI обсуждает продажу из-за нехватки денег
- Stability AI представила генератор Stable Audio 2.0, способный производить три минуты аудио
- Midjourney обвиняет Stability AI в краже изображений и запрещает доступ ее сотрудникам