Microsoft представила ИИ-систему генерации реалистичных видео на основе фотографии

Учитывая, что генеративный ИИ — ключевая особенность новых проектов Microsoft, неудивительно, что компания разрабатывает собственные модели машинного обучения. VASA-1 — один из таких примеров, где по одному изображению человека и аудиодорожке создается убедительный видеоклип, на котором этот человек говорит/поет/читает рэп.

Еще несколько лет назад контент, созданный с помощью генеративного ИИ, было легко распознать по разным факторам: количеству пальцев, ног и жутким глазам или некачественной анимации. Однако согласно новому отчету Microsoft, эти ошибки активно пропадают и исправляются благодаря последним разработкам.

VASA-1 — модель машинного обучения, которая превращает одно статическое изображение лица человека в реалистичный короткий видеоролик, основанный на аудиодорожке. Модель анализирует изменения тона и темпа речи, а затем генерирует последовательность новых изображений, где лицо изменяется в соответствии с речью.

Некоторые примеры от Microsoft поразительно хороши, другие — не очень, но ясно, что исследователи отобрали лучшие образцы для демонстрации достижений. Реальное видео в реальном времени показывает, что технология еще далека от совершенства в имитации реальности.

Однако тот факт, что все это было сделано ПК с RTX 4090, а не на суперкомпьютере, означает, что с доступом к такому ПО практически любой может создавать практически идеальные дипфейки. В отчете сказано:

Эта технология не предназначена для создания контента, вводящего в заблуждение, однако, как и другие связанные методы генерации, она потенциально может быть использована для выдачи себя за другого человека. Мы выступаем против любого подобного использования в отношении реальных людей и заинтересованы в применении нашей технологии для совершенствования методов обнаружения подделок.

Отчасти поэтому разработка Microsoft пока не доступна для использования. Правда, кто-то может воспроизвести результат и даже сделать его лучше уже в ближайшие месяцы.

Больше статей на Shazoo
Тэги:
Источники: