Microsoft представила нейросеть, способную создавать дипфейки

Апрель 19, 2024

105

Новый алгоритм VASA-1 от Microsoft представляет собой значительное достижение в этой области, позволяя создавать видео говорящего человека с широким спектром эмоций и естественной мимикой без необходимости детального описания.

За последние пару лет генеративные нейросети прошли важный этап развития, став более мощными и способными создавать не только изображения, но и видео по текстовому описанию.

Результат работы VASA-1 выглядит крайне естественно и правдоподобно. Из одного снимка лица и записи голоса алгоритм создает реалистичное видео, в котором персонаж буквально "оживает", проявляя натуральные мимику, движения губ и головы. Этот уровень реализма вызывает опасения относительно возможного злоупотребления алгоритмом для создания фейковых видеоматериалов.

Одной из ключевых особенностей нейросети VASA-1 является наличие целостной модели генерации лицевой мимики и движений головы. Команда специалистов Microsoft провела обширные исследования, включая оценку новых метрик, и установила, что новый алгоритм превосходит ранее представленные аналоги по многим параметрам.

Microsoft подчеркивает, что их метод обеспечивает не только высокое качество видео с реалистичной мимикой и движениями головы, но и поддерживает функцию онлайн-генерации видео с высоким разрешением и частотой кадров, что открывает возможности для взаимодействия в реальном времени с реалистичными аватарами.

Несмотря на потенциал данной технологии, Microsoft пока не планирует коммерциализировать VASA-1 в ближайшем будущем, называя его скорее "исследовательской демонстрацией".