ElevenLabs создала звуковые эффекты для видео от нейросети Sora
На прошлой неделе OpenAI представила модель искусственного интеллекта под названием Sora, обученную создавать реалистичные видеоролики по текстовому описанию. Стартап ElevenLabs также предложил своё решение, Sound Effects, для добавления звуковых эффектов к таким роликам.
Компанию ElevenLabs основали в 2022 году Пётр Дабковски, бывший инженер Google по машинному обучению, и Мати Станишевски, бывший специалист Palantir по стратегии внедрения. Они выпустили модель для преобразования текста в речь и дублированного перевода на 20 языков с сохранением оригинального голоса.
Работа новой модели была продемонстрирована на примере роликов, сгенерированных нейросетью OpenAI Sora, с использованием простых описаний, таких как "шум волн" или "звон металла".
Хотя ElevenLabs не раскрыла технические детали своей работы, результаты модели выглядят впечатляюще: фоновые звуки звучат реалистично, будь то городской шум или шаги на оживленной улице. Однако компании предстоит разработать стратегию защиты от недобросовестного использования Sound Effects, так как это решение может заинтересовать мошенников.