Нейросеть Runway обучали на пиратском контенте и видео с YouTube
Однако, как выяснилось позже, модель обучалась на пиратском контенте и видео с YouTube, без согласования с авторами этих материалов.
Когда журналисты TechCrunch обратились к руководству Runway с вопросом о происхождении данных для обучения модели, их запрос был проигнорирован. Но пользователи продолжали восхищаться качеством видео, генерируемых Gen-3.
В июле 2024 года бывший сотрудник Runway поделился документом, содержащим список источников данных, использованных для обучения модели. В этом списке были пиратские копии фильмов от таких компаний, как Pixar, Disney, Netflix и Sony, а также ссылки на каналы популярных блогеров. Видео с YouTube скачивались с помощью инструмента YouTube-DL, а для предотвращения блокировки за массовые скачивания компания приобрела прокси-серверы.
Выбор каналов для обучения модели осуществляла специальная группа сотрудников. Они искали наиболее качественные видео, соответствующие определенным ключевым словам, таким как "пляж", "дождь" или "спорт".
Журналисты издания 404media подтвердили факт использования чужих видео, сделав запросы с именами блогеров из списка. В ответ на эти запросы нейросеть генерировала контент в стиле этих блогеров или даже самих блогеров. После обращения журналистов в пресс-службу Runway, модель перестала обрабатывать такие запросы. Компания пока не дала комментариев по этому поводу.