Forklog
2023-04-20 13:35:33

Nvidia представила генератор видео по текстовому описанию

Компания Nvidia разработала нейросеть VideoLDM, генерирующую короткие и реалистичные видеоролики по текстовому описанию. Алгоритм позволяет создавать анимации продолжительностью около пяти секунд в разрешении до 2048х1280 пикселей и частотой 24 FPS. Модель генерирует видео как по простым, так и сложным подсказкам. В основе VideoLDM лежат наработки алгоритма Stable Diffusion. Согласно отчету, нейросеть учитывает 4,1 млрд параметров. Из них 2,7 млрд обучались на видео. В компании заявили, что добились «значительного прогресса» в тренировке нейросети достаточно быстро. По словам разработчиков, VideoLDM стала генерировать детализированные и соответствующие описанию видео всего за месяц. Разработчики опубликовали несколько примеров работы нейросети на своем сайте. «Черепаха плавает в океане». Данные: Nvidia. «Штурмовик пылесосит песчаный пляж». Данные: Nvidia. «Одетая в костюм лисица танцует в парке». Данные: Nvidia. «Лев стоит на серфборде в океане на закате, 4К, высокое разрешение». Данные: Nvidia. «Две панды сидят за столом и играют в карты, 4К, высокое разрешение». Данные: Nvidia. «Наливание пива в бокал под низким углом». Данные: Nvidia. Модель также умеет генерировать сцены вождения. Такие ролики имеют разрешение 1024х512 пикселей продолжительностью до пяти минут. VideoLDM может моделировать специфические сценарии вождения и прогнозировать поведение объектов на дороге. По словам разработчиков, это позволяет создавать реалистичные кадры. Пример сгенерированной сцены вождения. Данные: Nvidia. Опубликованная работа является участником конференции IEEE по компьютерному зрению и распознаванию образов, которая пройдет в Ванкувере с 18 по 22 июня. Неизвестно, планирует ли Nvidia выпускать алгоритм в публичный доступ. Напомним, в апреле Meta представила инструмент для сегментации изображений и видео В марте Microsoft выпустила предварительную версию Bing Image Creator.

Ricevi la newsletter di Crypto
Leggi la dichiarazione di non responsabilità : Tutti i contenuti forniti nel nostro sito Web, i siti con collegamento ipertestuale, le applicazioni associate, i forum, i blog, gli account dei social media e altre piattaforme ("Sito") sono solo per le vostre informazioni generali, procurati da fonti di terze parti. Non rilasciamo alcuna garanzia di alcun tipo in relazione al nostro contenuto, incluso ma non limitato a accuratezza e aggiornamento. Nessuna parte del contenuto che forniamo costituisce consulenza finanziaria, consulenza legale o qualsiasi altra forma di consulenza intesa per la vostra specifica dipendenza per qualsiasi scopo. Qualsiasi uso o affidamento sui nostri contenuti è esclusivamente a proprio rischio e discrezione. Devi condurre la tua ricerca, rivedere, analizzare e verificare i nostri contenuti prima di fare affidamento su di essi. Il trading è un'attività altamente rischiosa che può portare a perdite importanti, pertanto si prega di consultare il proprio consulente finanziario prima di prendere qualsiasi decisione. Nessun contenuto sul nostro sito è pensato per essere una sollecitazione o un'offerta