Этот новый инструмент V2A от Google DeepMind может стать последней частью головоломки для фильмов, создаваемых искусственным интеллектом.

Когда было выпущено первое видео, созданное с помощью ИИ, никто не мог предположить, что инструменты ИИ для создания видео зайдут так далеко за такой короткий период. Однако сегодня у нас есть бесчисленное множество платформ, которые позволяют пользователям создавать высококачественные, невероятно подробные видео, такие как Synthesia и Luma AI’s Dream Machine. Тем не менее, есть еще несколько проблем, которые мешают этим инструментам стать мейнстримом.

И, возможно, самый важный из них — это процесс генерации звука. Хотя большинство платформ для создания видео могут создавать видеоролики хорошего качества, в основном это немые видеоролики без звука. Даже если звук есть, он обычно добавляется отдельно и не оправдывает ожиданий пользователя.

Например, если вы посетите страницу Luma AI Dream Machine, вы увидите несколько очень впечатляющих видеороликов, но звук, который их сопровождает, довольно общий и низкого качества. Но это может измениться с новой технологией Google video-to-audio (V2A).

Это обещает сделать высококачественную генерацию звука для видео доступной для широких масс, то есть, наконец, позволит вам создавать фильмы, генерируемые ИИ, с надлежащими звуковыми дорожками и звуком, превосходя все видео, генерируемые ИИ, которые производятся в настоящее время.

Звук, сгенерированный искусственным интеллектом, для

https://www.youtube.com/watch?v=VYjZlF6m3nQ

Что такое исследование Google DeepMind по преобразованию видео в аудио?

Технология Video-to-Audio (V2A), разработанная DeepMind от Google, предназначена для создания саундтреков для видеороликов, сгенерированных ИИ. Эта технология позволяет одновременно генерировать видео и аудио, комбинируя подсказки на естественном языке с видеопикселями для создания звуков для любых действий, происходящих в видео.

Эту технологию можно сочетать с моделями ИИ, используемыми для создания видео, например Veo, и она может помочь создать реалистичные диалоги и звуковые эффекты вместе с драматическими оценками, соответствующими видео. Что еще более важно, новая технология V2A не ограничивается только видео, созданными с помощью ИИ, но также может использоваться для создания саундтреков к видео, созданным традиционным способом. Таким образом, вы можете использовать ее для немых фильмов, архивных материалов и многого другого.

Технология V2A позволяет пользователям генерировать неограниченное количество звуковых дорожек для видео и даже использовать положительные и отрицательные подсказки для управления процессом генерации звука и легкого получения требуемых звуков. Это также обеспечивает большую гибкость, так что вы можете экспериментировать с различными выходами и находить то, что лучше всего подходит для конкретного видео.

Аудиофрагмент пульсирующей под водой медузы. Источник: Google

https://www.youtube.com/watch?v=9Q0-t8D9XFI

Как работает технология V2A?

По данным Google, компания экспериментировала с методами диффузии и авторегрессии и обнаружила, что первый из них наиболее подходит для производства звука. Это приводит к очень реалистичному звуку и работает путем кодирования видео в сжатый формат.

После этого модель диффузии используется для отделения случайного шума от видео с помощью подсказок на естественном языке и видео. Подсказки помогают создавать реалистичный звук, идеально синхронизированный с видео. За этим следует декодирование звука, после чего он преобразуется в звуковой сигнал и объединяется с видео.

DeepMind от Google предоставил дополнительную информацию для обучения ИИ, благодаря чему пользователи могут направлять процесс генерации звука в направлении необходимых звуков и позволяют платформе создавать звук более высокого качества. Такая информация включала стенограммы разговорных диалогов и подробные звуковые описания с аннотациями, созданными ИИ.

Обученная на основе такой информации технология V2A может связывать различные визуальные сцены с определенными звуковыми событиями.

Работа технологии V2A. Источник: Гугл

Что нас ждет на горизонте?

Технология DeepMind V2A работает намного лучше, чем другие решения V2A, поскольку она не всегда требует текстового запроса и может понимать пиксели видео. Вывод звука также не нужно вручную выравнивать с видео. Однако у технологии все еще существуют определенные ограничения, которые Google стремится преодолеть с помощью дальнейших исследований.

Например, качество сгенерированного звука зависит от качества видео, используемого в качестве входных данных. Если в видео есть искажения или артефакты, модель ИИ не может их распознать, поскольку они не включены в ее обучение, что в конечном итоге приводит к снижению качества звука.

Кроме того, для видео, содержащих человеческую речь, компания работает над улучшением синхронизации губ. Технология V2A пытается генерировать речь с использованием входных транскриптов, а затем согласовывать ее с движениями губ персонажей в видео. Однако, если видео не опирается на транскрипты, возникает несоответствие между звуком и движениями губ.

Благодаря лучшим возможностям генерации звука модели ИИ смогут создавать видео, которые не только выглядят впечатляюще, но и звучат великолепно. Google также интегрирует свою технологию V2A с SynthID, которая помечает весь контент, созданный с использованием ИИ, водяными знаками. Это может помочь предотвратить его несанкционированное использование, гарантируя полную безопасность.

Кроме того, компания заявляет, что тщательно протестирует свою технологию V2A, прежде чем выпустить ее для публики. На данный момент, исходя из того, что Google продемонстрировала и пообещала на будущее, эта технология обещает стать крупным достижением в области генерации звука для видео, созданных ИИ.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *