MMAudio

Taming Multimodal Joint Training for High-Quality
Video-to-Audio Synthesis

arXiv 2024

Ho Kei Cheng¹

Masato Ishii²

Akio Hayakawa²

Takashi Shibuya²

Alexander Schwing¹

Yuki Mitsufuji^2,3

¹University of Illinois Urbana-Champaign

²Sony AI

³Sony Group Corporation

[Paper (being prepared)]

[Code]

TL;DR

MMAudio generates synchronized audio given video and/or text inputs.

Demo