audio - a GEONTT Collection

GEONTT 's Collections

base

3D

LLM

audio

video

image

RAG

audio

updated about 23 hours ago

EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Paper • 2402.17485 • Published Feb 27 • 184
MusicHiFi: Fast High-Fidelity Stereo Vocoding

Paper • 2403.10493 • Published Mar 15 • 16
Music Consistency Models

Paper • 2404.13358 • Published Apr 20 • 12
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

Paper • 2406.02430 • Published 29 days ago • 27
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Paper • 2406.03344 • Published 28 days ago • 15
VideoTetris: Towards Compositional Text-to-Video Generation

Paper • 2406.04277 • Published 26 days ago • 21
E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

Paper • 2406.18009 • Published 7 days ago • 13