Sergey Gornostaev's picture

21 55

Sergey Gornostaev

seruva19

·

seruva19

AI & ML interests

None yet

Organizations

None yet

seruva19's activity

upvoted 3 papers 1 day ago

Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

Paper • 2405.18386 • Published 5 days ago • 13

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

Paper • 2405.18503 • Published 5 days ago • 5

DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

Paper • 2405.20289 • Published 3 days ago • 6

upvoted a paper 8 days ago

Your Transformer is Secretly Linear

Paper • 2405.12250 • Published 14 days ago • 135

upvoted a paper 14 days ago

Naturalistic Music Decoding from EEG Data via Latent Diffusion Models

Paper • 2405.09062 • Published 19 days ago • 7

upvoted 3 papers 20 days ago

Fast Timing-Conditioned Latent Audio Diffusion

Paper • 2402.04825 • Published Feb 7 • 7

Long-form music generation with latent diffusion

Paper • 2404.10301 • Published Apr 16 • 23

Music Consistency Models

Paper • 2404.13358 • Published Apr 20 • 12

upvoted a paper about 1 month ago

Octopus v4: Graph of language models

Paper • 2404.19296 • Published Apr 30 • 100

upvoted 3 papers about 2 months ago

Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization

Paper • 2404.09956 • Published Apr 15 • 11

MuPT: A Generative Symbolic Music Pretrained Transformer

Paper • 2404.06393 • Published Apr 9 • 14

OmniFusion Technical Report

Paper • 2404.06212 • Published Apr 9 • 73

upvoted 2 papers 3 months ago

MusicHiFi: Fast High-Fidelity Stereo Vocoding

Paper • 2403.10493 • Published Mar 15 • 16

FiT: Flexible Vision Transformer for Diffusion Model

Paper • 2402.12376 • Published Feb 19 • 46

upvoted 4 papers 4 months ago

SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

Paper • 2307.01952 • Published Jul 4, 2023 • 74

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Paper • 2402.06178 • Published Feb 9 • 12

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning

Paper • 2401.17690 • Published Jan 31 • 4

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

Paper • 2401.12179 • Published Jan 22 • 18

upvoted 2 papers 5 months ago

Masked Audio Generation using a Single Non-Autoregressive Transformer

Paper • 2401.04577 • Published Jan 9 • 38

GeoGalactica: A Scientific Large Language Model in Geoscience

Paper • 2401.00434 • Published Dec 31, 2023 • 8

upvoted a paper 6 months ago

Kandinsky 3.0 Technical Report

Paper • 2312.03511 • Published Dec 6, 2023 • 43