new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Sep 22

Submitted by

Luo2003

RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

·
14 authors

6

Submitted by

taesiri

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

·
27 authors

Submitted by

fjxmlzn

Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

·
6 authors

Submitted by

yifanzhang114

BaseReward: A Strong Baseline for Multimodal Reward Model

·
15 authors

2

Submitted by

bertjiazheng

SPATIALGEN: Layout-guided 3D Indoor Scene Generation

·
9 authors

Submitted by

taesiri

Lynx: Towards High-Fidelity Personalized Video Generation

·
5 authors

4

Submitted by

taesiri

A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

·
10 authors

Submitted by

taesiri

BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

·
11 authors

Submitted by

fangli3

RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

·
3 authors

2

Submitted by

dlion168

Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems

·
5 authors

Submitted by

liuzhan22

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

·
6 authors

Submitted by

TAESOO98

Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech

·
4 authors

Submitted by

taesiri

Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

·
7 authors

Submitted by

tetrisd

WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

·
3 authors

2

Submitted by

leolin9248

Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

·
8 authors

3