Lin Huang

Lin17

AI & ML interests

None yet

Recent Activity

upvoted a paper 4 days ago

InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

upvoted a paper 4 days ago

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

upvoted a paper 4 days ago

In-2-4D: Inbetweening from Two Single-View Images to 4D Generation

View all activity

Organizations

None yet

Lin17's activity

upvoted 18 papers 4 days ago

InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

Paper • 2504.05303 • Published 15 days ago • 5

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

Paper • 2504.08641 • Published 11 days ago • 7

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Paper • 2504.08736 • Published 11 days ago • 47

Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Paper • 2504.08685 • Published 11 days ago • 120

DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

Paper • 2504.08120 • Published 12 days ago • 4

3D CoCa: Contrastive Learners are 3D Captioners

Paper • 2504.09518 • Published 9 days ago • 5

Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability

Paper • 2504.08003 • Published 13 days ago • 47

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Paper • 2504.10479 • Published 8 days ago • 239

D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation

Paper • 2504.09454 • Published 10 days ago • 11

Efficient Generative Model Training via Embedded Representation Warmup

Paper • 2504.10188 • Published 8 days ago • 12

NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors

Paper • 2504.11427 • Published 7 days ago • 17

TextArena

Paper • 2504.11442 • Published 7 days ago • 27

Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

Paper • 2504.10465 • Published 8 days ago • 28

Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting

Paper • 2504.11092 • Published 7 days ago • 10

InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework

Paper • 2504.12395 • Published 6 days ago • 15

upvoted 2 papers 11 days ago

SparseFlex: High-Resolution and Arbitrary-Topology 3D Shape Modeling

Paper • 2503.21732 • Published 26 days ago • 8

Reconstructing Humans with a Biomechanically Accurate Skeleton

Paper • 2503.21751 • Published 26 days ago • 9