WeicaiYe

https://ywcmaike.github.io/

AI & ML interests

Multimodal Video Generation, World Models, 3D Vision Foundation Models, and Embodied AI, especially correspondence, 3D/4D reconstruction, rendering, generation, and robotics manipulation.

Recent Activity

upvoted a paper 4 days ago

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

authored a paper 4 days ago

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

upvoted a paper 4 days ago

Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

View all activity

Organizations

None yet

WeicaiYe's activity

upvoted 6 papers 4 days ago

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Paper • 2503.24379 • Published 6 days ago • 68

Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

Paper • 2405.05945 • Published May 9, 2024 • 3

PVO: Panoptic Visual Odometry

Paper • 2207.01610 • Published Jul 4, 2022 • 1

IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable Novel View Synthesis

Paper • 2210.00647 • Published Oct 2, 2022 • 1

FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

Paper • 2503.19907 • Published 12 days ago • 8

SketchVideo: Sketch-based Video Generation and Editing

Paper • 2503.23284 • Published 7 days ago • 20

upvoted a paper 2 months ago

Improving Video Generation with Human Feedback

Paper • 2501.13918 • Published Jan 23 • 49