3 17 24

Huang

Jinfa

AI & ML interests

None yet

Recent Activity

commented on a paper about 2 months ago

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

upvoted a paper about 2 months ago

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

upvoted a paper 3 months ago

VideoAuteur: Towards Long Narrative Video Generation

View all activity

Organizations

Jinfa's activity

commented a paper about 2 months ago

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

Paper • 2503.08689 • Published Mar 11 • 4 •

upvoted a paper about 2 months ago

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

Paper • 2503.08689 • Published Mar 11 • 4

upvoted 2 papers 3 months ago

VideoAuteur: Towards Long Narrative Video Generation

Paper • 2501.06173 • Published Jan 10 • 34

Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

Paper • 2501.09732 • Published Jan 16 • 72

liked a model 3 months ago

BestWishYsh/MagicTime

Text-to-Video • Updated 14 days ago • 28

upvoted a paper 3 months ago

Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion

Paper • 2501.09019 • Published Jan 15 • 12

liked a Space 5 months ago

Newborn Article Impact Predict

💻

Use title and abstract to predict future academic impact

liked a dataset 5 months ago

BestWishYsh/ConsisID-preview-Data

Viewer • Updated 16 days ago • 31.9k • 1.04k • 22

liked a model 5 months ago

BestWishYsh/ConsisID-preview

Text-to-Video • Updated 16 days ago • 321 • 27

liked a Space 5 months ago

ConsisID-preview

🔥

Identity-Preserving Text-to-Video Generation

upvoted a paper 5 months ago

Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Paper • 2411.17440 • Published Nov 26, 2024 • 38

authored a paper 5 months ago

Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Paper • 2411.17440 • Published Nov 26, 2024 • 38

liked a dataset 5 months ago

Xkev/LLaVA-CoT-100k

Viewer • Updated Nov 27, 2024 • 98.6k • 2.28k • 85

upvoted 2 papers 5 months ago

FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Paper • 2411.15411 • Published Nov 23, 2024 • 8

VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Paper • 2411.17451 • Published Nov 26, 2024 • 11

liked a model 5 months ago

Xkev/Llama-3.2V-11B-cot

Image-Text-to-Text • Updated Dec 16, 2024 • 5.18k • 151

upvoted a paper 5 months ago

Autoregressive Models in Vision: A Survey

Paper • 2411.05902 • Published Nov 8, 2024 • 18

commented a paper 5 months ago

Autoregressive Models in Vision: A Survey

Paper • 2411.05902 • Published Nov 8, 2024 • 18 •

liked a model 6 months ago

genmo/mochi-1-preview

Text-to-Video • Updated Dec 18, 2024 • 28.6k • • 1.21k

upvoted a paper 6 months ago

MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

Paper • 2410.10139 • Published Oct 14, 2024 • 53