2 198 107

Yuseung "Phillip" Lee

phillipinseoul

https://phillipinseoul.github.io/

phillipinseoul

AI & ML interests

Computer Vision

Recent Activity

upvoted a paper about 9 hours ago

TinyFusion: Diffusion Transformers Learned Shallow

upvoted a paper about 9 hours ago

Open-Sora Plan: Open-Source Large Video Generation Model

upvoted a paper 1 day ago

O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

View all activity

Organizations

phillipinseoul's activity

upvoted 2 papers about 9 hours ago

TinyFusion: Diffusion Transformers Learned Shallow

Paper • 2412.01199 • Published 1 day ago • 10

Open-Sora Plan: Open-Source Large Video Generation Model

Paper • 2412.00131 • Published 5 days ago • 18

upvoted 2 papers 1 day ago

O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Paper • 2411.16489 • Published 8 days ago • 35

Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Paper • 2411.18478 • Published 6 days ago • 26

upvoted 2 papers 5 days ago

ROICtrl: Boosting Instance Control for Visual Generation

Paper • 2411.17949 • Published 7 days ago • 77

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

Paper • 2411.18203 • Published 6 days ago • 26

upvoted 2 papers 6 days ago

CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Paper • 2411.18613 • Published 6 days ago • 41

TEXGen: a Generative Diffusion Model for Mesh Textures

Paper • 2411.14740 • Published 11 days ago • 13

upvoted a paper 8 days ago

OminiControl: Minimal and Universal Control for Diffusion Transformer

Paper • 2411.15098 • Published 11 days ago • 41

upvoted 2 papers 9 days ago

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

Paper • 2411.14405 • Published 12 days ago • 54

Style-Friendly SNR Sampler for Style-Driven Generation

Paper • 2411.14793 • Published 11 days ago • 35

upvoted 2 papers 11 days ago

Stable Flow: Vital Layers for Training-Free Image Editing

Paper • 2411.14430 • Published 12 days ago • 13

Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

Paper • 2411.10442 • Published 18 days ago • 61

upvoted a paper 16 days ago

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Paper • 2411.10440 • Published 18 days ago • 107

upvoted a paper 18 days ago

LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models

Paper • 2411.09595 • Published 19 days ago • 68

upvoted a paper 22 days ago

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

Paper • 2411.04928 • Published 26 days ago • 48

upvoted 2 papers 23 days ago

Analyzing The Language of Visual Tokens

Paper • 2411.05001 • Published 26 days ago • 21

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Paper • 2411.05003 • Published 26 days ago • 70

upvoted 2 papers 26 days ago

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Paper • 2411.04709 • Published 28 days ago • 25

DreamPolish: Domain Score Distillation With Progressive Geometry Generation

Paper • 2411.01602 • Published about 1 month ago • 10