Computer Vision | Han Zhou

Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

Chengzu Li, Zanyi Wang, Jiaang Li, Yi Xu, Han Zhou, Huanyu Zhang, Ruichuan An, Dengyang Jiang, Zhaochong An, Ivan Vulić, Serge Belongie, Anna Korhonen

Maestro: Self-Improving Text-to-Image Generation via Agent Orchestration

Self-evolving T2I through iterative evolution of prompts.

Xingchen Wan, Han Zhou, Ruoxi Sun, Hootan Nakhost, Ke Jiang, Rajarishi Sinha, Sercan Ö. Arık

Maestro: Self-Improving Text-to-Image Generation via Agent Orchestration

Visual Planning: Let's Think Only with Images

Visual Planning enables thinking through purely visual representations, independent of text.

Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić

Visual Planning: Let's Think Only with Images