科研成果

STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning

MVR:Multi-view Video Reward Shaping for Reinforcement Learning

MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning

When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations

TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials

From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes