科研成果

MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

In-Context Editing: Learning Knowledge from Self-Induced Distributions

CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents

I-PHYRE: Interactive Physical Reasoning

Maximum Entropy Heterogeneous-Agent Reinforcement Learning

Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World