北京通用人工智能研究院BIGAI

学术前沿 | 如何教人工智能看魔术

具身智能是迈向通用人工智能的重要一环,具身指智能体能够与复杂动态的物理环境交互,达到知行合一。智能体通过主动行动生成对于现实世界物体更加完整的表征,比如整合视觉、触觉、听觉等信号,并能够通过探索环境生成知识,进一步泛化到新场景中[1]。理解物理常识是具身智能与真实物理世界交互的前提,物理常识不仅能够帮助智能体适应复杂多变的物理环境,更能够指导智能体主动探索和学习,是实现通用人工智能的助推器。

北京通用人工智能研究院(简称通研院)朱松纯教授团队于 ICCV 2023 会议上发表题为《X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events 》论文成果(Oral Paper)[2],旨在构建能够类似人类般理解和解释物理“魔术”现象的智能体,尤其是在某些元素被遮挡或不可见的情境中。通过这项研究,团队不仅提出了一种全新的评估方法,以衡量智能体对物理常识的理解和解释能力,还展示了在无监督的条件下,如何利用物理常识推测遮挡现象背后可能的场景解释。本文的第一作者是通研院戴博研究员,通讯作者为通研院张驰研究员等,点击“阅读原文”可查看论文全文。

魔术的秘密

视频来源:https://youtu.be/l1VK2iawS34

你是否曾经被魔术吸引?当看到一个帽子里突然飞出一只鸽子,或者是一个大活人突然消失,你是否感到惊讶不已?发展心理学实验发现,2个月大的婴儿就已经能够欣赏“魔术(上图)“,当婴儿看见那些不符合常识的现象(比如米老鼠消失后又再出现)就会产生惊讶的反应,并且会长时间的盯着看。婴儿产生这一”惊异“的原因来自于对物理事件建立的一个预期(比如物体在时空中应当是连续存在的,哪怕被遮挡),而当运动的结果违反了这个预期时,便会带来“意料之外”的惊诧感。因为婴儿无法说话,刻画他们的“惊讶“反应成为了婴儿研究中的最重要的范式之一——违反预期范式(Violation of Expecation)。研究发现,人类可能生来就具备一些基本的物理常识,比如没有接触过任何物理学概念或者训练的婴儿凭借直觉就能感知物理事件规律并做出相应的反应,这一探索物理常识的领域也被称为“直觉物理”。

所谓“意料之外”,是因为这些现象无法用已有的常识“解释“,如果你知晓神奇的三仙归洞魔术(如图)是因为手速足够快,做了障眼法,把本应放到一个碗里的小球勾在了手上并塞进另外一个碗里,你就会变的不再好奇,这种“解释”物理现象的能力是人的物理常识中重要一环。“ 

图示:三仙归洞魔术揭秘;视频来源:https://youtu.be/90g4OiA8ICk?si=Pebd8Joz7lVzGop-

那么如何让机器像人一样具有物理常识,并且能够解释那些看似违反常识背后的现象呢?通研院戴博研究员受到了发展心理学中违反预期范式的启发,其论文研究的核心亮点如下:

1)基于VoE范式,构造了一套能够衡量模型对物理事件解释能力的数据集

2)提出了一个包含解释能力的模型以更好地还原物理事件全貌”

三种场景的设置:

将解释过程引入违反预期范式

参照违反预期实验,研究者首先定量地在模型中刻画了“惊讶“这一反应,并在视频中用“ !”号标记,模型对不同的物理事件标识出有不同的惊讶值。对于那些越不符合物理常识的事件,惊讶值就越高。相反,如果一个看似违反物理常识的事件能够被解释,惊讶值就越低。

研究者设置了三类场景用以刻画“一般预测式模型”和“具有解释力的模型“在反应上的差异,分别为:预测类、假设类、解释类。 

预测类

第一类是预测类(Predictive),在这个场景中,两类模型能够完全看清楚幕布后面的遮挡物,因此当幕布放下时,如果小球是返回,两个模型都不会对此感到惊讶;而如果小球穿过遮挡物,从另一边出来,两个模型都产生惊讶反应。这个场景设置无法区分模型“是否具有解释能力”。

图示:上面为一般预测式模型对于小球的两种结果(返回、从另一边滚出)的反应,下面为具有解释力模型的反应。

假设类

第二类是假设类(Hypothetic),在这个场景中,两类模型自始至终无法看到幕布后面的情况,即并不知道后面是否有遮挡物。此时,一般预测类模型会对“折返”的情况感到惊讶,因它无法产生可能的解释(幕布后存在遮挡物)。但对于具有解释力的模型来说,两种情况都可以得到解释,“折返”意味着遮挡,从另一边穿过意味着无遮挡,因此都不会惊讶。

图示:上面为一般预测式模型对于小球的两种结果(返回、从另一边滚出)的反应,下面为具有解释力模型的反应。

解释类

第三类是解释类(Explicative),在这个场景中,两类模型一开始无法看到幕布后的情况,但在最终小球运动结束后,幕布会升起,揭示幕布后情况。此时,对于一般式预测模型来说,其无法利用后续信息,这一揭秘行为不会改变其惊讶反应;但对于具有解释力的模型来说,当发现小球从另一边出来但最后幕布下竟存在遮挡物时,便会产生惊讶反应。

图示:上面为一般预测式模型对于小球的两种结果(返回、从另一边滚出)的反应,下面为具有解释力模型的反应。

这三类场景的设置能够较好地区分模型在违反预期实验中是否具有解释能力。基于这三个场景,研究者系统性地生成了四类包含不同物理常识的违反预期实验,包括两球撞击、遮挡物、物体恒常性、物体连续性,进而构建了一个能够评估模型是否在直觉物理实验中具有解释能力的多样化数据集。

图示:四个考察不同物理常识的场景设置,其中S1为预测类图像,S2为假设类,S3为解释类。

具有解释能力的物理学习模型

基于上述研究,研究者设计了一个包含可解释模块的物理学习模型:为了嵌入解释能力,研究人员在现有的基准模型PLATO的基础上增加了解释模块,构建出如图所示的解释能力集成的物理学习模型(XPL)。所提出的XPL模型包括三个主要组成部分:

(1)  感知模块,负责提取以物体为中心的表征,为下游处理提供基础;

(2) 解释模块,负责从空间和时间维度推断被遮挡物体的状态;

(3)  动态模块,负责学习物理知识并评估被遮挡物体的解释结果。

这三个模块共同工作,使得XPL模型能够在处理物理事件时,不仅能预测结果,还能为预测结果提供合理的解释。通过这种设计,XPL模型为在AI中探讨和实现解释能力提供了新的可能路径,有助于推动相关研究的进一步发展。

图示:一个集成了解释能力的物理学习模型

本文作者来自北京通用人工智能研究院和北京大学,他们是:戴博、王林歌、贾宝雄、张泽宇、朱松纯、张驰、朱毅鑫。

背后故事:“跨行”的研究员

戴博博士毕业于北京大学物理学系,找工作之际,他的一些同学毅然决然地选择了“面包”,有的进入金融领域做量化,有的去教辅行业成为明星物理教师,有的去做公务员,有的转码当程序员,戴博选择了一条更有挑战的路——跨行进入了人工智能领域。

于是一切重新开始。虽然他研究的是直觉物理,但在AI的语境下的研究和物理学却大不相同。物理学是一门“慢”的科学,每个假设都要依赖于严谨的实验证明,往往数年才能发表一篇合格的期刊论文,而AI的技术发展日新月异,是一门“快”的学科。他需要先搭建起对这个领域的大图景,而后找到切入点。

戴博隐约觉得,如果单纯凭借工程能力,他的比较优势不强,而多年在物理学的科研经验让他更倾向于用一种科学探索的方式去研究人工智能问题,就像物理学研究物理现象,他也希望研究智能现象,比如魔术的产生。人之所以会觉得魔术有趣,是因为它们违反了人的物理常识。

这一头扎进去就是两年。两年内,他从零到一入门了人工智能的基本算法,培育着一个科研种子,慢慢地生根发芽,通研院为他提供了一个前所未有的包容环境,他得以和不同实验室的研究员交流探讨,每一次讨论无异于一次灌溉,启发了新的想法,而后去实验,无论失败成功,持续地迭代。

古代有个人叫郭橐驼,善种树。无数人向他请求种树的秘方。他回应道,只要顺应树木的天性,培育了土壤,树木自会生长;如果过于担心,时常干预,反而会妨碍树木的生长。这于科研亦同理。好的科研环境,是尊重每个研究者的好奇心,给予自由探索的空间,让人与人相遇,而后相信时间的力量。于戴博而言,通研院着力培养通识、通智、通用人才,是一片能够顺应研究者生长的土壤。

加入通研院

戴博是通研院研究中心仿真与交互实验室的一员。通用智能仿真及交互方向以自主智能为核心开展研究,包含具身强化学习、认知计算、对称现实、计算机图形学、多智能体仿真与人机交互等。通过研究人工智能前沿理论和算法模型,突破通用智能体在认知、学习、协作中的理论和技术挑战,为创造通用智能体及智能评级测试打下基础。

 参考文献:

[1] Ma, Y., Zhang, C. and Zhu, S.C., 2023. Brain in a vat: On missing pieces towards artificial general intelligence in large language models. arXiv preprint arXiv:2307.03762.

[2] Dai, B., Wang, L., Jia, B., Zhang, Z., Zhu, S.C., Zhang, C. and Zhu, Y., 2023. X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 3992-4002).

Facebook
Twitter
LinkedIn
Email