北京通用人工智能研究院BIGAI

通研院、北大突破性成果登《自然·机器智能》:全球首个具备自主出题与解题能力的奥数几何AI模型

近日,通研院最新成果通矩模型TongGeometry

发表至国际顶刊《自然·机器智能》

(Nature Machine Intelligence)

这是全球首个同时具备自主出题与自动解题

双重能力的通用人工智能系统

基于引导树搜索以及规范化表示技术

仅需单张消费级显卡

即可在38分钟内解决近25年所有IMO几何难题

实现了从被动解题到自主创造的范式转变

其生成的几何命题已正式入选

2024年全国中学生数学联赛以及美国精英奥赛

这是AI原创题目首次进入高规格人类数学竞赛

这一成果标志着中国科研团队在自动化推理领域

实现关键技术自研

并全面超越以DeepMind AlphaGeometry

为代表的国际顶尖水平

为人工智能辅助数学研究迈出了坚实⼀步

论文作者:张驰,宋嘉俊,李斯羽,梁一韬,马煜曦,王威,朱毅鑫,朱松纯

  //  

新华社、光明网对本研究成果进行报道

2026年1月26日,由北京通用人工智能研究院(BIGAI)、北京大学心理与认知科学学院、北京大学智能学院、北京大学人工智能研究院,以及北京大学武汉人工智能研究院等联合组成的科研团队,在人工智能逻辑推理与数学发现领域取得突破性进展。该成果以《基于引导树搜索的奥数⼏何问题提出与解答系统》(Proposing and solving olympiad geometry with guided tree search)为题,发表于国际顶级学术期刊《⾃然·机器智能》(Nature Machine Intelligence)。

研究团队开发的“通矩模型”(TongGeometry)系统,是全球⾸个同时具备⾃主出题(Proposing)与自动解题(Solving)双重能⼒的通用人工智能系统。这⼀突破标志着中国科研团队在自动化推理和具⾝智能的逻辑核心领域实现关键技术自研自控,不仅在性能上对标并超越了以DeepMind AlphaGeometry为代表的国际顶尖水平,更在功能多样性和效率上实现了质的飞跃。

突破“最后堡垒”:为何几何推理如此困难?

在人工智能领域,奥林匹克数学竞赛⼀直被视为衡量机器逻辑思维与空间想象⼒的“最高殿堂”。其中,平面几何问题因其独特的数值精度与空间直觉的结合,被公认为自动化推理的“最后堡垒”。

长期以来,AI在该领域⾯临着两大核心挑战:⼀是“组合爆炸”,几何推理往往需要寻找并添加精妙的辅助线,每增加⼀个点或圆,搜索空间(即探索模型中所有可能的解决⽅案)都会呈指数级增⻓; ⼆是“高质量数据匮乏”,现有的⼏何题⽬库规模较⼩,难以⽀持⼤规模模型的训练。2024年初, DeepMind开发的AlphaGeometry虽然在解题能⼒上取得了重要进展,但其主要依赖于⼤规模离线合成数据和昂贵的计算资源集群。

与之相⽐,我国科研团队⾃主研发的TongGeometry则展现出了更具原创性的底层逻辑:它不仅是⼀个能解题的“优等⽣”,更是⼀位能从⽆到有、创造出具备数学审美价值的题⽬的“⾦牌教练”。

深度解码:神经符号架构下的“数学直觉”

TongGeometry的技术核心在于⼀套“精密⽽优雅”的神经符号引导树搜索架构。与传统⼤模型的暴力搜索不同,研究团队将复杂的⼏何世界抽象地建模为有限树上的⻢尔可夫过程(即依据系统当前的状态推断系统下⼀个最⼤可能性的状态)。在这种设定下,几何图形的构建不再是杂乱无章的尝试,而变成了⼀个有序的随机演化过程。这使得AI系统能够像⼈类数学家⼀样,在逻辑树的每⼀个节点上进⾏系统性探索,确保每⼀个动作都指向潜在的真理,从根本上避免了⽆效的重复尝试。

为了解决⼏何证明中困扰学界已久的“路径爆炸”难题,团队创新性地引⼊了“规范化表示”(Canonical Representation)技术。这套机制赋予了AI⼀种“识破伪装”的能力:在复杂的⼏何空间中,同⼀个命题往往会因为图形的旋转、翻转或缩放⽽产⽣⽆数种表现形式。TongGeometry能够⾃动识别并合并这些对称或同构的拓扑结构,将庞杂的搜索空间压缩了⼏个数量级。例如,无论⼀个三⻆形在空间中如何摆放,系统都能精准锁定其本质的⼏何关系。这种对物理对称性的深度利用,不仅极⼤地提升了搜索效率,更体现了我国学者在基础算法优化上的领先思维。

而在AI寻找解题“灵感”的过程中,系统通过价值函数(Value Function)来模拟⼈类的数学审美。借助强化学习技术,系统内置的“价值模型”能实时预判每⼀条推理路径的潜力——它不仅判断结论是否成立,更在乎推导过程是否简洁、优美。论文第⼀作者、北京通用人工智能研究院张驰博⼠谈到,“当AI发现⼀个命题的证明难度显著⾼于其构建复杂度时,它便捕捉到了那⼀抹“直觉性的灵感”。这种‘价值引导’让TongGeometry在海量数据中精准筛选出那些具备奥赛⽔准的“优雅好题”,真正实现了从机械计算向智能创造的跨越。”

国产原创的力量:

从“暴力计算”到“数学审美”的范式升级

在性能表现上,TongGeometry展现了国产原创技术的强大生命力。相比DeepMind AlphaGeometry需要依赖庞大的算⼒集群进⾏训练和推理,TongGeometry仅需⼀张普通的国产消费级显卡(如RTX 4090),即可在最多38分钟内,解决近25年来所有的IMO⼏何难题。 这种⾼效、低功耗、极具数学美感的推理范式,证明了中国在通专融合技术路径上的领先地位。

目前,TongGeometry的原创能⼒已获得学术界和数学竞赛圈的⾼度评价。其⾃主⽣成的3道⼏何新题,已正式⼊选2024年全国中学⽣数学联赛(北京赛区)及美国精英奥赛(Ersatz Math Olympiad)。这是AI原创题目首次进入高规格⼈类数学竞赛,实现了从实验室研究到真实场景应⽤的重⼤跨越。

论⽂共同通讯作者、北京⼤学⼼理与认知科学学院助理教授朱毅鑫表示:“TongGeometry的意义远超数学竞赛本⾝。它通过‘小数据、大任务’的范式转换,证明了人工智能可以不再单纯依赖暴力计算,⽽是通过理解逻辑底层的对称性与美感,实现⾃主的科学发现。这对于未来具⾝智能在复杂环境下的逻辑决策、⾃动化定理证明以及个性化教育,都具有深远的战略价值。”

此次成果由北京通用人工智能智能研究院主导,并集结了北京大学多个相关顶尖院系的科研力量,充分体现了我国在通用人工智能基础研究领域“学-研-产”深度融合的正向研发优势。未来,团队将继续沿着“小数据,大任务”的研究范式拓展“通系列”通用人工智能模型,推动中国人工智能在更多“无人区”实现零的突破。

北京通用人工智能研究院

阅读原文详读文章内容

Facebook
Twitter
LinkedIn
Email