然后,Glazer 进入了第四个级别测试:一组即使对学术数学家来说也具有挑战性的问题。世界上只有一小部分人能够设计出这样的问题,更不用说回答它们了。参与的数学家必须签署保密协议,要求他们只能通过加密消息应用程序 Signal 进行交流。其他联系方式,例如传统电子邮件,可能会被大模型扫描并在无意中对其进行训练,从而污染数据集。
o4-mini 每一道无法解决的问题,提出该问题的数学家都会获得 7,500 美元的奖励。该小组在寻找问题方面进展缓慢,但进展稳定。但 Glazer 想要加快速度,因此 Epoch AI 于 5 月中下旬举办了线下会议。参与者敲定最后一批挑战题。30 位与会者被分成六人一组。在两天的时间里,这些学者们相互竞争,设计出自己能够解决但会让 AI 推理机器人犯错的问题。
“调皮的天才”:AI 的颠覆性推理震惊学者
到了一个周六的晚上, Ken Ono 对这个机器人感到很失望——因为它的数学能力超出预料,阻碍了团队的进展。
“我提出了一个问题,我们领域的专家都会认为这是一个数论中的开放性问题——一个博士级别的好问题,”他说。他让o4-mini来解决这个问题。在接下来的10分钟里, Ono 目瞪口呆地看着机器人实时展现出解决方案,并演示了它的推理过程。
前两分钟,机器人查找并掌握了该领域的相关文献。然后,它在屏幕上写道,它想先尝试解决一个更简单的“玩具”版本的问题,以便学习。几分钟后,它写道,它终于准备好解决更难的问题了。五分钟后,o4-mini给出了一个正确但又俏皮的解决方案。“它开始变得非常调皮了,” Ono 说道,他同时也是Epoch AI的自由数学顾问。 “最后还写道,‘无需引用,因为这个神秘数字是我计算出来的!’”