eNewsTree.com

标题: 北大期中考 174名大二生与AI对决结局让人意外… [打印本页]

作者: casper 时间: 2025-12-28 10:07
标题: 北大期中考 174名大二生与AI对决结局让人意外…
北京日報

考试现场，(取材自北京日报)

在北京大学化学与分子工程学院，有机化学考试是许多同学痛并快乐着的挑战。然而，期中考前突如其来的一条通知，却让这场考试的气氛变得不同寻常：「请注意，本次考试范围不仅限于有机化学。」但比起考试范围的变化，考场里迎来的一批「特殊考生」，更让人意想不到。它们不需要落座，也无需纸笔。它们是GPT、Gemini、DeepSeek……这些当下世界上最聪明的AI，正在云端与174位北大化学与分子工程学院的大二学生同场竞技。这是一场精心设计的「图灵测试」，也是北大科研团队为大语言模型投下的一块「试金石」。

北京日报报导，近日，北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队，发布了最新成果SUPERChem。近期，他们以一套「北大试卷」为标尺，冷静丈量着AI在科学推理上的真实边界。

报导指出，打开SUPERChem的题库，一种「压迫感」扑面而来。晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……这500道题目并非来自网络上随手可得的公开题库，而是源于对高难度试题和前沿专业文献的深度改编。

为什么要费尽周折重新出题？「因为大模型太会『背书』了。」团队成员解释道。互联网可及的测试题大多已被博闻强识的AI在训练阶段熟读。而化学，恰恰是一门不能只靠死记硬背的学科。它既有严密的逻辑推演，又充满了对微观世界的空间想像。

近百名师生—其中不乏奥赛金牌得主—集结起来，决定给AI出一套高门槛、重推理、防作弊的试卷。他们要考的，是AI是否真的「懂」化学。

在这场精心设计的考试中，人类展现出了复杂的科学直觉。作为基线，参与测试的北大化院本科生取得了40.3%的平均准确率。

而AI的表现如何？即便是接受测试的顶尖模型，其成绩也仅与低年级本科生的平均水平相当。

让团队感到意外的是视觉信息带来的困惑。化学的语言是图形，分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言，当引入图像信息时，其准确率不升反降。这说明，当前的AI在将视觉信息转化为化学语义时，仍存在明显的感知瓶颈。

团队发现，AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高端任务。当前的顶尖模型虽然拥有海量的知识储备，但在处理需要严密逻辑和深刻理解的硬核化学问题时，仍显得力不从心。

报导指出，SUPERChem的诞生，填补了化学领域多模态深度推理评测的空白。团队发布这项成果，并非为了证明AI的短板，而是为了推动它走得更远。

欢迎光临 eNewsTree.com (http://enewstree.com/discuz/)