——背景——
2025年,隨著開(kāi)源推理模型 DeepSeek-R1 推出,LLM 在“深度思考”范式下飛速發(fā)展。LLM 在自然科學(xué)領(lǐng)域的應(yīng)用已從簡(jiǎn)單問(wèn)答轉(zhuǎn)向復(fù)雜科學(xué)推理。然而,現(xiàn)有通用科學(xué)基準(zhǔn)測(cè)試已趨于飽和,前沿模型在 GPQA Diamond 上的分?jǐn)?shù)也已經(jīng)超過(guò)90分;化學(xué)領(lǐng)域?qū)S没鶞?zhǔn)往往關(guān)注基礎(chǔ)化學(xué)能力、化學(xué)信息學(xué)任務(wù)等,缺乏對(duì)化學(xué)領(lǐng)域深度推理能力的考察。
從基礎(chǔ)教育、化學(xué)奧林匹克競(jìng)賽到大學(xué)乃至研究生階段,化學(xué)學(xué)習(xí)始終強(qiáng)調(diào)知識(shí)的綜合運(yùn)用與多步推理。這一學(xué)習(xí)過(guò)程能有效考察復(fù)雜化學(xué)問(wèn)題的解決能力,成為評(píng)估化學(xué)推理水平的理想場(chǎng)景。相應(yīng)地,要設(shè)計(jì)出適用于此類評(píng)估的高質(zhì)量題目,必須將抽象概念與具體情境深度融合,構(gòu)建出層層遞進(jìn)的推理鏈條,這對(duì)出題者的專業(yè)素養(yǎng)提出了極高要求。北京大學(xué)化學(xué)與分子工程學(xué)院擁有國(guó)內(nèi)水平頂尖的本科生和研究生群體,他們兼具扎實(shí)的學(xué)科功底與豐富的解題、命題經(jīng)驗(yàn),能夠?qū)σ延蓄}目素材進(jìn)行準(zhǔn)確評(píng)估與合理優(yōu)化。
北京大學(xué)研究團(tuán)隊(duì)充分發(fā)揮這一獨(dú)特優(yōu)勢(shì),召集大量?jī)?yōu)秀學(xué)生共同構(gòu)建了 SUPERChem 基準(zhǔn)測(cè)試,填補(bǔ)了現(xiàn)有評(píng)估體系在多模態(tài)化學(xué)深度推理方面的空白。

圖1. SUPERChem 總覽與例題
——數(shù)據(jù)構(gòu)建——

圖2. SUPERChem 題庫(kù)的三階段審核流程
SUPERChem 題庫(kù)由近百名北京大學(xué)化學(xué)專業(yè)的師生共同構(gòu)建,涵蓋題目編寫、解析撰寫以及嚴(yán)格的三階段審核流程。題目來(lái)源于高難度非公開(kāi)化學(xué)競(jìng)賽模擬題、北大化院內(nèi)部試題及專業(yè)文獻(xiàn)改編,并采用嚴(yán)謹(jǐn)?shù)姆佬孤┻x擇題設(shè)計(jì),避免 LLM 作答時(shí)依賴自身記憶或從選項(xiàng)逆推取巧。
化學(xué)學(xué)科的學(xué)習(xí)和研究需要使用多樣的圖像,例如分子結(jié)構(gòu)、晶體結(jié)構(gòu)、光譜等,表達(dá)豐富的信息。針對(duì)化學(xué)的多模態(tài)特性,SUPERChem 同步提供了圖文交錯(cuò)與純文本兩個(gè)版本的對(duì)齊數(shù)據(jù)集。這一設(shè)計(jì)不僅能深入評(píng)估 LLM 的跨模態(tài)化學(xué)推理能力,還為系統(tǒng)探究視覺(jué)信息對(duì)推理過(guò)程的影響提供了基礎(chǔ)。
目前,SUPERChem 先期發(fā)布500 道專家級(jí)精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學(xué)反應(yīng)與合成、化學(xué)原理與計(jì)算、實(shí)驗(yàn)設(shè)計(jì)與分析四大化學(xué)核心領(lǐng)域。為了細(xì)粒度地評(píng)估 LLM 的思考過(guò)程, SUPERChem 創(chuàng)新性地引入推理路徑一致性( Reasoning Path Fidelity, RPF )指標(biāo)。研究團(tuán)隊(duì)為每道題目撰寫了包含關(guān)鍵檢查點(diǎn)( Checkpoints )的詳細(xì)解析,通過(guò)自動(dòng)化評(píng)估 LLM 生成的思維鏈與解析的一致性,從而有效區(qū)分模型是真正“理解”化學(xué)原理,還是僅憑啟發(fā)式猜測(cè)偶然答對(duì)。
——評(píng)測(cè)結(jié)果——
1. 前沿模型接近低年級(jí)本科生水平,不同模型推理一致性存在差異
評(píng)測(cè)結(jié)果顯示,SUPERChem 具有較高的題目難度和區(qū)分度。在北京大學(xué)化學(xué)專業(yè)低年級(jí)本科生的閉卷測(cè)試中,人類基線準(zhǔn)確率為 40.3%。
表1. 前沿模型在SUPERChem上的表現(xiàn)

在參與評(píng)測(cè)的前沿模型中,表現(xiàn)最佳的 GPT-5 (High) 準(zhǔn)確率達(dá)到 38.5%,Gemini-2.5-Pro 以 37.9% 緊隨其后,開(kāi)源模型 DeepSeek-V3.1-Think 也取得了 37.3% 的成績(jī)。這表明以上模型的化學(xué)推理能力僅與化學(xué)專業(yè)低年級(jí)本科生水平相當(dāng),尚未展現(xiàn)出超越人類基礎(chǔ)專業(yè)認(rèn)知的優(yōu)勢(shì)。

圖3. 前沿模型的正確率與 RPF 關(guān)系
分析 RPF 指標(biāo)可見(jiàn),不同模型的推理過(guò)程質(zhì)量存在明顯差異。Gemini-2.5-Pro 和 GPT-5 (High) 在取得較高準(zhǔn)確率的同時(shí),其推理過(guò)程也較好地符合專家邏輯;而 DeepSeek-V3.1-Think 雖然準(zhǔn)確率相近,但其 RPF 得分相對(duì)較低,反映其更傾向通過(guò)非標(biāo)準(zhǔn)的啟發(fā)式路徑得出結(jié)論。
2. 多模態(tài)信息的“雙刃劍”效應(yīng)

圖4:輸入模態(tài)對(duì)不同模型的影響
為探究輸入模態(tài)對(duì)模型表現(xiàn)的影響,研究團(tuán)隊(duì)進(jìn)一步分析了必須依賴多模態(tài)輸入的題目子集的測(cè)試結(jié)果。視覺(jué)信息對(duì)不同模型的影響方向與程度不一。對(duì)于如 Gemini-2.5-Pro 的強(qiáng)推理能力模型,圖像輸入可帶來(lái)準(zhǔn)確率的提升;而隨著推理能力的減弱,如 GPT-4o 等模型,圖像信息反而成為干擾,導(dǎo)致準(zhǔn)確率下降。這為大模型在科學(xué)領(lǐng)域的應(yīng)用提供了參考:在使用不同能力的模型時(shí),需要選擇合適的輸入模態(tài)。
3. 推理斷點(diǎn)分析:模型倒在了哪一步?
為了進(jìn)一步探究 LLM 推理失敗的深層原因,研究團(tuán)隊(duì)對(duì)題目解析中的關(guān)鍵檢查點(diǎn)進(jìn)行了細(xì)粒度能力分類,并進(jìn)行了推理斷點(diǎn)分析( First Breakpoint Analysis )。結(jié)果表明,前沿模型的推理鏈條并非斷裂于后續(xù)的復(fù)雜步驟,而是集中于產(chǎn)物結(jié)構(gòu)預(yù)測(cè)( 2.4 )、反應(yīng)機(jī)理/中間體識(shí)別( 2.2 )、構(gòu)效關(guān)系分析( 1.7 )等需要高階化學(xué)推理能力的環(huán)節(jié)上。這反映出當(dāng)前模型雖具備較強(qiáng)的計(jì)算與公式推導(dǎo)能力,但在涉及反應(yīng)性與分子結(jié)構(gòu)理解的化學(xué)核心任務(wù)上仍存在明顯短板。

圖5. 推理斷點(diǎn)所屬化學(xué)能力分布
——總結(jié)——
綜上所述,SUPERChem 為系統(tǒng)評(píng)估大語(yǔ)言模型的化學(xué)推理能力提供了細(xì)致、可靠的基準(zhǔn)。評(píng)測(cè)結(jié)果指出,當(dāng)前前沿模型的化學(xué)能力仍處于基礎(chǔ)水平,在涉及高階化學(xué)推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對(duì)性優(yōu)化提供了明確方向。
——團(tuán)隊(duì)介紹——
SUPERChem 項(xiàng)目由北京大學(xué)化學(xué)與分子工程學(xué)院與元培學(xué)院的趙澤華、黃志賢、李雋仁、和林思宇同學(xué)領(lǐng)銜完成。近百位北京大學(xué)化學(xué)專業(yè)的博士生與高年級(jí)本科生參與了 SUPERChem 題庫(kù)的構(gòu)建與審核,其中包括多位國(guó)際化學(xué)奧林匹克( IChO )獲獎(jiǎng)選手與和中國(guó)化學(xué)奧林匹克( CChO )決賽獲獎(jiǎng)選手。174位北京大學(xué)化學(xué)專業(yè)低年級(jí)本科生參與了人類基線測(cè)試。
SUPERChem 項(xiàng)目在北京大學(xué)化學(xué)與分子工程學(xué)院裴堅(jiān)老師、高珍老師,計(jì)算中心馬皓老師,以及計(jì)算機(jī)學(xué)院楊仝老師的指導(dǎo)下開(kāi)展。項(xiàng)目獲得了北京大學(xué)計(jì)算中心與高性能計(jì)算平臺(tái)的計(jì)算資源支持,來(lái)自 Chemy、好未來(lái)、質(zhì)心教育等教育培訓(xùn)機(jī)構(gòu)和化學(xué)與分子工程學(xué)院鄒鵬、鄭捷等多位教授的題目素材,以及高楊老師、龍汀汀老師的專業(yè)支持。
項(xiàng)目資源
論文:https://arxiv.org/abs/2512.01274
數(shù)據(jù)集:https://huggingface.co/datasets/ZehuaZhao/SUPERChem
平臺(tái)網(wǎng)站:https://superchem.pku.edu.cn/
聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認(rèn)同其觀點(diǎn)或證實(shí)其描述。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時(shí)更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@m.yqxsz.com