九九久久精品免费观看,蜜臀av午夜福利在线,后入内射无码人妻一区,六月婷婷精品视频在线观看,一区二区三区婷婷中文字幕,51精品免费视频国产专区,JIZZJIZZ国产,国产极品女主播国产区,亚洲一区二区三区国产精品 ,免费一看一级毛片

歡迎來到合成化學產(chǎn)業(yè)資源聚合服務(wù)平臺化學加!客服熱線 020-29116151、29116152

北大團隊發(fā)布化學大模型基準SUPERChem:挑戰(zhàn)多模態(tài)高難度化學推理

來源:北京大學化學與分子工程學院      2025-12-25
導讀: 近日,北京大學化學與分子工程學院與計算中心、計算機學院、元培學院的聯(lián)合團隊,在 arXiv 預印本平臺發(fā)布了最新成果 SUPERChem。該研究針對當前化學領(lǐng)域基準測試中存在的題目難度有限、多模態(tài)與推理過程評估缺失等不足,系統(tǒng)構(gòu)建了一個專注于評估大語言模型多模態(tài)化學推理能力的新型基準,旨在推動更全面、深入的化學智能評測體系的發(fā)展。

——背景——

 

  2025年,隨著開源推理模型 DeepSeek-R1 推出,LLM 在“深度思考”范式下飛速發(fā)展。LLM 在自然科學領(lǐng)域的應(yīng)用已從簡單問答轉(zhuǎn)向復雜科學推理。然而,現(xiàn)有通用科學基準測試已趨于飽和,前沿模型在 GPQA Diamond 上的分數(shù)也已經(jīng)超過90分;化學領(lǐng)域?qū)S没鶞释P(guān)注基礎(chǔ)化學能力、化學信息學任務(wù)等,缺乏對化學領(lǐng)域深度推理能力的考察。

 

  從基礎(chǔ)教育、化學奧林匹克競賽到大學乃至研究生階段,化學學習始終強調(diào)知識的綜合運用與多步推理。這一學習過程能有效考察復雜化學問題的解決能力,成為評估化學推理水平的理想場景。相應(yīng)地,要設(shè)計出適用于此類評估的高質(zhì)量題目,必須將抽象概念與具體情境深度融合,構(gòu)建出層層遞進的推理鏈條,這對出題者的專業(yè)素養(yǎng)提出了極高要求。北京大學化學與分子工程學院擁有國內(nèi)水平頂尖的本科生和研究生群體,他們兼具扎實的學科功底與豐富的解題、命題經(jīng)驗,能夠?qū)σ延蓄}目素材進行準確評估與合理優(yōu)化。

 

  北京大學研究團隊充分發(fā)揮這一獨特優(yōu)勢,召集大量優(yōu)秀學生共同構(gòu)建了 SUPERChem 基準測試,填補了現(xiàn)有評估體系在多模態(tài)化學深度推理方面的空白。

  

SUPERChem Overview

圖1. SUPERChem 總覽與例題

  

——數(shù)據(jù)構(gòu)建——

 

圖2. SUPERChem 題庫的三階段審核流程

 

  SUPERChem 題庫由近百名北京大學化學專業(yè)的師生共同構(gòu)建,涵蓋題目編寫、解析撰寫以及嚴格的三階段審核流程。題目來源于高難度非公開化學競賽模擬題、北大化院內(nèi)部試題及專業(yè)文獻改編,并采用嚴謹?shù)姆佬孤┻x擇題設(shè)計,避免 LLM 作答時依賴自身記憶或從選項逆推取巧。

 

  化學學科的學習和研究需要使用多樣的圖像,例如分子結(jié)構(gòu)、晶體結(jié)構(gòu)、光譜等,表達豐富的信息。針對化學的多模態(tài)特性,SUPERChem 同步提供了圖文交錯與純文本兩個版本的對齊數(shù)據(jù)集。這一設(shè)計不僅能深入評估 LLM 的跨模態(tài)化學推理能力,還為系統(tǒng)探究視覺信息對推理過程的影響提供了基礎(chǔ)。

 

  目前,SUPERChem 先期發(fā)布500 道專家級精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學反應(yīng)與合成、化學原理與計算、實驗設(shè)計與分析四大化學核心領(lǐng)域。為了細粒度地評估 LLM 的思考過程, SUPERChem 創(chuàng)新性地引入推理路徑一致性( Reasoning Path Fidelity, RPF )指標。研究團隊為每道題目撰寫了包含關(guān)鍵檢查點( Checkpoints )的詳細解析,通過自動化評估 LLM 生成的思維鏈與解析的一致性,從而有效區(qū)分模型是真正“理解”化學原理,還是僅憑啟發(fā)式猜測偶然答對。

 

——評測結(jié)果——

 

  1. 前沿模型接近低年級本科生水平,不同模型推理一致性存在差異

 

      評測結(jié)果顯示,SUPERChem 具有較高的題目難度和區(qū)分度。在北京大學化學專業(yè)低年級本科生的閉卷測試中,人類基線準確率為 40.3%。

     

    表1. 前沿模型在SUPERChem上的表現(xiàn)

     

      在參與評測的前沿模型中,表現(xiàn)最佳的 GPT-5 (High) 準確率達到 38.5%,Gemini-2.5-Pro 以 37.9% 緊隨其后,開源模型 DeepSeek-V3.1-Think 也取得了 37.3% 的成績。這表明以上模型的化學推理能力僅與化學專業(yè)低年級本科生水平相當,尚未展現(xiàn)出超越人類基礎(chǔ)專業(yè)認知的優(yōu)勢。

     

    Accuracy vs RPF

    圖3. 前沿模型的正確率與 RPF 關(guān)系

     

      分析 RPF 指標可見,不同模型的推理過程質(zhì)量存在明顯差異。Gemini-2.5-Pro 和 GPT-5 (High) 在取得較高準確率的同時,其推理過程也較好地符合專家邏輯;而 DeepSeek-V3.1-Think 雖然準確率相近,但其 RPF 得分相對較低,反映其更傾向通過非標準的啟發(fā)式路徑得出結(jié)論。

     

      2. 多模態(tài)信息的“雙刃劍”效應(yīng)

     

      Multimodal Subset Comparison

      圖4:輸入模態(tài)對不同模型的影響

       

        為探究輸入模態(tài)對模型表現(xiàn)的影響,研究團隊進一步分析了必須依賴多模態(tài)輸入的題目子集的測試結(jié)果。視覺信息對不同模型的影響方向與程度不一。對于如 Gemini-2.5-Pro 的強推理能力模型,圖像輸入可帶來準確率的提升;而隨著推理能力的減弱,如 GPT-4o 等模型,圖像信息反而成為干擾,導致準確率下降。這為大模型在科學領(lǐng)域的應(yīng)用提供了參考:在使用不同能力的模型時,需要選擇合適的輸入模態(tài)。

       

        3. 推理斷點分析:模型倒在了哪一步?

       

          為了進一步探究 LLM 推理失敗的深層原因,研究團隊對題目解析中的關(guān)鍵檢查點進行了細粒度能力分類,并進行了推理斷點分析( First Breakpoint Analysis )。結(jié)果表明,前沿模型的推理鏈條并非斷裂于后續(xù)的復雜步驟,而是集中于產(chǎn)物結(jié)構(gòu)預測( 2.4 )、反應(yīng)機理/中間體識別( 2.2 )、構(gòu)效關(guān)系分析( 1.7 )等需要高階化學推理能力的環(huán)節(jié)上。這反映出當前模型雖具備較強的計算與公式推導能力,但在涉及反應(yīng)性與分子結(jié)構(gòu)理解的化學核心任務(wù)上仍存在明顯短板。

         

        Reasoning Breakpoint Distribution

        圖5. 推理斷點所屬化學能力分布

         

        ——總結(jié)——

         

          綜上所述,SUPERChem 為系統(tǒng)評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結(jié)果指出,當前前沿模型的化學能力仍處于基礎(chǔ)水平,在涉及高階化學推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對性優(yōu)化提供了明確方向。

         

        ——團隊介紹——

         

          SUPERChem 項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、和林思宇同學領(lǐng)銜完成。近百位北京大學化學專業(yè)的博士生與高年級本科生參與了 SUPERChem 題庫的構(gòu)建與審核,其中包括多位國際化學奧林匹克( IChO )獲獎選手與和中國化學奧林匹克( CChO )決賽獲獎選手。174位北京大學化學專業(yè)低年級本科生參與了人類基線測試。

         

          SUPERChem 項目在北京大學化學與分子工程學院裴堅老師、高珍老師,計算中心馬皓老師,以及計算機學院楊仝老師的指導下開展。項目獲得了北京大學計算中心與高性能計算平臺的計算資源支持,來自 Chemy、好未來、質(zhì)心教育等教育培訓機構(gòu)和化學與分子工程學院鄒鵬、鄭捷等多位教授的題目素材,以及高楊老師、龍汀汀老師的專業(yè)支持。

         

          項目資源

          論文:https://arxiv.org/abs/2512.01274

          數(shù)據(jù)集:https://huggingface.co/datasets/ZehuaZhao/SUPERChem

          平臺網(wǎng)站:https://superchem.pku.edu.cn/


        聲明:化學加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@m.yqxsz.com

        亚洲第一香蕉视频啪啪爽| 《上司部长出轨漂亮人妻》| 乱人伦人妻中文字幕无码久久网| 国产丝袜在线精品丝袜不卡| 高清日韩一区二区三区视频 | 小污女小欲女导航| 亚洲AV片不卡无码久久欣赏网| 日韩福利片午夜免费观着| 亚洲AV综合色区在线观看| 天堂a无码a无线孕交| 精品久久人人妻人人做精品 | 亚洲日韩av一区二区三区四区| 欧美刺激性大交亚洲丶日韩| 亚洲成av人片在线观l看福利1| 亚洲综合久久精品哦夜夜嗨| 国产亚洲精品成人aa片新蒲金 | 欧美a级毛欧美1级a大片免费播放| 2022精品福利在线小视频| 亚洲日产韩国一二三四区| 中文一国产一无码一日韩| 麻豆果冻国产剧情av在线播放| 国内永久福利在线视频图片| 国产成人无码国产亚洲| 女人被狂c躁到高潮视频| 成人av天堂男人资源站| 欧美啪啪网| 国产中文三级全黄| 西西人体高清44rt·net| 国产成a人片在线观看视频99| av在线中文字幕不卡电影网| 色又黄又爽18禁免费网站现观看| 最近日本免费高清完整版| 日韩av在线高清观看| 国产激情з∠视频一区二区| 熟女少妇人妻中文字幕| 忘忧草在线社区www中国中文| 777米奇色狠狠俺去啦| 有码无码中文字幕国产精品| 亚洲一区二区精品无码久久久 | 亚洲精品美女一区二区| 国产精品成人免费视频网站京东|