九九久久精品免费观看,蜜臀av午夜福利在线,后入内射无码人妻一区,六月婷婷精品视频在线观看,一区二区三区婷婷中文字幕,51精品免费视频国产专区,JIZZJIZZ国产,国产极品女主播国产区,亚洲一区二区三区国产精品 ,免费一看一级毛片

歡迎來(lái)到合成化學(xué)產(chǎn)業(yè)資源聚合服務(wù)平臺(tái)化學(xué)加!客服熱線 020-29116151、29116152

北大團(tuán)隊(duì)發(fā)布化學(xué)大模型基準(zhǔn)SUPERChem:挑戰(zhàn)多模態(tài)高難度化學(xué)推理

來(lái)源:北京大學(xué)化學(xué)與分子工程學(xué)院      2025-12-25
導(dǎo)讀: 近日,北京大學(xué)化學(xué)與分子工程學(xué)院與計(jì)算中心、計(jì)算機(jī)學(xué)院、元培學(xué)院的聯(lián)合團(tuán)隊(duì),在 arXiv 預(yù)印本平臺(tái)發(fā)布了最新成果 SUPERChem。該研究針對(duì)當(dāng)前化學(xué)領(lǐng)域基準(zhǔn)測(cè)試中存在的題目難度有限、多模態(tài)與推理過(guò)程評(píng)估缺失等不足,系統(tǒng)構(gòu)建了一個(gè)專注于評(píng)估大語(yǔ)言模型多模態(tài)化學(xué)推理能力的新型基準(zhǔn),旨在推動(dòng)更全面、深入的化學(xué)智能評(píng)測(cè)體系的發(fā)展。

——背景——

 

  2025年,隨著開(kāi)源推理模型 DeepSeek-R1 推出,LLM 在“深度思考”范式下飛速發(fā)展。LLM 在自然科學(xué)領(lǐng)域的應(yīng)用已從簡(jiǎn)單問(wèn)答轉(zhuǎn)向復(fù)雜科學(xué)推理。然而,現(xiàn)有通用科學(xué)基準(zhǔn)測(cè)試已趨于飽和,前沿模型在 GPQA Diamond 上的分?jǐn)?shù)也已經(jīng)超過(guò)90分;化學(xué)領(lǐng)域?qū)S没鶞?zhǔn)往往關(guān)注基礎(chǔ)化學(xué)能力、化學(xué)信息學(xué)任務(wù)等,缺乏對(duì)化學(xué)領(lǐng)域深度推理能力的考察。

 

  從基礎(chǔ)教育、化學(xué)奧林匹克競(jìng)賽到大學(xué)乃至研究生階段,化學(xué)學(xué)習(xí)始終強(qiáng)調(diào)知識(shí)的綜合運(yùn)用與多步推理。這一學(xué)習(xí)過(guò)程能有效考察復(fù)雜化學(xué)問(wèn)題的解決能力,成為評(píng)估化學(xué)推理水平的理想場(chǎng)景。相應(yīng)地,要設(shè)計(jì)出適用于此類評(píng)估的高質(zhì)量題目,必須將抽象概念與具體情境深度融合,構(gòu)建出層層遞進(jìn)的推理鏈條,這對(duì)出題者的專業(yè)素養(yǎng)提出了極高要求。北京大學(xué)化學(xué)與分子工程學(xué)院擁有國(guó)內(nèi)水平頂尖的本科生和研究生群體,他們兼具扎實(shí)的學(xué)科功底與豐富的解題、命題經(jīng)驗(yàn),能夠?qū)σ延蓄}目素材進(jìn)行準(zhǔn)確評(píng)估與合理優(yōu)化。

 

  北京大學(xué)研究團(tuán)隊(duì)充分發(fā)揮這一獨(dú)特優(yōu)勢(shì),召集大量?jī)?yōu)秀學(xué)生共同構(gòu)建了 SUPERChem 基準(zhǔn)測(cè)試,填補(bǔ)了現(xiàn)有評(píng)估體系在多模態(tài)化學(xué)深度推理方面的空白。

  

SUPERChem Overview

圖1. SUPERChem 總覽與例題

  

——數(shù)據(jù)構(gòu)建——

 

圖2. SUPERChem 題庫(kù)的三階段審核流程

 

  SUPERChem 題庫(kù)由近百名北京大學(xué)化學(xué)專業(yè)的師生共同構(gòu)建,涵蓋題目編寫、解析撰寫以及嚴(yán)格的三階段審核流程。題目來(lái)源于高難度非公開(kāi)化學(xué)競(jìng)賽模擬題、北大化院內(nèi)部試題及專業(yè)文獻(xiàn)改編,并采用嚴(yán)謹(jǐn)?shù)姆佬孤┻x擇題設(shè)計(jì),避免 LLM 作答時(shí)依賴自身記憶或從選項(xiàng)逆推取巧。

 

  化學(xué)學(xué)科的學(xué)習(xí)和研究需要使用多樣的圖像,例如分子結(jié)構(gòu)、晶體結(jié)構(gòu)、光譜等,表達(dá)豐富的信息。針對(duì)化學(xué)的多模態(tài)特性,SUPERChem 同步提供了圖文交錯(cuò)與純文本兩個(gè)版本的對(duì)齊數(shù)據(jù)集。這一設(shè)計(jì)不僅能深入評(píng)估 LLM 的跨模態(tài)化學(xué)推理能力,還為系統(tǒng)探究視覺(jué)信息對(duì)推理過(guò)程的影響提供了基礎(chǔ)。

 

  目前,SUPERChem 先期發(fā)布500 道專家級(jí)精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學(xué)反應(yīng)與合成、化學(xué)原理與計(jì)算、實(shí)驗(yàn)設(shè)計(jì)與分析四大化學(xué)核心領(lǐng)域。為了細(xì)粒度地評(píng)估 LLM 的思考過(guò)程, SUPERChem 創(chuàng)新性地引入推理路徑一致性( Reasoning Path Fidelity, RPF )指標(biāo)。研究團(tuán)隊(duì)為每道題目撰寫了包含關(guān)鍵檢查點(diǎn)( Checkpoints )的詳細(xì)解析,通過(guò)自動(dòng)化評(píng)估 LLM 生成的思維鏈與解析的一致性,從而有效區(qū)分模型是真正“理解”化學(xué)原理,還是僅憑啟發(fā)式猜測(cè)偶然答對(duì)。

 

——評(píng)測(cè)結(jié)果——

 

  1. 前沿模型接近低年級(jí)本科生水平,不同模型推理一致性存在差異

 

      評(píng)測(cè)結(jié)果顯示,SUPERChem 具有較高的題目難度和區(qū)分度。在北京大學(xué)化學(xué)專業(yè)低年級(jí)本科生的閉卷測(cè)試中,人類基線準(zhǔn)確率為 40.3%。

     

    表1. 前沿模型在SUPERChem上的表現(xiàn)

     

      在參與評(píng)測(cè)的前沿模型中,表現(xiàn)最佳的 GPT-5 (High) 準(zhǔn)確率達(dá)到 38.5%,Gemini-2.5-Pro 以 37.9% 緊隨其后,開(kāi)源模型 DeepSeek-V3.1-Think 也取得了 37.3% 的成績(jī)。這表明以上模型的化學(xué)推理能力僅與化學(xué)專業(yè)低年級(jí)本科生水平相當(dāng),尚未展現(xiàn)出超越人類基礎(chǔ)專業(yè)認(rèn)知的優(yōu)勢(shì)。

     

    Accuracy vs RPF

    圖3. 前沿模型的正確率與 RPF 關(guān)系

     

      分析 RPF 指標(biāo)可見(jiàn),不同模型的推理過(guò)程質(zhì)量存在明顯差異。Gemini-2.5-Pro 和 GPT-5 (High) 在取得較高準(zhǔn)確率的同時(shí),其推理過(guò)程也較好地符合專家邏輯;而 DeepSeek-V3.1-Think 雖然準(zhǔn)確率相近,但其 RPF 得分相對(duì)較低,反映其更傾向通過(guò)非標(biāo)準(zhǔn)的啟發(fā)式路徑得出結(jié)論。

     

      2. 多模態(tài)信息的“雙刃劍”效應(yīng)

     

      Multimodal Subset Comparison

      圖4:輸入模態(tài)對(duì)不同模型的影響

       

        為探究輸入模態(tài)對(duì)模型表現(xiàn)的影響,研究團(tuán)隊(duì)進(jìn)一步分析了必須依賴多模態(tài)輸入的題目子集的測(cè)試結(jié)果。視覺(jué)信息對(duì)不同模型的影響方向與程度不一。對(duì)于如 Gemini-2.5-Pro 的強(qiáng)推理能力模型,圖像輸入可帶來(lái)準(zhǔn)確率的提升;而隨著推理能力的減弱,如 GPT-4o 等模型,圖像信息反而成為干擾,導(dǎo)致準(zhǔn)確率下降。這為大模型在科學(xué)領(lǐng)域的應(yīng)用提供了參考:在使用不同能力的模型時(shí),需要選擇合適的輸入模態(tài)。

       

        3. 推理斷點(diǎn)分析:模型倒在了哪一步?

       

          為了進(jìn)一步探究 LLM 推理失敗的深層原因,研究團(tuán)隊(duì)對(duì)題目解析中的關(guān)鍵檢查點(diǎn)進(jìn)行了細(xì)粒度能力分類,并進(jìn)行了推理斷點(diǎn)分析( First Breakpoint Analysis )。結(jié)果表明,前沿模型的推理鏈條并非斷裂于后續(xù)的復(fù)雜步驟,而是集中于產(chǎn)物結(jié)構(gòu)預(yù)測(cè)( 2.4 )、反應(yīng)機(jī)理/中間體識(shí)別( 2.2 )、構(gòu)效關(guān)系分析( 1.7 )等需要高階化學(xué)推理能力的環(huán)節(jié)上。這反映出當(dāng)前模型雖具備較強(qiáng)的計(jì)算與公式推導(dǎo)能力,但在涉及反應(yīng)性與分子結(jié)構(gòu)理解的化學(xué)核心任務(wù)上仍存在明顯短板。

         

        Reasoning Breakpoint Distribution

        圖5. 推理斷點(diǎn)所屬化學(xué)能力分布

         

        ——總結(jié)——

         

          綜上所述,SUPERChem 為系統(tǒng)評(píng)估大語(yǔ)言模型的化學(xué)推理能力提供了細(xì)致、可靠的基準(zhǔn)。評(píng)測(cè)結(jié)果指出,當(dāng)前前沿模型的化學(xué)能力仍處于基礎(chǔ)水平,在涉及高階化學(xué)推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對(duì)性優(yōu)化提供了明確方向。

         

        ——團(tuán)隊(duì)介紹——

         

          SUPERChem 項(xiàng)目由北京大學(xué)化學(xué)與分子工程學(xué)院與元培學(xué)院的趙澤華、黃志賢、李雋仁、和林思宇同學(xué)領(lǐng)銜完成。近百位北京大學(xué)化學(xué)專業(yè)的博士生與高年級(jí)本科生參與了 SUPERChem 題庫(kù)的構(gòu)建與審核,其中包括多位國(guó)際化學(xué)奧林匹克( IChO )獲獎(jiǎng)選手與和中國(guó)化學(xué)奧林匹克( CChO )決賽獲獎(jiǎng)選手。174位北京大學(xué)化學(xué)專業(yè)低年級(jí)本科生參與了人類基線測(cè)試。

         

          SUPERChem 項(xiàng)目在北京大學(xué)化學(xué)與分子工程學(xué)院裴堅(jiān)老師、高珍老師,計(jì)算中心馬皓老師,以及計(jì)算機(jī)學(xué)院楊仝老師的指導(dǎo)下開(kāi)展。項(xiàng)目獲得了北京大學(xué)計(jì)算中心與高性能計(jì)算平臺(tái)的計(jì)算資源支持,來(lái)自 Chemy、好未來(lái)、質(zhì)心教育等教育培訓(xùn)機(jī)構(gòu)和化學(xué)與分子工程學(xué)院鄒鵬、鄭捷等多位教授的題目素材,以及高楊老師、龍汀汀老師的專業(yè)支持。

         

          項(xiàng)目資源

          論文:https://arxiv.org/abs/2512.01274

          數(shù)據(jù)集:https://huggingface.co/datasets/ZehuaZhao/SUPERChem

          平臺(tái)網(wǎng)站:https://superchem.pku.edu.cn/


        聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認(rèn)同其觀點(diǎn)或證實(shí)其描述。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時(shí)更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@m.yqxsz.com

        国产亚洲精品自在久久vr| 美女粉嫩啪啪高潮喷白浆动漫| 综合亚洲另类欧美久久成人精品| 精品久久久久88久久久| 男女真人国产牲交a做片野外 | 妺妺窝人体色www看美女| 亚洲色婷婷六月亚洲婷婷6月| 亚洲欧美日韩精品91综合网| 国产偷国产偷亚洲高清午夜| 国产伦一区二区三区久久| 成人免费精品网站在线观看影片| 国产日韩久久免费影院| 亚洲av区一区二区三区| 7777精品久久久大香线蕉| 黄色网页在线观看一区二区三区| 视频一区视频二区制服丝袜 | 无码中文字幕av免费放| 老色鬼在线精品视频在线观看| 成人免费无码毛片黄网| 欧美性色老妇人| 精品人妻二区中文字幕| 乱码丰满人妻一二三区| 精品人妻免费看一区二区三区| 国产成人精品亚洲午夜| 国产精品亚洲在钱视频野战| 国产精品自在拍一区二区不卡| 中文字幕日韩有码av| 五月综合网亚洲乱妇久久| 国产精品久久久一区二区三区| 少妇无码一区二区三区| 999精品免费视频| 国产极品高颜值美女在线| 日韩国产亚洲欧美成人图片| 国产精品亚洲А∨天堂免下载| 门国产乱子视频观看| 中文字幕亚洲乱码熟女在线萌芽| 精品国产美女福到在线不卡| julia中文字幕久久亚洲| 亚洲精品电影院| 日本极品少妇videossexhd| 亚洲国语自产一区第二页|