
鷹谷產(chǎn)品總覽InELN截圖
在我看來,鷹谷信息很可能是當前中國乃至全球在“AI for Science”賽道中最被低估的潛在巨頭。其價值不在于它現(xiàn)在有多大的營收,而在于它正以一種獨特且難以復制的路徑,構(gòu)筑起未來“超級AI科學家”的核心基礎(chǔ)設(shè)施[1]。以下是支撐我這一判斷的四個核心理由。
一、內(nèi)部數(shù)據(jù)金礦:ELN是捕獲科研“暗數(shù)據(jù)”的關(guān)鍵樞紐
任何AI模型的效能,都取決于其訓練數(shù)據(jù)的質(zhì)量與規(guī)模。在科學研究中,最具價值的不僅是成功的實驗數(shù)據(jù),那些未被發(fā)表的“失敗數(shù)據(jù)”同樣至關(guān)重要——它們告訴AI哪些路徑走不通,極大地縮小了搜索空間,提高了研發(fā)效率[2, 3]。
鷹谷InELN電子實驗記錄本,正是捕獲這些內(nèi)部數(shù)據(jù)流的樞紐。與我們曾經(jīng)使用的紙質(zhì)記錄或零散的Excel文件不同,InELN實現(xiàn)了實驗過程的全面數(shù)字化和結(jié)構(gòu)化。從化學合成路線、生物測序結(jié)果到反應條件、失敗原因,所有細節(jié)都被系統(tǒng)性地記錄和沉淀下來。
事實依據(jù):
鷹谷已服務(wù)600多家全球客戶,包括揚子江、和記黃埔、晶泰科技、華為等頭部企業(yè),覆蓋生物醫(yī)藥、化工、新材料等多個研發(fā)密集型領(lǐng)域。這意味著龐大且持續(xù)增長的、高質(zhì)量的私有科研數(shù)據(jù)庫正在鷹谷平臺上形成。
國際上的趨勢已印證了這一價值。Anthropic的Claude模型已與Benchling ELN達成深度合作,目的就是獲取這些經(jīng)過授權(quán)的結(jié)構(gòu)化的實驗數(shù)據(jù)來打造更專業(yè)的科學AI模型[4]。鷹谷在中國市場扮演著類似的角色。
二、外部知識熔爐:InPaper讓人類科研遺產(chǎn)“活過來”
除了內(nèi)部產(chǎn)生的數(shù)據(jù),人類數(shù)百年來積累的海量科學文獻(專利、論文)是另一個知識寶庫。然而,這些數(shù)據(jù)大多以PDF、圖片等非結(jié)構(gòu)化形式存在,無法被機器直接理解和處理[5]。
這項將人類科研數(shù)據(jù)結(jié)構(gòu)化、自動化提取的工作,一直是世界難題[6-10],很多學術(shù)團隊和企業(yè),紛紛投入這個領(lǐng)域,但都不像鷹谷,已經(jīng)推出了可商業(yè)化的產(chǎn)品InPaper。

鷹谷產(chǎn)品總覽InPaper截圖,窗口左側(cè)是原文及標記,右側(cè)是提取到的數(shù)據(jù)

鷹谷官方公眾號InPaper介紹的Gif動圖1,識別和提取化學名稱

鷹谷官方公眾號InPaper介紹的Gif動圖2,識別和提取結(jié)構(gòu)
鷹谷的InPaper文獻結(jié)構(gòu)化工具解決了這一核心痛點。它利用自研的AI圖像識別、IUPAC命名和大型語言模型技術(shù),能自動、精準地從PDF文獻中提取化學結(jié)構(gòu)式、反應式、生物序列、活性數(shù)據(jù)和物性數(shù)據(jù)等[11-15]。
事實依據(jù):
根據(jù)鷹谷資料,InPaper能批量識別文獻中的化學結(jié)構(gòu)和反應式圖片,并將其轉(zhuǎn)化為可編輯、可計算的格式。它甚至能將文本的中文化學名稱智能轉(zhuǎn)化為結(jié)構(gòu)式,將描述化學反應的投料操作文字轉(zhuǎn)化為可計算機處理的反應式。
這一能力,使得將“人類歷史上所有的科研數(shù)據(jù)”整理成高質(zhì)量、結(jié)構(gòu)化的機器可讀數(shù)據(jù)集成為可能。這樣的數(shù)據(jù)集,正是訓練垂直領(lǐng)域科學AI大模型 的優(yōu)質(zhì)燃料,其價值不可估量。
三、超級AI科學家雛形:內(nèi)外數(shù)據(jù)融合,驅(qū)動科研智能體
單獨的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)都已極具價值,但鷹谷最具想象力的地方在于,它正在將二者融合,打造一個不斷進化的“科研大腦”。
鷹谷的InAI科研大模型正是這個大腦的核心。它全面接入DeepSeek等通用大模型,并深度融合了鷹谷自研的知識圖譜。這使得InAI不僅能基于企業(yè)內(nèi)部知識庫進行問答,還能綜合利用全人類的公開文獻數(shù)據(jù),生成實驗方案、優(yōu)化建議,甚至自動撰寫周報、專利和CTD申報資料[16]。

鷹谷產(chǎn)品總覽InAI截圖,使用方式與DeepSeek等AI相同
未來圖景:
1. 數(shù)據(jù)飛輪:內(nèi)部ELN數(shù)據(jù)(含失敗數(shù)據(jù))與外部文獻數(shù)據(jù)共同構(gòu)成訓練數(shù)據(jù)集,讓這個科研大模型越來越懂科學、越來越精準。
2. 智能體生態(tài):模型不僅是聊天機器人,而是能調(diào)用各種科研工具的智能體。鷹谷已發(fā)布貝葉斯優(yōu)化智能體,未來完全可以集成量子化學計算、分子動力學模擬等專業(yè)軟件。未來科研人員將不再學習這些高深軟件如何使用,而是通過AI智能體操控,直接用出專家的水平。
3. 超級AI科學家:一旦這個大腦成熟,再結(jié)合正在快速發(fā)展的具身機器人技術(shù)(如特斯拉、小鵬機器人),為其裝上“手、腳”和“眼、耳、鼻”。那么,一個能夠自主設(shè)計實驗、配制試劑、操作儀器、分析數(shù)據(jù)并進行科學發(fā)現(xiàn)的“超級AI科學家”將不再是科幻。
鷹谷提出的“打造超級AI科學家”的愿景,正是基于這條清晰的技術(shù)路徑。
四、時代與國家戰(zhàn)略:鷹谷是科技競爭中的關(guān)鍵基礎(chǔ)設(shè)施
我們正處在一個科技決定國運的時代。國家間的競爭,本質(zhì)上是科技創(chuàng)新速度的競爭?;瘜W、生物、材料等領(lǐng)域是關(guān)乎國家安全與發(fā)展的關(guān)鍵基礎(chǔ)學科。誰能率先在這些領(lǐng)域?qū)崿F(xiàn)研發(fā)的智能化、自動化,誰就能贏得未來。
鷹谷已經(jīng)在這些關(guān)鍵領(lǐng)域服務(wù)了眾多頭部客戶,建立了深厚的行業(yè)認知和數(shù)據(jù)壁壘。一旦它成功整合上述三大能力——即內(nèi)部數(shù)據(jù)抓取、外部知識提取和智能體調(diào)度——鷹谷將不再僅僅是一家軟件公司,而會成為中國AI4Science領(lǐng)域不可或缺的基礎(chǔ)設(shè)施和核心引擎。
結(jié)論:看好鷹谷及AI驅(qū)動的科學未來
回顧我的職業(yè)生涯,從睿智化學的早期研究,到在揚子江、和記黃埔推動數(shù)字化轉(zhuǎn)型,我深知高質(zhì)量研發(fā)數(shù)據(jù)的管理與分析是何等困難,又何等重要。鷹谷的解決方案,是我們在實踐中驗證過的、能真正為研發(fā)賦能的有力工具。
綜上所述,鷹谷信息構(gòu)筑了三重核心壁壘:高質(zhì)量的內(nèi)部研發(fā)數(shù)據(jù)、自動化處理外部文獻的能力、以及融合內(nèi)外數(shù)據(jù)打造科研智能體的平臺愿景。在AI重塑一切的時代,鷹谷所做的事情,正是在為未來的科學研究鋪設(shè)“信息高速公路”。
它或許現(xiàn)在看起來只是一家提供實驗室管理軟件的“小巨人”,但其在AI4Science領(lǐng)域的戰(zhàn)略卡位、技術(shù)積累和數(shù)據(jù)潛力,使其成為一顆極具合作價值的璞玉。我相信,鷹谷信息正是那個最被低估的、擁有定義未來科研范式潛力的AI4S公司。
參考資料
1. 上海鷹谷信息科技有限公司官方產(chǎn)品手冊. 2025
2. Yield-predicting AI needs chemists to stop ignoring failed experiments.
https://www.chemistryworld.com/news/yield-predicting-ai-needs-chemists-to-stop-ignoring-failed-experiments/4015662.article
3. 盤點:藥物研發(fā)中最好用的16款電子實驗記錄本ELN.
4. 從寫代碼到設(shè)計藥物,Claude for Life Sciences 讓AI成為科學家的新搭檔.
5. Foundation models for materials discovery – current state and future directions. npj Comput Mater 11, 61 (2025).
https://www.nature.com/articles/s41524-025-01538-0
6. From text to insight: large language models for chemical data extraction. Chem Soc Rev. 2025 Feb 3;54(3):1125-1150.
https://pubmed.ncbi.nlm.nih.gov/39703015/
7. ChemDataExtractor 2.0: Autopopulated Ontologies for Materials Science. J Chem Inf Model. 2021 Sep 27;61(9):4280-4289.
https://pubmed.ncbi.nlm.nih.gov/34529432/
8. A universal system for digitization and automatic execution of the chemical synthesis literature. Science. 2020 Oct 2;370(6512):101-108.
https://pubmed.ncbi.nlm.nih.gov/33004517/
9. Automated Chemical Reaction Extraction from Scientific Literature. J. Chem. Inf. Model., 2021, 62 , 2035
https://pubmed.ncbi.nlm.nih.gov/34115937/
10. Reconstructing the materials tetrahedron: challenges in materials information extraction. Digital Discovery, 2024, 3 , 1021 —1037 RSC .
https://pubs.rsc.org/en/content/articlelanding/2024/dd/d4dd00032c
11. 讓AI理解文獻中的化學:從"讀懂"分子到"設(shè)計"新藥.
12. AI制藥轉(zhuǎn)折點出現(xiàn),AI為您一鍵導出文獻中的構(gòu)效關(guān)系數(shù)據(jù)表.
13. 自己電腦里的專利和論文,可以結(jié)構(gòu)式搜索和全文搜索了?
14. 分析專利好方便!鼠標懸停就顯示化學名稱的結(jié)構(gòu)圖.
https://blog.csdn.net/2401_85099221/article/details/140644516
15. 智能批量采集專利和期刊論文中的化學結(jié)構(gòu)、生物活性和SAR數(shù)據(jù),InPaper成功上線.
16. 鷹谷科研項目管理系統(tǒng)-構(gòu)建企業(yè)AI知識庫.
聲明:化學加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@m.yqxsz.com