九九久久精品免费观看,蜜臀av午夜福利在线,后入内射无码人妻一区,六月婷婷精品视频在线观看,一区二区三区婷婷中文字幕,51精品免费视频国产专区,JIZZJIZZ国产,国产极品女主播国产区,亚洲一区二区三区国产精品 ,免费一看一级毛片

歡迎來到-化學加-六摩爾!客服熱線:186-7688-2001

北大與華為云聯合發(fā)布蛋白質多序列比對開源數據集

來源:北京大學化學與分子工程學院      2021-09-16
導讀:近日,北京大學化學與分子工程學院、北京大學生物醫(yī)學前沿創(chuàng)新中心(BIOPIC)、深圳灣實驗室高毅勤教授課題組與華為聯合推出蛋白質多序列比對(Protein MSA)數據集

近日,北京大學化學與分子工程學院、北京大學生物醫(yī)學前沿創(chuàng)新中心(BIOPIC)、深圳灣實驗室高毅勤教授課題組與華為聯合推出蛋白質多序列比對(Protein MSA)數據集,希望在標準化的數據集基礎上,支撐研究人員開發(fā)先進的AI模型,加深對蛋白質結構、功能和進化的認知,并進行蛋白設計與改造。此數據集將發(fā)布于華為云AI Gallery平臺,相關代碼及數據集說明將依托于華為全場景AI計算框架MindSpore進行開源開放、定期擴展與維護,旨在為全世界相關的產、學、研團隊提供優(yōu)質的數據共享解決方案。

本次開源的Protein MSA數據集完全覆蓋最新版本(2021年2月發(fā)布)的UniRef50數據庫中的蛋白質序列,采用學術界的“金標準”搜索方法,對約0.5億條蛋白序列進行了充分的MSA搜索與比對(MSA平均深度大于1000),是目前世界范圍內規(guī)模最大、參考數據集最新、覆蓋度最廣的開源蛋白質MSA數據集(之前最大的開源MSA數據集包含10萬個蛋白MSA)【1】。

人類已知的蛋白質序列已經超過4.4億條,但僅憑這些蛋白質單序列數據庫,很難了解蛋白之間的關系。Protein MSA數據庫是一個對不同蛋白質序列之間的關系進行了標記的大規(guī)?!瓣P系型”數據庫,被標記為關聯的蛋白質序列之間的相似度、進化關系、突變所在位點的分布等信息對蛋白質結構和功能的預測極為重要。

   為了更好地服務于跨領域的研究人員,Protein MSA數據集將被組織成具有多重形態(tài)的數據格式。原始數據集(近30T)將以UniRef系列數據庫【2】和UniClust數據庫【3】的標準文本形式存儲,并按照序列長度進行分割與壓縮。為了便于AI領域的研究人員直接使用,Protein MSA數據集還會將文本格式的數據集轉化為浮點數張量類型壓縮存儲,并對已有的AI框架如MindSpore進行數據接口的支持。

高毅勤教授表示:“我們鼓勵并期待來自生物信息學、數據科學和AI研究等領域的專家和人才充分碰撞與合作,引入、改進或設計全新的AI模型,來充分地挖掘Protein MSA數據集中所隱藏的‘自然的秘密’”。

從科學的角度看,MSA的數量和質量很大程度上影響了目前最先進結構模型的預測速度和精度,而且產生MSA的非參數化算法仍是諸多蛋白預測方法中決定速度的主要步驟之一。因此,Protein MSA數據庫本身可以作為這些結構預測模型的預訓練材料,用來挖掘序列信息甚至快速生成新的序列特征,這對解決研究、設計蛋白質中所面臨的高變異序列和孤兒序列等問題具有巨大的潛在價值。

此次數據庫的發(fā)布,依托于華為云AI Gallery平臺,能夠充分保障國內外用戶對于數據集的訪問和下載,并提供可持續(xù)更新與擴充的先進數據維護方案以及下游AI應用與部署的相關支持,融合了產、學、研相結合的研究模式的優(yōu)勢。此外,高毅勤課題組也與華為聯合開發(fā)并開源了首個國產分子動力學軟件MindSponge,希望未來該軟件能在材料、生物、醫(yī)藥等領域得到廣泛的應用。

附:

數據集開源說明:

https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/protein_msa


數據集下載地址:

https://marketplace.huaweicloud.com/markets/aihub/datasets/detail/?content_id=5802def2-5fbd-40da-85d8-a4541d1c6f1e


【1】AlQuraishi, Mohammed. "ProteinNet: a standardized data set for machine learning of protein structure." BMC bioinformatics 20.1 (2019): 1-10.

【2】Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics, 31(6), 926-932.

【3】Mirdita M.*, von den Driesch L.*, Galiez C., Martin M. J., S?ding J.#, and Steinegger M.#, Uniclust databases of clustered and deeply annotated protein sequences and alignments, Nucleic Acids Res. 2016.


聲明:化學加刊發(fā)或者轉載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@m.yqxsz.com

久久国产乱子精品免费女| 亚洲精品第一区二区三区| 韩国三级在线 中文字幕 无码| 国产极品粉嫩小泬免费看| 国产一区二区三区精品自拍| 无码国产69精品久久久久孕妇| 国产YW8825免费观看网站| 国产美女在线观看| 久久一本精品久久久ー99| 成人午夜视频网站| 啊灬啊灬啊灬快灬高潮了电影片段 | 丝袜制服av熟女♀| 在线观看无码av五月花| 醉酒后少妇被疯狂内射视频| 国产美女午夜福利视频| 亚洲午夜精品久久久久久浪潮| 国产偷国产偷亚洲高清午夜| 成人免费无码大片A毛片抽搐色欲| 国产萌白酱喷水视频在线观看| 日本国产精品| 亚洲精品日本久久久中文字幕| 精品国产美女福到在线直播| 18禁裸乳无遮挡啪啪无码免费 | 午夜射精日本三级| 亚洲国产欧洲综合997久久 | 国产精品美女久久久免费| 欧美亚洲综合免费精品高清在线观看 | 免费av网站| 九九热精彩视频在线免费| 肉色丝袜足j视频国产| 性色av无码久久一区二区三区| 国产精品白浆免费观看| 国产欧美日韩综合一区二区三区 | 2020久热爱精品视频在线观看| 久久久一本精品99久久精品36| 国产亚洲AV无码一区二区二三区| 国产一区一一区高清不卡 | 7777欧美大白屁股ass| 国产V精品成人免费视频| 国产乱人伦偷精品视频免| 色偷偷女人的天堂亚洲网|