發表日期 3/22/2022, 5:06:23 PM
今年1月,依托中國科學院北京基因組研究所(國傢生物信息中心)(以下簡稱基因組所)的國傢基因組科學數據中心(NGDC)一批成果集中亮相:10篇論文相繼刊發於國際生物數據庫期刊《核酸研究》。對於一本頂級期刊來說,這種情況並不多見。
一個剛成立6年的數據中心何以取得這樣的成績?近日,《中國科學報》走進基因組所,瞭解NGDC成長背後的秘密。
麵嚮國傢需要,追趕國際步伐
NGDC可追溯至2016年2月基因組所成立的生命與健康大數據中心。它的成立既是對接國傢需求,也是研究所自身發展的需要。
長期以來,全世界科學傢産生的組學數據都要提交給三大數據庫――美國國立生物技術信息中心(NCBI)、歐洲生物信息學研究所(EBI)、日本核酸數據庫(DDBJ)。這3傢於上世紀八九十年代成立的機構在2005年建立瞭國際核酸序列共享聯盟(INSDC),形成領域內數據存儲和共享使用的標準。
我國科學傢需要在發錶論文時通過互聯網將數據提交到這些數據庫,而做科研時則需要將數據從這些數據庫下載下來,科研效率經常遭遇國際帶寬瓶頸的約束。同時,我國科學基金項目和重點研發計劃産生的大量基因組科學數據,分散在不同研究單位和實驗室,成為無法共享和進一步挖掘利用的“數據孤島”。
“對標國際三大數據庫,建成一個永續性的生物信息存儲機構,曾是我們幾代生命科學研究者30年的企盼。”在1月中旬基因組所舉行的NGDC年會上,中國科學院院士陳潤生說。
解決這些問題既是我國幾代生命科學傢的呼喚,也是年輕的基因組所內在發展的需求。
“人類基因組計劃之後,研究所作為戰略科技力量,想要進一步擔當國傢使命,需要轉型發展。”基因組所所長薛勇彪嚮《中國科學報》錶示,當時的挑戰是“沒人沒錢缺機製”,優勢是“船小好調頭”。
為調整航嚮,基因組所進行瞭一係列學科布局與運行機製優化調整。
在此基礎上,2016年2月,該所生命與健康大數據中心應運而生,並構建瞭組學原始數據存儲歸檔係統(GSA)。其目標是立足中國,服務全球。
“大數據中心從一開始就對標INSDC,並邀請該聯盟專傢擔任國際顧問,以增加他們對大數據中心的瞭解和支持。”NGDC副主任、基因組所研究員章張說,在同年10月召開的全國生物信息學與係統生物學大會上,由該大數據中心發起的中國基因組學數據共享聯盟得到瞭國內與會科學傢的一緻支持。
2017年,鮑一明的加入讓大數據中心團隊有瞭學術帶頭人。
“一個人單槍匹馬的努力起不到多大作用,團隊非常重要。”NGDC主任、基因組所研究員鮑一明對《中國科學報》說。他曾在NCBI工作16年,其間多次幫助緊急遞交論文的中國科學傢解決技術問題,選擇迴國是希望發揮更大的作用。
“這支團隊年輕、有活力,踏踏實實做事情,而且非常團結。”他說,最關鍵的是,大傢有著共同的目標――實現中國生物信息數據存管用的自立自強。
圍繞共同的願景,他們凝心聚力,“擼起袖子加油乾”。
在團隊成員的努力下,GSA先後被愛思唯爾、威利、細胞、施普林格・自然等全球主要齣版集團認可。2017年起,他們還受到INSDC邀請,作為該聯盟之外的唯一一傢機構參加INSDC年會並在會上作報告。
2019年6月,我國生物學傢終於迎來瞭企盼已久的時刻:NGDC作為首批20個國傢科學數據中心之一獲批成立。該中心由基因組所作為依托單位,聯閤中國科學院生物物理研究所和上海營養與健康研究所共同建設,旨在成為支撐我國生命科學發展、國際知名的基因組科學數據中心。
同年11月,中央編辦批復基因組所加掛“國傢生物信息中心”牌子,承擔國傢生物信息大數據統一匯交、集中存儲、安全管理與開放共享,以及前沿交叉研究和轉化應用等工作。
“能夠為創新驅動和國傢戰略發展服務,這是一件非常值得慶祝的事情。”NGDC顧問、北京大學教授羅靜初說。但他同時錶示,“這並不是‘肥肉’,而是‘苦差事’”。
主動攻關,獲國內外認可
“打著兩塊‘國字頭’的招牌,一定要做齣一點事!”鮑一明等人心裏憋著一股勁兒,摩拳擦掌準備開發並啓動多個前沿數據庫。
然而,新冠疫情突發而至。在研究所的部署下,該團隊緊急開發新冠病毒信息庫。2020年1月22日,距離春節前3天,2019新冠病毒信息庫正式發布。
該信息庫整閤瞭全球相關機構和數據庫公開發布的冠狀病毒基因組序列數據、元信息、學術文獻等,並對不同冠狀病毒株的基因組序列做瞭變異分析與展示。這為此後開展病毒分子溯源、追蹤病毒株變異路徑、製定疫情防控策略等提供瞭數據基礎與決策支持。
例如,2020年1月,首次收錄發布由中國醫學科學院病原生物學研究所提交的國內5條新冠病毒基因組序列,並與NCBI實現數據同步共享;6月,北京新發地疫情,通過基因組比對分析確定問題齣現在冷鏈三文魚,首次發現冷鏈貨物汙染可能是造成局部疫情暴發的病毒源頭,為優化疫情常態化防控策略、實行“人物並重”的新型防控措施提供瞭科學依據;7月和次年1月,該中心專傢全程參與世界衛生組織來華開展的新冠病毒溯源聯閤研究,提供瞭有力的數據支撐,受到國內外專傢組成員的好評……
“那段時間確實比較辛苦,經常連夜加班分析數據、整理材料、撰寫報告。不過,作為‘國傢隊’一員,我們有責任和義務齣一份力。”NGDC副主任、基因組所正高級工程師趙文明說。
據介紹,該信息庫被多傢國際機構推薦使用,收到瞭來自國內多個機構以及美國、英國、意大利等10餘個國傢研究者的積極反饋。他們來信感謝:“NGDC在極短的時間內建立瞭一個十分優秀、令人印象深刻的信息庫”“願意與NGDC共享數據分析結果”。
據介紹,目前新冠病毒信息庫仍在保持全球最新、最完整的相關基因組數據動態更新,為國內外科學研究和閤作提供有力支撐。
汗水澆灌齣榮譽。去年,研究團隊的成果入選國傢“十三五”科技創新成就展,並被科技部授予“全國科技係統抗擊新冠肺炎疫情先進集體”稱號。
不隻是在新冠病毒信息庫建設方麵,NGDC的科學傢還“雙綫作戰”,不斷提升在國際上的可見度。
“作為數據産齣和使用大國,我國生物信息數量和用戶占INSDC相關比重的20%左右,是占比最多的國傢之一。這意味著中國有能力成為該聯盟的一員。”鮑一明說。
但作為後來者,加入INSDC並不容易。在鮑一明和同事的努力下,目前新冠數據資源方麵,雙方已在標注NGDC編號的條件下實現共享。去年,INSDC主動提齣如果成為閤作夥伴,希望中國科學傢在數據共享和存儲方麵作齣貢獻。
NGDC還在“一帶一路”國際科學組織聯盟(ANSO)的支持下,建立瞭以我國為主的國際生物多樣性和健康大數據共享聯盟(BHDB),當前已與12個國傢的28個機構建立瞭數據共享和科研閤作關係。
務實發展,把好數據質量關
6年來,NGDC不斷夯實自身建設,已經建立瞭包含九大數據類型的63個數據庫,形成“數據―信息―知識”一體化數據資源體係。
鮑一明介紹,該資源體係可實現我國生物數據的安全匯交管理,同時開發瞭由數據可視化、序列比對、基因錶達、錶觀遺傳、基因組構成和新冠序列分析6個專題構成的生物信息在綫分析平台(BIT),為我國生物數據的挖掘利用提供瞭重要支撐。
例如,GSA已匯交科技項目4700個,來自近500傢單位2300個用戶遞交的數據量超12PB,為290種國內外期刊的940篇文章提供瞭相關數據支撐;新冠病毒信息庫目前已收錄新冠病毒序列900餘萬條,為全球179個國傢和地區150多萬名訪客提供數據服務,被下載數據超26億條。
在迴顧成績的時候,鮑一明和同事清醒地認識到,當前NGDC尚處於初級階段,綜閤能力與國際一流機構仍有比較明顯的差距。
“比如數據整閤和具有國際影響力的特色數據庫資源有待進一步發展,大數據挖掘分析技術和能力也待加強。”鮑一明說,科技部、財政部已經給予NGDC大力資助,但與國際同類機構相比,NGDC還麵臨存儲計算設施、人纔隊伍以及經費支持等方麵的問題。
盡管還存在許多限製與挑戰,作為一名“後起之秀”,NGDC已連續5年被《核酸研究》評價為與NCBI、EBI並列的全球主要生物數據中心。
“下一步,我們要堅持務實發展,在確保數據安全的前提下,彌補在數據處理、存儲和檢索等核心技術方麵的短闆,研發生物信息大數據關鍵核心算法和軟件,增強服務能力和國際影響力。”鮑一明說。
來源:中國科學報