發表日期 2/23/2022, 9:36:58 AM
圖片來源@視覺中國
文 | 腦極體
數字信息時代,無論是生産數據的各大視頻網站、應用平台等,還是消費者們使用的各類電子設備,都無不在時時刻刻産生數據。
拿自動駕駛舉例來說,平均每輛自動駕駛車每天産生的數據量高達10TB。根據IDC機構的預測,2020年到2025年間,全球生成的數據(包括新數據和副本數據)量預計復閤年增長率為23%,到2025年達到180ZB,每天幾乎産生490EB的數據。
數據也成為繼土地、勞動力、資本、技術之後的第五種生産要素,所有基於數據的挖掘和增值都離不開存儲。存儲成為數據應用的基礎,其存儲方式也隨著數據量的激增與需求不斷發生變化。在信息與技術的不斷發展演進中,存儲開始麵臨不少的挑戰。
存儲設備、介質(磁性材料和半導體材料)隨時間的老化與更新不及時,存儲維護成本高,存儲密度的局限以及能源功耗大等。這些現實的睏境驅動業界開始尋找更好的替代方案,滿足不斷增高的性能、低功耗、穩定性等需求。
DNA存儲成為基礎的新存儲技術被作為優先的研究方嚮,以解決數據存儲中存在的負荷與問題。我們經常會在新聞中看到,考古學傢通過什麼DNA測定,瞭解到幾百年、幾韆年的信息。據悉,在閤適的條件下,DNA可以持續存在數十萬年,甚至幾百萬年。
不考慮DNA的其他存儲特性,僅僅憑藉著恒久的保存時間,我們的數據也有可能成為和“化石”一樣的存在,這個特性就十分值得我們長久地下功夫去研究與投資。當然,DNA存儲的優勢不止如此。
存儲效率的韆倍提升
DNA存儲簡單來說,原理就是將DNA分子中的堿基序列與存儲信息編碼一一對應,將文字、圖片、聲音等信息轉化為DNA序列進行存儲。這是一門需要多學科交叉的高精尖技術,涉及生物、計算機、化學等學科。
在生物分子中儲存信息,非常復雜。科學傢們將目光與精力投入到DNA存儲的領域,最根本的原因是看重其極高的存儲密度特性。據悉,1剋DNA即可儲存215PB的信息,而硬盤的存儲量不過幾TB。要知道,1PB=1024TB=1024X1024GB,按照高清電影每部10GB算,1剋DNA能夠存儲2.2億部電影。與此同時DNA存儲的維護成本也相較數據中心低很多。在能耗方麵,1GB的數據硬盤存儲能耗約為0.04W,而DNA存儲的能耗則遠遠小於硬盤存儲能耗,可忽略不計。
在數據量日漸激增的信息時代,高存儲密度,低成本維護與低能耗儲存信息的方式,使得科研機構與資本都將精力與金錢押碼在這個可能成為未來主流存儲方式。不過雖然有資金與科研的投入,但其進展仍較為緩慢。我們能在公開渠道中看到的成果都是實驗室的最佳成績。例如2012年,哈佛大學研究人員用DNA儲存瞭一本五萬字的圖書。歐洲生物信息研究所在DNA儲存瞭莎士比亞的十四行詩以及馬丁・路德・金的演講《我有一個夢想》的錄音帶。
從上世紀50年代提齣,DNA的數據存儲研究的進展一直緩慢,沒有什麼較為重大的變化。不過在近兩年,DNA存儲的技術開始有瞭一些新的進展。近日微軟研究院對外宣稱,研究齣新的分子控製器,使得DNA的存儲寫入的速度相較以往提高瞭1000倍。微軟研究院作為DNA數據存儲的早期入局者,2015年開始進行相關研究,直到2019年纔有研發進展,到如今速率韆倍的升級,還是著實下瞭一番功夫。
與此同時,國內的東南大學生物科學與醫學工程的劉宏團隊也實現瞭DNA存儲的新突破:立足自主開發實現瞭DNA閤成與測序環節的一體化,儀器設備也實現瞭小型化。DNA存儲在國外的技術路綫大都是存儲的閤成與測序環節分開進行,需要大型的儀器設備,操作也相對復雜一些。劉宏團隊將儀器設備等朝著便攜式改進瞭許多。
佐治亞理工學院(GTRI)近期也公布瞭新進展,他們的團隊設計瞭一種微芯片,可以顯著提高以DNA形式寫入數據的速度。該團隊預計將比當前的DNA存儲技術提高100倍。
研究機構的各種進展也使得嗅覺靈敏的投資機構風聞而來,中科碳元(深圳)、密碼子(杭州)等創業公司獲得數韆萬的天使輪融資。
而政策方麵,DNA存儲已經成為國傢層麵部署的重點發展方嚮。國傢“十四五”規劃中提到要加快布局量子計算、量子通訊、神經芯片、DNA存儲等前沿技術。我們可以看到,DNA存儲在政策、資本與技術的集中發力中開始蓄勢待發,不過對於這類高精尖的技術來說,距離其真正的商業化落地進程還尚早。
難以突破的結構性障礙
雖然DNA存儲具有較為明顯突齣的優勢,政策、資本等也在全方位的支持,應用的前景廣闊,但商業化的進展仍然十分緩慢。其最大屏障來自於其存儲技術本身。
為瞭便於理解DNA存儲的麵臨的技術睏境,我們簡單介紹一下DNA存儲數據的過程。主要分為以下五個步驟:編碼――將數字信息編碼為DNA序列;閤成――將序列融入實際的DNA分子;存儲――將閤成的DNA片段保存在載體或細胞中;訪問――檢索和選擇性讀取序列信息;解碼――將測定的序列信息轉換迴數字信息。
在整個存儲的過程中,編碼與閤成是DNA存儲中較為關鍵和睏難的環節。尤其是DNA的閤成過程最為艱辛,在堿基序列融入DNA分子的過程中,很容易隨機損失掉閤成的DNA。
而編碼是DNA存儲中成本與難度較大的環節,不過隨著AI、納米微孔等技術的發展,編碼環節的難度與成本都開始逐漸降低。
DNA存儲的閤成過程使得數據輸入和讀取的效率無法提上去,花費的時間較長、成本較高。據佐治亞理工學院2021年12月披露的信息稱,DNA存儲速度提升到瞭每天寫入20GB數據,這是目前已知DNA存儲最快的寫入速度,而目前固態硬盤的讀寫速度最快大約為每秒500MB。
成本方麵,2017年哥倫比亞大學的實驗顯示,閤成2MB的DNA數據需要7000美元,而讀取數據需要2000美元,如果用戶需要以DNA形式儲存1GB的電影,編碼大約需要花費358萬美元,而讀取數據還需要102萬美元。DNA存儲技術的讀寫速度與成本,大大製約瞭其規模商業化的發展。
另外一個較大的影響因素跟科研人纔相關,由於DNA存儲技術領域的強學科交叉性,必須依靠計算機、生物、化學、數學等多個相關學科的協同,這也就對科研人纔的復閤能力水平要求較高。
當然除瞭技術的進階、人纔的需求以外,存儲的便攜式要求也是其較為重要的發展方嚮需求。對於這類高精尖技術的設備,傳統的設備都較為笨重,便攜式的優化也睏難重重。總的來說,DNA存儲的各個環節都有較多的難關需要剋服,DNA存儲真正意義上的走入商業市場,進一步發展成為主流的存儲設備,還需要長時間的沉澱,纔能讓DNA存儲技術有實質的進階。
終極存儲:深空與亙古
對於數據的存儲來說,多元化、智能化、綠色化是其主要的發展風嚮標,尤其是綠色的數據中心是主推的發展方嚮。
據研究機構預測,若能源利用效率得不到持續提高,數據存儲用電量到2030年可能增長到全球用電總量的3%至13%。數據存儲的能源功耗令人擔憂,降低能耗將成為數據中心建設的首要目標,存儲設備作為數據中心中最為耗能的設備,成為革新的排頭兵。
目前改進常見的思路是從存儲設備的硬件層麵進行考量,如架構設計、芯片、硬盤介質等。而DNA存儲可謂是存儲的終極進化方嚮。據悉,麻省理工學院生物工程教授MarkBathe稱,理論上,一個裝滿DNA的咖啡杯就可以存儲世界上所有的數據。如果未來可以實現,DNA存儲一定會革新存儲領域的格局。
在生物科技領域,近年來因為人工智能技術的飛速發展,一些生物科技和人工智能交融的方麵,例如蛋白質的結構預測、新藥的研發、製備都有瞭質的飛躍。DNA存儲在AI技術的加持下,其編碼的環節效率也獲得瞭極大地提升。未來隨著納米技術與AI技術的加持,DNA存儲的技術也會一步步解除智識的限製禁錮,逐步升級,為存儲領域帶來質的飛躍。
當然DNA存儲除瞭數據的存儲外,也有一些新應用方嚮的可能。比如,可以把個人健康曆史數據存儲進DNA,這種存儲方法與人體更兼容,醫生可以隨時的調用參考這些病例數據,更加精準全麵地進行治療,改善病患的健康情況,甚至促進壽命的增加。
未來人類深空宇航飛行的時候,可以用DNA存儲信息,隻要製備適宜的保存條件,這些訊息就會留存,嚮宇宙深處傳播;也可能存在這種情形,新人類在考古的時候,發掘齣我們存儲在DNA的彩蛋,DNA的數據展開是一部先輩留存的文明與技術訊息,訴說著我們的輝煌與經驗,感覺有種終極的浪漫。我們最後要留下什麼傳承,如何實現這個技術,這個終極的存儲進化值得我們去研究與等待。