海量數(shù)據(jù)的存儲讓科學家們頭疼不已,但大自然卻以一種意想不到的方式巧妙解決了這個問題。
對Nick Goldman來說,用DNA編碼數(shù)據(jù)的想法一開始只是個玩笑。
2011年2月16日,星期三,Goldman在德國的一家酒店與一些生物信息學家討論海量的基因組以及其它數(shù)據(jù)的存儲問題。當時,科學家們對傳統(tǒng)計算技術的成本和局限性感到沮喪,他們開玩笑地提起了一些科幻式的替代方案?,F(xiàn)任歐洲生物信息研究所(European Bioinformatics Institute, EBI)組長的Goldman表示,他們想,是什么東西阻止了我們用DNA來儲數(shù)據(jù)呢?
笑聲戛然而止。Goldman指出,這就是靈感閃現(xiàn)的瞬間。跟讀取速度在毫秒級的硅芯片相比,DNA讀取和寫入的速度太慢——編碼數(shù)據(jù)需要幾個小時,用測序儀器讀取又需要好幾個小時。但DNA的突出優(yōu)點是,人類基因組這么多數(shù)據(jù),都能存儲在肉眼不可見的小細胞里。從信息存儲的密度上來講,DNA完勝硅芯片,尤其適合做長期歸檔。
據(jù)Goldman回憶,他們用圓珠筆在餐巾紙上做筆記,認真考慮DNA存儲技術會遇到的問題。研究人員最擔心的是,DNA合成和測序的錯誤很高,每100個核苷酸中就可能有1個出錯。這對大規(guī)模數(shù)據(jù)存儲來說極其不可靠——除非能找到可行的錯誤校正方案。能不能用堿基對來編碼數(shù)據(jù),同時找到校正錯誤的方法?Goldman表示,經(jīng)過一個晚上的討論,他們認為這是可行的。
Goldman和他在EBI的同事Ewan Birney開始在實驗室中實施這個想法,兩年后他們宣布成功使用DNA編碼五個文件,包括Shakespeare的十四行詩(sonnet)和Martin Luther King的“我有一個夢想(I have a dream)”演講中的一段。當時,哈佛大學(Harvard University)的生物學家George Church等人已發(fā)表文章,使用DNA 編碼數(shù)據(jù)。但Goldman編碼的文件大小達到739個堿基(kB),是一段時間里DNA編碼的最大文件。直到2016年7月,微軟和華盛頓大學(University of Washington)取得了突破性的進步,成功編碼了長達200兆字節(jié)(MB)的數(shù)據(jù)。
最新的實驗表明,基因組學以外的其它領域也對DNA存儲深感興趣:全世界都面臨著數(shù)據(jù)過載問題。從天文圖片到雜志文章,再到Y(jié)ouTube視頻,2020年全球數(shù)字檔案館的存儲量將達到44千兆字節(jié)(GB),相比于2013年,增加了10倍。到2040年,如果即時訪問的東西都存儲下來的話,預期數(shù)據(jù)量將會是閃存芯片中內(nèi)存條容量的10到100倍。
這就是為什么很少人訪問的永久檔案會以老式的磁帶方式存儲。磁帶的信息密度遠高于硅芯片,但讀取速度也相對慢很多。然而,美國高級情報研究計劃局(IARPA)的David Markowitz指出,磁帶存儲方法是不可持續(xù)的。他說,建立一個擁有10億GB的數(shù)據(jù)中心是可行的。但這樣的一個中心的建設和維護需要10年以上的努力,花費10億美元,以及數(shù)百兆瓦的電力?!胺肿訑?shù)據(jù)存儲則不需要這么復雜的設施,同時可將成本降低千百倍?!比绻畔⒋鎯Φ拿芏瓤梢韵翊竽c桿菌的基因一樣密集,那么全世界的數(shù)據(jù)都只需要一千克DNA。
實現(xiàn)這個目標十分困難,科學家們需要克服一系列障礙:如何可靠地使用DNA編碼信息?如何只檢索用戶所需要的信息?如何降低核酸成本,加快合成速度?
但是,科學家們也在加快研究的步伐。由一個芯片制造公司組成的財團支持的Semiconductor Research Corporation(SRC)公司就支持DNA存儲的研發(fā)工作。Goldman和Birney拿到了英國政府撥款,用于研發(fā)下一代DNA存儲方法,并計劃成立一個公司專門從事詞類研究。今年4月,IARPA和SRC舉辦了一場學術界和產(chǎn)業(yè)界研究者的研討會,指導DNA存儲研發(fā)。
SRC主任和首席科學家Victor Zhirnov指出,十年來,他們一直在尋找硅芯片以外的存儲方式。硅芯片很難替代。但是,DNA——最強的候選人之一,“看起來有可能做到”。
1988年,與哈佛大學(Harvard University)的研究者合作時,藝術家Joe Davis首次把0和1的電子數(shù)據(jù)和DNA的四個堿基一一對應。他們插入到大腸桿菌(E.coli)基因中的DNA序列,僅編碼了35字節(jié)的數(shù)據(jù)。他們把5×7像素、古日耳曼代表著生命和女性的符文的圖片編碼到DNA中。原圖片中,暗像素點對應的是1,亮像素點對應0。
今天,Davis隸屬于Church實驗室。Church實驗室從2011年開始研究DNA數(shù)據(jù)存儲。這個研究小組希望能降低合成DNA的成本,就像基因組學降低了測序的成本一樣。2011年11月,Church、加州大學(University of California)的Sri Kosuri以及約翰霍普金斯大學(Johns Hopkins University)的遺傳學家Yuan Gao開始進行概念證明實驗。研究小組使用許多短的DNA序列,編碼了長為659 kb的Church合著的一本書中的一段。每個序列中有一段標明的是序列片段的順序。二進制的0可以用腺嘌呤或胞嘧啶編碼,二進制的1可用鳥嘌呤胸腺嘧啶表示。這種靈活性有助于避免設計序列的閱讀問題——在包含大量含鳥嘌呤和胞嘧啶,或重復序列,或與另一端序列粘附在一起的區(qū)域都容易出現(xiàn)閱讀問題。從嚴格意義上來講,Davis 等人并沒有錯誤校正,而是依賴于每個序列都有多條重復來進行校驗。測序后Church等人發(fā)現(xiàn)了22個錯誤。這對于可靠的數(shù)據(jù)存儲是遠遠不及格的。
與此同時,在EBI,Godman等人也使用DNA序列來編碼739-kB的數(shù)據(jù),包括圖像、ASCII文本、音頻文件和Watson、Crick的DNA雙螺旋結(jié)構(gòu)的PDF版本。為了避免重復堿基和其它誤差源,EBI團隊使用了一種更復雜的方案(圖:制造DNA內(nèi)存)。他們的方法并不使用二進制的0和1,而是使用0、1和2進行編碼數(shù)據(jù)。他們讓堿基輪流代表0、1和2,從而避免讀取時遇到問題。他們把序列分割成25個堿基為單位的片段,以便于查錯和相互比較。
即便如此,合成出來的序列中還是有2個25個堿基段的丟失。巧合的是,丟失的恰恰是Watson和Crick的文件部分。然而,這些結(jié)果堅定了Godman的信念:DNA具有成為耗能低、廉價和長期數(shù)據(jù)存儲手段的潛力。至于DNA存儲期的長度,他指出,2013年科學家們解析了封存在凍土里、70萬年前的馬骨頭的DNA。在數(shù)據(jù)中心,沒人相信放了3年的硬盤的可靠性。磁帶放了10年,也不再可靠。一旦可以用DNA編碼數(shù)據(jù),你可以用DNA來做安全備份,然后把DNA放在洞里。想用的時候,再拿出來。
2013年,華盛頓大學(University of Washington)的計算機科學家Luis Ceze和微軟研發(fā)中心(Microsoft Research)的Karin Strauss聽了Goldman的研究報告之后,對DNA數(shù)據(jù)存儲非常感興趣。Strauss指出,DNA的高密度、穩(wěn)定性和成熟度讓他們很興奮。
Strauss還指出,一回到華盛頓,她和Ceze就開始和華盛頓大學(University of Washington)的Georg Seelig合作進行這方面的研發(fā)。他們關注的是另一個DNA存儲的主要缺點——一個比易出錯更大的問題。使用標準測序方法,檢索任何一個數(shù)據(jù),需要檢測所有數(shù)據(jù):每一段DNA序列都必須被讀取。這將比傳統(tǒng)的計算機內(nèi)存更麻煩,因為傳統(tǒng)的計算機內(nèi)存允許隨機存取:只讀取用戶需要的數(shù)據(jù)。
4月初,該小組在亞特蘭大格魯吉亞舉行的一個會議上給出了解決方案。研究人員開始從DNA檔案庫中提取微小樣本。然后他們就用聚合酶鏈反應(PCR)把目標序列復制多份拷貝。序列復制讓測序速度更快、成本更低,而且比之前的方法更準確。該小組還設計了一個替代的糾錯方案,該方案會讓EBI數(shù)據(jù)編碼的密度增加一倍,而且還能保證可靠性。
作為示范,微軟—華盛頓大學的研究人員存儲了151 kB的圖像(其中一些使用EBI編碼方法,一些使用新方法)。他們使用EBI方法讀取了三個圖像——貓、悉尼歌劇院和卡通猴,結(jié)果出現(xiàn)了一個需要手動修改的讀取錯誤。他們使用新方法讀取了悉尼歌劇院圖像,沒有出現(xiàn)任何錯誤。
伊利諾伊大學(University of Illinois)烏爾瓦納–香檳分校的計算機科學家Olgica Milenkovic等人已經(jīng)開發(fā)了一種隨機訪問的方法,讓他們能重寫數(shù)據(jù)。這種方法以長段DNA序列來存儲數(shù)據(jù),序列的兩端都有地址序列。研究人員采用PCR或CRISPR-Cas9技術,根據(jù)這些地址選擇、擴增和使用序列。
地址序列需要避免妨礙閱讀的序列,還需要與其它地址序列有足夠大的差別,以防止出現(xiàn)混淆。另外一方面,研究人員還需避免分子折疊問題,因為如果序列能相互識別,那么兩條序列就會結(jié)合在一起。Milenkovic指出,起初,他們用計算機來設計這些序列,因為要符合所有這些要求非常困難。她的團隊現(xiàn)在使用數(shù)學公式取代了這個勞動密集型的過程,大大縮短了設計編碼方案的時間。
Kosuri則表示,DNA數(shù)據(jù)存儲的其它挑戰(zhàn)包括尺度和序列合成速度。這也是他對DNA存儲并不樂觀的理由。據(jù)他回憶,在哈佛大學(Harvard University)早期實驗時,他們只能編碼700 kB的數(shù)據(jù)。即使DNA編碼的數(shù)據(jù)增加1000倍,也才700 MB,也就是一張CD的容量。如果要解決現(xiàn)在的數(shù)據(jù)過載問題,至少需要拍字節(jié)(PB)的容量。Kosuri認為,這不是不可能的,但要知道,存儲量增加了上百萬倍。
Markowitz也同意,這不是一件容易的事。他指出,目前主流的合成方法是30多年來的老方法,即添加一個堿基需要400秒。如果繼續(xù)使用這種方法,必須同時合成數(shù)十億條序列,才能達到數(shù)據(jù)存儲的速度。目前最多能同時合成幾萬條序列。
一個密切相關的因素是DNA合成的成本。EBI開展的DNA編碼實驗花費了12,660美元,其中98%的費用花在了DNA合成上。測序費用只占2%,這還要感謝2003年人類基因組計劃的完成,測序成本降低了200萬倍。盡管有這樣的先例,Kosuri并不相信,DNA合成也能出現(xiàn)這樣的成本陡降。他指出,70億人的測序市場大大激發(fā)了研究者們的熱情,但目前還沒有70億人的全基因組市場。但他承認,Church等人6月提出的人類基因組編寫計劃(Human Genome Project-Write, HGP-write)可能導致DNA合成成本的降低。如果得到資助,該計劃將合成人類全基因組:包含32億個核苷酸的23個染色體對。但Kosuri表示,即使HGP-wirte項目成功,人類基因組只包含0.75 GB的信息,與實際的數(shù)據(jù)存儲挑戰(zhàn)完全不能相比。
然而,Zhirnov非常樂觀。他認為,綜合成本可以比現(xiàn)在低幾個數(shù)量級。現(xiàn)在DNA合成成本高得離譜。
4月,微軟研究中心從Twiste Biosciences公司(一家從事DNA合成的初創(chuàng)公司)訂購了1000萬條序列。這一舉動可能會大大鼓勵DNA合成市場。Strauss等人指出,他們一直在使用序列來推動隨機存取存儲方法步入0.2 GB時代。細節(jié)仍未公布,但據(jù)說,檔案包括超過100種語言的人權宣言(Declaration of Human Rights)、古登堡計劃(Project Guttenberg)的前100本書和一個種子庫。盡管這相對于HGP-write小很多,但比現(xiàn)在的存儲容量提升了250倍。
她指出,是時候提高我們處理大量DNA的能力了,看看能取得哪些突破。事實上,他們現(xiàn)在就已經(jīng)突破了很多問題了。
Godman有信心,他認為這還只是冰山一角。Godman表示,他們的估計是需要100,000倍的改進,但他們認為這是可能的。雖然過去的技術進步并不能保證未來,但每年或每兩年就會有新的讀取技術出現(xiàn)。在基因組學,6個數(shù)量級并不是什么大問題。我們需要做的只是等待。
原文檢索:
Andy Extance. (2016) How DNA could store all the world’s data.Nature, 537(1038):22-24.
張潔/編譯
說明:圖文均轉(zhuǎn)自《生命奧秘》。