DNA的雙螺旋結構使其成為一種理想的存儲介質,但它還不能取代傳統的硬盤驅動器。 (資料圖/圖)
(本文首發于2019年7月4日《南方周末》)
DNA具有許多合适的特性,使其成為存儲海量信息的理想選擇。随着測序技術的進步,研究人員開始使用 DNA作為分子記錄儀,來“讀”和“寫”信息。這一進展可能對加速藥物開發和治療疾病意義重大。
在人類發明硬盤的數十億年前,進化選擇了DNA來存儲最寶貴的信息——遺傳密碼。随着時間推移,DNA變得非常擅長這項工作,成為了地球絕大多數生命的首選工具。最近的一些技術突破讓我們可以輕松“讀”、“寫”DNA,于是科學家正在重新利用這種古老的分子存儲新類型的信息——在大數據時代,人類以指數級速度生成的數據信息。
利用DNA來存儲遺傳密碼之外的信息,這一設想已經得到了廣泛的讨論。畢竟,以1和0記錄計算機代碼的方式正在接近物理極限。要安全存儲我們生成的所有數據,需要克服許多難題。近日,其中一個問題重新映入人們的視野,曾經風行一時的社交媒體網站Myspace宣布,他們在服務器遷移過程中無可挽回地丢失了大約1年的數據。長期保存數據,例如一個休眠一段時間後重新啟動的網站中的數據,暴露了現有技術的脆弱和笨拙。而且這不僅僅是一個空間問題:維持數據存儲需要消耗大量的能量。
DNA的特性有望解決這些問題。一方面,DNA的雙螺旋結構非常适合數據存儲,因為知道一條單鍊的序列就會自動知道另一條單鍊的序列。另外,DNA也能長時間維持穩定,這意味着信息的完整性和準确性都可以得到保證。例如,2017年,科學家分析了從8100年前的人類遺骸内分離出來的DNA。而這些遺骸的保存環境甚至算不上理想,如果是幹燥涼爽的環境,DNA可以保存數萬年之久。
不過,DNA雙螺旋最有吸引力的地方大概是它可以折疊成一個非常緊密的結構。每個人類細胞都包含一個直徑約0.00001米的細胞核,但如果把細胞核内的DNA伸展拉直,它将長達兩米。換句話說,如果将一個人的全部DNA串在一起,它将延伸至100萬億米。在2014年,科學家計算出1克DNA理論上可以存儲455EB(1018字節)的數據。這樣的信息存儲密度大約比硬盤中的物理存儲密度高出100萬倍。
雖然DNA通常被認為是一種存儲介質,但在取代傳統硬盤驅動器之前,它仍然有許多科學、經濟和倫理上的障礙需要克服。與此同時,DNA作為一種适用範圍更廣的信息技術已經得到了越來越多的應用。例如,一些經典的好萊塢電影已經從脆弱的膠片轉移到了遺傳密碼中。最近,DNA工具已被用來設計更安全的基因療法,加速抗癌藥物研發,甚至第一次“直播”活體生物内的遺傳活動。在這個不斷發展的領域的前沿,DNA不僅被用于長期存儲數據,還在以前所未有的速度促進數據生成。這是因為DNA在兩個方向上都要比其他分子更具可擴展性:它一方面能大幅增加我們獲得的數據量,另一方面又能縮減存儲數據所需的資源。
加速新藥物開發
近年來,科學家越來越多地用DNA作為分子記錄器,來理解和跟蹤他們的實驗結果。在多數情況下,這個過程都用到了DNA條形碼編碼:為了标記和跟蹤單個實驗的結果,科學家使用已知的DNA序列作為分子标簽。例如,一個實驗結果可以用DNA序列ACTATC标記,而另一個結果可以用TCTGAT标記。
DNA條形碼技術發源于20世紀90年代初,當時斯克裡普斯研究所的理查德·勒納(Richard Lerner)和已故的悉尼·布倫納(Sydney Brenner)提出,DNA可充當一種追蹤化學反應的新工具。他們的設想極具創新性,但也過于超前了:當時還沒有廉價的DNA讀取技術。因此,直到衆多科學家在核苷酸化學、微流控技術等領域做出貢獻,促成新一代測序技術出現,DNA條形碼技術的潛力才得以兌現。在2005年,測序技術迎來了一個重大突破,研究者稱,他們可在4小時的實驗中分析2500萬個DNA堿基。
新一代測序技術發展迅速,現在我們可以很容易地同時讀取數百萬個DNA序列,這意味着可以同時運行和分析數千個實驗。用新一代測序技術分析DNA條形碼有着獨特的數據管理模式:科學家不再一次測試一個想法,而是做出20000個預測并同時進行測試,尋找正确的結果。
生物學家是第一批廣泛使用DNA條形碼技術的人。随着這種技術越來越普及,包括化學工程和材料科學在内,許多不同領域的研究人員都開始使用該技術,以全新的規模進行實驗。例如,在我設于佐治亞理工學院的實驗室中,工程師正在使用DNA條形碼來改良納米顆粒的設計和功能,以便讓它們安全地将藥物遞送到患病細胞。納米技術主要依賴物理和化學工程,似乎與DNA完全無關。但是,當你将DNA視為跟蹤和存儲數據的一種方式時,它作為一種組織工具的效用就變得顯而易見了。
納米技術專家面臨的一個基本問題是,在尋找有效的療法時,設計實驗遠比執行實驗和分析結果容易得多。這是因為納米顆粒的形狀、大小、電荷、化學成分和許多其他變量都可以改變它們将基因藥物遞送到患病細胞的能力。此外,這些因素之間還會相互影響,使研究人員難以預測哪種納米顆粒能以最有針對性的方式給藥。一個直截了當的方法是逐個評估每個納米顆粒。但是,曾開發過RNA藥物納米顆粒的制藥公司的數據表明,這種類型的測試通常需要數億美元才能完成。
這就是DNA的存儲能力可以大展拳腳的地方。為了增加我們能夠測試的納米顆粒的數量,我們可以設計數千種具有不同化學結構的納米顆粒——例如大的、帶正電的球體或電中性的小三角形,并為每種納米顆粒分配一個DNA條形碼。
納米顆粒1号,具有1号化學結構,攜帶1号DNA條形碼。納米顆粒2号,具有2号化學結構,攜帶2号DNA條形碼。我們多次重複這個标記過程,從而産生許多不同的納米顆粒,每個都有自己獨特的DNA标簽。之後,我們可以給患病細胞使用數百種納米顆粒。為了鑒定給藥效果最好的納米顆粒,我們使用DNA測序來讀取細胞内的條形碼。
這樣的實驗規模在納米醫學領域是前所未有的。在我的研究領域内,“傳統方法”一般隻能産生1~5個數據點。到2019年年底,我的實驗室希望量化500種不同的納米顆粒将基因治療藥物遞送給40種不同類型細胞的效果。這意味着我們要同時運行20000個實驗。
因此,我們還需要創建一個能夠監控數據質量的數據分析管道,并幫助我們對結果進行統計測試。首先我們會檢驗某個實驗多次重複的結果是否能預測其他實驗中的遞送效果。一旦我們确認這個大數據集是可靠的,我們就會使用統計方法來分析納米顆粒的特征——例如它們尺寸的大小——是否對藥物遞送的效果有影響。我們發現,決定給藥效果的是納米顆粒的化學性質,而不是尺寸大小。通過DNA條形碼标記,我們希望使用更少的資源,更快地發現安全的基因療法。我們的目标之一是找到一種納米顆粒,它能針對特定細胞遞送基因治療藥物,幫助殺死腫瘤,從而減少現有治療方法所帶來的副作用,如惡心和脫發。
我們已經取得了一些成果。在2018年,通過使用DNA條形碼技術獲得大數據集,我們迅速找到了一種新型的納米顆粒,它能夠高效地把基因治療藥物遞送給血管内皮細胞以及幾種幫助身體抵禦疾病的免疫細胞。過去,免疫細胞中蛋白質的活性是“沒辦法用藥物改變的”,也就是說,這些蛋白質很難作為化學小分子或抗體的靶标,而如今新型納米顆粒的發現意味着我們可以攻克這一難關,開發出新的治療方法。在2018年和2019年,我們在《美國科學院院刊》(Proceedings of the National Academy of Sciences)、《先進材料》(Advanced Materials)和《美國化學會雜志》(Journal of the American Chemical Society)等期刊上發表了研究數據,從而得到了衆多其他基因療法研究者的關注。我們還組建了一家新公司GuideRx,緻力于高效率地開發安全的基因療法。
DNA條形碼技術已經遍地開花,甚至在單個研究領域内衍生出了不同的應用方式。一個例子就是癌症生物學,這個領域研究基因突變如何導緻癌症,以及新藥如何治療癌症。癌細胞的耐藥性是該領域中的一個重大難題:通常某種藥物最初對患者有效,但随着藥物逐漸失去殺死腫瘤細胞的能力,癌症就會複發。
哈佛大學托德·戈盧布(Todd Golub)實驗室的科學家使用DNA條形碼技術來研究這種耐藥性。在2016年發表的研究中,他們利用病毒永久地将DNA條碼插入到癌細胞基因組中。癌細胞A型接受條形碼序列A;癌細胞B型收到條形碼B,以此類推。科學家将不同的細胞混合在一起,放在培養皿中培養,并用抗癌藥物進行治療測試。
如果藥物殺死了癌細胞或減緩了其生長,那麼細胞就不會分裂。但如果癌細胞對藥物産生耐藥性,那麼它會迅速分裂。因此,随着時間的推移,如果癌細胞A對藥物産生了耐藥性,DNA條形碼序列A的相對量就會增加。反過來,如果癌細胞A被藥物抑制或殺死,則條形碼序列A相對量減少。通過測序分析存活細胞所含條形碼随時間的變化,研究人員可以同時量化所有類型的癌細胞對藥物的反應。
2016年晚些時候,斯坦福大學的蒙特·溫斯洛(Monte Winslow)實驗室使用DNA條碼标記的胰腺細胞系來鑒定阻止癌症擴散或轉移的藥物。該實驗室使用病毒為每個細胞系打上條碼,然後将這些細胞系鋪在各自的培養孔中。之後,研究者用不同的抗癌藥物處理每個孔。通過這種方式,每一種藥物都與一個DNA條形碼對應起來。緊接着,研究人員将細胞注入血液中,之後測量哪些細胞轉移到了肺部。通過識别出現或消失的DNA條形碼,研究人員可以确定哪些藥物促進了轉移,哪些藥物可以阻止轉移。
在第三個例子中,麻省理工學院和哈佛大學博德研究所的科學家使用DNA條形碼來研究基因組中的每一個基因對一種癌症的影響。研究人員首先培養了大量癌細胞,并将它們一起放在一個大培養皿中。之後,他們使用基因編輯系統讓基因組中的所有基因逐一失活(或者激活)。被調節了表達量的基因序列起到了條形碼的作用。用抗癌藥物處理細胞,并随着時間推移對DNA進行測序,科學家就可以了解基因組中的每一個基因是怎樣影響細胞耐藥性的。
在以上這些例子中,DNA是生成數據的分子,因為同時進行的大量實驗需要DNA的支持,DNA同樣也是存儲數據的分子,因為新一代測序技術是用來分析DNA條形碼的。這些研究的意義極為重大,相同的技術可以用來研究自身免疫疾病、神經疾病和心血管功能障礙的治療方法。想要簡單理解DNA條碼的巨大威力,隻需要把前文提到的“癌症”用其他疾病替換,“耐藥性”用其他藥物反應替換即可。通過這種方式,DNA條形碼可以從根本上簡化早期藥物的開發,從而加速了有效療法的研究進程。
把信息寫入DNA
DNA條形碼技術依賴于“讀”已知的DNA序列,而直到最近,“寫”DNA還是不切實際的。總的來說,我認為寫DNA是将其他形式的信息,如圖片、電影或生物狀态,轉換成可以存儲和讀取的DNA序列。許多新的書寫技術是由基于“規律成簇的間隔短回文重複”(CRISPR)的基因編輯系統驅動的。通過合理設計CRISPR系統,科學家可以編寫DNA序列。
最近的一些進展利用的是CRISPR系統自然進化而來,幫助細菌抵禦病毒攻擊的辦法。具體來講,病毒通過結合到細菌表面,然後插入它們的DNA或RNA來攻擊細菌。為了“記住”病毒,為未來遇襲做準備,細菌進化出了識别病毒DNA或RNA的CRISPR系統,可以将病毒DNA的小片段插入到自己的基因組中。也就是說,細菌可以“寫下”,或者說“記錄”之前攻擊過自己的病毒的信息,在未來遇襲之時保護自己。
現就職于加利福尼亞大學舊金山分校的塞思·希普曼(Seth Shipman)曾在哈佛大學遺傳學家喬治·丘奇(George Church)的研究團隊工作,他利用了CRISPR系統,将一張人手的圖像記錄到了大腸杆菌的基因組中。為了完成這一目标,希普曼和同事首先表達了兩種蛋白質:Cas1和Cas2。這些蛋白質在一起可以捕獲DNA的核苷酸并将它們插入基因組中。之後,研究人員将DNA序列“喂”給大腸杆菌,這些序列編碼了圖像的像素——當所有DNA放在一起測序時,這些像素共同組成一幅完整的人手圖像。科學家需要把不同的信息分配給DNA。例如,A、C、G和T各自代表不同的像素顔色,而關聯的DNA條形碼序列則編碼了像素在整個圖像中的空間位置。
通過對大腸杆菌的DNA進行測序,研究者以90%以上的準确度複原了原始圖像。接下來,他們重複了這個實驗,但加入了一個重要的變化:他們分不同批次将信息寫入DNA,還開發了一種方法來分析記錄了信息的DNA序列相對于彼此的位置。通過測量序列添加到大腸杆菌基因組中的次序,他們能夠将一系列圖像寫入基因組中,從而編碼一部電影。研究人員把取自人類的第一部電影的GIF動圖錄入了基因組。這個電影是埃德沃德·邁布裡奇(Eadweard Muybridge)于1878年創作的,展現的是奔跑中的馬。在2017年發表的論文中,研究人員證明,他們通過對細菌基因組進行測序,成功還原出了這部邁布裡奇的著名電影。
通用的DNA存儲技術
随着研究者在越來越多的領域中用DNA生成、跟蹤和存儲信息,一個問題浮上水面:DNA最終是否能與傳統的電子存儲設備競争,來記錄人類生成的所有數字數據?現在的答案是否定的——在保存信息方面,硬盤和閃存設備要遠遠優于最先進的DNA系統。
但是像所有的技術一樣,傳統的電子設備也有局限性。它們占用物理空間,需要特定的環境條件;即使是最耐用的電子設備也不太可能存活超過幾十年。考慮到這些問題,要保存我們今天所生成的所有數據可能很快就會變得困難起來。
相比之下,如果保存在涼爽幹燥的環境中,DNA幾乎肯定可以維持幾萬年不變。它可以在-20℃甚至-80℃的低溫實驗室條件下保存,也可以存儲在一般電子産品無法承受的極端炎熱的環境中。2015年,蘇黎世聯邦理工學院的羅伯特·格拉斯(Robert Grass)和文德林·斯塔克(Wendelin Stark)證明,存儲在二氧化矽中的DNA能夠在70℃下保存一周而不會産生任何差錯。盡管硬盤每平方英寸可以容納1TB的數據,但最近的估算表明,全世界産生的所有信息都可以保存在不到1千克的DNA中。
要使DNA儲存技術得到普及,還有許多重大的技術難關需要克服。主要的限制是存儲信息方式與提取信息的方式完全不同。此外,從硬盤中獲取數據幾乎是即時的,而從DNA中提取數據需要測序,目前需要幾分鐘到一天才能完成。盡管在過去的幾年裡DNA測序儀有了巨大的飛躍,但與硬盤相比,它們仍然體積龐大,價格昂貴。
在DNA存儲能夠充分發揮其潛力之前,我們必須考慮的不僅僅是這些技術障礙。作為一個社會,我們需要認識到,DNA測序的無處不在也意味着追蹤一個人将變得更加容易,同時數據安全也将出現新的漏洞。在美國和全球範圍内,隐私問題的例子比比皆是。
美國各地的警察部門已經在使用DNA測序,但很少受到監督。通過要求所有被捕人員——哪怕是最輕微的犯罪——提供DNA樣本,警方正在建立基因信息的大型數據庫。有些人認為這是21世紀的“指紋”識别技術。但兩者有一個關鍵的區别。指紋隻能識别一個人,但如果你的一個親戚提供了他或她的DNA,那麼這位親戚暴露的信息就可被用來識别你或你家庭中的任何其他成員。
目前,關于DNA存儲的這些擔憂涉及的都是一個人的遺傳密碼本身——相關讨論也一直是圍繞着身份保護展開的。但是在将來,如果其他類别的信息,如醫療數據、法律契約和個人數字曆史都存儲在DNA中,DNA存儲在物理安全和網絡安全等方面的更多問題就會暴露出來。既然如此多的信息可以保存在這麼小的空間裡,那麼該如何分配數據以避免在一個地方過于集中呢?即便信息提取過程能得到簡化,又該怎樣在避免惡意攻擊或意外損失的前提下,對數據進行常規存取呢?
考慮到科學和倫理兩方面需要完成的艱巨工作,DNA存儲實用化的難度似乎令人望而生畏。這會讓我想起萊特兄弟,因為我的故鄉,俄亥俄州的一個小鎮,也是他們出生成長的地方。他們的第一次飛行持續了12秒,隻前進了37米。而60年後,在沒有現代計算機幫助的情況下,人類登上了月球。這些壯舉使我相信,我們可以在未來幾十年駕馭DNA的天然力量,并主動地認識它的破壞力,确保這項技術為人類造福。
(Scientific American中文版《環球科學》授權南方周末發表,張益豪翻譯。本文有删節。)
詹姆斯·達爾曼 (James E. Dahlman)
,