近日,美國冷泉港實(shí)驗(yàn)室聯(lián)合加州大學(xué)戴維斯分校的研究人員在國際著名評(píng)論型綜述雜志Nature Reviews Genetics(影響因子41)上發(fā)表了一篇評(píng)論型綜述。該綜述對(duì)高通量測(cè)序的技術(shù)原理以及各平臺(tái)的優(yōu)勢(shì)比較和實(shí)踐應(yīng)用進(jìn)行了深入淺出的分析。
介紹
自從DNA的雙螺旋結(jié)構(gòu)被人們解析開始1,人們?cè)谔骄拷】蹬c疾病的基因組的復(fù)雜性與差異性上做出了巨大的努力。為了支持人類基因組計(jì)劃的順利進(jìn)行2,人們?cè)趦x器和試劑上做出了巨大的改進(jìn)。該計(jì)劃的完成使得人們強(qiáng)烈的意識(shí)到人們需要更多更好的技術(shù)與數(shù)據(jù)分析能力來回答隨之而來的一系列生物學(xué)問題。然而,通量的限制以及居高不下的測(cè)序成本成為了人們進(jìn)一步了解基因組的一道坎。2000年之后推出的高通量測(cè)序平臺(tái)很好地解決了這個(gè)問題,人類基因組測(cè)序的成本直接因此下降50000倍,并且由此產(chǎn)生了一個(gè)新的名詞:下一代測(cè)序(next-generation sequencing,NGS)3。在過去的十年中,NGS技術(shù)不停的在進(jìn)步――測(cè)序的數(shù)據(jù)量增加了100-1000倍4。這些技術(shù)上的進(jìn)展使得人們甚至可以在一條read上讀出整條基因組序列。根據(jù)Veritas Genomics的數(shù)據(jù)5,人類基因組測(cè)序的成本也已經(jīng)下降到1000美元/人。不僅如此,該技術(shù)已經(jīng)廣泛在臨床診斷上得到應(yīng)用3,6。
但是,盡管NGS技術(shù)非常重要,卻并非完美。與NGS技術(shù)一道出現(xiàn)的是該技術(shù)帶來的一系列問題。NGS可以提供海量的數(shù)據(jù)量,但是其質(zhì)量卻有待提高(有報(bào)道,NGS在序列拼接過程中,錯(cuò)誤率在0.1-15%范圍內(nèi)),并且NGS的序列讀長(zhǎng)普遍較低(每條read的長(zhǎng)度在35-700bp之內(nèi)7,這比普通的Sanger測(cè)序要短),這意味著需要更嚴(yán)格復(fù)雜的序列拼接。盡管長(zhǎng)讀長(zhǎng)測(cè)序可以克服NGS的這一大弱點(diǎn),但相對(duì)而言,成本較高并且通量較低,這也限制了該技術(shù)的進(jìn)一步應(yīng)用。最后,NGS同時(shí)還和其他的技術(shù)之間存在著競(jìng)爭(zhēng)的關(guān)系。
短讀長(zhǎng)(read)的NGS測(cè)序
測(cè)序模版克隆法生成綜述
短讀長(zhǎng)測(cè)序方法包含兩種:邊連接邊測(cè)序(sequencing by ligation, SBL)以及邊合成邊測(cè)序(sequencing by synthesis, SBS)。在SBL方法中,帶有熒光基團(tuán)的探針與DNA片段雜交并且與臨近的寡核糖核酸連接從而得以成像。人們通過熒光基團(tuán)的發(fā)射波長(zhǎng)來判斷堿基或者其互補(bǔ)堿基的序列。SBS方法通常使用聚合酶,而且,諸如熒光基團(tuán)在鏈的延伸過程中被插入其中。絕大多數(shù)的SBL和SBS方法,DNA都是在一個(gè)固體的表面上被克隆。一個(gè)特定區(qū)域內(nèi)成千上萬個(gè)拷貝的DNA分子可以增加信號(hào)和背景信號(hào)的區(qū)分度。大量的平行同樣對(duì)上百萬的reads的讀取大有幫助,每個(gè)平行只有唯一的DNA模板。一個(gè)測(cè)序平臺(tái)可以同時(shí)從上百萬的類似反應(yīng)中讀取數(shù)據(jù),因此可以同時(shí)對(duì)上百萬的DNA分子進(jìn)行測(cè)序。
產(chǎn)生模板的克隆有幾個(gè)方法:基于磁珠(bead-based),固相介質(zhì)(solid-state)以及DNA微球技術(shù)(DNA nanoball)(圖1)。DNA模板產(chǎn)生的第一步就是樣本DNA的片段化,接著是連接到一個(gè)為了克隆和測(cè)序而設(shè)計(jì)的接頭上。在磁珠法的準(zhǔn)備過程中,一個(gè)接頭和寡核糖核酸片段互補(bǔ)并且固定在珠子上(圖1a)。DNA模板通過使用油包水PCR(emulsion PCR,emPCR)8得以擴(kuò)增。單個(gè)珠子上被克隆得到的DNA片段可以達(dá)到上百萬個(gè)9。這些珠子可以被分為glass surface10或者PicoTiterPlate(羅氏診斷)11。固相介質(zhì)擴(kuò)增12避免了油包水PCR,取而代之的是在固相介質(zhì)上直接進(jìn)行PCR13(圖1b,c)。該方法中,正向和反向引物結(jié)合在芯片的表面,這些引物給單鏈DNA(single-stranded DNA,ssDNA)提供了末端的互補(bǔ)序列供其結(jié)合。最近,幾個(gè)NGS的平臺(tái)都是用了模塊化的flow cells。
BGI使用的Complete Genomics technology測(cè)序技術(shù)是唯一一個(gè)在溶液中完成模板富集的技術(shù)。在這種情況下,DNA被多次連接,成環(huán)以及剪切從而為了產(chǎn)生一個(gè)包含4個(gè)不同接頭的環(huán)狀的模板。通過旋轉(zhuǎn)環(huán)狀擴(kuò)增(rolling circle amplification,RCA),可以最多產(chǎn)生超過200億的DNA微球(圖1d)。微球混合物隨后被分配到芯片表面上,使得每個(gè)微球可以占據(jù)芯片的一個(gè)位點(diǎn)14。
圖1:模板擴(kuò)增策略。
邊連接邊測(cè)序(SOLiD和Complete Genomics)
從根本上來說,SBL法包含了雜交和對(duì)標(biāo)記的探針的連接15。探針包含了一到兩個(gè)特定堿基序列和一系列通用序列,這可以使得探針與模板之間進(jìn)行互補(bǔ)配對(duì)。錨定的片段則包含一段已知的和接頭互補(bǔ)的序列用于提供連接位點(diǎn)。連接之后,模板被系統(tǒng)進(jìn)行測(cè)序反應(yīng)16。在錨和探針復(fù)合物或者熒光基團(tuán)被完全移除之后,也或者連接位點(diǎn)重新生成之后,新的循環(huán)又重新開始了。
SOLiD平臺(tái)使用的是雙堿基編碼的探針,每個(gè)熒光基團(tuán)信號(hào)代表了一個(gè)二核糖核酸17。因此,原始輸出的數(shù)據(jù)并非直接和已知的核糖核酸相連。因?yàn)橛?6種可能的二核糖核酸組合并不能單獨(dú)結(jié)合熒光基團(tuán)。每四種組合使用一種熒光信號(hào),共有四種熒光信號(hào)。所以,每種連接信號(hào)代表了幾種可能的二核糖核酸組合。SOLiD測(cè)序過程由一系列的探針-錨的結(jié)合,連接,圖像獲取以及切割的循環(huán)組成。
Complete Genomics使用探針-錨的連接方式(cPAL)或者探針-錨的合成方式(cPAS)來進(jìn)行測(cè)序14。在cPAL中(圖2b),錨的序列(與四種接頭序列其中之一的互補(bǔ))以及探針雜交到DNA微球的不同位置。每個(gè)循環(huán)中,雜交探針是一組特定位置已知堿基序列的探針的一員。每個(gè)探針包涵一段已知序列的堿基以及對(duì)應(yīng)的熒光基團(tuán)。獲取圖像之后,全部的探針-錨復(fù)合物被移除,新的探針-錨復(fù)合物被雜交。cPAS方法是cPAL的修改版,增加了read的長(zhǎng)度;然而,目前來說,該方法還是有局限性的。
圖2: SBL測(cè)序原理。
邊合成邊測(cè)序(Sequencing-by-synthesis)
SBS的方法是指那些依賴于大量的DNA聚合酶來進(jìn)行測(cè)序的方法。但是,SBS中依然包括了各種不同的測(cè)序原理。本文中,SBS方法被分為循環(huán)可逆終止(Cyclic reversible termination, CRT)以及單核糖核酸增加(single-nucleotide addition, SNA)18。
邊合成邊測(cè)序:CRT(Illumina,Qiagen)
CRT方法是根據(jù)類似于Sanger測(cè)序的終止反應(yīng)來界定的,其3'-OH基團(tuán)被屏蔽而被阻止繼續(xù)延伸19,20。在反應(yīng)開始時(shí),DNA模板被一段和探針序列互補(bǔ)的接頭結(jié)合,DNA聚合酶也是從這段序列開始結(jié)合。每個(gè)循環(huán)過程中,四種單獨(dú)標(biāo)記的復(fù)合物和3'屏蔽的脫氧核糖核酸被添加進(jìn)反應(yīng)中。在延伸過程中每結(jié)合一個(gè)dNTP,其他沒有被結(jié)合的dNTPs被移除,并且獲取圖像來確定是那個(gè)堿基在某個(gè)簇中被結(jié)合。熒光基團(tuán)以及屏蔽基團(tuán)隨后被移除并且開始一輪新的反應(yīng)。
Illumina的CRT和其他平臺(tái)相比,代表了最大的測(cè)序平臺(tái)市場(chǎng)。Illumina短讀長(zhǎng)測(cè)序的設(shè)備可以從臺(tái)式的低通量單位到大型的超高通量,如應(yīng)用于全基因組關(guān)聯(lián)分析(whole-genome sequencing,WGS)。dNTPs是通過兩個(gè)或者四個(gè)激光通道來對(duì)熒光進(jìn)行分析的。在絕大多數(shù)Illumina平臺(tái)上,每種dNTP結(jié)合一種熒光基團(tuán),因此需要四種不同的激光通道。而NextSeq和Mini-Seq則使用的是雙熒光基團(tuán)系統(tǒng)。
圖3: SBS測(cè)序原理。
2012年,Qiagen獲得了Intelligent BioSystems CRT平臺(tái),并且在2015年將該平臺(tái)命名為GeneReader重新推出并且使之商業(yè)化22(圖3b)。與其他平臺(tái)不同的是,該平臺(tái)打算做一站式的NGS平臺(tái),從樣本制備到數(shù)據(jù)分析,全部一站式解決。為此,GeneReader系統(tǒng)整合了QIAcube樣本制備系統(tǒng)和Qiagen Clinical Insight平臺(tái)用于不同的數(shù)據(jù)分析。GeneReader平臺(tái)的技術(shù)原理與Illumina平臺(tái)基本一致。然而,該平臺(tái)并非讓每個(gè)DNA模板都去結(jié)合帶有熒光基團(tuán)的dNTPs23,而是只要足夠的dNTPs結(jié)合到模板上就可以完成鑒定。
邊合成邊測(cè)序:SNA(454,Ion Torrent)
與CRT不同的是,SNA方法依賴于單信號(hào)標(biāo)記dNTP來對(duì)鏈進(jìn)行延伸。四種核糖核酸都必須反復(fù)添加到測(cè)序反應(yīng)過程中。不僅如此,SNA不需要將dNTP屏蔽,因?yàn)闇y(cè)序反應(yīng)過程中下一個(gè)堿基的缺失會(huì)阻止鏈的延伸。堿基的寡聚體則是一個(gè)例外,在這種情況下,信號(hào)的強(qiáng)度會(huì)隨著dNTP數(shù)量的增加而成比例的增強(qiáng)。
第一個(gè)NGS儀器是454焦磷酸測(cè)序儀24。這種SNA系統(tǒng)將結(jié)合有模板的珠子以及酶混合物分配到PicoTiterPlate中。由于一個(gè)dNTP只能結(jié)合到一條鏈上,酶復(fù)合物會(huì)對(duì)其產(chǎn)生生物熒光。一個(gè)特定的珠子中的一個(gè)或多個(gè)dNTPs可以通過電荷共軛偶聯(lián)設(shè)備(charge-coupled device, CCD)檢測(cè)到的熒光來確認(rèn)(圖4a)。
Ion Torrent是第一個(gè)沒有光學(xué)感應(yīng)的NGS平臺(tái)25。與酶化學(xué)復(fù)合物產(chǎn)生的信號(hào)相比,Ion Torrent平臺(tái)檢測(cè)的是dNTP中釋放出來的H離子。pH值的改變通過(integrated complementary metal-oxide-semiconductor,CMOS)以及(ion-sensitive field-effect transistor,ISFET)來檢測(cè)(圖4b)。傳感器對(duì)pH的變化對(duì)于連續(xù)堿基的檢測(cè)還不夠完善,因此在測(cè)量同一堿基連續(xù)出現(xiàn)時(shí)的數(shù)量可能會(huì)有所誤差。
圖4: 邊合成邊測(cè)序:?jiǎn)魏颂呛怂崽砑臃ā?/p>
短讀長(zhǎng)平臺(tái)的比較
每個(gè)平臺(tái)在通量,成本,錯(cuò)誤率以及read結(jié)構(gòu)上都大相徑庭(表一)。盡管有多家NGS技術(shù)供應(yīng)商,NGS研究最常用的還是Illumina平臺(tái)21。盡管該平臺(tái)極為穩(wěn)定,數(shù)據(jù)可靠,但是基于其使用的單一測(cè)序的方法26-28,既然具有系統(tǒng)偏好性的問題。因此,新技術(shù)的發(fā)展使得研究人員能夠有完整的測(cè)序方案來獲得完整的序列信息。
SOLiD與Complete Genomics系統(tǒng)使用的SBL技術(shù)準(zhǔn)確率非常高(~99.999%)7,14,因?yàn)槊總€(gè)堿基都會(huì)被標(biāo)記多次。雖然這些技術(shù)非常準(zhǔn)確,但是在敏感性與特異性之間依然不能達(dá)到完美的平衡,當(dāng)一些錯(cuò)誤的堿基變化出現(xiàn)時(shí),真實(shí)的堿基變化可能被忽略29-31。該類技術(shù)在應(yīng)用上最大的限制可能就是其過短的讀長(zhǎng)。盡管所有的平臺(tái)都能產(chǎn)生單末端和雙末端的reads,SOLiD的最大讀長(zhǎng)只能達(dá)到75bp,Complete Genomics只能達(dá)到28-100bp33,使得其在基因組拼接和結(jié)構(gòu)變異研究中的可操作性大大降低。不幸的是,SOLiD系統(tǒng)不僅受制于運(yùn)行時(shí)間,還受制于其工業(yè)生產(chǎn)。另外,盡管cPAL計(jì)劃準(zhǔn)備在成本和通量上和Illumina競(jìng)爭(zhēng),卻在2016年被迫下馬,該技術(shù)僅在人類WGS中有所應(yīng)用33,34。cPAS的BGISEQ-500系統(tǒng)則受制于中國大陸政府。
Illumina由于其技術(shù)成熟,平臺(tái)之間高度互補(bǔ)性與交叉性,使得其在短讀長(zhǎng)測(cè)序上大占優(yōu)勢(shì)。Illumina的產(chǎn)品覆蓋了從低通量的Mini-Seq到超高通量的HiSeq X系列,其中HiSeq X系列最多可以在一年內(nèi)產(chǎn)生1800多個(gè)30×覆蓋度的人類基因組數(shù)據(jù)量。此外,其運(yùn)行時(shí)間,read結(jié)構(gòu)以及read長(zhǎng)度(最大300bp)都在不停的改進(jìn)。但是,作為一個(gè)依賴于CRT技術(shù)的Illumina平臺(tái),相對(duì)于SNA平臺(tái)的優(yōu)勢(shì)在于其在讀取核糖核酸多聚體(同一種核糖核酸多次出現(xiàn))時(shí)較低的錯(cuò)誤率。盡管SNA平臺(tái)總體上的準(zhǔn)確率可以達(dá)到99.5%35,但是在讀取那些高AT富集或者高GC富集的片段的時(shí)候錯(cuò)誤率差強(qiáng)人意32,37,38。在2008年,據(jù)Bentley等報(bào)道,Illumina平臺(tái)鑒定到的人類單核糖核酸多態(tài)性(SNPs)與基因芯片鑒定的SNPs具有驚人的一致性35。但是,這種高度的敏感性也隨之帶來了2.5%左右的錯(cuò)誤率。因此,其他小組計(jì)劃使用Sanger測(cè)序來對(duì)鑒定到的SNPs進(jìn)行重新測(cè)序以便區(qū)分測(cè)序錯(cuò)誤導(dǎo)致的SNPs與真實(shí)的基因突變導(dǎo)致的
SNPs35,39,40。在對(duì)所有的可能性都進(jìn)行優(yōu)化之后,Illumina平臺(tái)被大量的研究人員認(rèn)可,在大量的領(lǐng)域中均有涉及:WGS的基因組測(cè)序與外顯子測(cè)序;遺傳學(xué)應(yīng)用如染色質(zhì)免疫共沉淀――測(cè)序(chromatin immunoprecipitation followed by sequencing)41;ATAC-Seq(transposase-accessible chromatin using sequencing)42或者DNA甲基化測(cè)序(Methyl-Seq)43;RNA轉(zhuǎn)錄組測(cè)序(transcriptomics applications through RNA sequencing, RNA-seq)44等等。NextSeq與MiniDeq平臺(tái)使用的雙色標(biāo)記系統(tǒng)通過降低雙色通道的掃描與熒光基團(tuán)的使用達(dá)到成本并且增加測(cè)序速度。然而,雙通道系統(tǒng)卻會(huì)略微增加測(cè)序的錯(cuò)誤率45。HiSeq X是目前最高通量的儀器,但其由于通量過大,因此只在部分應(yīng)用上得以使用,如WGS與全基因組甲基化測(cè)序。不僅如此,HiSeq X更大的局限在于其高昂的成本,以至于超過了絕大多數(shù)單位的可接受程度。
Qiagen的GeneReader是專為臨床診斷設(shè)計(jì)的,其主要關(guān)注點(diǎn)在腫瘤基因panels46上,也因此其局限性較大。根據(jù)對(duì)其運(yùn)行時(shí)間與功能的分析,GeneReader與Illumina的MiSeq較為相似46。盡管還沒有使用數(shù)據(jù),但是GeneReader和MiSeq平臺(tái)有相同的優(yōu)缺點(diǎn)。
454平臺(tái)和Ion Torrent平臺(tái)相比于其他的短讀長(zhǎng)平臺(tái)而言,能夠提供較長(zhǎng)的read讀長(zhǎng),分別大約在700bp與400bp,因此在基因組結(jié)構(gòu)較為復(fù)雜的研究上應(yīng)用較多。然而,由于同樣都是基于SNA技術(shù),它們都擁有相同的缺點(diǎn)。雖然,其在非堿基多聚體(non-homopolymer)的測(cè)序上正確率與其它NGS平臺(tái)相差無幾,但其插入與缺失(Insertion and deletion,indel)是最大的問題。同一堿基的多聚體是該類技術(shù)最大的問題所在。有報(bào)道,對(duì)同一堿基的多聚體的測(cè)序誤差能夠達(dá)到6-8個(gè)堿基之多47,48。不幸的是,盡管Ion Torrent依然在緊跟快速進(jìn)化的NGS平臺(tái)的步伐,454平臺(tái)卻由于成本與應(yīng)用范圍過于狹小卻已經(jīng)被羅氏公司停產(chǎn)。
Ion Torrent平臺(tái)為不同的研究人員的不同需求提供了不同的芯片與設(shè)備,通量從50Mb到15Gb不等,運(yùn)行時(shí)間也從2小時(shí)到7小時(shí)不等。這一點(diǎn)使得其幾乎是所有目前的二代測(cè)序平臺(tái)中最快的一個(gè)。這也使得其在基因panel與精準(zhǔn)臨床診斷上大有優(yōu)勢(shì)50,包括轉(zhuǎn)錄組與可變剪切鑒定51。Ion Torrent先后發(fā)布Ion Personal Genome Machine (PGM) Dx與Ion S5系列希望于在臨床診斷上打開疆土。與Ion Chef文庫制備試劑盒和芯片上樣設(shè)備結(jié)合使用,S5系列希望能夠成為最方便操作的設(shè)備,消除其它Ion Torrent設(shè)備對(duì)氬的依賴。但是,其最大的缺點(diǎn)在于Ion PGM Dx系統(tǒng)可以進(jìn)行雙向測(cè)序,更高通量的Ion Proton與S5系統(tǒng)卻并不支持雙向測(cè)序,也因此限制了其在大范圍基因組測(cè)序與轉(zhuǎn)錄組結(jié)構(gòu)上的應(yīng)用。
長(zhǎng)讀長(zhǎng)(read)的NGS測(cè)序
綜述
基因組是一個(gè)復(fù)雜的復(fù)合物,其中包含了多種重復(fù)序列,拷貝數(shù)變化,結(jié)構(gòu)變異。這些與進(jìn)化,適應(yīng)以及疾病密切相關(guān)54-56。然而,許多復(fù)合物元件由于過長(zhǎng),導(dǎo)致短讀長(zhǎng)測(cè)序并不能夠完美的對(duì)其進(jìn)行測(cè)序。長(zhǎng)讀長(zhǎng)測(cè)序的reads可以達(dá)到幾千個(gè)堿基,這使得可以對(duì)大的結(jié)構(gòu)進(jìn)行功能解析。此類的長(zhǎng)讀長(zhǎng)測(cè)序產(chǎn)生的單一長(zhǎng)序列可以跨越復(fù)合物或者重復(fù)序列。長(zhǎng)讀長(zhǎng)測(cè)序在轉(zhuǎn)錄組測(cè)序過程中也大有益處,因?yàn)殚L(zhǎng)讀長(zhǎng)的reads可以跨越完整的mRNA的轉(zhuǎn)錄本而不需要拼接。這可以使得研究人員可以鑒定到更多的基因亞型等。
最近,人們開發(fā)出了兩種長(zhǎng)讀長(zhǎng)測(cè)序的實(shí)驗(yàn)方案,分別是:?jiǎn)畏肿訉?shí)時(shí)測(cè)序(single-molecule real-time sequencing )以及依賴于已有短讀長(zhǎng)技術(shù)體外構(gòu)建長(zhǎng)讀長(zhǎng)的合成法。單分子法與短讀長(zhǎng)測(cè)序完全不同,因?yàn)閱畏肿臃ú恍枰獙?duì)模板進(jìn)行擴(kuò)增來產(chǎn)生足夠測(cè)序儀讀取的信號(hào),也不需要輪番添加dNTP。而合成法并非產(chǎn)生原始的長(zhǎng)讀長(zhǎng)的reads,而是通過利用barcodes來進(jìn)行拼接獲得長(zhǎng)片段。
表一:NGS平臺(tái)概述。
單分子長(zhǎng)讀長(zhǎng)測(cè)序(PacBio和ONT)
最近這段時(shí)間,最常用的長(zhǎng)讀長(zhǎng)測(cè)序法平臺(tái)就是使用PacBio Biosciences(PacBio)57的單分子實(shí)時(shí)測(cè)序法(single-molecule real-time sequencing, SMRT)(圖5a)。該設(shè)備使用了一個(gè)特制的流動(dòng)單元,其中包含了成千上萬的單獨(dú)的底部透明的皮升孔(picolitre wells)――zero-mode waveguides(ZMW)58。短讀長(zhǎng)SBS技術(shù)需要使得聚合酶結(jié)合DNA,沿著DNA進(jìn)行擴(kuò)增,而PacBio則固定聚合酶在空的底部,讓DNA鏈通過ZMW。由于有聚合酶有固定的位置,因此該系統(tǒng)可以對(duì)單分子DNA進(jìn)行測(cè)序。dNTP結(jié)合在每個(gè)孔的單分子模板上,通過激光或者成像設(shè)備記錄ZMW底部標(biāo)記在核糖核酸上的發(fā)射波長(zhǎng)的顏色與持續(xù)時(shí)間來進(jìn)行序列的讀取。聚合酶在結(jié)合dNTPs的過程中,切割dNTP結(jié)合的熒光基團(tuán),使得熒光基團(tuán)在第二個(gè)標(biāo)記的堿基進(jìn)入ZMW前將前一個(gè)熒光基團(tuán)去除。SMRT平臺(tái)也使用了獨(dú)特的環(huán)狀模板,這種方式的模板可以使得聚合酶反復(fù)讀取模板的序列。盡管這種方法不太容易對(duì)長(zhǎng)度大于3kb的片段反復(fù)讀取,但是短的模板卻可以反復(fù)讀取多次57,59。由于多次讀取同一序列,因此系統(tǒng)會(huì)產(chǎn)生多次測(cè)序后的保守序列(consensus sequence, CCS)。
?
2014年,第一個(gè)消費(fèi)級(jí)別的nanopore測(cè)序儀的原型機(jī)――MinION在Oxford Nanopore Technologies(ONT)誕生。與其他平臺(tái)不同的是,nanopore測(cè)序儀并不監(jiān)測(cè)模板DNA結(jié)合或雜交的核糖核酸。其它平臺(tái)通過監(jiān)測(cè)次級(jí)信號(hào),光,顏色或pH等來進(jìn)行堿基序列的讀取,二nanopore則直接對(duì)天然的ssDNA分子進(jìn)行讀取。為達(dá)成此,DNA需要通過一個(gè)蛋白孔(protein pore)(圖5b),孔也會(huì)因?yàn)镈NA分子的通過導(dǎo)致的電壓阻塞(voltage blockade)的發(fā)生。對(duì)這些電荷瞬時(shí)的追蹤稱為squiggle space,特定DNA序列通過孔會(huì)產(chǎn)生特定的電壓改變,這被稱為k-mer。相比于1-4種可能的信號(hào),nanopore擁有1000多種可能的k-mer,尤其是當(dāng)天然DNA序列中存在修飾的堿基的時(shí)候。最近的MK1 MinION流動(dòng)單元由特殊應(yīng)用的芯片組成,包涵了512個(gè)獨(dú)立的通道,每秒可以讀取70bp長(zhǎng)度,到2016年預(yù)計(jì)能夠增加到500bp/秒。新推出的PromethION設(shè)備是包含了48個(gè)獨(dú)立流動(dòng)單元的高通量平臺(tái)。該項(xiàng)工作最多可以在2天內(nèi)輸出~2-4Tb的數(shù)據(jù)量,這使可能其成為HiSeq X系列的強(qiáng)力競(jìng)爭(zhēng)者。與PacBio的環(huán)狀模板類似的是,ONT MinION使用一個(gè)leader-harpin library結(jié)構(gòu)。這使得正向DNA鏈可以通過孔,接著harpin蛋白結(jié)合雙鏈,最后是反義鏈。這產(chǎn)生了1D和2D reads,1D鏈可以通過比對(duì)產(chǎn)生一個(gè)保守的2D read。
圖5: 長(zhǎng)讀長(zhǎng)實(shí)時(shí)測(cè)序原理。
長(zhǎng)reads的合成
與真正測(cè)序的平臺(tái)不同的是,合成長(zhǎng)讀長(zhǎng)技術(shù)依賴于一個(gè)barcode系統(tǒng)來結(jié)合不同的片段,通過已有的短讀長(zhǎng)測(cè)序儀來獲得長(zhǎng)讀長(zhǎng)reads61。該方法將大的DNA分子分割成若干個(gè)小片段到微孔中或者乳液中。每個(gè)微孔或者乳液中的模板被切割并且加上了barcodes。這種方法允許在短讀長(zhǎng)測(cè)序儀上使用,測(cè)序后數(shù)據(jù)被通過barcode分開按照barcodes的序列進(jìn)行拼接62。
合成法有兩個(gè)系統(tǒng):Illumina長(zhǎng)片段合成平臺(tái)(圖5c)與10X Genomics乳液系統(tǒng)(圖5d)。Illumina系統(tǒng)(Moleculo)分割DNA到小板上而不需要特殊儀器。然而,10X Genomics乳液系統(tǒng)(GemCode與Chromium)使用乳液分隔DNA并且需要微流體平臺(tái)(microfluidic instrument)來進(jìn)行測(cè)序前的準(zhǔn)備工作。在其實(shí)濃度低至1ng的情況下,10X Genomics乳液系統(tǒng)可以任意切割長(zhǎng)的DNA片段(最大達(dá)到100kb)到微粒(GEM)中,這種威力一般包含了≤0.3× 的基因組以及一個(gè)獨(dú)特的barcode。
單分子測(cè)序與合成法測(cè)序的比較
人們對(duì)長(zhǎng)讀長(zhǎng)測(cè)序越來越感興趣,每個(gè)系統(tǒng)都有其優(yōu)劣(表一)。最近長(zhǎng)讀長(zhǎng)測(cè)序最受歡迎的是PacBioRS II。該設(shè)備可以產(chǎn)生超過50kb長(zhǎng)度的單個(gè)read,長(zhǎng)鏈建庫測(cè)序平均長(zhǎng)度為10-15kb。這種特性使得在基因組拼接與大范圍基因組結(jié)構(gòu)的應(yīng)用中大有好處63,64。但是,長(zhǎng)鏈的單個(gè)堿基錯(cuò)誤率在15%左右65,使得人們對(duì)該儀器的使用有所顧慮66。不幸的是,這些錯(cuò)誤隨機(jī)分布每個(gè)reads,也因此必須有足夠高的覆蓋度來消除單個(gè)堿基錯(cuò)誤率的負(fù)面影響67。
PacBio的環(huán)狀模板有時(shí)候也會(huì)出現(xiàn)錯(cuò)誤。單個(gè)堿基測(cè)序次數(shù)越多,結(jié)果就越可靠,其最高準(zhǔn)確率達(dá)到99.999%59,68。其高準(zhǔn)確率與Sanger測(cè)序相似,使得該方法與Sanger測(cè)序一道成為SNPs的研究方法65。該設(shè)備的運(yùn)行時(shí)間與通量受測(cè)序讀長(zhǎng)的影響,長(zhǎng)的模板需要更長(zhǎng)的時(shí)間。舉例來說,1kb的庫運(yùn)行1小時(shí)測(cè)序每個(gè)分子可以產(chǎn)生7500個(gè)堿基,平均大約重復(fù)8次;而運(yùn)行4小時(shí)每個(gè)分子可以產(chǎn)生大約30000個(gè)堿基(大約重復(fù)30次)。相反的是,10kb的庫運(yùn)行4小時(shí)產(chǎn)生30000個(gè)堿基只能重復(fù)3次左右。通量的限制以及高企的成本(1000美元/G),加上較高的覆蓋度使得PacBio RS II成為那些較小的實(shí)驗(yàn)室難以應(yīng)用的技術(shù)。然而,考慮到這些問題,PacBio推出了Sequel系統(tǒng),其通量與RS II相比高出了7倍,使得30×覆蓋度的人類基因組測(cè)序成本大幅下降一半69。
ONT MinION是一個(gè)小的(~3 cm× 10 cm)USB設(shè)備,并且可以在個(gè)人電腦上運(yùn)行,使得其成為最小的測(cè)序平臺(tái)。這使得MinION具有極高的便攜性,并且在臨床診斷中以及那些不容易到達(dá)的地方有著廣泛的應(yīng)用前景。盡管周邊設(shè)備依然只有在實(shí)驗(yàn)室中才有,如文庫準(zhǔn)備的恒溫器,這依然可以大幅減少設(shè)備空間。與其他平臺(tái)不同,MinION在片段大小上是有限制的。理論上來講,任意大小的DNA分子都可以在該設(shè)備上測(cè)序,但是實(shí)際情況是在對(duì)長(zhǎng)片段進(jìn)行測(cè)序過程中,是有所制約的70。作為ONT技術(shù)本身的特性,ONT擁有超過1000種獨(dú)立的信號(hào),這使得ONT擁有巨大的錯(cuò)誤率――1D read大約在30%左右(主要是indel)。有效的對(duì)核糖核酸復(fù)合物的測(cè)序也是ONT MinION面臨的一大問題。當(dāng)核糖核酸復(fù)合物超過k-mer長(zhǎng)度,就很難準(zhǔn)確鑒定前一個(gè)k-mer何時(shí)離開孔而下一個(gè)k-mer何時(shí)進(jìn)入孔。因?yàn)樾揎椀膲A基會(huì)改變?cè)械膋-mer設(shè)定的電壓變化,所以堿基的修飾對(duì)MinION而言同樣也是一大挑戰(zhàn)。幸運(yùn)的是,最近的一系列的對(duì)試劑以及算法的改進(jìn)使得其準(zhǔn)確率提高不少71。
應(yīng)用
WGS正在成為NGS中最廣泛的應(yīng)用。通過該技術(shù)并且結(jié)合生物學(xué)應(yīng)用,研究人員可以獲得基因組信息中最值得注意的信息73。舉例來說,2012年,Ellis等報(bào)道了基因與乳腺癌患者芳香酶抑制劑(aromatase inhibitor)治療法之間的關(guān)聯(lián)。他們指出突變,后果與診斷之間的關(guān)聯(lián),同樣還有癌癥相關(guān)基因的突變的富集。這提供了一個(gè)可能性,即:乳腺癌有不同的突變?cè)斐刹煌谋硇?,具有?fù)雜的病理學(xué)75。最近的NGS平臺(tái)的改進(jìn)使得研究人員發(fā)現(xiàn)了一些幾年前難以想象的新觀點(diǎn)與機(jī)會(huì)。在2010年,1000基因組計(jì)劃(1000 genomes project)開放了其從179個(gè)個(gè)體中獲得的WGS原始數(shù)據(jù)以及697個(gè)個(gè)體的測(cè)序數(shù)據(jù)76。到2015年,研究人員已經(jīng)構(gòu)建了26個(gè)不同人群的2504個(gè)人的基因組群體77,78。給人們從種群的角度來觀察人類的變異。但這還不是該項(xiàng)目的終點(diǎn),越來越多的人的基因組正在被得以測(cè)序79-81。種群水平的測(cè)序已經(jīng)成為人們更好的理解人類疾病的一個(gè)重要的工具,同樣也得到了意想不到的結(jié)果。一個(gè)例子是,Sidore等82對(duì)2120個(gè)撒丁島人(Sardinians)的WGS研究發(fā)現(xiàn)了一些新的和脂肪相關(guān)的基因以及炎癥的標(biāo)志物,給人們對(duì)血液膽固醇的分子機(jī)制的研究提供了新思路。
全外顯子組測(cè)序(Whole-exome and targeted sequencing)83同樣也廣泛應(yīng)用于測(cè)序的研究中。受制于基因組材料大小的局限,很更多的個(gè)人樣本可以在一個(gè)測(cè)序中實(shí)現(xiàn),增加了基因組研究的寬度以及深度。使用外顯子測(cè)序,Iossifov84等對(duì)超過2500個(gè)單一的家庭進(jìn)行測(cè)序,每個(gè)家庭都有一個(gè)小孩患有自閉癥(autism spectrum disorder, ASD)。研究人員在30%的樣本中發(fā)現(xiàn)了錯(cuò)意突變(missense mutations),基因干擾的突變(gene-disrupting mutations)以及拷貝數(shù)的變異。該工作與其他的工作一道鑒定到了ASD相關(guān)的基因突變85,86。其他證據(jù)表明,高覆蓋度的WGS也可以解決復(fù)雜的變異以及臨床樣本的分析。2015年,Griffith等認(rèn)為可以使用一個(gè)完美的跨平臺(tái)的方法(包含靶向測(cè)序)來鑒定腫瘤中高可信度的SNPs。該方法中,作者認(rèn)為10000×的覆蓋度可以鑒定到稀有突變。由于10000×的覆蓋度對(duì)于WGS而言實(shí)在過高,靶向測(cè)序便在臨床中得到了廣泛的應(yīng)用。
?NGS同樣在基因的調(diào)控研究中有廣泛的應(yīng)用。蛋白-DNA互作可以通過染色質(zhì)免疫共沉淀結(jié)合NGS測(cè)序(ChIP-seq)來得以研究41。利用NGS對(duì)修飾堿基的研究也是可行的。舉例來說,甲基化測(cè)序包含了甲基化DNA的捕獲與富集88,對(duì)甲基化與非甲基化區(qū)段的選擇性消化89,90,91。但是,盡管利用此方法獲得了很多重大的發(fā)現(xiàn),修飾與捕獲過程成為其最大的限制。2010年,F(xiàn)lusberg等92發(fā)表了一個(gè)概念性的研究方法,即:使用PacBio來區(qū)分甲基化與非甲基化的堿基。由于聚合酶即便是甲基化的堿基也能夠延伸,但在甲基化位點(diǎn)上會(huì)停留更多的時(shí)間,因此這里改變的信號(hào)可以認(rèn)為含有甲基化修飾。與之相同的是,nanopore平臺(tái)也能夠監(jiān)測(cè)修飾的堿基,因?yàn)榧谆瑯訒?huì)影響鑒定到的電壓的變化。這使得甲基化的測(cè)序可以在不需要化學(xué)操作的條件下進(jìn)行93。
一個(gè)最近的NGS的范例是對(duì)長(zhǎng)鏈DNA的測(cè)序。重復(fù)序列以及復(fù)合序列長(zhǎng)久以來較難以拼接,短讀長(zhǎng)測(cè)序很難解決這個(gè)問題94-96。最近,Chaisson等97對(duì)長(zhǎng)讀長(zhǎng)測(cè)序的使用使得其能夠在人類GRCh37數(shù)據(jù)庫中提交超過1Mb的新的序列,這些序列彌補(bǔ)甚至跨越了曾經(jīng)的溝。Chaisson等還鑒定到了大于26000個(gè)超過50bp的indels,也因此,GRCh37數(shù)據(jù)庫成為最有參考價(jià)值的幾個(gè)基因組之一。除了簡(jiǎn)單的增加基因組數(shù)據(jù)可靠性之外,長(zhǎng)讀長(zhǎng)還能夠提供更有效的臨床診斷98-100。
在對(duì)轉(zhuǎn)錄水平上的研究也因?yàn)镹GS受益匪淺。今天,研究人員甚至能夠使用NGS的深度測(cè)序?qū)蝹€(gè)轉(zhuǎn)錄本進(jìn)行研究。2014年,Treutlein等101使用了組織發(fā)育過程中不同細(xì)胞類群的單細(xì)胞RNA測(cè)序發(fā)現(xiàn)了用于鑒定細(xì)胞亞群的標(biāo)志物。盡管長(zhǎng)讀長(zhǎng)測(cè)序相對(duì)而言在對(duì)轉(zhuǎn)錄本的定量上不占優(yōu)勢(shì),但是,長(zhǎng)讀長(zhǎng)可以在研究轉(zhuǎn)錄組的結(jié)構(gòu)上有所幫助51。舉例來說,最近的人類長(zhǎng)讀長(zhǎng)轉(zhuǎn)錄組測(cè)序研究表明 10%的reads是新的可變剪切體102。
?NGS最新的設(shè)備――nanopore測(cè)序儀,依然在尋找其定位的過程中。然而,研究人員正在將其快速的文庫制備,實(shí)時(shí)的數(shù)據(jù)生產(chǎn)以及小的體積的優(yōu)勢(shì)轉(zhuǎn)變?yōu)橘Y本過程中。最近,英國Stanley Royd Hospital的研究人員使用MinION用于監(jiān)測(cè)沙門氏菌(Salmonella enterica)的爆發(fā)103。MinION測(cè)序儀最令人振奮的應(yīng)用可能就是2014年的埃博拉病毒爆發(fā)104。在位于日內(nèi)瓦的歐洲移動(dòng)實(shí)驗(yàn)室的主持下,作者對(duì)埃博拉病毒的傳播以及進(jìn)化歷史進(jìn)行了深入的研究。
結(jié)尾
我們正處在新的NGS技術(shù)革命的頂端。NGS現(xiàn)在已經(jīng)不僅僅只是一個(gè)新奇的事物,而已經(jīng)成為了一個(gè)在生物學(xué)研究中廣泛應(yīng)用的技術(shù)。最新的超高通量測(cè)序儀已經(jīng)將曾經(jīng)認(rèn)為不可能的事情成為可能。這包含了首創(chuàng)的精準(zhǔn)醫(yī)療(medicine initiatives)以及Illumina計(jì)劃的對(duì)循環(huán)腫瘤DNA(circulating tumour DNA, ctDNA)進(jìn)行測(cè)序。每個(gè)計(jì)劃都對(duì)數(shù)萬個(gè)基因組樣本進(jìn)行測(cè)序。所以,快速以及低成本的測(cè)序給予了內(nèi)科醫(yī)生強(qiáng)大的工具來翻譯基因組信息成為有用的臨床診斷結(jié)果。
這個(gè)革命也帶來了新的挑戰(zhàn)。由于NGS旨在廣泛的應(yīng)用于臨床,時(shí)間就成為一個(gè)NGS首先需要面對(duì)的挑戰(zhàn)。對(duì)于那些嚴(yán)重的神經(jīng)性疾病或者極為危險(xiǎn)的癌癥患者而言,數(shù)周的WGS分析的等待時(shí)間足以使的患者錯(cuò)過最佳的治療時(shí)間。對(duì)于急性感染而言,這些事件已經(jīng)下降到幾天。盡管人們已經(jīng)對(duì)時(shí)間做出了巨大的改進(jìn),但是絕大多數(shù)現(xiàn)有的系統(tǒng)都不能完全滿足快速模式下的足夠產(chǎn)出。
雖然臨床診斷面臨著數(shù)據(jù)量不夠的問題,NGS其他方面的應(yīng)用卻面臨著生產(chǎn)力過剩的境地。目前,已有超過14000個(gè)基因組序列上傳到US National Center for Biotechnology Information(NCBI)中。2013年,Schatz與Langmead報(bào)道了全世界每年可以生產(chǎn)超過15pb的數(shù)據(jù)量,并且數(shù)量與通量依然在繼續(xù)增加107。數(shù)據(jù)量的富余對(duì)分析以及其下游提出了嚴(yán)峻的挑戰(zhàn),這需要革命性的存儲(chǔ)與生信解決方案108。將海量的數(shù)據(jù)量翻譯成有生物學(xué)與遺傳學(xué)內(nèi)涵的結(jié)果同樣也是一個(gè)挑戰(zhàn)87,109,110。在臨床診斷方面,通過NGS分析的數(shù)據(jù)產(chǎn)生的假陽性或者假陰性同樣也是需要慎重考慮的問題111,112。
最近,Illumina由于NGS與其周邊產(chǎn)品獲得了巨大的成功。其它生產(chǎn)商也在快速革新自身的產(chǎn)品113。Illumina的市場(chǎng)仍然在增長(zhǎng),以至于優(yōu)勢(shì)巨大。BGISEQ-500以及Helicos technology的GenoCare114在亞洲也有所斬獲。ONT PromethION115與Illumina HiSeq X系列則向著成本與產(chǎn)量的極限大步邁進(jìn)。隨著人們對(duì)臨床診斷測(cè)序興趣的增加,已有的NGS供應(yīng)商正在提供各種快速的解決方案,如Ion Torrent S5以及Illumina的MiniSeq,還有新加入者Qiagen的GeneReader也來參與競(jìng)爭(zhēng)。
今后的幾年里,更多的玩家也會(huì)帶著心得解決方案進(jìn)入這個(gè)市場(chǎng)。GenapSys (Sigma-Aldrich)的electronic ‘lunchbox’-sized sequencer116; Genia (Roche)的新的nanopore測(cè)序方案117; 以及單通道CMOS技術(shù)118,都號(hào)稱能夠在臨床應(yīng)用上節(jié)約足夠的時(shí)間。這些已有的和新的攪局者都有著科技革命的潛質(zhì),包括直接對(duì)RNA或者蛋白進(jìn)行測(cè)序等,這些最近和未來的進(jìn)步使得今天成為NGS發(fā)展的黃金時(shí)期。
參考文獻(xiàn)
1. Watson, J. D. Crick, F. H. The structure of DNA. Cold Spring Harb. Symp. Quant. Biol. 18, 123
生物芯片 生物芯片處理 試管和離心管 其他實(shí)驗(yàn)耗材 分子生物學(xué)試劑 該公司服務(wù)分類 芯片與生物信息學(xué) 轉(zhuǎn)基因 免疫與抗體 分子與細(xì)胞 其他生物研發(fā) 測(cè)序/合成