基因測(cè)序作為醫(yī)療健康行業(yè)的火爆技術(shù),近年來越來越得到臨床的認(rèn)可,并逐步被應(yīng)用到各大領(lǐng)域中。尤其是精準(zhǔn)醫(yī)療概念提出以后,基因測(cè)序更是備受青睞,它為精準(zhǔn)醫(yī)療解答了很多未知的問題。
如今,基因測(cè)序已經(jīng)形成了一定的產(chǎn)業(yè)規(guī)模,大量的企業(yè)以不同形式躋身進(jìn)來。但是,在表面飛速發(fā)展的背后,技術(shù)上仍有大量的挑戰(zhàn)。外媒《GEN》ShawnC.Baker博士撰文講解該領(lǐng)域面臨的困難與挑戰(zhàn)。編譯如下:
過去十年里,高通量測(cè)序技術(shù)經(jīng)歷了跨越式的發(fā)展,測(cè)序能力大幅上升,費(fèi)用下降,兩者的變化都是數(shù)量級(jí)的。到目前為止,全球范圍內(nèi),共配備測(cè)序設(shè)備超過一萬臺(tái)。
過去十幾年來,主要的平臺(tái)公司都致力于提升系統(tǒng)的易用性。Illumina的最新桌面系統(tǒng),比如NextSeq、MiSeq、和MiniSeq系統(tǒng),均通過試劑盒進(jìn)行操作,以減少了手工操作的次數(shù)和開機(jī)時(shí)間。
一直以來,Illumina的系統(tǒng)都比賽默飛的IonTorrent系統(tǒng)更加易用,但后者最新的系統(tǒng)IonS5特別設(shè)計(jì)簡化了整個(gè)工作流程,涉及設(shè)計(jì)準(zhǔn)備庫到數(shù)據(jù)生成的整個(gè)流程。
行業(yè)外讀者在聽聞了測(cè)序行業(yè)的許多進(jìn)展后,如強(qiáng)大的測(cè)序能力、更低的成本以及更好的易用性,可能會(huì)誤認(rèn)為,基因測(cè)序所有的困難已經(jīng)都解決了,測(cè)序過程的所有障礙都移除了。
但是真正的困難還剛開始,大量的挑戰(zhàn)在前方。
樣品質(zhì)量
問題最嚴(yán)重的一個(gè)領(lǐng)域,也是易被忽略的是:樣品質(zhì)量,雖然測(cè)試平臺(tái)經(jīng)常會(huì)校準(zhǔn),使用的樣本也是經(jīng)過校準(zhǔn)的,但是真實(shí)世界中的樣本經(jīng)常會(huì)面臨很多意想不到的挑戰(zhàn)。
在人類基因測(cè)序中,一個(gè)最普遍使用的樣本類型是FFPE(formalin-fixedparaffin-embedded)。FFPE的廣泛應(yīng)用有多種原因,其中最重要的是豐富性。據(jù)估計(jì),全球范圍內(nèi),有超過100億FFPE樣本存檔。FFPE塊的臨床樣本存儲(chǔ)已經(jīng)變成工業(yè)級(jí)別的標(biāo)準(zhǔn)實(shí)踐,其樣本數(shù)量將繼續(xù)保持增長。
除全球范圍的廣泛應(yīng)用外,F(xiàn)FPE樣本通常包含著大量可用的表型信息。例如,F(xiàn)FPE樣本可與治療方法和臨床數(shù)據(jù)綜合應(yīng)用。
但FFPE樣本出現(xiàn)的問題是:固定過程和存儲(chǔ)條件均會(huì)造成大量的DNA損傷。
BioCule公司CEO、聯(lián)合創(chuàng)始人HansG.Thormar博士認(rèn)為,
“評(píng)估了BioCule的QC平臺(tái)超過1000份樣本后,我們看到了DNA樣品中大量的變異和各種類型的損傷,例如鏈間、鏈內(nèi)交聯(lián),單鏈DNA的聚合以及單鏈DNA破壞。”
“DNA損傷的變異數(shù)量和類型,如果忽略,可能會(huì)對(duì)最終結(jié)果產(chǎn)生負(fù)面影響。”
Thormar認(rèn)為,這對(duì)下游應(yīng)用比如測(cè)序的影響是巨大的:從簡單測(cè)序文庫構(gòu)建的失敗到虛假文庫的產(chǎn)生,最終導(dǎo)致結(jié)果的錯(cuò)誤。因此,在測(cè)序項(xiàng)目開始時(shí)正確評(píng)估每個(gè)樣本的質(zhì)量變得至關(guān)重要。
測(cè)序文庫
盡管,各大測(cè)序平臺(tái)公司花大力氣在降低生成原始序列的成本上,但是在構(gòu)建測(cè)序庫方面卻不然。人類基因測(cè)序的測(cè)序文庫的構(gòu)建,每個(gè)樣本大約花費(fèi)50美元,在總花銷中是相對(duì)較小的一部分。但是在其他應(yīng)用中,例如細(xì)菌基因組測(cè)序或低深度RNA測(cè)序,它占據(jù)總成本很大一部分。
幾個(gè)小組研究了多元化自制解決方案,期望可以有效降低成本,但在商業(yè)領(lǐng)域并沒有太多發(fā)展。在開發(fā)單細(xì)胞測(cè)序解決方案中有一個(gè)亮點(diǎn),例如10XGenomics公司的Chromium(TM)系統(tǒng),利用基于珠的系統(tǒng)可以并行處理數(shù)百到數(shù)萬個(gè)樣品。
10XGenomics公司的CEO兼聯(lián)合創(chuàng)始人SergeSaxonov博士堅(jiān)持道,
我們認(rèn)為單細(xì)胞RNA測(cè)序是進(jìn)行基因表達(dá)分析的正確方式,在接下來的幾年,全球許多地區(qū),RNA試驗(yàn)將轉(zhuǎn)向單細(xì)胞分辨率,我們的平臺(tái)有可能在這方面引領(lǐng)浪潮。
對(duì)于大型項(xiàng)目,比如在降低樣品成本方面,單細(xì)胞RNA測(cè)序中要求的高度多元解決方案將是關(guān)鍵的因素。
長讀數(shù)與短讀數(shù)
Illumina對(duì)于基因測(cè)序市場的主導(dǎo),意味著到目前為止產(chǎn)生的絕大多數(shù)數(shù)據(jù)都基于短讀數(shù)(shortreads,高通量測(cè)序平臺(tái)產(chǎn)生的序列就稱為reads,這是測(cè)序讀到的堿基序列片段,測(cè)序的最小單位)。大量短讀數(shù)的產(chǎn)生對(duì)大多數(shù)的應(yīng)用都很適用。例如檢測(cè)基因組DNA的單核苷酸多態(tài)性和計(jì)數(shù)RNA的轉(zhuǎn)錄物。然而,在許多其他的應(yīng)用中,僅有短讀數(shù)是不夠的,例如閱讀基因組的高度重復(fù)區(qū)域和確定長鏈結(jié)構(gòu)。
長讀數(shù)平臺(tái),例如PacificBiosciences公司的RSII和Sequel,OxfordNanopore的MinION,通常能生成15-20kb范圍長度的讀數(shù),最高曾報(bào)道過超過100kb長度的讀數(shù)。這樣的平臺(tái)贏得科學(xué)界的贊賞,例如加利福尼亞大學(xué)戴維斯分校細(xì)胞生物學(xué)教授CharlesGasser博士。
Gasser博士評(píng)論道,“我對(duì)于用長讀數(shù)方法進(jìn)行基因組裝配的成功印象深刻,特別是與短讀數(shù)高保真數(shù)據(jù)相結(jié)合時(shí)的混合裝配中。技術(shù)的結(jié)合使得小群體、小預(yù)算的單個(gè)研究者從一個(gè)新的生物基因組中產(chǎn)生一個(gè)可用的組裝。”
為了充分利用這些長讀數(shù)平臺(tái),有必要通過新方法進(jìn)行制備DNA樣品,標(biāo)準(zhǔn)分子生物學(xué)方法尚未優(yōu)化用來分離超長鏈DNA片段,所以,在制備長讀數(shù)庫時(shí)必須特別小心。
例如,供應(yīng)商創(chuàng)建了一種高分子量試劑盒用于分離大于100kb的的DNA片段,優(yōu)化靶向DNA方案來選擇性富集DNA的大片段,為了保證長讀數(shù)產(chǎn)量的最大化,這些方法和技術(shù)必須掌握。
短讀數(shù)的一種特殊形式是鏈接讀數(shù),例如10XGenomics,可作為真正長讀數(shù)的一種替代方法。鏈接讀數(shù)是這樣產(chǎn)生的:每個(gè)長DNA片段,通常大于100kb,其中產(chǎn)生的每個(gè)短讀數(shù),均加入一個(gè)獨(dú)一無二的條形碼,在分析階段,這種獨(dú)特的條形碼就可以將分離的短讀數(shù)鏈接在一起,從而提供長鏈基因信息,使得構(gòu)建大單倍型塊和對(duì)復(fù)雜結(jié)構(gòu)信息的闡釋成為可能。
Saxonov博士建議道,短讀數(shù)測(cè)序,因其高精確度和高通量,通常具有強(qiáng)大的功能,但只能獲取小部分的基因信息。這是因?yàn)榛蚪M是基本重復(fù)的,基因組中的大量信息編碼在長鏈中。
數(shù)據(jù)分析
研究人員面臨的領(lǐng)一大挑戰(zhàn)是生成的數(shù)據(jù)量非常大。單個(gè)30X人全基因組樣品的BAM文件(半壓縮比對(duì)文件)約為90GB;一個(gè)相對(duì)中等的項(xiàng)目,包含100個(gè)樣本,其BAM文件可達(dá)到9TB。
一個(gè)IlluminaHiSeqX儀器,每年能產(chǎn)生超過130TB的數(shù)據(jù),很快數(shù)據(jù)的存儲(chǔ)就變成一個(gè)大問題。例如,Broad研究所以每12分鐘分析一個(gè)30X人全基因組速率產(chǎn)生基因測(cè)序數(shù)據(jù)——每年可產(chǎn)生將近4000TB的BAM文件。
BAM文件可以轉(zhuǎn)化為VCF文件(變體調(diào)用格式),后者僅包含不同于標(biāo)準(zhǔn)序列的信息。雖然VCF文件小并且更加好用,但是保存原始序列文件仍是必要的,方便研究者將來查看這些數(shù)據(jù)。
隨著測(cè)序成本下降,一些人就得出這樣的結(jié)論:對(duì)樣本重測(cè)序會(huì)很容易,并且可能更便宜,而分析大量數(shù)據(jù)時(shí),研究人員的選擇空間非常大。但事實(shí)上,在OMICtools中有超過3000個(gè)序列分析工具可供選擇,研究人員想要找到最好的那一個(gè),也不容易。
臨床解釋和報(bào)銷
最后,對(duì)于臨床樣本,還有一個(gè)挑戰(zhàn):對(duì)于測(cè)序序列的變異提供一致可靠的解釋。
一個(gè)典型的外顯子包含1萬——2萬個(gè)突變,全基因樣本則會(huì)產(chǎn)生超過300萬種變異。在通常的解釋中,根據(jù)變異造成的疾病相似性分類。
為了協(xié)助指導(dǎo)臨床醫(yī)生,美國醫(yī)學(xué)遺傳學(xué)和基因組學(xué),分子病理學(xué)協(xié)會(huì)和美國病理學(xué)家學(xué)院創(chuàng)建了一套對(duì)突變進(jìn)行分類的系統(tǒng)。分類目錄包括致病性,可能致病性,不確定的顯著性(目前占外源和全基因組樣本的絕大多數(shù)),可能良性和良性。
然而,這種方案有其局限性。即時(shí)使用一種公認(rèn)的分類方案分類同一個(gè)數(shù)據(jù)庫,不同的項(xiàng)目組可能會(huì)提出不同的解釋。對(duì)新系統(tǒng)的一個(gè)試驗(yàn)研究中,參與的不同臨床實(shí)驗(yàn)室僅在34%的情況下,對(duì)于分類的解釋一致。
如果存在分歧或需要額外的分析來解釋實(shí)驗(yàn)結(jié)果,那么就存在報(bào)銷的問題?;贜GS的測(cè)試的報(bào)銷可能是一個(gè)大障礙,但是對(duì)于解釋的報(bào)銷幾乎是不可能的。
Rady兒童基因組醫(yī)學(xué)研究所臨床研究員JenniferFriedman博士說,
實(shí)驗(yàn)室不可能對(duì)試驗(yàn)的解釋付費(fèi),如果這種服務(wù)可以提供,這是非常有價(jià)值的,但是沒有人做到這個(gè)。
沒有辦法為此付費(fèi),保險(xiǎn)公司不報(bào)銷。盡管對(duì)于精準(zhǔn)醫(yī)學(xué)的關(guān)注度上升,但是無論是臨床醫(yī)生或?qū)嶒?yàn)室做出的解釋,都沒有被醫(yī)療保健支付者承認(rèn)或是重視。
到目前為止,病人樣本的分析基本上是作為一個(gè)研究項(xiàng)目來對(duì)待的,是在研究型醫(yī)院中的一個(gè)選擇,并且僅用于有限數(shù)量的患者。
未來展望
了解道,盡管過去幾年有很大的進(jìn)步,但是整個(gè)NGS工作流程,從樣品文庫構(gòu)建到數(shù)據(jù)分析,仍然存在大量的挑戰(zhàn)。隨著基礎(chǔ)技術(shù)的進(jìn)步,新的挑戰(zhàn)將繼續(xù)出現(xiàn),對(duì)于這些基因組技術(shù)的廣泛應(yīng)用和最大化改善人類健康而言,解決這些挑戰(zhàn)是至關(guān)重要的。