
SAVANA利用機(jī)器學(xué)習(xí)和長(zhǎng)讀長(zhǎng)測(cè)序數(shù)據(jù),準(zhǔn)確鑒定癌癥基因組中的結(jié)構(gòu)變異(如插入、缺失、重復(fù)或重排等大的基因組改變)及其導(dǎo)致的拷貝數(shù)畸變。
然而,癌癥基因組相當(dāng)復(fù)雜,這意味著標(biāo)準(zhǔn)的分析工具往往難以勝任,導(dǎo)致假陽(yáng)性結(jié)果出現(xiàn)和數(shù)據(jù)的不準(zhǔn)確解讀。這些誤導(dǎo)性的結(jié)果可能會(huì)影響科學(xué)家們判斷腫瘤如何演變以及如何對(duì)治療產(chǎn)生應(yīng)答。
為了應(yīng)對(duì)這一挑戰(zhàn),歐洲分子生物學(xué)實(shí)驗(yàn)室旗下歐洲生物信息學(xué)研究所(EMBL-EBI)和Genomics England等機(jī)構(gòu)的研究人員開發(fā)出一種新算法 SAVANA,并于5月28日發(fā)表在《Nature Methods》雜志上。
SAVANA利用機(jī)器學(xué)習(xí)和長(zhǎng)讀長(zhǎng)測(cè)序數(shù)據(jù),準(zhǔn)確鑒定癌癥基因組中的結(jié)構(gòu)變異(如插入、缺失、重復(fù)或重排等大的基因組改變)及其導(dǎo)致的拷貝數(shù)畸變。
共同通訊作者、EMBL-EBI的團(tuán)隊(duì)負(fù)責(zé)人Isidro Cortes-Ciriano表示:“由于其他分析工具不是專門針對(duì)癌癥基因組學(xué)數(shù)據(jù)的特殊性而開發(fā)的,它們經(jīng)常會(huì)檢測(cè)到假陽(yáng)性結(jié)果,從而導(dǎo)致臨床和生物學(xué)解讀出現(xiàn)錯(cuò)誤!
“SAVANA改變了這一現(xiàn)狀。通過直接在癌癥樣本的長(zhǎng)讀長(zhǎng)測(cè)序數(shù)據(jù)上訓(xùn)練算法,我們開發(fā)出一種新方法,能夠區(qū)分真正的癌癥相關(guān)基因組改變與測(cè)序假象,讓我們能夠以前所未有的分辨率闡明癌癥背后的突變過程。”
SAVANA對(duì)腫瘤樣本的長(zhǎng)讀長(zhǎng)測(cè)序數(shù)據(jù)進(jìn)行掃描,以檢測(cè)體細(xì)胞SV和SCNA,并推斷腫瘤純度和倍性。無論是否存在匹配的生殖系對(duì)照樣本,SAVANA都能開展分析。這種算法的關(guān)鍵創(chuàng)新在于采用機(jī)器學(xué)習(xí)技術(shù)來區(qū)分體細(xì)胞SV與測(cè)序和比對(duì)錯(cuò)誤。
共同第一作者、EMBL-EBI的博士后研究員Carolin Sauer表示:“SAVANA能夠準(zhǔn)確區(qū)分體細(xì)胞結(jié)構(gòu)變異、拷貝數(shù)畸變、腫瘤純度和倍性——這些都是了解腫瘤生物學(xué)和指導(dǎo)臨床治療決策的關(guān)鍵!
研究人員收集了99對(duì)腫瘤-正常樣本,包括57例軟組織肉瘤、28例骨肉瘤和14例膠質(zhì)母細(xì)胞瘤。他們利用納米孔測(cè)序平臺(tái)和Illumina測(cè)序平臺(tái)對(duì)高分子量DNA進(jìn)行測(cè)序。之后,他們將SAVANA的性能與現(xiàn)有的SV檢測(cè)算法進(jìn)行比較。
他們發(fā)現(xiàn),SAVANA檢測(cè)到了Illumina測(cè)序中檢測(cè)到的絕大多數(shù)SV和SCNA,還發(fā)現(xiàn)了一些額外的重排,這種重排無法通過短讀長(zhǎng)測(cè)序檢測(cè)到。
為了定量特異性,研究人員將每種算法應(yīng)用于COLO829BL細(xì)胞的測(cè)序重復(fù),其中一個(gè)重復(fù)作為腫瘤,另一個(gè)作為匹配的生殖系對(duì)照。在此設(shè)置下,特異性最佳的算法不應(yīng)檢測(cè)到任何體細(xì)胞SV。他們發(fā)現(xiàn),SAVANA的特異性比NanomonSV高13倍,比SVIM高82倍。
“與現(xiàn)有方法相比,SAVANA在不同克隆性水平、SV大小和SV類型范圍內(nèi)都展現(xiàn)出明顯更高的靈敏度和特異性。這對(duì)于臨床樣本的分析至關(guān)重要,因?yàn)樵诙喾N癌癥類型中,腫瘤細(xì)胞的含量往往較低,” 作者們寫道。
研究人員認(rèn)為,SAVANA能夠提升SV的檢測(cè)和分析能力,幫助人們更可靠地解釋腫瘤生物學(xué)機(jī)制,這將促進(jìn)長(zhǎng)讀長(zhǎng)測(cè)序在研究和檢測(cè)人類腫瘤樣本中臨床相關(guān)重排的可靠應(yīng)用。
SAVANA符合變異檢出格式(VCF)規(guī)范,便于人們開展下游分析。您可通過以下地址獲。篽ttps://github.com/cortes-ciriano-lab/savana
參考文獻(xiàn)
SAVANA: reliable analysis of somatic structural variants and copy number aberrations using long-read sequencing
郵政編碼:200052 電話:021-63800152 傳真:021-63800151 京ICP備15010734號(hào)-10 技術(shù):網(wǎng)至普網(wǎng)站建設(shè)