
癌癥是一種動(dòng)態(tài)疾病,其特征是復(fù)雜的分子和細(xì)胞進(jìn)化;在進(jìn)化的過(guò)程中,癌癥變得更加異質(zhì),分為患者間異質(zhì)性和腫瘤內(nèi)異質(zhì)性。因此,系統(tǒng)地了解癌癥的異質(zhì)性對(duì)有效的診斷和治療至關(guān)重要。目前,RNA-seq的進(jìn)步使得在整體組織水平和空間分辨區(qū)域水平上對(duì)基因表達(dá)圖譜進(jìn)行全面檢測(cè)成為可能,但將基因表達(dá)分析納入臨床實(shí)踐仍是一個(gè)挑戰(zhàn)。
近年來(lái),隨著組織病理學(xué)切片逐漸數(shù)字化為全切片圖像(WSI),人們也開(kāi)發(fā)了相關(guān)的機(jī)器和深度學(xué)習(xí)方法,從WSI中提取與分子特性相關(guān)的隱藏形態(tài)學(xué)特征。WSI的尺寸和分辨率巨大,現(xiàn)有模型多數(shù)基于其被裁剪后較小的“切片”開(kāi)發(fā),無(wú)法捕捉圖像中多個(gè)切片之間的上下關(guān)聯(lián)和層次關(guān)系。此外,由于模型復(fù)雜度高和數(shù)據(jù)集規(guī)模有限,將最先進(jìn)的方法應(yīng)用于WSI仍極具挑戰(zhàn)性,如多層感知器、Transformer。
為解決上述難題,美國(guó)斯坦福大學(xué)醫(yī)學(xué)院的研究人員在Nature Communications發(fā)表了題為“Digital profiling of gene expression from histology images with linearized attention”的文章,介紹了一種基于線性化Transformer的深度學(xué)習(xí)模型SEQUOIA(Slide-based Expression Quantification using Linearized Attention),可以從WSI中預(yù)測(cè)癌癥轉(zhuǎn)錄組學(xué)圖譜。研究團(tuán)隊(duì)利用人工智能(AI)從來(lái)自16種癌癥類型的7,584個(gè)腫瘤樣本中創(chuàng)建了SEQUOIA;SEQUOIA能夠準(zhǔn)確預(yù)測(cè)與關(guān)鍵癌癥過(guò)程相關(guān)的基因的表達(dá)水平,可根據(jù)復(fù)發(fā)風(fēng)險(xiǎn)對(duì)乳腺癌患者進(jìn)行分層,解析局部區(qū)域的空間基因表達(dá)模式?傊,SEQUOIA為大規(guī)模推斷及分析基因表達(dá)模式提供了一種頗具成本效益的方法,有望應(yīng)用于研究和臨床。
“先前研究表明,組織病理學(xué)圖像與基因RNA變異相關(guān),”文章通訊共同作者Olivier Gevaert博士表示,“這啟發(fā)我們開(kāi)發(fā)一個(gè)AI模型,能否基于最新的技術(shù)進(jìn)一步利用這種相關(guān)性,開(kāi)發(fā)一個(gè)可以預(yù)測(cè)人體所有組織中所有基因的模型!
研究團(tuán)隊(duì)使用癌癥基因組圖譜(TCGA)中7,584個(gè)癌癥活檢樣本的WSI和相匹配的大量RNA-seq基因表達(dá)數(shù)據(jù)開(kāi)發(fā)和訓(xùn)練了SEQUOIA模型,共涉及16種癌癥類型包括膀胱尿路上皮癌 (BLCA)、乳腺浸潤(rùn)癌 (BRCA)、甲狀腺癌 (THCA)、腎透明細(xì)胞癌(KIRC)和腎乳頭狀細(xì)胞癌(KIRP)等。
接下來(lái),通過(guò)將上述數(shù)據(jù)以及成千上萬(wàn)個(gè)健康細(xì)胞圖像在內(nèi)的其他數(shù)據(jù)集整合到SEQUOIA中,研究團(tuán)隊(duì)驗(yàn)證了該AI模型性能。結(jié)果顯示,在16種癌癥的20,820個(gè)基因中,SEQUOIA平均準(zhǔn)確預(yù)測(cè)了15,344個(gè)(74%)基因;預(yù)測(cè)結(jié)果良好的基因數(shù)量與每種癌癥的可用訓(xùn)練樣本數(shù)量呈正相關(guān)。
BRCA中預(yù)測(cè)準(zhǔn)確的基因數(shù)量最多(18,878個(gè)),同時(shí)也是可用切片最多的癌癥類型(1,130張);其次是THCA(517張切片)和KIRC(514張切片),分別有18,758個(gè)和 17,623個(gè)預(yù)測(cè)準(zhǔn)確的基因。相比之下,前列腺腺癌(PRAD)中預(yù)測(cè)準(zhǔn)確的基因數(shù)量最少(9,535個(gè)),切片數(shù)量也最少(202張)。上述結(jié)果表明,SEQUOIA模型性能與癌癥可用數(shù)據(jù)集大小(即切片數(shù)量)呈正相關(guān)。
為測(cè)試SEQUOIA的泛化能力,研究團(tuán)隊(duì)將該模型應(yīng)用于臨床蛋白質(zhì)組腫瘤分析聯(lián)盟(CPTAC)隊(duì)列6種組織的7種匹配癌癥類型中。結(jié)果顯示,相較其他模型組合,在7種癌癥類型中SEQUOIA的相關(guān)系數(shù)更高,為0.503;預(yù)測(cè)準(zhǔn)確的基因數(shù)量也更多,平均驗(yàn)證了7,159個(gè)基因;在相關(guān)系數(shù)和均方根誤差方面也顯著優(yōu)于其他模型。這些結(jié)果表明SEQUOIA的泛化能力較強(qiáng),適用于不同隊(duì)列。
此外,為確定SEQUOIA模型中預(yù)測(cè)準(zhǔn)確的基因的生物學(xué)功能,研究團(tuán)隊(duì)還進(jìn)行了基因組分析。結(jié)果顯示,預(yù)測(cè)準(zhǔn)確的基因在幾種常見(jiàn)的癌癥類型通路中富集,包括T細(xì)胞活化、細(xì)胞-基質(zhì)粘附、上皮-間質(zhì)轉(zhuǎn)化和氧化應(yīng)激反應(yīng),這表明SEQUOIA預(yù)測(cè)準(zhǔn)確的基因主要且特異性地與癌癥發(fā)生和進(jìn)展的調(diào)控有關(guān)。此外,研究團(tuán)隊(duì)還確定了幾種預(yù)測(cè)良好的細(xì)胞類型標(biāo)記,包括內(nèi)皮細(xì)胞(CD69, CD93)、 CD4 T細(xì)胞(CD3E, CD4, CD48)等,體現(xiàn)了SEQUOIA在捕獲腫瘤微環(huán)境特征方面的能力。
圖2. 通路水平基因表達(dá)預(yù)測(cè)評(píng)估
為評(píng)估SEQUOIA在臨床決策中的實(shí)用性,研究團(tuán)隊(duì)確定了一個(gè)包含272個(gè)基因的基因表達(dá)特征,這些基因與復(fù)發(fā)顯著相關(guān)。類似的基因特征已經(jīng)在商業(yè)乳腺癌基因組檢測(cè)中應(yīng)用,例如FDA批準(zhǔn)的MammaPrint檢測(cè),該檢測(cè)可分析70個(gè)乳腺癌相關(guān)基因的水平,為患者提供評(píng)分以確定其癌癥復(fù)發(fā)的風(fēng)險(xiǎn)。
進(jìn)一步,研究團(tuán)隊(duì)該模型應(yīng)用于發(fā)現(xiàn)隊(duì)列TCGA和兩個(gè)驗(yàn)證隊(duì)列SCANB、METABRIC中,以證明其在風(fēng)險(xiǎn)分層方面的表現(xiàn)。結(jié)果顯示,根據(jù)SEQUOIA風(fēng)險(xiǎn)評(píng)分可將來(lái)自三個(gè)獨(dú)立隊(duì)列的乳腺癌患者分為高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)兩個(gè)亞組;與低風(fēng)險(xiǎn)評(píng)分的患者相比,高風(fēng)險(xiǎn)評(píng)分的患者無(wú)病生存期明顯更短。這表明SEQUOIA具有通過(guò)基因表達(dá)預(yù)測(cè)預(yù)測(cè)乳腺癌復(fù)發(fā)的潛力。
為使數(shù)據(jù)易于獲取和解讀,研究團(tuán)隊(duì)對(duì)SEQUOIA進(jìn)行了編程,將基因研究結(jié)果顯示為腫瘤活檢的可視化地圖,讓科學(xué)家和臨床醫(yī)生可以直觀看到基因變異在不同腫瘤區(qū)域的不同表現(xiàn);并利用獨(dú)立GBM和乳腺癌患者隊(duì)列的空間轉(zhuǎn)錄組數(shù)據(jù)集進(jìn)行性能評(píng)估。結(jié)果顯示,SEQUOIA為每個(gè)基因生成了空間熱圖以表明其在整個(gè)玻片上的表達(dá)值,并準(zhǔn)確預(yù)測(cè)許多基因的空間表達(dá)。
相比能夠可視化活檢切片中基因表達(dá)的其他工具,SEQUOIA最大的不同之處是集成了數(shù)字病理學(xué)基礎(chǔ)模型,這些模型是在數(shù)百萬(wàn)張組織圖像上訓(xùn)練出來(lái)的大型模型,與GPT、LLAMA和Gemini等流行模型類似。上述結(jié)果證明了SEQUOIA在解析異質(zhì)性腫瘤組織內(nèi)的空間細(xì)胞結(jié)構(gòu)方面的潛力。
綜上所述,研究團(tuán)隊(duì)提出了SEQUOIA,一種用于預(yù)測(cè)WSI中RNA-seq基因表達(dá)數(shù)據(jù)的深度學(xué)習(xí)模型。通過(guò)將算法進(jìn)步與對(duì)生物學(xué)功能、臨床相關(guān)性和泛化能力的全面分析相結(jié)合,該研究證明了SEQUOIA在預(yù)測(cè)臨床相關(guān)基因表達(dá)模式方面的價(jià)值,可為個(gè)性化癌癥管理開(kāi)辟道路。
由于未獲得FDA批準(zhǔn),目前該AI模型還不能在臨床環(huán)境中使用。研究團(tuán)隊(duì)下一步計(jì)劃將SEQUOIA部署到臨床工作中,并確定它在哪個(gè)階段對(duì)醫(yī)生最有益。Gevaert強(qiáng)調(diào),該工具不僅限于乳腺癌!使用我們的模型可以預(yù)測(cè)任何癌癥類型的任何基因特征,除運(yùn)行模型的成本外,幾乎沒(méi)有額外的成本。”
參考文獻(xiàn):
1.Pizurica, M., Zheng, Y., Carrillo-Perez, F. et al. Digital profiling of gene expression from histology images with linearized attention. Nat Commun 15, 9886 (2024).https://doi.org/10.1038/s41467-024-54182-5
2.Novel AI Tool “Sees” Gene Expression in Tumor Biopsy Imageshttps://www.insideprecisionmedicine.com/topics/oncology/novel-ai-tool-sees-gene-expression-in-tumor-biopsy-images/?__hstc=126276562.532115043888ec08099ea6c859d5611b.1724816722074.1732069472313.1732155706591.19&__hssc=126276562.1.1732155706591&__hsfp=2044848510&_ga=2.137523696.1157139962.1731918834-878096776.1721121866
郵政編碼:200052 電話:021-63800152 傳真:021-63800151 京ICP備15010734號(hào)-10 技術(shù):網(wǎng)至普網(wǎng)站建設(shè)