阿爾茲海默癥(AD)和帕金森氏癥(PD)是世界范圍內(nèi)的常見神經(jīng)退行性疾病。通過全基因組關(guān)聯(lián)研究(GWAS),科學(xué)家們已經(jīng)鑒定出了數(shù)千個與這兩類疾病相關(guān)的單核苷酸多態(tài)性(SNP),但這些 SNP 大多處于基因組的非編碼區(qū)域,因此難以確定其功能。
近日,來自斯坦福大學(xué)的 Howard Chang 和 Tomas Montine 團隊,利用單細(xì)胞 / 多細(xì)胞 ATAC-Seq 和 HiChIP 數(shù)據(jù),分析了認(rèn)知健康人群大腦不同區(qū)域的染色質(zhì)可及性和三維基因組構(gòu)象,繪制了成年人類大腦的多組學(xué)表觀遺傳圖譜。此外,研究團隊還開發(fā)了相應(yīng)的機器學(xué)習(xí)框架整合這些多組學(xué)數(shù)據(jù),用于預(yù)測 AD 和 PD 相關(guān)的非編碼區(qū) SNP 功能。該研究結(jié)果發(fā)表在 Nature Genetics 上,文章題為“Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases”。
圖 1. 文章發(fā)表在 Nature Genetics
利用傳統(tǒng)的多細(xì)胞 ATAC-Seq,研究團隊首先描繪了來自 39 個神經(jīng)系統(tǒng)健康個體的 7 個大腦區(qū)域的染色質(zhì)可及性圖譜(圖 2)。隨后又選取其中 10 個樣本進行單細(xì)胞 ATAC-Seq 分析,一共獲得了 70,631 個細(xì)胞中的染色質(zhì)可及性數(shù)據(jù)。去除批次效應(yīng)后進行聚類分析,研究人員發(fā)現(xiàn)這些細(xì)胞可聚成 24 個類別,分屬于 8 種不同的細(xì)胞類型(圖 3),其中包括六種主要的大腦細(xì)胞類型:興奮性神經(jīng)元(excitatory neurons),抑制性神經(jīng)元(inhibitory neurons),小膠質(zhì)細(xì)胞(microglia),寡突膠質(zhì)細(xì)胞(oligodendrocytes),星狀膠質(zhì)細(xì)胞(astrocytes)和寡突膠質(zhì)細(xì)胞祖細(xì)胞(oligodendrocyte progenitor cells)。
圖 2. 研究中取樣的 7 個大腦區(qū)域,圖片來源:Nature Genetics
圖 3. 70,631 個單細(xì)胞 ATAC-Seq 數(shù)據(jù)利用 UMAP 聚類的結(jié)果,圖片來源:Nature Genetics
模體(Motif)分析的結(jié)果顯示,不同細(xì)胞類型的染色質(zhì)可及性區(qū)域都結(jié)合有特異性的驅(qū)動轉(zhuǎn)錄因子,例如小膠質(zhì)細(xì)胞中的 SPI1 和神經(jīng)元中的 JUN/FOS。同時,研究人員對研究中的神經(jīng)元細(xì)胞進行了聚類分析,鑒定出了 30 種不同的細(xì)胞亞類(圖 4)。
圖 4. UMAP 分析鑒定出的 30 種神經(jīng)元細(xì)胞亞類,圖片來源:Nature Genetics
為了找出非編碼區(qū)域 SNP 的靶標(biāo)基因,研究人員從開始取樣的 7 個大腦區(qū)域中選擇了其中的 6 個,制備 H3k27ac 介導(dǎo)的 HiChIP 文庫并進行測序,共鑒定出了 833,975 對染色質(zhì)交互作用。同時,研究團隊利用單細(xì)胞之間可及性強度大小的協(xié)同變化情況(co-accessibility),預(yù)測出了 2,822,924 個交互作用。通過這兩種分析方式獲得的交互作用只有 20% 的重合,表明 HiChIP 只能鑒定出同一類細(xì)胞共有的交互作用,無法捕獲細(xì)胞間特異性的交互作用。
此外,研究團隊將 ATAC-Seq 和 HiChIP 數(shù)據(jù)結(jié)合預(yù)測了非編碼區(qū)域 SNP 的功能,并將 SNP 的功能按照重要程度分成幾個層級(圖 5):
1. SNP 位于多細(xì)胞或單細(xì)胞 ATAC-Seq 的可及性區(qū)域中(第三層次)。
2. 符合條件 1 的 SNP,同時參與 H3K27ac 介導(dǎo)的交互作用(次重要)。
3. 符合條件 1 和 2 的 SNP,同時處于轉(zhuǎn)錄因子結(jié)合位點中(較重要)。
對于屬于較重要類別的 SNP,研究人員開發(fā)了一種多組學(xué)機器學(xué)習(xí)框架(gapped k-mer supprot vector machine / gkm-svm)來預(yù)測單個 SNP 在等位基因不同位點的結(jié)合情況。
圖 5. 非編碼區(qū)域 SNP 功能預(yù)測流程圖,圖片來源:Nature Genetics
研究人員認(rèn)為,新開發(fā)的多組學(xué)結(jié)合的機器學(xué)習(xí)預(yù)測方法,主要解決了以下兩類問題:
1. 已知一些基因與疾病相關(guān),找出遠(yuǎn)程調(diào)控這些基因的 SNP。
例如,PICALM 是一個與 AD 相關(guān)的基因,作者發(fā)現(xiàn) rs1237999 位于 PICALM 上的遠(yuǎn)程調(diào)控元件中,并處于轉(zhuǎn)錄因子 FOS/AP1 結(jié)合 motif 上。同時 rs1237999 特異性的結(jié)合在等位基因的其中一個位點上。
2. 已知一些 SNP 與疾病相關(guān),找出這些 SNP 調(diào)控的基因。
位于 ITIH1 的 Lead SNP 處于 600Kb 長的 LD block 中,一共包含 317 個 SNP。研究發(fā)現(xiàn),其中一個 SNP rs181391313 位于微膠細(xì)胞特異性的調(diào)控元件中,而這個調(diào)控元件處于 STAB1 基因的內(nèi)含子內(nèi)部。STAB1 基因編碼一種大的跨膜受體蛋白,其功能與淋巴細(xì)胞歸巢(lymphocyte homing),低密度脂蛋白內(nèi)吞作用(endocytosis of ligands)相關(guān),這兩種功能都與微膠細(xì)胞參與 PD 吻合。同時,該 SNP 破壞了轉(zhuǎn)錄因子 KLF4 的結(jié)合位點,而 KLF4 在小膠質(zhì)細(xì)胞相關(guān)基因的活化中也發(fā)揮功能。
MAPT 基因編碼 tau 蛋白,這種蛋白的過度磷酸化在胞內(nèi)形成神經(jīng)元纖維纏結(jié),在 AD 中起著關(guān)鍵作用,但是目前還不清楚 MAPT 具體如何影響 PD。研究人員在 MAPT 基因區(qū)域創(chuàng)建了 haplotype 特異性的三維基因組圖譜,并鑒定出 28 個可及性發(fā)生變化的區(qū)域,其中就包括在 MAPT 啟動子上游 68Kb 處 H1 單倍型特異性的遠(yuǎn)程調(diào)控元件,和下游 330Kb 處位于 KANSL1 啟動子處的調(diào)控元件,這兩個調(diào)控元件只在 H1 單倍型中才與 MAPT 啟動子發(fā)生特異性的交互作用。而在 H2 單倍型中,染色體倒位區(qū)域的兩個邊界區(qū)域發(fā)生特異性的交互。
圖 6. MAPT 基因啟動子與遠(yuǎn)程調(diào)控元件的 H1 單倍型特異性的遠(yuǎn)程交互作用,圖片來源:Nature Genetics
綜上所述,該研究通過結(jié)合 ATAC-Seq 和 HiChIP 數(shù)據(jù),發(fā)現(xiàn)了更多與 AD 和 PD 相關(guān)的 基因,并通過整合多組學(xué)數(shù)據(jù)開發(fā)機器學(xué)習(xí)分類預(yù)測非編碼區(qū)域 SNP 的功能,有助于理解非編碼區(qū)域的改變對 AD 和 PD 的影響。從更廣泛的意義上來講,該工作提出了一種了解疾病遺傳變異的系統(tǒng)方法,同時,由于基因組上非編碼區(qū)域的調(diào)控機制十分復(fù)雜,因此這項工作也為篩選新的治療靶標(biāo)提供了途徑。
本文:來源測序中國(侵刪)
參考資料:
1. Corces, M.R., Shcherbina, A., Kundu, S. et al. Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases. Nat Genet 52, 1158–1168 (2020). https://doi.org/10.1038/s41588-020-00721-x
更多伯豪生物人工服務(wù):